Microsoft speech api

розпізнавання мови

Розпізнавання мови - процес перетворення виголошених слів в друкований текст. Розпізнавання мови включає в себе:

  • захоплення і оцифровку звуку, вимовленого в мікрофон;
  • перетворення оцифрованого звуку в фонеми;
  • конструювання з фонем слів;
  • аналіз контексту, в якому було вимовлено слово, і, при необхідності, заміна слів на схожі за звучанням.

Розпізнає програма (движок розпізнавання тексту) ітераційно порівнює розпізнаний текст з правилами граматики додатки і при збігу тексту з серією правил формує вихідний потік XML з використанням мови розмітки семантики (англ. Semantic Markup Language. SML). Вихідний потік містить розпізнаний текст, значення ймовірностей правильного розпізнавання і може містити семантичні значення, присвоєні за допомогою розмітки інтерпретації семантики. Розпізнаний текст зазвичай використовується для введення даних за допомогою диктування і для управління додатками за допомогою мовних команд.

синтез мови

Синтез мови - процес перетворення тексту в вимовлені слова. Синтез мови включає в себе:

  • поділ слів на фонеми;
  • знаходження тексту, що вимагає перетворення в символи, такого як числа, кількість валюти і пунктуація;
  • генерація цифрового звуку для відтворення.

Двигуни перетворення тексту в мову можуть використовувати один з двох способів синтезу голосу:

  • генерувати звуки, подібні видаються голосовими зв'язками і використовувати різні фільтри для моделювання довжини горла, форму ротової порожнини, розташування губ і язика;
  • збирати його з численних шматків мови, записаних диктором.

Напишіть відгук про статтю "Microsoft Speech API"

Примітки

Уривок, що характеризує Microsoft Speech API

Персональні інструменти


Microsoft speech api

Інструменти

На інших мовах