Microsoft speech api
розпізнавання мови
Розпізнавання мови - процес перетворення виголошених слів в друкований текст. Розпізнавання мови включає в себе:
- захоплення і оцифровку звуку, вимовленого в мікрофон;
- перетворення оцифрованого звуку в фонеми;
- конструювання з фонем слів;
- аналіз контексту, в якому було вимовлено слово, і, при необхідності, заміна слів на схожі за звучанням.
Розпізнає програма (движок розпізнавання тексту) ітераційно порівнює розпізнаний текст з правилами граматики додатки і при збігу тексту з серією правил формує вихідний потік XML з використанням мови розмітки семантики (англ. Semantic Markup Language. SML). Вихідний потік містить розпізнаний текст, значення ймовірностей правильного розпізнавання і може містити семантичні значення, присвоєні за допомогою розмітки інтерпретації семантики. Розпізнаний текст зазвичай використовується для введення даних за допомогою диктування і для управління додатками за допомогою мовних команд.
синтез мови
Синтез мови - процес перетворення тексту в вимовлені слова. Синтез мови включає в себе:
- поділ слів на фонеми;
- знаходження тексту, що вимагає перетворення в символи, такого як числа, кількість валюти і пунктуація;
- генерація цифрового звуку для відтворення.
Двигуни перетворення тексту в мову можуть використовувати один з двох способів синтезу голосу:
- генерувати звуки, подібні видаються голосовими зв'язками і використовувати різні фільтри для моделювання довжини горла, форму ротової порожнини, розташування губ і язика;
- збирати його з численних шматків мови, записаних диктором.
Напишіть відгук про статтю "Microsoft Speech API"
Примітки
Уривок, що характеризує Microsoft Speech API
Персональні інструменти
