Microsoft speech api

розпізнавання мови

Розпізнавання мови - процес перетворення виголошених слів в друкований текст. Розпізнавання мови включає в себе:

захоплення і оцифровку звуку, вимовленого в мікрофон;
перетворення оцифрованого звуку в фонеми;
конструювання з фонем слів;
аналіз контексту, в якому було вимовлено слово, і, при необхідності, заміна слів на схожі за звучанням.

Розпізнає програма (движок розпізнавання тексту) ітераційно порівнює розпізнаний текст з правилами граматики додатки і при збігу тексту з серією правил формує вихідний потік XML з використанням мови розмітки семантики (англ. Semantic Markup Language. SML). Вихідний потік містить розпізнаний текст, значення ймовірностей правильного розпізнавання і може містити семантичні значення, присвоєні за допомогою розмітки інтерпретації семантики. Розпізнаний текст зазвичай використовується для введення даних за допомогою диктування і для управління додатками за допомогою мовних команд.

синтез мови

Синтез мови - процес перетворення тексту в вимовлені слова. Синтез мови включає в себе:

поділ слів на фонеми;
знаходження тексту, що вимагає перетворення в символи, такого як числа, кількість валюти і пунктуація;
генерація цифрового звуку для відтворення.

Двигуни перетворення тексту в мову можуть використовувати один з двох способів синтезу голосу:

генерувати звуки, подібні видаються голосовими зв'язками і використовувати різні фільтри для моделювання довжини горла, форму ротової порожнини, розташування губ і язика;
збирати його з численних шматків мови, записаних диктором.

Microsoft speech api

розпізнавання мови

синтез мови

Напишіть відгук про статтю "Microsoft Speech API"

Примітки

Уривок, що характеризує Microsoft Speech API

Персональні інструменти

Інструменти

На інших мовах

Cookie на сайті