Исследователи из Microsoft опубликовали детали о новой технологии распознавания реч
и, которая расшифровывает обычную речь так же хорошо, как это делает человек. «Мы добились паритета с человеком, — заявил ведущий учёный в области анализа речи в Microsoft Сюэдун Хуан (Xuedong Huang). — Это исторические достижение».Уровень ошибок в распознавании слов в новой системе, как сообщается, достигает лишь 5,9 % — по словам Microsoft, это почти соответствует уровню профессиональных наборщиков текста из аудиофайлов, взятых с одного и того же корпуса бесед Switchboard. Технология полагается на нейронные лингвистические модели, объединяющие похожие слова вместе, позволяя делать эффективные обобщения.
Microsoft уже планирует использовать эту технологию в Cortana — своём персональном голосовом помощнике для Windows и Xbox One, а также в прочем программном обеспечении, связанном с преобразованием речи в текст (например, в Bing Translator или же при автоматическом переводе через Skype).
Хотя результаты уже впечатляют, система распознавания речи далека от завершения. Microsoft всё ещё необходимо отладить технологию для обработки разговоров в более широком спектре реальных ситуаций и с более широким диапазоном голосов (не говоря уже о других языках). А в случаях применения для перевода речи на другой язык или в области персональных помощников необходимо ещё обучить искусственный интеллект значению слов и правильной реакции на них.