Компьютер распознаёт слова в речи не хуже человека

Исследовательская группа  Microsoft
Исследовательская группа Microsoft, добившаяся лучшего результата в машинном распознавании речи. Фото: Dan DeLong.

Корпорация Microsoft заявила о серьёзном прорыве в области машинного распознавания речи. Сообщается о создании технологии, которая распознаёт произносимые в разговоре слова не хуже человека.

На этой неделе, в понедельник, команда разработчиков из подразделения Microsoft, занимающегося исследованиями в области искусственного интеллекта (Microsoft Artificial Intelligence and Research), сообщила о создании системы распознавания речи, которая делает то же или даже меньшее количество ошибок, чем люди, профессионально выполняющие эту работу. Исследователи сообщили о том, что пословная вероятность ошибки снизилась до 5,9% по сравнению с 6,3%, результатом, о котором сообщалось ещё в прошлом месяце.

5,9% — это примерно такая же вероятность ошибок, какую показывают люди, которых просят записать один и тот же разговор. И это самый низкий показатель из когда-либо зарегистрированных для программ распознавания речи.

«Мы добились паритета с человеком, — говорит Сюэдун Хуан (Xuedong Huang), главный специалист по технологиям распознавания речи в Microsoft. — Это историческое достижение».

Отныне компьютер может распознавать слова в разговоре настолько же успешно, как человек. Это результат, в достижении которого не были уверены даже работающие в проекте учёные.

«Пять лет назад я даже не представлял, что мы можем добиться этого. Я просто не думал, что это станет возможным», — говорит Гарри Шам (Heung-Yeung «Harry» Shum), исполнительный вице-президент Microsoft Artificial Intelligence and Research.

Исследования по машинному распознаванию речи в США начались в начале 1970-х годов, когда агентство оборонных исследований DARPA отметило это направление как важное для национальной безопасности. В последующие десятилетия немало крупных технологических компаний и научно-исследовательских организаций занимались соответствующими разработками.

«Это достижение является кульминацией более чем двадцати лет усилий, — говорит Джеффри Цвейг (Geoffrey Zweig), руководитель исследовательской группы.

Успех инженеров Microsoft даст новый толчок для развития потребительских и бизнес-продуктов, которые могут быть дополнены технологией распознавания речи. И Кортана — «голосовая помощница», разработанная компанией, станет по-настоящему понимающей.

Кортана (англ. Cortana) — виртуальная голосовая помощница с элементами искусственного интеллекта от Microsoft для Windows Phone 8.1, Microsoft Band, Windows 10, Android, Xbox One и iOS.

Впервые была продемонстрирована во время Конференции Build в Сан-Франциско 2 апреля 2014 года. Кортана была названа в честь героини серии компьютерных игр Halo — голос помощницы в версии для американского рынка принадлежит Джен Тейлор, которая также озвучивала Кортану в оригинальной игре.

Русскоязычной версии Кортаны на данный момент не существует, но создатели обещают со временем дополнить список доступных языков.

Достигнутый разработчиками результат не означает, что компьютер идеально распознал каждое слово. Но и люди не способны на это — мы можем неправильно понимать отдельные слова в разговоре, без ущерба для восприятия общего смысла разговора.

Так же должен уметь работать и компьютер — для этого применяются новейшие нейросетевые технологии.

Исследователи используют нейронную языковую модель, в котором слова представлены в виде непрерывных векторов в пространстве, и такие слова, как «fast» и «quick» находятся рядом (оба слова можно перевести на русский словом «быстро»).

«Это позволяет моделям прекрасно обобщать от слова к слову», — сказал Цвейг.

Несмотря на то, что в деле распознавания речи достигнуты большие успехи, есть ещё много работы, которую только предстоит сделать.

По словам Цвейга, исследователи работают над тем, чтобы технология распознавания речи могла применяться в реальных условиях. Например, в местах с высоким уровнем фонового шума. Компьютер в будущем должен понимать речь любого человека, независимо от возраста, акцента или дефектов дикции.

«Следующим рубежом станет переход к пониманию смысла речи», — говорит Цвейг.

Гарри Шам отметил, что мы движемся от мира, в котором люди должны понимать компьютер, в мир, в котором компьютеры должны понимать нас. Но он также заметил, что искусственный интеллект всё ещё далёк от совершенства и пройдёт много времени до того, когда компьютеры будут понимать истинный смысл того, что «слышат» и «видят».