Распознавание речи — важны не только слова

+7 926 604 54 63 address
Робот, распознающий речь.
Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию. Первые экспериментальные устройства для этого появились в середине XX века, но только в 1990-е появились коммерческие продукты, пригодные для широкого использования. Иллюстрация: Ю. Макаренко, 1965.

Для того чтобы компьютеры научились действительно понимать человеческую речь, а не только распознавать произнесённые слова, необходимо обучить их фиксировать интонации, особенности произношения, всё то, что может не только нести дополнительный смысл, но и изменить смысл высказывания до противоположного.

На 168-й встрече Американского акустического общества (ASA), которая проходит с 27 по 31 октября 2014 года в Indianapolis Marriott Downtown Hotel в Индианаполисе, Валери Фримэн (Valerie Freeman), докторант (Ph.D. Candidate) на кафедре лингвистики в университете Вашингтона (UW), выступит с докладом о проекте ATAROS (Automatic Tagging and Recognition of Stance). Цель этого проекта — научить компьютер распознавать различные позиции, мнения и взгляды, о которых сигнализирует речь человека.

«Почему, когда мы о чём-то говорим, наше отношение к этому понятно, но если мы напечатаем эти же слова, это понимание теряется? Как люди умудряются передавать различные сообщения, используя одни и те же слова? Проект ATAROS нацелен на то, чтобы ответить на эти вопросы», — объясняет Фримэн.

Коллектив проекта, в который, кроме Фримэн, входят профессора кафедры лингвистики Джина-Энн Левоу (Gina-Anne Levow) и Ричард Райт (Richard Wright), а также профессор кафедры радиоэлектроники Мэри Остендорф (Mari Ostendorf), начали с анализа аудиозаписей различных разговоров, для того, чтобы выявить маркеры принятия определённой позиции, проявляющиеся в речи.

«При анализе записей разговора пары людей, работающих вместе для выполнения различных задач, мы обнаружили, что они, как правило, говорят быстрее, громче и с более отчётливыми акцентами при выражении твёрдого мнения в противовес слабому мнению», — говорит Фримэн.

Не удивительно? Может быть, но исследователи обнаружили те же закономерности в обычных разговорах. Оказалось, что люди говорят быстрее и больше, когда обсуждают наиболее интересные задачи. При разговоре о неинтересном предмете речь замедляется, в ней чаще возникают фальстарты, озвученные «паузы хезитации» и повторения.

Исследование в рамках проекта находится на начальной стадии. В настоящее время по параметру изменения беглости проанализирована речь всего 24 человек. Всего в исследованиях участвовали 68 человек из разных районов Соединённых Штатов, различного возраста и профессий.

«Мы планируем продолжать анализировать разговоры на наличие более тонких сигналов и более сложных структур, вариации произношения, сравнивая положительные и отрицательные мнения, речь мужчин и женщин, молодёжи и стариков, — говорит Фримэн.  — В будущем, мы надеемся привлечь людей из других мест, чтобы увидеть, существуют ли региональные различия в способе выражения одного и того же мнения».

Уроки, извлечённые из этой работы должны помочь в создании систем распознавания речи будущего.

«Думаю, что реально создать удивительные вещи, подобные говорящему компьютеру из Star Trek, — заключает Фримэн.  — Чтобы достичь такого уровня сложности, нам нужны компьютеры, способные уловить все тонкости речевого общения, не просто значение слов. Проекты, подобные ATAROS работают над тем, чтобы помочь компьютерам понимать, что люди действительно имеют в виду, когда говорят, так что в будущем техника будет способна реагировать на речь в гораздо более «человеческой» манере».

.
Комментарии