Компьютеры научили читать по губам

+7 926 604 54 63 address
 Пока компьютеры не способны читать по губам столь же хорошо, как HAL 9000. Пока.
Пока компьютеры не способны читать по губам столь же хорошо, как HAL 9000. Пока.

Чтение по губам — непростое дело. Результаты экспериментов различаются, но в среднем, большинство людей распознают только одно из 10 слов, пытаясь читать по губам. Теперь, однако, некоторые исследователи утверждают, что достижения в разработке искусственного интеллекта, такие как глубокое обучение, могут помочь решить эту проблему. В конце концов, если методы создания искусственного интеллекта, применяемые в обработке больших объёмов данных, помогли повысить уровень распознавания речи до уровней точности, близких к человеческому восприятию, то почему то же самое нельзя сделать для чтения по губам?

Исследователи из лаборатории искусственного интеллекта в Оксфордском университете (University of Oxford), применив глубокое обучение, сделали многообещающий вклад в развитие ИИ, создав новую программу, способную читать по губам. Их программа, получившая название LipNet, способна превзойти опытных чтецов по губам, достигая 93,4 процентов точности в некоторых тестах, по сравнению с 52,3-процентной точностью чтецов по губам. И даже в своей текущей ранней версии, программа очень быстра — она переводит видео в текстовые расшифровки почти в реальном времени.

Однако прежде чем вы начали представлять антиутопию об управляемом ИИ тоталитарном государстве и вспоминать о читающем по губам компьютере HAL 9000 из фильма «2001: Космическая одиссея», следует сказать, что пока существует ряд серьёзных ограничений. Для начала, система обучалась и тестировалась на исследовательском наборе данных, известном как GRID. Это коллекция из десятков тысяч коротких видео, на которых 34 добровольца произносят бессмысленные фразы, а также подписи. Каждый клип длится всего три секунды, и каждое предложение соответствует схеме: команда, цвет, предлог, буква, цифра, наречие (в оригинале adverb — в переводе на русский это может быть и деепричастие, и императивное междометие — прим. XX2 ВЕК). Среди фраз, например, такие: «набор синий А четыре, пожалуйста» и «поставьте красный на C ноль снова». Даже количество слов в этих моделях ограничено — есть только четыре различные команды и четыре же используемых цвета. Это привело некоторых исследователей к предположению, что выводы насчёт перспектив технологии преувеличены, особенно после того, как в одном вирусном твите, ссылающемся на видео разработчиков, содержалось сенсационное утверждение о том, что «больше не осталось никаких секретов».

Это, конечно, не так. Исследователи Яннис Ассаэль (Yannis Assael) и Брендан Шиллингфорд (Brendan Shillingford) с готовностью признали, что работают с «ограниченными словарём и грамматикой», но добавили, что это из-за ограничений в имеющихся данных. «Набор данных невелик, но это хороший показатель того, чего мы могли бы достигнуть с гораздо большим их набором», — сказал Ассаэль.

Ассаэль и Шиллингфорд также подчеркнули, что их работа не имеет никакого применения в сфере наблюдения за гражданами, просто потому, что при чтении по губам нужно видеть язык человека — это означает, что видеосъёмка должна вестись анфас и при хорошем освещении. «Это технически невозможно или, по крайней мере, очень, очень трудно — использовать программу для чтения по губам для наблюдения за людьми» — пояснил Ассаэль, добавив, что частота кадров также является фактором, которым обычно пренебрегают производители систем уличного видеонаблюдения. Также он добавил: «А уж если у вас есть фронтальное видео кого-то, снятое очень хорошей камерой, то у вас, вероятно, есть ещё и направленный на них микрофон!»

Оба исследователя считают, что ИИ, читающий по губам, скорее может помочь людям с нарушениями слуха, особенно в шумной обстановке, когда компьютерам трудно выделить речь отдельного человека. Например, тот, кто носит камеру, встроенную в пару очков, может получить чёткие кадры своего собеседника на вечеринке, и LipNet сможет тогда транскрибировать разговор в режиме реального времени, транслируя его в ухо. «Везде, где есть распознавание речи и камера, мы можем их усовершенствовать», — сказал Ассаэль. Он также упомянул бесшумную диктовку Siri или Google Assistant в качестве возможного применения технологии. В будущем, возможно, тех из нас, кто не любит говорить вслух с компьютерами, компьютеры смогут понимать, просто читая по нашим губам.

.
Комментарии