Чтение по губам — непростое дело. Результаты экспериментов различаются, но в среднем, большинство людей распознают только одно из 10 слов, пытаясь читать по губам. Теперь, однако, некоторые исследователи утверждают, что достижения в разработке искусственного интеллекта, такие как глубокое обучение, могут помочь решить эту проблему. В конце концов, если методы создания искусственного интеллекта, применяемые в обработке больших объёмов данных, помогли повысить уровень распознавания речи до уровней точности, близких к человеческому восприятию, то почему то же самое нельзя сделать для чтения по губам?
Исследователи из лаборатории искусственного интеллекта в Оксфордском университете (University of Oxford), применив глубокое обучение, сделали многообещающий вклад в развитие ИИ, создав новую программу, способную читать по губам. Их программа, получившая название LipNet, способна превзойти опытных чтецов по губам, достигая 93,4 процентов точности в некоторых тестах, по сравнению с 52,3-процентной точностью чтецов по губам. И даже в своей текущей ранней версии, программа очень быстра — она переводит видео в текстовые расшифровки почти в реальном времени.
Однако прежде чем вы начали представлять антиутопию об управляемом ИИ тоталитарном государстве и вспоминать о читающем по губам компьютере HAL 9000 из фильма «2001: Космическая одиссея», следует сказать, что пока существует ряд серьёзных ограничений. Для начала, система обучалась и тестировалась на исследовательском наборе данных, известном как GRID. Это коллекция из десятков тысяч коротких видео, на которых 34 добровольца произносят бессмысленные фразы, а также подписи. Каждый клип длится всего три секунды, и каждое предложение соответствует схеме: команда, цвет, предлог, буква, цифра, наречие (в оригинале adverb — в переводе на русский это может быть и деепричастие, и императивное междометие — прим. XX2 ВЕК). Среди фраз, например, такие: «набор синий А четыре, пожалуйста» и «поставьте красный на C ноль снова». Даже количество слов в этих моделях ограничено — есть только четыре различные команды и четыре же используемых цвета. Это привело некоторых исследователей к предположению, что выводы насчёт перспектив технологии преувеличены, особенно после того, как в одном вирусном твите, ссылающемся на видео разработчиков, содержалось сенсационное утверждение о том, что «больше не осталось никаких секретов».
Это, конечно, не так. Исследователи Яннис Ассаэль (Yannis Assael) и Брендан Шиллингфорд (Brendan Shillingford) с готовностью признали, что работают с «ограниченными словарём и грамматикой», но добавили, что это из-за ограничений в имеющихся данных. «Набор данных невелик, но это хороший показатель того, чего мы могли бы достигнуть с гораздо большим их набором», — сказал Ассаэль.
Ассаэль и Шиллингфорд также подчеркнули, что их работа не имеет никакого применения в сфере наблюдения за гражданами, просто потому, что при чтении по губам нужно видеть язык человека — это означает, что видеосъёмка должна вестись анфас и при хорошем освещении. «Это технически невозможно или, по крайней мере, очень, очень трудно — использовать программу для чтения по губам для наблюдения за людьми» — пояснил Ассаэль, добавив, что частота кадров также является фактором, которым обычно пренебрегают производители систем уличного видеонаблюдения. Также он добавил: «А уж если у вас есть фронтальное видео кого-то, снятое очень хорошей камерой, то у вас, вероятно, есть ещё и направленный на них микрофон!»
Оба исследователя считают, что ИИ, читающий по губам, скорее может помочь людям с нарушениями слуха, особенно в шумной обстановке, когда компьютерам трудно выделить речь отдельного человека. Например, тот, кто носит камеру, встроенную в пару очков, может получить чёткие кадры своего собеседника на вечеринке, и LipNet сможет тогда транскрибировать разговор в режиме реального времени, транслируя его в ухо. «Везде, где есть распознавание речи и камера, мы можем их усовершенствовать», — сказал Ассаэль. Он также упомянул бесшумную диктовку Siri или Google Assistant в качестве возможного применения технологии. В будущем, возможно, тех из нас, кто не любит говорить вслух с компьютерами, компьютеры смогут понимать, просто читая по нашим губам.