«Гудини» обманывает системы распознавания речи

+7 926 604 54 63 address
 «Ты! Не верь всему, что слышишь!», — как бы говорит нам иллюзионист Гарри Гудини.
«Ты! Не верь всему, что слышишь!», — как бы говорит нам иллюзионист Гарри Гудини.

Недавно мы писали о том, как учёные обманывают нейронные сети, незначительно изменяя изображения — разумеется, в исследовательских целях. В результате алгоритмы неверно распознают картинки и могут принять гиббона за панду, а Синди Кроуфорд — за Джека Николсона. Недавно учёные из Университета имени Бар-Илана (ивр. ‏אוניברסיטת בר-אילן‏‎) и Facebook AI Research показали, что этот принцип распространяется не только на изображения, но и на распознавание речи. Препринт работы опубликован в репозитории arXiv.

В 2014 году специалисты по ИИ обнаружили, что для определённой сети (или группы сетей) можно создать изображение, которое она будет неверно классифицировать. Для этого картинку нужно определённым образом изменить, причём изменения подчас незаметны человеческому глазу. Теперь исследователи создали алгоритм под названием «Гудини» (Houdini) — он накладывает на аудиоклипы слой шума, модифицируя их так, что люди подвоха не ощущают, но ПО для распознавания речи начинает ошибаться.

Учёные провели эксперимент: с помощью алгоритма изменили несколько записей и прогнали их через Google Voice — программа должна была перевести речь в текст. Для сравнения использовали оригинальные аудиозаписи. В одном из файлов было записано:

Отличалась прекрасной фигурой и осанкой; она вошла, ведя за руку сына; перед ней следовали две служанки с восковыми свечами, горевшими в серебряных подсвечниках.

После распознавания это превратилось в:

Отличалась прекрасной фигурой и осанкой; она вошла, ведя за руку сына; перед ним следовали две служанки с восковыми свечами, горевшими в серебряных подсвечниках.

Изменённая запись звучала для человеческого уха так же, как предыдущая, но Google Voice услышал примерно следующее:

Мэри была благодарна, затем призналась, что позволила своему сыну, прежде чем ходить в Мейс, хотела бы фильтр печи ломтик насчитал шесть.

Кроме того, исследователи проверили, насколько хорошо люди отличают изменённые клипы от оригинальных. Для этого добровольцам дали прослушать две записи — обычную и «испорченную», а затем показали третью и спросили, на какую из двух предыдущих она больше похожа. Всего с помощью алгоритма «Гудини» сгенерировали 100 файлов, каждый из которых прослушали как минимум 9 человек. Оказалось, что люди могут на слух отличить только половину таких записей (53,7%).

Может показаться, что обман нейронных сетей — довольно странная тема для исследования, но таким образом учёные получают возможность проверить алгоритмы на прочность, а заодно придумать способы защиты. Нейронные сети и технологии машинного обучения уже применяются в системах распознавания лиц, беспилотных автомобилях и многих других областях, поэтому вопрос о том, можно ли их атаковать и как с этим бороться, актуален уже сейчас.

.
Комментарии