Google Neural Machine Translation создала собственный язык-посредник

Ну, пока всё не так зловеще, как на этом кадре из фильма «Терминатор».

Пусть это вас не пугает, но, кажется, компьютеры создали свой собственный секретный язык и, вероятно, говорят о нас прямо сейчас. Шутка. Однако недавно действительно произошло удивительное событие, поразившее разработчиков ИИ из Google.

Ещё в сентябре компания Google объявила о запуске своей системы машинного перевода Neural Machine Translation. В ней используется глубокое обучение для получения лучшего и более естественного перевода.

Вслед за этим успехом, создатели GNMT заинтересовались ещё кое-чем. Если вы учите систему перевода переводить с английского на корейский и наоборот, а также с английского на японский и наоборот… сможет ли она перевести с корейского на японский, не прибегая к английскому как посреднику между ними? Они сделали эту гифку, чтобы проиллюстрировать идею того, что они называют «zero-shot translation» (на гифке этот процесс показан оранжевыми пунктирными линиями).

Как оказалось — да. Она делает «разумные» переводы с языка на язык, которые она не связывает явно каким-либо образом. Помните, что английский не допускается.

Но тогда возникает второй вопрос. Если компьютер способен провести связи между понятиями и словами, которые не были формально связаны… значит ли это, что компьютер сформировал концепцию общего смысла для этих слов, то есть на более глубоком уровне, чем просто уровень, на котором одно слово или фраза является эквивалентом другой?

Иначе говоря, компьютер разработал свой собственный внутренний язык для представления понятий, который он использует для перевода с одного языка на другой? На основании того, как различные предложения связаны друг с другом в пространстве памяти нейронной сети, гугловские специалисты по языку и ИИ полагают, что так оно и есть.

Визуализация перевода нейросетью одного предложения на разные языки.

Эта «интерлингва», похоже, существует как более глубокий уровень репрезентации, на котором система видит сходство между предложением или словом на всех трёх языках. Помимо этого, трудно что-то сказать ещё, так как печально известно, что внутренние процессы сложных нейронных сетей с трудом поддаются описанию.

Это может быть что-то сложное, или это может быть что-то простое. Но тот факт, что оно вообще существует — собственное оригинальное творение системы, призванное помочь ей в понимании концепций, которые она не была обучена понимать — это, с философской точки зрения, довольно впечатляющая вещь.

Статью с описанием работы исследователей (прежде всего об эффективном многоязычном переводе, но и касающейся таинственной «интерлингвы») можно прочитать на arXiv.org. Без сомнения, вопрос о более глубоких понятиях, создаваемых и используемых системой, потребует дальнейшего изучения.

Дмитрий Райдер :