Программа для решения кроссвордов научит машины лучше понимать язык

Хотя учёные разрабатывали систему не для того, чтобы  решать кроссворды, оказалось, что она справляется с ними лучше, чем программы, созданные специально для этой  цели.
Хотя учёные разрабатывали систему не для того, чтобы решать кроссворды, оказалось, что она справляется с ними лучше, чем программы, созданные специально для этой цели.

Исследователи создали веб-платформу, которая использует нейронные сети и отвечает на вопросы кроссвордов лучше, чем коммерческие продукты, разработанные специально для этой цели. Эта система поможет машинам лучше понимать естественный язык.

В процессе тестирования программа, разработанная учёными из Кембриджского, Монреальского и Нью-Йоркского университетов, отвечала на вопросы, содержащие слово, словосочетание или предложение лучше, чем коммерческое ПО для решения кроссвордов. Эта система может работать и как «обратный словарь», в котором пользователь называет понятие, и система возвращает слова, описывающие это понятие.

Исследователи научили программу понимать слова, фразы и предложения с помощью понятийной базы шести словарей и Википедии. Они использовали свою модель как способ преодолеть расхождение между машинами, которые понимают значение отдельных слов и машинами, которые понимают значение фраз. Результаты работы, опубликованные в журнале Transactions of the Association for Computational Linguistics предполагают, что подобный подход может привести к улучшению результатов более универсальных систем понимания естественного языка, диалоговых систем, а также информационно-поисковых систем в целом. Весь исходный код программы и данные были выложены в свободный доступ для будущих исследований.

«Несмотря на недавний прогресс в области искусственного интеллекта, проблемы, связанные с пониманием языка, особенно трудны, и наша работа предполагает много возможных способов применения глубинных нейронных сетей в языковых технологиях, — говорит Феликс Хилл (Felix Hill), один из авторов исследования. — Одна из самых больших трудностей в обучении компьютеров пониманию языка — воспроизведение множества богатых и разнообразных источников информации, доступных людям, когда они учатся говорить и читать».

Принцип работы коммерческого ПО для разгадывания кроссвордов напоминает поиск Гугла, и одна система может обращаться к более чем тысяче словарей. Хотя этот подход удобен, если нужно найти буквальное определение, он хуже работает с вопросами, с которыми модель не сталкивалась при обучении. Кроме того, он требует очень большого объёма памяти.

Учёные утверждают, что результаты исследования демонстрируют эффективность обучения с помощью словарей для разработки моделей, которые понимают словосочетания и предложения. Сейчас они ищут способы усовершенствовать свою систему, в частности, путём объединения с другими моделями обучения языку и лингвистическому взаимодействию.

Поиграть с программой можно тут: http://45.55.181.170/defgen/