Нейронные сети от Disney прогнозируют популярность историй

+7 926 604 54 63 address
 Компания, основанная Диснеем, зарабатывает на мультиках и фильмах миллиарды долларов. Не удивительно, что её сотрудники хотят знать, какие истории нравятся людям.
Компания, основанная Диснеем, зарабатывает на мультиках и фильмах миллиарды долларов. Не удивительно, что её сотрудники хотят знать, какие истории нравятся людям.

Учёные давно работают над созданием искусственного интеллекта, который мог бы писать статьи и художественные тексты. Но для того, чтобы алгоритмы могли придумывать хорошие истории, они должны понимать, какие истории мы считаем хорошими. Исследователи из Disney Research и Массачусетского университета в Бостоне (University of Massachusetts Boston) создали нейронные сети, которые оценивают качество коротких рассказов и предсказывают, что понравится широкой аудитории. Результаты работы опубликованы в репозитории arXiv.

Нейронные сети Disney не подражают литературным критикам. Они не оценивают уникальный стиль, художественную манеру или новаторский подход, но пытаются угадать, что понравится массам. «Наши нейронные сети добились определённого успеха в том, чтобы прогнозировать популярность историй, — говорит один из Бойан Ли (Boyang Li), один из авторов работы. — Пока с их помощью нельзя выбрать победителя в местном литературном конкурсе, но они задают направление для будущих исследований». «Способность предсказать качество повествования влияет и на создание, и на понимание истории, — добавляет вице-президент Disney Research Маркус Гросс (Markus Gross). — Чтобы оценить качество, ИИ необходим определённый уровень понимания текста. А если ИИ будет генерировать повествование, он должен иметь возможность судить о качестве того, что производит».

Взявшись за разработку нейронных сетей, учёные столкнулись с проблемой: большой базы историй, промаркированных как «хорошие» и «плохие», просто не существует. На чём, в таком случае, тренировать искусственный интеллект? Восприятие историй очень субъективно, поэтому, чтобы получить сколько-нибудь достоверное мнение, нужно опросить множество людей — а это дорого и сложно. Исследователи вышли из положения, обратившись к данным сервиса вопросов и ответов Quora.

На Quora собраны десятки тысяч вопросов, сгруппированных по темам, и некоторые из них подразумевают ответы в форме коротких рассказов. Например, вопрос «Каково это — быть бедным?» побуждает пользователей делиться личным опытом. За ответы можно голосовать, и те из них, что получают больше всего лайков («upvotes»), попадают в начало страницы. Таким образом посетители сервиса самостоятельно оценивают истории. Учёные выбрали два десятка тем, содержащих ответы-рассказы и собрали более 54 000 комментариев. Затем они создали алгоритм, который выбирал из этого массива истории, и вычленили 29 846 рассказов длиной от 50 слов.

На основе этой базы данных учёные натренировали три нейронных сети: одна прогнозировала популярность истории на основе отдельных кусочков текста, вторая анализировала, как разные части взаимодействуют между собой и третья рассматривала весь текст в целом. Новые сети оказались эффективнее традиционного алгоритма «случайного леса» (Random forest), и наиболее преуспела модель, которая «читала» весь текст сразу, в сочетании с моделью, анализирующей связи между участками текста: точность прогнозов этого тандема была на 18,10% лучше, чем в случае применения Random forest, и на 3,96% лучше, чем у сети, анализирующей важные для понимания фрагменты.

Disney Research — это сеть исследовательских лабораторий, которая самостоятельно нанимает учёных, а так же сотрудничает со сторонними организациями, такими как Университет Карнеги — Меллон и Швейцарская высшая техническая школа Цюриха. Она основана в 2008 году и занимается самыми разными проектами: от разработки ПО для вязания трёхмерных объектов и стабилизации изображения ручных камер до исследований в области беспроводной связи и компьютерной графики.
.
Комментарии