Студент-информатик из Беркли Лиам Порр (Liam Porr) создал и две недели продвигал блог, все посты для которого были написаны текстовой ИИ-моделью GPT-3, разработанной известной исследовательской лабораторией OpenAI. За это время блог посетило 26 тысяч читателей, и только один, по словам Лиама, заподозрил, что посты пишет GPT-3.
«Люди говорят, — Поделился Лиам Порр в собственном блоге, — что GPT-3 часто пишет бессвязно и иррационально. Но это не удерживает их от того, чтобы читать это… и лайкать это».
Блог для «творчества» GPT-3 Лиам завёл на ресурсе Hacker News. Сам он для каждого поста только писал заголовок, короткое вступление и добавлял картинку — остальное было на GPT-3. За две недели блог посетили 26 тысяч человек, 60 даже подписались на него, а самый первый пост в блоге стал топ-1 на Hacker News. Один комментатор всё же отметил, что текст «ни о чём», и предположил, что он создан GPT-3 или ещё каким-то алгоритмом, но другие юзеры его одёрнули, написав, в частности:
«Возможно, вы тут недавно, но ваш отбитый комментарий неприемлем в этом сообществе. Если вы с чем-то не согласны, возражайте цивилизованно — используя аргументы, а не оскорбления».
Любопытно, что уже после того, как Порр раскрыл карты, под статьями авторства GPT-3 стали появляться комментарии вроде этого:
«Что за чёрт, это написано машиной?????????!!111! Сначала я прочитал разоблачение, а потом просмотрел статью. Невероятно, что такая структура может быть создана машиной!..»
Основу набора данных для её обучения составила база Common Crawl, некоммерческой организации, которая с 2011 года постоянно сканирует интернет, сохраняет всё отсканированное и бесплатно предоставляет собранные массивы данных для свободного использования. На момент начала обучения GPT-3 это было больше двухсот терабайт простого текста в сжатом виде. Обучив несколько вариантов модели как на полной версии датасета Common Crawl, так и на отдельных, специально отобранных его частях, команда OpenAI выяснила, что модели, обученные на «курируемых» фрагментах, выбранных по определённым, подходящим для обучения параметрам, показывают лучшие результаты. В итоге для обучения специально отобрали 41 фрагмент базы Common Crawl за период с 2016-го по 2019 год общим объёмом 570 Гб. Кроме того, чтобы увеличить разнообразие «учебного микса» и улучшить его качество, исследователи добавили в него «эталонные сеты»: всю англоязычную Википедию, расширенную версию датасета WebText (более восьми миллионов вебстраниц, полученных по ссылкам, упомянутым на Reddit в записях не менее чем с тремя голосами «за») и два датасета с книгами.
Предварительная обученность на столь внушительном корпусе позволяет GPT-3 обучаться выполнению различных новых задач, требующих адаптации к конкретной предметной области, всего лишь на нескольких примерах, без какой-либо специальной тонкой настройки. При этом выполнять эти задачи у GPT-3 зачастую получается лучше, чем это делают ИИ-модели, специально обученные для работы с ними.
Среди основных умений GPT-3 — генерация текстов на естественном (английском) языке, в т.ч. заданного жанра и в заданном стиле, ответы на вопросы, заданные на естественном языке, выполнение арифметических действий, а также создание веб-страниц. Благодаря тому, что не менее 7% исходного «учебного микса» содержали тексты на иностранных языках, GPT-3 может также переводить с английского на несколько языков. Кроме того, эту модель уже обучали писать программы на разных языках программирования (в том числе по заданию, сформулированному на естественном языке), придумывать визуальные мемы (в виде их словесного описания), создавать презентации и даже опрашивать пациентов и назначать лечение.
У GPT-3 хватает недостатков. В частности, от многих её текстов всё ещё «отчётливо веет железякой», а обученность на больших корпусах данных, взятых из интернета, влечёт за собой воспроизведение в генерируемых текстах некоторых распространённых предрассудков, ошибок и т.п. Однако опросы фокус-групп показали: доверие к этим текстам существенно выше, чем к генерируемым предыдущими моделями — «человеческие оценщики» с трудом отличают созданные GPT-3 тексты от статей, написанных людьми. Так что это безусловно огромный шаг вперёд в деле разработки систем искусственного интеллекта. И эксперимент Лиама Порра с его блогом лишний раз это подтверждает.