Сбер обучил модель глубокого обучения GPT-3 писать по-русски и выложил её в открытый доступ

В августе мы рассказывали вам, как студент из Беркли две недели дурачил подписчиков блога, публикуя статьи, написанные языковой моделью глубокого обучения GPT-3. Месяцем позже вы могли прочесть у нас перевод, опубликованного в «Гардиан» эссе о том, почему искусственный интеллект не угрожает человеку. Эссе тоже было написано нейросетью GPT-3. Эта модель способна генерировать тексты в самых разных жанрах, причём часто они столь хороши, что их трудно отличить от написанных людьми. До недавнего времени, правда, GPT-3 работала только с английским языком. Разработчики Сбера решили исправить эту ситуацию и обучили такую же модель писать по-русски.

За краткой формулировкой — «обучили писать по-русски» — скрываются серьёзный труд и нешуточные задействованные ресурсы. Это ведь и с людьми непросто: у ребёнка на то, чтобы научиться сносно писать по-русски, могут уйти годы. А если посчитать всё, что тратят на это обучение школа, семья и прочие институции, выйдет ещё и немаленькая сумма в рублях. Плюс играет роль начитанность: чем с большим корпусом текстов знакомится ребёнок во время обучения, тем он в итоге и сам, как правило, лучше пишет. Нейросеть тоже учится не мгновенно, ей тоже нужен корпус текстов, и на её обучение нужно тратить силы и деньги.

Пример текста, сгенерированного ruGPT-3.

В выложенной на arxiv.org публикации команды OpenAI, создателей CPT-3, описано несколько вариантов этой модели. И если самую маленькую из них, GPT-3 Small, попытаться обучить с помощью профессиональной видеокарты NVidia V100, на это уйдёт около полугода. На обучение же самой большой на том же железе — около пятисот лет. А если арендовать вычислительные ресурсы у какого-нибудь облачного сервиса-гиганта, вроде AWS, обучение самой большой версии GPT-3 выльется, мягко говоря, в копеечку — больше миллиарда рублей. По этой причине подобные задачи по силам только компаниям, у которых есть в распоряжении либо собственные значительные вычислительные ресурсы, либо средства для получения доступа к ним. У Сбера очевидно есть деньги, но есть и собственный мощный суперкомпьютер «Кристофари» — 75 вычислительных узлов DGX-2, в каждом по 16 карт NVidia V100. Вот на этом монстре разработчики нескольких подразделений Сбера — Управления экспериментальных систем машинного обучения SberDevices, команда AGI NLP из Sberbank.AI, сотрудники SberCloud, занимающиеся сопровождением «Кристофари», а также эксперты из других команд — и обучили «русскую GPT-3» (ruGPT-3).

Для обучения применили внушительнейший корпус текстов на русском языке общим объёмом больше 600 Гб. В него вошли огромная коллекция русской литературы, снапшоты русской и английской Википедии, корпус Omnia Russica, коллекция снапшотов новостных и вопрос-ответных сайтов, публичные разделы Pikabu, а также полные коллекции материалов финансового портала banki.ru и нашего сайта («XX2 век», если вы вдруг не знаете, где находитесь). Кроме того, поскольку разработчики хотели научить модель работать не только с «человеческими» текстами, но и с программным кодом, они включили в обучающий корпус снапшоты github и StackOverflow.

Обученная модель понимает запросы («затравки») на русском языке, умеет генерировать осмысленные тексты и писать код на разных языках программирования. Она может сочинять сказки, писать научные новости о вымышленных открытиях и исследованиях, отвечать на вопросы ЕГЭ, может написать эссе по литературе, истории или обществознанию или код для интернет-магазина. И вся эта красота выложена в открытый доступ.

Пример текста, сгенерированного ruGPT-3.

И, наконец, самая приятная часть новости: в течение ближайших сорока дней в рамках AI Journey команда Sberbank.AI проводит конкурс «AI 4 Humanities: ruGPT-3». Его участникам предлагается представить прототипы решений для любой бизнес- или социальной задачи, созданных с помощью предобученной модели ruGPT-3. Участникам специальной номинации «AIJ Junior» предлагается на базе ruGPT-3 создать решение по генерации осмысленного эссе по гуманитарным дисциплинам (русский язык, история, литература, обществознание) уровня 11 класса по заданной теме. Предобученные модели ruGPT-3 доступны для скачивания в репозитории конкурса. За первое место в общем конкурсном зачёте учреждён приз — 1 миллион рублей. В номинации «AIJ Junior» тоже будут большие денежные призы.

Подробнее о ruGPT-3 можно почитать на «Хабре», в статье непосредственного участника её разработки и основателя нашего сайта Сергея Маркова: https://habr.com/ru/company/sberdevices/blog/524522/.

Вам может быть интересно: