Генеративные модели естественного языка становятся всё более мощными. Их возможности в обработке текстовой информации прямо зависят от размерности. У кого же языковая модель самая большая и «непревзойдённо точная»?
Крупнейшая на сегодняшний день генеративная модель естественного языка представлена в блоге техногиганта Nvidia — это созданная в сотрудничестве с Microsoft Megatron-Turing (MT-NLG) с 530 миллиардами параметров. Для сравнения, предыдущий лидер — модель GPT-3 со 175 миллиардами параметров. Даже сравнительно небольшие, по меркам лидеров индустрии, решения на основе GPT-3 могут многое и работают не только с английским языком. Существуют, в частности, модели ruGPT-3 в вариантах с 760 миллионами параметров (читайте о ней в прошлогодней статье Сергея Маркова на Хабре), с 1,3 млрд параметров и с 13 млрд параметров (см. о них здесь).
Предшественники модели — созданная Microsoft Turing NLG 17B и разработка Nvidia — нейросетевая модель-трансформер Megatron-LM.
105-слойная мегамодель требует мегаресурсов. Для работы MT-NLG требуется 280 графических процессоров NVIDIA A100, а для её обучения был задействован один из мощнейших (шестая позиция в рейтинге Top-500) суперкомпьютеров — Selene. В процессе обучения использовалось 11 больших баз данных, среди которых — базы Википедии, PubMed, корпусы художественной литературы.
Разработчики сообщают о некоторых интересных возможностях новой модели. Например, она показывает некоторое «понимание» математики, выходя «за рамки простого запоминания арифметических действий».
Результаты работы модели по-прежнему сильно зависят от качества данных, использованных для обучения. Поэтому MT-NLG может быть «предвзятой и токсичной», перенимая проникающие в тексты стереотипы носителей языка. Это известная проблема, Microsoft и NVIDIA нацелены на её решение, заявляя о приверженности принципам «ответственного ИИ».