Bloom — крупнейшая в мире открытая многоязычная языковая модель

+7 926 604 54 63 address
 Bloom
Bloom

Большие языковые модели (LLM) — одно из наиболее востребованных и интересных направлений развития ИИ. Они уже зарекомендовали себя как мощный инструмент решения различных языковых задач, но «не для всех». Не входящим в корпоративную систему исследователям, представителям некоммерческим организаций и стартапов сложно создавать, изучать и даже просто использовать LLM. Полный доступ к технологии есть у ограниченного круга промышленных разработчиков.

Но ситуация изменяется — международная коллаборация BigScience выпускает BLOOM — первую многоязычную LLM, обученную в условиях полной прозрачности.

Как говорится на странице проекта, BLOOM — авторегрессионная большая языковая модель, обученная на продолжение текста на огромных объёмах текстовых данных с использованием вычислительных ресурсов промышленного масштаба. BLOOM способна выдавать связный текст на 46 естественных языках и 13 языках программирования, с качеством, практически неотличимым от выдаваемого людьми. Модель способна выполнять и текстовые задачи, выполнять которые она не была обучена прямо, путём преобразования их в задачи по генерации текста.

Модель создана по принципам «открытой науки» и находится в свободном доступе. Её можно использовать в образовательных и научных целях, в лицензионном соглашении указаны и запрещённые задачи, например, генерация порочащих, унижающих и призывающих к преследованию текстов.

Впечатляющие результаты — итог сотрудничества огромного международного коллектива. Почти для всех рабочих языков модели — а это, в частности, испанский, французский и арабский — BLOOM стала первой в истории языковой моделью с более чем 100 миллиардами параметров (у неё 176 млрд). Это итог года работы более тысячи исследователей из семидесяти с лишним стран.

BLOOM обучалась 117 дней (с 11 марта по 6 июля) на суперкомпьютере Jean Zay в Париже.

.
Комментарии