Изобретает ли DALLE-2 собственный «тайный язык»?

Нашим читателям хорошо известна DALLE-2 и её возможности по генерации изображений по текстовому запросу. Результаты работы DALLE-2 порой удивляют — и не только далёких от глубинного понимания компьютерных технологий людей, работающих с нейросетью через установленное на смартфон приложение. Специалист в области вычислительных технологий Яннис Дарас (Giannis Daras) опубликовал в твиттере примеры того, что он назвал «тайным языком» нейросети.

Apoploe vesrreaitais на скрытом языке нейросети означает птицу.

К выводу о существовании собственного языка DALLE-2 Дарас пришёл в результате следующего опыта. После того, как нейросеть выдавала картинки с подписями «на тарабарщине», исследователь отправлял эту тарабарщину в качестве входящего запроса и получал на выходе однотипные результаты.

Почти не имеющая смысла фраза Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons на входе, заметил Яннис Дарас, приводит к генерации изображений, на которых птицы едят что-то похожее на жуков. Это, видимо, значит, что Apoploe vesrreaitais на скрытом языке нейросети означает птицу, а Contarra ccetnxniams luryca tanniounons жуков или вредителей в широком смысле.

Vicootes на предполагаемом «языке DALLE-2» означает овощи, а Wa ch zod rea относится к морским существам, которых может съесть кит.

На следующий же день, впрочем, предположение разбилось опытом Бенджамина Хилтона (Benjamin Hilton). Его запрос «Contarra ccetnxniams luryca tanniounons 3D render» побудил DALLE-2 выдавать изображения «связанных с морем вещей», а запрос Contarra ccetnxniams luryca tanniounons без уточнений выдавал не только жуков, а случайных разнообразных животных. Хилтон считает, что это показывает, что модель не «понимает» какой-то неизвестный язык, а демонстрирует случайную природу ИИ.

Что же происходит в глубине модели, генерирующей изображения, создаёт ли она свой собственный словарь? Откуда взялись «тарабарские» слова?

Возможно, дело в том, что при обучении модель получила данные не только на английском. То самое слово Apoploe, которое в опытах Дараса крепко связано с изображениями птиц, похоже на латинское Apodidae (Стрижи).

Есть важный аргумент в поддержку такого понимания. Дело в том, что языковые модели ИИ не читают текст так, как мы, люди. Вместо этого они разбивают вводимый текст на токены для обработки.

«Токенизировать» можно разными способами. Обработка каждого слова как токена кажется выигрышным вариантом, но до того момента, когда идентичные токены будут нести разные значения (нередка ситуация, когда одинаковые слова несут различные, в зависимости от контекста, значения). Обработка каждого символа как токена даст меньшее количество возможных токенов, но каждый из них будет нести гораздо менее значимую информацию.

DALLE-2, как и другие модели, используют промежуточный подход, известный как кодирование пар байтов (BPE). Возможно, «тарабарщину» можно разобрать, если иметь доступ к таблице замен, используемой при кодировании.

Тайный язык также может быть примером «мусорной» выдачи. DALLE-2 не может ответить пользователю «моя твоя не понимай» и вынуждена всегда что-то генерировать из входящего текста.

Впрочем, ни один из этих вариантов не объясняет происходящее полностью. Например, удаление отдельных символов из «тарабарских» слов, по-видимому, повреждает сгенерированные изображения очень специфическими способами. И, похоже, отдельные слова тарабарщины не обязательно объединяются для создания взаимосвязанных сложных изображений (как было бы, если бы у нейросети действительно был «секретный язык»).

XX2 век :