Опасные ответы, вредные советы и небольшой эксперимент

ИИ

Из-за внедрения искусственного интеллекта в сферу поиска информации (иногда — жизненно важной) интернет встал на тернистый путь.

Большие языковые модели, как и любой другой инструмент, помогают работе, усиливая нашу продуктивность. Они появились в тот самый момент, когда никакие другие инструменты уже не могли обработать растущий поток информации. Они пришлись очень кстати. Освоение связанных с искусственным интеллектом технологий идёт быстро именно по причине их необходимости. А раз многие из нас так или иначе ими уже пользуются, то и ошибки находят.

Сегодняшняя история — результат множества новостей про явно неверные, и даже опасные, ответы, которые дают существующие версии языковых моделей.

Особенно много ошибок генерирует AI Overviews, новый инструмент Google. За разъяснениями журналисты обратились к начальству. 14 мая CEO Alphabet Пичаи Сундарараджан (Sundar Pichai) пообщался с ними на конференции Google I/O. Журналистов ответы не очень впечатлили.

Предлагаю вам перевод превосходной и довольно едкой статьи из «The Byte». Автор — Sharon Adarlo, писательница, редактор и журналистка из Ньюарка, штат Нью-Джерси. В статье используется реально «непереводимая игра слов», ценители будут в восторге. Мой перевод передаёт только общий смысл.

Ошибки случаются. Упс.

Генеральный директор Google утверждает, что у них нет способа заставить ИИ перестать раздавать неверную информацию.

Вы знаете, что новая функция Google, называемая AI Overviews, склонна выплёвывать совершенно неверные ответы на поисковые запросы? В одном случае AI Overviews посоветовали пользователю использовать клей на пицце, чтобы сыр не соскользнул (пссс… пожалуйста, не делайте этого).

Ну так вот, согласно интервью в The Verge с генеральным директором Google Сундаром Пичаем, опубликованном на этой неделе, как раз перед тем, как поднялась волна критики, эти «галлюцинации» являются «врождённой особенностью» больших языковых моделей (LLM), каковы́е и движут AI Overviews, и эта особенность «пока что остаётся нерешённой проблемой».

Посему ожидайте больше столь странных и невероятно неправильных оплошностей от AI Overviews (Примечание переводчика: в тексте на месте «оплошностей» использован термин “snafu”, т.е. Situation normal: all fucked up), несмотря на усилия инженеров Google их исправить. Например, вот такую большую херобору: «13 американских президентов окончили Университет Висконсин-Мэдисон».

Тем временем, в поиске Google… (Примечание: для нас это как если бы Нижегородский Политех окончили Сталин, Хрущёв и Брежнев в 1975 и 1993).

Но Пичай, кажется, преуменьшает ошибки. «Всё ещё будут моменты, когда оно будет ошибаться, но я не думаю, что я бы смотрел на это и недооценивал, насколько, в то же время, это может быть полезно», — сказал он. «Я думаю, что это был бы неправильный способ думать об этом». (Примечание переводчика: да, он так и сказал — «I think that would be the wrong way to think about it.» ).

«Мы достигли прогресса? Да, мы достигли», — добавил он. «Мы определённо достигли прогресса, если посмотреть на фактические показатели из года в год. Мы пытаемся всё улучшить, но проблему не решили».

Несмотря на оптимизм Пичая относительно AI Overviews и их полезности, ошибки вызвали шум в сети, многие наблюдатели демонстрируют различные случаи генерации данной функцией неверной информации.

«В Африке а сентябре 2021 года не было ни одной независимой страны с названием на букву К»

Всё это портит и без того запятнанную репутацию флагманского продукта Google, собственно поисковика, который уже был раскритикован за предоставление пользователям мусорных результатов.

«Люди ожидают, что ИИ будет на порядки точнее традиционных методов… но это часто не так!» — пишет консультантка по ИИ и эксперт по поисковой оптимизации Бритни Мюллер (Britney Muller). «Google играет в рискованную игру, конкурируя с Perplexity и OpenAI, хотя они могли бы обучать ИИ для более крупного, более значимого использования помимо поисковика».

По словам Пичая, выходит, что Google и интернет в целом поедут в будущее по колдобинам.

Где тут магия (и попытки разоблачения)

Вот такая статья. Да, она уже закончилась.

Выходит, что начальство гугла не видит возможности избавиться от фактических ошибок в сгенерированных ИИ текстах. Очень странное мнение. Видимо, наверху не в курсе, как это вообще работает. Такая возможность, вроде бы, присутствует во всех моделях.

Зависит от двух факторов.

Первый — точность формулировки запроса. Можно задать вопрос несколькими способами или сформулировать его с дополнительными ограничениями.

Второй — настройки температуры модели для конкретного бота. Температура — это уровень креативности в процентах. Если поставить на 0, бот вообще не будет выдумывать. Высокая температура может привести к непредсказуемым ответам с большой вероятностью генерации ошибок. У публичных моделей, которые сейчас используются, температура не раскрывается. Такое впечатление, что она выкручена выше 50. Для генерации картинок и для ботов типа Порфирьича, который создаёт ассоциативные продолжения текста, это хорошо. Но для информационного бота температура должна быть минимальной. Нулевую лучше не ставить, потому что бот станет понимать всё буквально, и создание запросов будет похоже на программирование. А вот 10-20% в самый раз. Публичные платные платформы не дают настраивать температуру, а вот бесплатная coze — пожалуйста.

Ну и, естественно, можно натренировать свою собственную модель на выборке текстов нужной тематики. То есть для того, чтобы задавать вопросы по биологии, лучше использовать бота, который тренировался на корпусе биологических текстов. Так как тренировать модель — задача крайне ресурсоёмкая, можно обратиться к специализированным библиотекам, содержащим довольно много уже натренированных моделей. В универсальных ботах это реализовано подключением плагинов. Плагины имеются совершенно разные — от базы по игрокам NBA до базы по постам на bilibili. Публичные платформы настроены изображать студента на экзамене: ИИ сгенерирует правдоподобный ответ на любой вопрос, даже если совершенно не разбирается в теме. Это сделано именно для универсальности. Но если у вас вопрос, требующий специальных знаний, то и спрашивать его лучше у знатока в данной области. Тут как и с людьми — спрашивать лучше у профессионалов.

Алгоритм решения проблемы, вероятно, может быть таким: ИИ, если уж его прикрутили, анализирует запрос и выделяет возможные контексты. На следующем этапе отбираются модели, натренированные по соответствующим базам знаний, и уже в них пересылается запрос.

Также у пользователя должна оставаться возможность задавать контекст вручную и делать традиционный поиск без ИИ. А то будет как с ботами техподдержки.

Экспериментальная часть

Я решил проверить свою теорию и задал одни и те же вопросы холодному и горячему боту.

Для начала — элементарный вопрос. Сколько будет дважды два?

GPT-4, температура 0.

GPT-4, температура 100.

Теперь — вопрос, который следовало бы задать авторам статей. Назови причины, по которым языковая модель может отвечать неправильно?

GPT-4, температура 0

Языковая модель может дать неправильный ответ в следующих ситуациях:

  1. Неоднозначность вопроса. Если вопрос неясен или может быть интерпретирован по-разному, модель может неверно понять его и, следовательно, дать некорректный ответ.
  2. Недостаток информации. Если информации, содержащейся в вопросе, недостаточно для формирования точного ответа, модель может дать некорректный ответ.
  3. Сложность вопроса. Если вопрос требует специализированных знаний, которые модель не получала в ходе обучения, она может дать некорректный ответ.
  4. Ограничения языка. Хотя модель обучена на многих языках, она может недостаточно хорошо знать все языки, что может привести к ошибкам.

GPT-4, температура 100

Языковая модель может давать неправильные ответы по нескольким причинам:

  1. Недостаток данных. При создании языковой модели важно, чтобы в данных было достаточно примеров всевозможных контекстов и сценариев. Если данных недостаточно, модель может не справляться с анализом и генерацией подходящего ответа.
  2. Амбивалентность. Некоторые запросы могут быть двусмысленными, что может привести к неправильному ответу. Например, если запрос содержит слово «банк», которое может означать как финансовое учреждение, так и обочину реки, модель может выбрать неправильный контекст.
  3. Комплексность запроса. Если вопрос слишком развернутый, запутанный или задерживается, модель может не справиться с его пониманием, что приведет к неправильному ответу.
  4. Отсутствие обновления. Языковые модели, как и все системы на основе искусственного интеллекта, требуют постоянного обновления и обучения для поддержания эффективности. Если модель давно не обновлялась, она может начать давать неправильные ответы.
  5. Нарушение нейтралитета. Языковые модели обучены на основе данных, предоставленных людьми, и поэтому могут неявно научиться человеческим предрассудкам и стереотипам. Это может привести к неправильным или жестоким ответам.

Мы видим, что тут горячий ИИ даже предлагает больше вариантов.

Ещё один эксперимент. Тут тоже, в принципе, мнения горячего и холодного ИИ сходятся. Вопрос из подборки «вопросов и ответов, которые сломают искусственный интеллект». Если зомби укусит вампира, вампир станет зомби или зомби станет вампиром?

GPT-4, температура 0

Этот вопрос касается сферы вымышленной мифологии и фольклора, и ответ на него может сильно различаться в зависимости от конкретного источника или интерпретации. По общепринятой канонической версии вампир уже «мёртв», поэтому он не может быть «заражён» вирусом зомби. Однако в некоторых историях и фильмах у подобных персонажей развиваются свойственные трейты обоих существ. Ответ на ваш вопрос действительно зависит от конкретного мира или универсума, в котором происходят эти события.

GPT-4, температура 100

Интересный вопрос! В разных историях и фильмах есть разные интерпретации, но в большинстве случаев укус зомби не превращает вампира в зомби, и укус вампира не превращает зомби в вампира. Оба существа обычно уже «прокляты», поэтому их ключевые характеристики не поддаются изменениям от укусов друг друга. Однако это зависит от конкретного мира или вселенной, о которой мы говорим.

GPT-4 Turbo, температура 20

Вопрос о взаимодействии между зомби и вампирами является чисто гипотетическим и зависит от правил конкретного вымышленного мира, в котором они существуют. В различных источниках литературы, кино и видеоигр могут быть свои уникальные интерпретации этих существ и их взаимодействий. В классической мифологии и большинстве современных интерпретаций, зомби — это мертвецы, возвращённые к жизни через магию или вирус, в то время как вампиры — это существа, обладающие сверхъестественными способностями и питающиеся кровью живых.

Если следовать логике большинства историй:

  • Если зомби укусит вампира, вампир, вероятно, не превратится в зомби, так как он уже мёртв и обладает своим набором сверхъестественных способностей, которые могут защищать его от превращения.
  • Если вампир укусит зомби, зомби не станет вампиром по той же причине — он уже мёртв и не обладает кровью, необходимой для превращения в вампира.

Однако всё это может меняться в зависимости от автора истории и созданного им мира.

Теперь используем плагин, который даёт искусственному интеллекту доступ к результатам поиска (в прошлом году ИИ этого не умели).

GPT-4 Turbo, температура 20.

На основе результатов поиска, вот несколько ссылок, которые предоставляют различные мнения и теории на тему взаимодействия между зомби и вампирами:

1. Reddit — AskScienceFiction: Предполагается, что вампиры иммунны к болезням, что делает их устойчивыми к превращению в зомби. Зомби уже мертвы, и вампиры могут быть отравлены мёртвой кровью.
2. Quora: Утверждается, что кровь зомби мертва и не имеет питательной ценности для вампира, что может даже навредить ему.
3. Medium: Говорится, что вампир не может превратиться в зомби, так как он уже умер и воскрес как вампир.
4. SCMP — YP: Предполагается, что вампир, укусивший зомби, станет «ультимативным зомби», что маловероятно.
5. SciFi StackExchange: Обсуждается, что если человек получает укус зомби непосредственно до или после смерти, он всё равно, скорее всего, восстанет как вампир.

Эти ссылки показывают, что мнения различаются, и ответ зависит от конкретных правил вымышленного мира, в котором происходит взаимодействие между зомби и вампирами.

В принципе, никто особенно не фантазировал.

***

Недостаток контекста и проникшие в модель мусорные данные также могут оказать влияние на точность ответа. Например, CNN спросил у поискового помощника гугла «How much sodium is in pickle juice?» (cколько натрия в рассоле) и получил довольно невразумительный ответ. Спросим у наших экспериментальных ботов.

GPT-4, Температура 0

Количество натрия в рассоле может варьироваться в зависимости от марки и способа его приготовления, но в среднем одна чашка (приблизительно 240 миллилитров) рассола может содержать около 1150—2000 миллиграммов натрия. Содержание зависит от технологии процесса засолки, которому подвергаются огурцы. Для точной информации следует проверить этикетку с данными о пищевой ценности.

GPT-4, Температура 100

Количество натрия в рассоле может варьироваться в зависимости от способа приготовления солёных огурцов, но обычно оно довольно велико. В среднем одна чашка (около 240 миллилитров) рассола может содержать около 1150 миллиграммов натрия. Таким образом, он содержит примерно около 4,8 миллиграммов натрия на миллилитр. Не забывайте употреблять продукты и напитки с высоким содержанием натрия в умеренных количествах, особенно если вы следите за потреблением соли.

В принципе, выглядит логично. Но нет. Даже холодная модель ответ дала неверный.

Вот таблица из результатов поиска яндекса. Видимо, отсканирована из старой бумажной книги (похоже, их ценность скоро может вырасти).

Попробуем сами рассчитать. Возьмём стерильный 5% рассол, чтобы всё было точно. В ста граммах 95 гр. воды и 5гр.соли. 1 мл. чистой воды весит 1 г. Плотность солёной воды выше, чем плотность пресной, так что весит она чуть больше. В 1 мл., согласно таблице, 52.7 мг. соли. Теперь посмотрим, сколько там натрия. Атомный вес натрия Na составляет примерно 22.99 г/моль, а атомный вес хлора Cl — примерно 35.45 г/моль. Т.е. в 52.7 мг соли (NaCl) собственно натрия 22.4 мг. Получается, что в 240 мл 5% раствора — где-то 5381 мг. натрия.

То ли американцы свои огурцы солят по-другому, то ли с такой задачей ИИ действительно не справляется. Википедия говорит, что обычно используют рассол «2,5-3 % при мочении, до 4-8 % при квашении, и 8-30 % при солении». Так что, по идее, натрия должно быть примерно в 10-20 раз больше, чем в ответе ИИ.

Школьные учебники выкидывать рано!

Но если задать вопрос точнее, то и ответ будет, в принципе, верный. ИИ не учитывает изменение плотности раствора, но с математикой справляется. У нас по таблице получилось, что в 1 мл. 5% рассола 22.4 мг. натрия. Задаём правильный вопрос ИИ.

Сколько натрия содержится в 1 мл 5% водного раствора соли?

GPT-4, температура 20.

В 1 мл 5% водного раствора хлорида натрия (NaCl) содержится 5% NaCl по массе. Предполагая, что плотность раствора близка к плотности воды (1 г/мл), 1 мл этого раствора будет весить приблизительно 1 грамм.

Таким образом, в 1 мл раствора содержится:
1 грамм * 5% = 0.05 грамма NaCl

Чтобы выяснить, сколько из этого NaCl приходится на натрий, мы используем молярные массы натрия и хлорида натрия. Молярная масса NaCl равна сумме молярных масс натрия (Na) и хлора (Cl), то есть 22.99 г/моль + 35.45 г/моль = 58.44 г/моль. Доля натрия в NaCl составляет 22.99/58.44, или примерно 39.34%.

Таким образом, количество натрия в 0.05 грамма NaCl будет равно:
0.05 грамма * 39.34% = 0.01967 грамма, или 19.67 миллиграммов натрия.

Итак, в 1 мл 5% водного раствора NaCl содержится примерно 19.67 миллиграммов натрия.

Ура! Заработало! В принципе, с использованием наводящих вопросов можно получить и ответ с учётом увеличения плотности. Но чтобы понять, насколько ответ правдив, теперь нужно уметь его проверять.

Александр Виноградов (aka Commander Хэлл) :