Если вы пользуетесь «умными помощниками» в своих смартфонах или системах умного дома, вы могли заметить, что нечётко сформулированные запросы пока что часто ставят эти модели искусственного интеллекта в тупик. В то время как человеческий интеллект постоянно работает с нечёткими запросами, недоговорённостями, расплывчатыми формулировками, неполной информацией. Но как долго будет сохраняться эта разница?
Человеку в огромном количестве случаев не требуются подробные инструкции, причём часто даже в ситуациях, с которыми он сталкивается впервые. Дело в том, что наш интеллект способен, используя информацию от разных органов чувств, соотносить её с имеющимися знаниями и делать весьма успешные предположения о свойствах незнакомых предметов, особенностях новых ситуаций и намерениях других людей. А также планировать свои и предсказывать (или мысленно восстанавливать, если речь о прошлом) чужие действия на основании всего этого. Например, если вы оставили ботинки в прихожей дома, где есть собака, а через некоторое время видите там только один из них, вам не нужно, чтобы кто-то подробно проговорил, что произошло, или показал бы вам видео произошедшего: предположение о случившемся формируется и без этого. Если вас просят принести воды, вы, наблюдая ситуацию, в которой это происходит, можете без дополнительных инструкций решить, речь о стакане воды для больного, о бутылке минералки, которую надо купить по дороге домой, или о ведре воды, чтобы полить дерево или залить костёр. Системы искусственного интеллекта пока до этого уровня не дотягивают. Но, видимо, ключевое слово здесь — «пока». Потому что развитие идёт семимильными шагами. Ниже — некоторые свидетельства в пользу последнего утверждения.
Представители команды OpenAI продемонстрировали усовершенствованную версию нейросети DALL·E — DALL·E 2. Как и её предшественница, эта нейросеть генерирует изображения по текстовым описаниям. Но, в отличие от DALL·E, DALL·E 2 создаёт более реалистичные, чёткие и детализированные изображения. Ещё эта модель ИИ способна умело комбинировать предметы, концепты, свойства и стили, а также брать исходное изображение и создавать различные вдохновлённые оригиналом вариации.
DALL·E 2 «рисует» прекрасные картинки, однако новость о ней — далеко не единственная и, пожалуй, не самая громкая в отрасли за последние дни. В частности, Google AI представила нейросетевую модель Visually-Driven Prosody for Text-to-Speech (VDTTS), осуществляющую видеоуправляемое преобразование текста в устную речь и способную помочь с переозвучиванием видео. Как известно, при создании качественного визуального контента записанные на видео реплики, монологи и диалоги иногда приходится переозвучивать в студии. По разным причинам: говорящий мог запнуться, могли помешать посторонние шумы. При этом возникает проблема синхронизации звука и изображения. И вот эту проблему VDTTS блестяще решает: ориентируясь на исходную видеозапись говорящего, она генерирует из предложенного текста реалистично звучащую речь, синхронизированную с изображением. Причём если большинство подобных моделей уделяет особое внимание движениям рта, то VDTTS учитывает мимику лица в целом и даже движения головы.
Ещё один перспективный проект — тоже гугловский, плод коллаборации команд Robotics из Google и Everyday Robots из X (бывшая Google X). Он носит название «Do As I Can, Not As I Say» («Делай, как я могу, а не как я говорю» — отсылка к известной идиоме). Его цель — со временем создать робота, понимающего нечёткие запросы (например, «выбросить мусор») без пошаговых инструкций и способного выполнить их.
Такой робот будет действовать как «руки и глаза» языковой системы, в то время как система будет предоставлять высокоуровневые семантические знания, полезные при выполнении тех или иных задач. По сути, робот должен будет действовать так, как действуем мы: узнавать предметы знакомых типов, определять на основании имеющихся знаний предполагаемые свойства незнакомых, соотносить полученную команду с ситуацией и средой и планировать действия.
Подход к использованию больших языковых моделей (GPT-3 и др.) в качестве базы знаний при управлении роботом с помощью высокоуровневых инструкций на естественном языке назвали SayCan. Большие языковые модели, хотя и содержат огромное количество знаний о мире и способны предложить множество ответов на полученный запрос, далеко не все из этих ответов могут служить инструкцией для физического исполнения запроса вообще и, тем более, не все из них практически применимы к конкретной ситуации и к механике конкретного робота. Вот здесь и вступает SayCan, соотнося возможные ответы большой языковой модели с навыками робота и выбирая, какой из них роботу следует применить, с учётом 1) возможности, что он будет полезен, и 2) вероятности успешной реализации данного навыка в данной ситуации. Например, в ответ на запрос: «Я пролил колу, не мог бы ты принести мне что-нибудь, чтобы убрать её?», SayCan может дать роботу задание найти губку, взять её и принести спросившему.
Возможности SayCan пока что ограничены в том числе технической реализацией механической части робота: исследовательская группа неоднократно наблюдала, как робот, которого они выбрали для проведения экспериментов, случайно роняет предметы. Тем не менее этот пример, наряду с DALL·E 2 и другими разработками такого рода, показывает, как быстро мы приближаемся к фантастическому будущему, в котором нас будут окружать очень неглупые машины.