Опасность применения машин с искусственным интеллектом, выполняющих наши приказы, состоит в том, что желания мы склонны выражать очень небрежно. Строки кода, которые будут «оживлять» эти машины, неизбежно забудут учесть нюансы и не сформулируют на этот счёт внятного предостережения, в результате чего ИИ-системы получат цели и побуждения, не согласованные с нашими истинными предпочтениями.
Классический мысленный эксперимент, иллюстрирующий эту проблему, поставил в 2003 году оксфордский философ Ник Бостром (Nick Bostrom). Описанный им суперинтеллектуальный робот, запрограммированный изготавливать канцелярские скрепки, то есть выполнять, казалось бы, безобидную цель, со временем превращает весь мир в гигантскую фабрику по производству скрепок.
Такой сценарий нередко оценивали как умозрительный, как представляющий опасность, которая может возникнуть только в далёком будущем. Но отклоняющийся ИИ стал проблемой гораздо раньше, чем ожидалось.
Возьмём самый тревожный пример — тот, который оказал негативное влияние на миллиарды людей. Видеохостинг YouTube, стремясь максимизировать время просмотров, использует создаваемые на базе ИИ алгоритмы рекомендации контента. Два года назад учёные-компьютерщики и пользователи начали замечать, что алгоритм YouTube, похоже, стремится выполнять поставленную перед ним цель, рекомендуя всё более экстремальный и конспирологический контент. Одна исследовательница сообщила, что после того, как она просмотрела видеоматериалы о митингах, проведённых в рамках избирательной кампании Дональда Трампа, YouTube предложил ей видео с «демагогическими речами белых расистов, заявлениями о том, что никакого Холокоста не было, и другим вызывающим тревогу контентом». Входя в раж, алгоритм выводит за рамки политики. «Видео о вегетарианстве, — отметила исследовательница, — привело меня к видео о веганстве. Видео о беге трусцой — к видео о беге на сверхмарафонские дистанции». В результате, как показывают исследования, алгоритм YouTube просто для того, чтобы мы продолжали просмотры, способствует поляризации и радикализации общественных взглядов и распространяет дезинформацию. «Если бы я планировал применение этой технологии в массовом масштабе, я бы, пожалуй, постарался избежать такого эффекта при её апробации», — говорит Дилан Хэдфилд-Менелл (Dylan Hadfield-Menell), исследователь ИИ из Калифорнийского университета в Беркли (University of California, Berkeley).
У программистов YouTube, вероятно, не было цели радикализировать человечество. Но кодеры не могут думать обо всём на свете. «Нынешний способ создания ИИ возлагает на разработчиков слишком большую нагрузку, заставляя их предвидеть, какими окажутся последствия целей, которые они вводят в свои системы, — отмечает Хэдфилд-Менелл. — И ошибки, допущенные многими разработчиками, — это то, из чего необходимо извлечь уроки».
Главный аспект проблемы состоит в том, что люди часто не знают, на что нацеливать системы ИИ, потому что не знают, чего в действительности хотят. «Спросите кого-нибудь на улице: „Чего вы хотите от своего беспилотного автомобиля?“ — и вам ответят так: „Предотвращения столкновений“, — говорит Дорса Садих (Dorsa Sadigh), специалист по ИИ Стэнфордского университета (Stanford University), специализирующаяся на взаимодействии человека и робота. — Но ясно же, что этого мало; людям хочется ещё много чего». Супербезопасные беспилотные автомобили ездят слишком медленно и тормозят так часто, что пассажирам становится дурно. Когда программисты пытаются перечислить все цели и предпочтения, которые должен одновременно учитывать робомобиль, список неизбежно оказывается неполным. По словам Садих, когда она, управляя автомобилем, ехала по Сан-Франциско, её часто заставляли тормозить беспилотные машины, останавливавшиеся на дороге. Они, как и требует их программа, тщательно избегают контакта с движущимися объектами, но такими объектами могут быть и пластиковые пакеты, перемещаемые ветром.
Чтобы избежать такого рода ловушек и создать теоретическую базу для решения проблемы устранения отклонений ИИ, исследователи приступили к разработке совершенно нового метода программирования машин-помощников. На формирование этого подхода в наибольшей степени повлияли идеи и исследования Стюарта Рассела, 57-летнего учёного-компьютерщика из Беркли, имеющего награды за научную деятельность. В 80-х и 90-х годах ХХ века Рассел прославился новаторскими исследованиями, посвящёнными рациональности, принятию решений и машинному обучению. Он — главный автор популярного учебника «Искусственный интеллект: современный подход» (Artificial Intelligence: A Modern Approach). За последние пять лет его голос стал особенно влиятельным в том, что касается проблемы устранения отклонений. Этот сдержанный британец в чёрном костюме, умеющий складно и толково говорить, — завсегдатай международных встреч и дискуссионных форумов, где обсуждается ИИ — связанные с ним риски и долгосрочное управление.
По мнению Рассела, сегодняшний ИИ, преследующий ту или иную цель, является, по большому счёту, ограниченным, несмотря на все его успехи в выполнении конкретных задач — таких, как победа над человеком в Jeopardy! и го, распознавание предметов на изображениях и слов в речи и даже сочинение музыкальных и литературных произведений. Рассел утверждает, что требование от машины оптимизировать «функцию вознаграждения» — тщательное описание некоторой комбинации целей — неизбежно ведёт к отклонению ИИ, поскольку в рамках данной функции невозможно учесть и правильно взвесить все цели, подцели, исключения и оговорки или даже всего лишь определить, какие из них правильные. По мере того, как самостоятельные, «автономные» роботы будут становиться всё более умными, задавать им цели будет всё более опасно, ибо роботы, осуществляя свою функцию вознаграждения, будут неумолимы и при этом постараются помешать нам их отключить.
Согласно новому подходу, вместо того, чтобы преследовать свои собственные цели, машина должна стремиться удовлетворять предпочтения человека; её единственная цель должна состоять в том, чтобы узнать как можно больше об этих предпочтениях. Рассел утверждает, что системы ИИ благодаря неуверенности в наших предпочтениях и необходимости обращаться к нам за руководящими указаниями будут оставаться безопасными для человека. В недавней книге «Совместимый с человеком» (Human Compatible) Рассел излагает свой тезис в форме трёх «принципов полезных машин», которые вторят трём законам робототехники Айзека Азимова (Isaac Asimov), сформулированным в 1942 году, но не так наивны. Версия Рассела такова:
- Единственная цель машины — максимально реализовать человеческие предпочтения.
- Машина изначально не уверена в том, что ей известны эти предпочтения.
- Конечный источник информации о предпочтениях человека — это поведение человека.
Все последние годы Рассел и его команда в Беркли, а также группы единомышленников в Стэнфорде, Техасском университете (University of Texas) и других местах разрабатывают инновационные способы дать ИИ-системам ключ к узнаванию наших предпочтений, даже если последние явно не описаны.
Указанные команды исследователей учат роботов выяснять предпочтения человека, который не формулирует их и, возможно, даже не уверен в том, чего хочет. Эти роботы обретают способность узнавать наши желания, наблюдая за их смутной демонстрацией, и даже изобретать новые способы поведения, помогающие устранять двусмысленность человеческих предпочтений. (Например, встречая четырёхсторонний знак «стоп», беспилотные автомобили выработали привычку немного отступать, предлагая двигаться вперёд водителям-людям). Достигнутые результаты свидетельствуют о том, что ИИ может удивительно точно определять наши настроения и предпочтения даже тогда, когда приходится выяснять их на лету.
«Это всего лишь первые попытки формализовать проблему, — подчёркивает Садих. — Люди совсем недавно осознали, что взаимодействие человека и робота требует большего внимания».
Действительно ли нынешние стартовые усилия и три принципа полезных машин Рассела предвещают ИИ светлое будущее, пока неясно. Этот подход связывает успешное развитие робототехники с её способностью понимать, что реально, на самом деле предпочитают люди, и уже несколько лет роботы предпринимают попытки решить данную задачу. По мнению исследователя устранения отклонений Пола Кристиано (Paul Christiano) из OpenAI, Рассел и его команда, как минимум, значительно прояснили проблему и помогли «определить контуры желаемого поведения — того, к чему мы стремимся».
Как понять человека
Основной тезис Рассела пришёл к нему как озарение, как возвышенный акт разума. Это было в 2014 году, во время творческого отпуска, когда учёный из Беркли, находясь в Париже, направлялся на репетицию хора, куда записался как тенор. «Поскольку у меня не очень хороший музыкальный слух, — вспоминал он недавно, — я всегда старательно разучивал музыку, добираясь на репетицию на метро». Хоровая аранжировка «Agnus Dei» Сэмюэля Барбера (Samuel Barber) 1967 года наполнила его наушники, когда он мчался в поезде под Городом Света. «Это была такая прекрасная музыка! — поведал Рассел. — И тут меня осенило: то, что имеет значение, и, следовательно, то, что должно быть целью ИИ, — это в некотором смысле совокупный тембр человеческого опыта».
Роботы, осознал учёный, не должны преследовать такие цели, как максимизация времени просмотров или количества скрепок; им просто-напросто следует стремиться улучшать нашу жизнь. Остался всего лишь один вопрос: «Если обязанность машин — пытаться оптимизировать совокупный тембр человеческого опыта, как же им выяснить, что он собой представляет?»
Новый подход Рассела уходит корнями в гораздо более дальнее прошлое, чем 2014 год. В 70-х годах ХХ века, ещё будучи лондонским школьником, он изучал искусственный интеллект, программируя крестики-нолики и шахматные партии на компьютере соседнего колледжа. Позже, после переезда в область залива Сан-Франциско, благоприятную для исследования ИИ, он начал размышлять о рациональном принятии решений. Вскоре учёный пришёл к выводу, что такое принятие решений невозможно. Люди даже отдалённо не рациональны, потому что в вычислительном плане это неосуществимо: мы не можем подсчитать, какое действие в любой данный момент времени триллионами действий позже приведёт к наилучшему результату в нашем далёком будущем; и ИИ не может. Рассел предположил, что наш процесс принятия решений является иерархическим — мы достигаем весьма несовершенной рациональности, преследуя смутные долгосрочные цели посредством среднесрочных, уделяя при этом наибольшее внимание нашим непосредственным обстоятельствам. Роботизированным агентам, решил он, следует делать нечто подобное или, по крайней мере, понимать наши принципы работы.
Парижское прозрение Рассела произошло в поворотное для исследований в области искусственного интеллекта время. Несколькими месяцами ранее искусственная нейронная сеть, использовавшая широко известный подход под названием «обучение с подкреплением», шокировала учёных тем, что быстро научилась с нуля играть и побеждать в видеоиграх Atari. Попутно она даже придумывала новые приёмы. При обучении с подкреплением ИИ учится оптимизировать свою функцию вознаграждения, например свой счёт в игре; когда он пробует различные варианты поведения, те из них, которые увеличивают функцию вознаграждения, закрепляются и вероятность их использования в будущем растёт.
Ещё в 1998 году Рассел разработал противоположный подход, а после работал над его улучшением вместе со своим сотрудником Эндрю Ыном (Andrew Ng). Система, использующая «подход, противоположный обучению с подкреплением», не стремится оптимизировать закодированную функцию вознаграждения, как при обучении с подкреплением; вместо этого она стремится понять, какую функцию вознаграждения оптимизирует человек. В то время как при обучении с подкреплением система определяет действия, лучше всего ведущие к цели, при противоположном подходе она, когда ей предоставляется определённый набор действий, выясняет основную цель.
Спустя несколько месяцев после своего прозрения, вдохновлённого «Agnus Dei», на совещании по вопросам управления с помощью ИИ в министерстве иностранных дел Германии Рассел поговорил о подходе, противоположном обучению с подкреплением, с Ником Бостромом, получившим известность благодаря примеру со скрепками. «Именно там две стороны вопроса соединились», — заявил Рассел. В метро он понял, что машины должны стремиться оптимизировать совокупный тембр человеческого опыта. А теперь он понял, что, если им неясно, как это сделать, — если компьютеры не знают, что предпочитают люди, — «они, чтобы узнать побольше, могут воспользоваться подходом, противоположным обучению с подкреплением».
При стандартном применении данного подхода машина стремится выяснить функцию вознаграждения, которую преследует человек. Но в реальной жизни мы должны быть готовы активно помогать ей изучать нас. Вернувшись в Беркли после творческого отпуска, Рассел начал работать со своими сотрудниками над созданием новой, «кооперативной» версии подхода, противоположного обучению с подкреплением. При кооперативном подходе робот и человек могут взаимодействовать, выясняя истинные предпочтения человека в ходе различных «вспомогательных игр». Абстрактные сценарии этих игр отражают реальные ситуации, требующие действовать в условиях дефицита знаний.
Среди разработанных исследователями игр есть та, что известна как «игра с выключателем» (off-switch game). Она посвящена одному из наиболее очевидных способов, с помощью которых автономный робот может отклониться в сторону от наших истинных предпочтений: путём вывода из строя своего выключателя. Алан Тьюринг в 1951 году (через год после того, как опубликовал новаторскую статью об ИИ) в радиолекции BBC предположил, что можно «удерживать машины в подчинении, например, отключая в стратегические моменты их питание». Ныне такое решение проблемы считается слишком простым. Что мешает ИИ вывести из строя собственный выключатель или, в более общем смысле, игнорировать команды, требующие прекратить максимизацию функции вознаграждения? Проблема выключения, написал Рассел в «Human Compatible», является «ядром проблемы управления интеллектуальными системами». Если мы не можем выключить машину, поскольку она противится этому, у нас серьёзные проблемы. Если мы можем, тогда мы сумеем контролировать её и другими способами».
Ключом к решению данной проблемы может оказаться неопределённость в отношении наших предпочтений. Это продемонстрировала формальная модель проблемы — игра с выключателем, участники которой человек по имени Гарриет (Harriet) и робот по имени Робби (Robbie). Робби решает, действовать ли ему от имени Гарриет — скажем, забронировать ли ей хороший, но дорогой номер в отеле, — однако не знает, каковы её предпочтения. По прикидкам Робби, его выигрыш (одобрение со стороны Гарриет) пребывает в диапазоне от −40 до +60, то есть в среднем составляет +10 (Робби думает, что Гарриет, должно быть, понравится изысканный номер, но он не уверен в этом). Если ничего не делать, то выигрыш равен 0. Но есть и третий вариант: Робби может спросить Гарриет, хочет ли она, чтобы он продолжал действовать или предпочитает «выключить» его, то есть отстранить от решения вопроса о бронировании номера. Если она позволит роботу продолжать, средний ожидаемый выигрыш станет больше +10. Поэтому Робби решит проконсультироваться с Гарриет и, если она того пожелает, позволит ей выключить его.
Рассел и его сотрудники доказали, что, в общем, результат будет таким: Робби предпочтёт предоставить Гарриет самой принять решение, если не будет точно знать, как в подобных случаях поступает сама Гарриет. «Оказывается, — подчёркивает Рассел в «Human Compatible», — что неопределённость в отношении цели необходима для обеспечения того, чтобы мы могли выключить машину, — даже тогда, когда машина умнее нас».
Эти и другие сценарии с дефицитом знаний были разработаны как абстрактные игры, но в лаборатории Скотта Найкума в Техасском университете в Остине алгоритмы выяснения предпочтений проверяют на реальных роботах. Наблюдая во время демонстрации сервировки стола за тем, как человек кладёт вилку слева от тарелки, Джемини, двурукий робот лаборатории, поначалу не может сообразить, всегда ли вилки должны быть слева от тарелок и всегда ли каждая вилка должна оказаться на каком-то строго определённом месте. Новые алгоритмы позволяют роботу освоить данный паттерн без большого числа демонстраций. Главная задача Найкума — заставить системы ИИ количественно определять свою неопределённость в отношении предпочтений человека, чтобы они имели возможность оценивать, достаточно ли имеющихся у них знаний для безопасных действий. «Мы, — отмечает исследователь, — прямо, безо всяких обиняков, рассуждаем о том распределении целей в голове человека, которое может оказаться правильным, а также о рисках, связанных с этим распределением».
Недавно Найкум и его сотрудники нашли эффективный алгоритм, позволяющий роботам приобретать гораздо более высокие навыки выполнения задач, чем у людей-демонстраторов. Что могут потребовать от робомобиля в вычислительном плане? Всего лишь научиться маневрировать так, как показали ему водители-люди. Однако Найкум и его коллеги обнаружили, что с помощью демонстраций, ранжированных в соответствии с тем, насколько хорошо человек-демонстратор справился с задачей, можно улучшить и значительно ускорить обучение робота. «Агент-робот, — говорит Найкум, — ознакомившись с данным рейтингом, может подумать так: „Если это рейтинг, то что он объясняет?“ Что происходит чаще и что реже с улучшением демонстраций?» Последняя версия этого алгоритма обучения, называемого байесовским T-REX (от выражения „trajectory-ranked reward extrapolation“ — «экстраполяция вознаграждения, ранжированного по траектории»), выявляет в ранжированных демонстрациях паттерны, раскрывающие возможные функции вознаграждения, реализацию которых людьми можно оптимизировать. Вдобавок алгоритм измеряет относительную вероятность различных функций вознаграждения. Применяя байесовский T-REX, робот, по словам Найкума, способен эффективно определить наиболее вероятные правила сервировки стола или цель игры Atari «даже в том случае, когда он не видел идеальной демонстрации».
Наш несовершенный выбор
Идеи Рассела «овладевают умами сообщества исследователей ИИ», констатирует Йошуа Бенжио (Yoshua Bengio), научный руководитель монреальского института Mila — одного из ведущих в области исследования ИИ. Учёный полагает, что подход Рассела, при котором системы ИИ стремятся уменьшить собственную неопределённость в отношении предпочтений человека, можно реализовать с помощью глубокого обучения — мощного метода, обеспечившего недавние революционные достижения в области ИИ благодаря тому, что в поисках паттернов система просеивает данные через слои искусственной нейронной сети. «Для этой реализации, конечно же, нужны дополнительные исследования», — отмечает он.
Рассел видит две основные проблемы. «Во-первых, наше поведение настолько далеко от рационального, что выяснение наших истинных основных предпочтений может представлять огромную трудность», — говорит он. Системы ИИ должны будут рассуждать об иерархии долгосрочных, среднесрочных и краткосрочных целей — о мириадах предпочтений и обязательств, которыми мы опутаны. Чтобы помогать нам (и избегать грубых ошибок), роботам придётся разбираться в туманных сетях наших подсознательных верований и нечётких желаний.
Во-вторых, человеческие предпочтения меняются. Наш разум эволюционирует в течение всей нашей жизни, но, кроме того, может меняться мгновенно, в зависимости от нашего настроения или изменившихся обстоятельств, и робот вынужден будет всё это учитывать.
Вдобавок наши действия не всегда соответствуют нашим идеалам. Люди способны одновременно придерживаться противоречащих друг другу ценностей. Реализацию каких из них следует оптимизировать роботу? Чтобы не получилось так, что он обслуживает наихудшие из наших импульсов (или, что ещё хуже, усиливает эти импульсы, как вышеупомянутый алгоритм YouTube, тем самым облегчая их удовлетворение), роботу не мешает выяснить то, что Рассел называет нашими метапредпочтениями, — «предпочтения в отношении приемлемости или неприемлемости тех или иных процессов изменения предпочтений». Как мы улавливаем перемены в своём настроении? Чтобы понять это, бедному роботу придётся попотеть.
Как и роботы, мы стремимся выяснить наши предпочтения (какие они сейчас и какими мы хотим видеть их в будущем), а также пути устранения неясностей и противоречий. Подобно наилучшему из возможных ИИ, мы стремимся вдобавок — по крайней мере, некоторые из нас, в некоторые моменты времени — понять «форму добра», как именовал предмет познания философ Платон. Как и мы, системы ИИ могут, пытаясь ответить на вопросы, зависнуть навсегда — или в выключенном состоянии ждать результатов, если неуверенность лишила возможности выступать в роли помощника.
«Я не рассчитываю, — говорит Кристиано, — что в ближайшее время нам удастся твёрдо установить, что есть добро, или получить идеальные ответы на любые эмпирические вопросы, с которыми мы сталкиваемся. Однако я надеюсь, что системы ИИ, которые мы создаём, смогут отвечать на эти вопросы так же, как и люди, и итеративно улучшать ответы, уже полученные людьми — по меньшей мере, иногда».
Но в короткий список, составленный Расселом, стоит включить ещё одну, третью по счёту, важную проблему: как быть с предпочтениями плохих людей? Что удержит робота от реализации гнусных целей его злого владельца? Система ИИ норовит обходить запреты так же, как богач находит лазейки в налоговом законодательстве, поэтому просто запрещать ей совершать преступления, вероятно, будет бесполезно.
Можно сгустить краски: что, если все мы в некотором роде плохие? Тот алгоритм рекомендаций, который изо всех сил пытается исправить YouTube, построен, как ни крути, с учётом повсеместно встречающихся человеческих импульсов.
Тем не менее, Рассел исполнен оптимизма. Хотя требуются дополнительные алгоритмы и дальнейшее развитие теории игр, его интуиция подсказывает ему, что разработчикам удастся справиться с вредными предпочтениями и что тот же самый подход, который разработан для роботов, способен оказаться полезным даже «при воспитании детей, школьном и вузовском обучении и так далее». Другими словами, мы могли бы, обучая роботов добру, найти способ обучить и самих себя. «Сдаётся мне, — добавляет Рассел, — что мы на правильном пути».