Йошуа Бенжио (Yoshua Bengio) известен как один из «трёх мушкетёров» — создателей способного к глубокому обучению искусственного интеллекта (ИИ), который в настоящее время доминирует в данной сфере исследований.
Бенжио, профессору Монреальского университета (фр. Université de Montréal), ставят в заслугу существенный прорыв в деле использования нейронных сетей и, в неменьшей степени, упорство, проявленное им в работе над их созданием во время «долгой зимы» ИИ, длившейся с конца 80-х до конца 90-х годов ХХ века. В то время большинство людей считало нейронные сети тупиком.
В 2018 году его упорство принесло ему награду: он и его коллеги-мушкетёры (Джеффри Хинтон (Geoffrey Hinton) и Ян Лекун (Yann LeCun)) стали лауреатами премии Тьюринга, которую часто называют Нобелевской премией по компьютерным технологиям.
Сегодня всё чаще говорят о недостатках глубокого обучения. В связи с этим журнал IEEE Spectrum взял у Бенжио интервью о том, как следует действовать, чтобы преодолеть возникшие трудности.
Глубокое обучение и неудовлетворённость, вызываемая результатами его развития
IEEE Spectrum. Что вы думаете обо всей этой дискуссии насчёт границ глубокого обучения?
Йошуа Бенжио. Слишком много публичных площадок, на которых отсутствует понимание главного принципа наших исследований ИИ и других проблем. Мы пытаемся найти границы имеющихся у нас теорий и методов, чтобы расширить возможности наших интеллектуальных инструментов. Таким образом, исследуя глубокое обучение, мы ищем места, где оно работает не так, как нам хотелось бы, и в результате нам удаётся выяснить, что нужно добавить и что нужно исследовать.
Этой атмосферой непонимания пользуются такие, как Гэри Маркус (Gary Marcus), разместивший в сети сообщение: «Посмотрите: глубокое обучение не работает»*. Но, на самом деле, то, чем занимаются исследователи, вроде меня, — это расширение сферы возможностей. Когда я говорю, к примеру, о том, что системам ИИ необходимо понимать причинные связи, я не имею в виду, будто это понимание заменит глубокое обучение. Я пытаюсь добавить что-то в панель инструментов.
Меня как учёного интересует то, что нужно изучить, чтобы решить проблемы, а не то, кто прав и кто неправ, или кто в какой церкви предпочитает молиться.
IEEE Spectrum. Как вы оцениваете нынешний уровень глубокого обучения?
Бенжио. На мой взгляд, за последние два десятилетия в данной сфере исследований мы не смогли приблизиться даже к уровню интеллекта двухлетнего ребёнка. Однако, что касается восприятия, то, возможно, у нас уже имеются алгоритмы, эквивалентные тем, которые применяют низшие животные. И в этом отношении, разрабатывая инструменты, позволяющие особи исследовать окружающую среду, мы шаг за шагом поднимаемся вверх.
Один из наиболее важных и бурно обсуждаемых ныне вопросов такой: из каких элементов складывается познание высокого уровня? Один элемент — причинность, а ещё — рассуждение, планирование, воображение и чувство долга («Что я должен был сделать?»). Разрабатывая классический ИИ, всё это пытались получить с помощью логики и символов. Некоторые полагают, что мы в состоянии вложить данные элементы в классический ИИ — ну, может, слегка улучшенный.
А есть ещё и те, кто, как и я, полагают, что нам следует использовать инструменты, разработанные за последние несколько лет, чтобы создать перечисленные мной функциональные возможности способом, аналогичным тому, который при построении рассуждений используют люди. А это путь, в корне отличный от того, каким в подобных случаях идёт чисто логическая система, применяющая алгоритм поиска.
Заря компьютерных вычислений, сходных с работой головного мозга
IEEE Spectrum. Каким образом мы можем создать функции, подобные человеческим рассуждениям?
Бенжио. Благодаря механизмам внимания мы учимся сосредоточивать процесс вычисления на нескольких элементах, выполняя некий набор вычислений. Люди делают это, и это — особенно важная часть деятельности сознания. Когда вы осознаёте что-то, вы сосредоточиваетесь на нескольких элементах, возможно, на определённой мысли, а затем переходите к другой мысли. Эта деятельность разительно отличается от работы стандартных нейронных сетей, которые, напротив, выполняют параллельную обработку огромных массивов информации. Используя механизмы внимания, мы совершили мощный прорыв в области компьютерного зрения, перевода и памяти, однако, по моему мнению, это только начало применения другого стиля вычислений, подобных работе головного мозга.
Нет, с этой проблемой мы ещё не справились, но, на мой взгляд, у нас масса инструментов, позволяющих взяться за её преодоление. И я не думаю, что дело будет лёгким. В 2017 году я написал статью под названием «The Consciousness Prior» (Приоритет сознания), в которой изложил данную проблему. Этой темой занимается несколько моих студентов, и я знаю, что для её разработки потребуется много времени и сил.
IEEE Spectrum. Какие ещё аспекты человеческого интеллекта вы хотели бы воспроизвести в ИИ?
Бенжио. Ещё нас интересует способность нейронных сетей воображать. Рассуждение, память и воображение — это три аспекта одной и той же деятельности, которую осуществляет наш разум. Мы проецируем себя в прошлое или будущее и, двигаясь в рамках этих проекций, рассуждаем. Предчувствуя, что в будущем может случиться что-то плохое, мы меняем курс — так мы планируем. И вдобавок мы пользуемся памятью, ибо, чтобы о чём-то судить, нам нужно возвращаться к известным нам предметам. Мы берём из настоящего и прошлого те предметы, которые актуальны.
Во всей этой деятельности важнейший строительный блок — внимание. Допустим, я перевожу книгу на какой-то другой язык. Каждое слово требует от меня тщательно работать с очень маленьким фрагментом книги. Внимание позволяет абстрагироваться от множества ненужных деталей и сосредоточиться на том, что важно. Умение выбирать подходящие элементы — вот что даёт внимание.
IEEE Spectrum. Как это перевести в плоскость машинного обучения?
Бенжио. Вам не нужно указывать нейронной сети, на что следует обращать внимание, и в этом её прелесть. Она учится этому самостоятельно. Нейронная сеть сама определяет, какое внимание следует уделить (или какой вес следует придать) каждому элементу из того набора, который предложено использовать.
Учиться учиться
IEEE Spectrum. Как связана со всем этим ваша недавняя работа в области этих идей?
Бенжио. Те понятия высокого уровня абстракции, с помощью которых мы рассуждаем, — это, как правило, переменные причины и/или следствия. В основе наших рассуждений не лежат пиксели. Мы рассуждаем, исходя из таких понятий, как «дверь» или «дверная ручка», «открыто» или «закрыто». Причинно-следственные связи очень важны для выхода на новые этапы развития машинного обучения.
С этим связана и другая тема, очень волнующая тех, кто разрабатывает методы глубокого обучения. Систематическое обобщение — это способность человека обобщать известные ему понятия так, что они объединяются новыми, не применявшимися ранее способами. Сегодняшнему машинному обучению такое — неведомо. Вот почему часто возникают проблемы, связанные с обучением на конкретном наборе данных. Скажем, вы тренируете нейросеть в одной стране, а затем развёртываете её в другой. Вам нужны обобщение и трансферное обучение. Как настроить нейронную сеть, чтобы после размещения в новой среде она продолжала хорошо работать или смогла быстро адаптироваться?
IEEE Spectrum. Что необходимо для такой адаптации?
Бенжио. Метаобучение, или обучение тому, как учиться, — тема, которая в наши дни является чрезвычайно актуальной. Об этом обучении у меня есть статья, написанная ещё в 1991 году, но только недавно у нас появились вычислительные возможности для его реализации. В вычислительном плане это весьма затратно. Идея такая: для обобщения в новой среде нужна практика обобщения в новой среде. Это так просто, когда думаешь об этом. Дети занимаются этим постоянно. Когда они перемещаются из одного пространства в другое, среда не остаётся статичной, она меняется. Дети учатся хорошо адаптироваться. Чтобы адаптация была эффективной, они должны использовать знания, приобретённые в прошлом. Мы начинаем понимать эту способность и создавать инструменты, необходимые для её воспроизведения.
Глубокое обучение критикуют, в частности, за то, что для него требуется огромное количество данных. Это так, если вы просто тренируете сеть решать одну-единственную задачу. Однако дети способны учиться на основе очень малого количества данных. Они извлекают выгоду из того, что узнали раньше. Но важнее другое: они извлекают выгоду из своей способности адаптироваться и обобщать.
«Это не дошло до стадии промышленного использования»
IEEE Spectrum. Найдут ли какие-либо из этих идей широкое практическое применение в ближайшее время?
Бенжио. Нет. Это весьма фундаментальное исследование с использованием модельных задач. Это прекрасно, это то, чего удалось достичь. Мы можем отшлифовать эти идеи и перейти к новым гипотезам. Но всё это не дошло до стадии промышленного использования в ближайшее время.
Однако данное исследование может помочь промышленности в плане соблюдения двух практических ограничений, которые она стремится учитывать. Во-первых, создаваемые системы должны быть более устойчивыми по отношению к изменениям, происходящим в окружающей среде. Во-вторых: как мы строим системы обработки естественного языка, диалоговые системы, виртуальные помощники? Проблема новейших систем, использующих глубокое обучение, состоит в том, что, хотя их тренируют на огромных массивах данных, они не очень-то понимают, чем занимаются. Такие, как Гэри Маркус, подметили это и говорят: «Это доказывает, что глубокое обучение не работает». А такие, как я, говорят: «Это интересно, давайте решать эту проблему».
Физика, язык и здравый смысл
IEEE Spectrum. Как сделать так, чтобы чат-боты работали лучше?
Бенжио. Есть такая идея — «заземлённое (grounded) изучение языка». С недавних пор она снова привлекла к себе внимание. Идея состоит в том, что система ИИ не должна учиться, используя одни лишь тексты. Эта система одновременно должна изучать, как функционирует наш мир и как описывать его словами. Задайте себе вопрос: смог бы ребёнок понять мир, взаимодействуя с ним только посредством текстов? Сдаётся мне, что ему пришлось бы худо.
Обучение должно быть связано с борьбой сознательного и бессознательного познания, с предметами, которые мы знаем, но не можем назвать. Хороший пример — интуитивная физика. Двухлетние дети понимают интуитивную физику. Они не знают уравнений Ньютона, не умеют определять такие понятия, как гравитация, зато знают их конкретный смысл. Сейчас есть такие специалисты, которые пытаются создавать системы, взаимодействующие с окружающей средой и открывающие основные законы физики.
IEEE Spectrum. Почему, уловив смысл основных понятий физики, легче вести разговор?
Бенжио. Проблема с языком заключается в том, что часто система, в сущности, не понимает сложность того, что означают слова. Возьмём, к примеру, фразы, которые используются в схеме Винограда (Winograd); чтобы понять их смысл, нужно усвоить физические знания. Есть такие предложения, как: «Джим хотел добавить в свой багаж торшер, но тот оказался слишком большим». Вы знаете, что, если данный предмет слишком велик для того, чтобы войти в состав багажа, то именно он и есть «тот» — предмет второй фразы. Вы можете передать это знание словами, но его не выражают таким вот образом: «Типичный размер одного багажного места — х на х».
Нам нужны системы, понимающие не только язык, но и мир. В настоящее время исследователи ИИ подставляют ярлыки (shortcuts). Но одних ярлыков будет мало. Системам ИИ нужно усвоить модель устройства нашего мира.