Видео
Гэри Маркус (Gary Marcus) и Йошуа Бенджио (Yoshua Bengio) — два выдающихся теоретика искусственного интеллекта, выступающие с разных позиций. В данной дискуссии на конференции NeurIPS (Neural Information Processing Systems), проходившей в декабре 2019 года в Ванкувере, в институте MILA (Quebec AI Institute), они «разбирают полёты» — выясняют, где сходства и различия в представлениях учёных о том, как должен в будущем развиваться искусственный интеллект. Наша редакция подготовила для вас перевод транскрипта дебатов.
Слайды к презентации Гэри Маркуса можно найти по этой ссылке. Слайды Йошуа Бенджио — здесь.

Гэри Маркус. О чём я собираюсь поговорить сегодня… Я сначала расскажу о моей научной биографии, из каких позиций я исхожу, а потом перейду к тому, что думаю о взглядах Йошуа. Скорее всего, у нас больше общих мест, чем разногласий, но эти разногласия важны — и мы здесь встретились, чтобы их обсудить. Затем я расскажу о том, как нам нужно двигаться вперёд. Первая часть выступления будет посвящена тому, как я вижу ИИ, глубокое обучение и текущее состояние машинного обучения и как я пришел к таким взглядам. Я также затрону тему моего «романа» с когнитивной наукой, как она вписывается в исследовательский домен ИИ. Вот примерно об этом я собираюсь говорить. Я не буду описывать тут всё, только некоторые из вещей, которыми я занимался, и которые, я думаю, релевантны для ИИ.

Важно, что по образованию я не исследователь машинного обучения. Я — когнитивист, и работал над изучением того, как люди проводят обобщения, как они учатся. Давайте, я вкратце расскажу о том, чем я успел позаниматься с 1992 года и до настоящего момента. Но сначала — затронем вещи ещё более ранние — пару важных книг, названных «PDP-библиями» (от parallel distributed processing, параллельные распределённые вычисления). Не все знают, что такое PDP. Это предшественник современных нейронных сетей. Вот справа от меня на слайде упрощённая модель нейронной сети, где нейронную сеть попробовали обучить прошедшему времени в английском. Эта тема вызвала бурные споры.

Из этих двух книг на слайде (два тома книги «Параллельные распределенные вычисления» [Parallel Distributed Processing] Румельхарта [David Everett Rumelhart] и МакКлелланда [James McClelland]) самая провокационная статья, вдохновлявшая мою работу в течение 30 лет (и это, согласитесь, довольно долго), — об ошибках сверхрегуляризации. Дети иногда говорят такие слова, как ‘braked’ или ‘goed’ (у меня два ребёнка, так что я-то знаю). Это долго считалось стандартным примером символьных правил. Если взять какой-то учебник, изданный до 1985, там говорится: «Дети усваивают правила и делают ошибки сверхрегуляризации». Румельхарт и МакКлелланд блестяще показали, что нейронные сети могут выдавать тот же самый выходной результат без каких-либо правил. И это создало целое поле, которое я называю «элиминативным коннекционизмом». В нём с помощью нейронных сетей пытаются смоделировать нейронауку, но без каких-то правил. И из этого родился «великий спор о прошедшем времени» (the great past tense debate). Разразилась большая «война» между когнитивистами. В момент, когда я поступил в магистратуру, все об этой войне только и говорили.

С одной стороны, до выхода этой статьи большая часть лингвистики и когнитивной науки вертелись вокруг правил. Основной смысл такой: вы учите правила, например, «предложение состоит из подлежащего и сказуемого». Если вы читали Хомского (Avram Noam Chomsky) — многие из его ранних книг посвящены правилам. И большая часть ИИ была тоже про правила. Экспертные системы тоже в основном состояли из правил. А здесь Румельхарт и МакКлелланд заявили: «Нам не нужны правила! Забудьте, даже такая ошибка, как ‘breaked’, может быть, в принципе, представлена нейросетью, если у вас вход снизу, а выход сверху. И со временем, когда настроятся параметры сети, может появиться генерализация, как у детей». (Они показали этот принцип, но не доказали).

С другой стороны, они не рассматривали эмпирические данные. Поэтому я поступил в магистратуру под научное руководство Стивена Пинкера (Steven Pinker) в MIT (Massachusetts Institute of Technology), где рассматривал ошибки сверхрегуляризации. Один из первых больших анализов данных об усвоении языка я провел так: с помощью shell-скриптов, исполняемых на юниксовой SPARCstation, проанализировал 11,5 тысячи детских высказываний. И мы с Пинкером сделали вывод, что нейронные сети со временем не делают правильные предсказания об обобщении. Мы приводили примеры конкретных глаголов. У нас есть целая книга про это, если вам интересно [Marcus et al 1992, SRCD Monographs]. В отличие от Морриса Халле (Morris Halle), который был на защите моей диссертации, мы утверждали, что нужен компромисс, что не всё состоит из правил. Но в отличие от Румельхарта и МакКлелланда, мы держались позиции, что нейронная сеть в одиночку тоже не решит задачу. Мы сказали — лучше всего отображает данные гибридная модель. Правила для тех, что спрягаются по правилам — ‘walk’ в прошедшем времени превращается в ‘walked’, прошедшее время образуется окончанием -ed. Нейросети для тех, что не подчиняются правилу, например мы говорим ‘sing-sang’, но мы тоже можем сделать генерализацию, например ‘spling-splang’ — звучит похоже. И причина, по которой дети делают ошибки сверхрегуляризации, мы утверждали, заключается в том, что нейросеть не всегда даёт «сильный ответ». Если бы вам попался совершенно незнакомый глагол, вы бы попытались опереться на правило, которое вам известно.

И тогда, в 1990-е, я впервые выступил за гибридные модели. В 1998 или даже немного раньше я стал экспериментировать с сетевыми моделями. О них уже тогда много писали, я хотел понять, как они работают, и начал их программно реализовывать и тестировать. И я обнаружил интересное — что люди говорили о нейросетях, как будто они «усваивают правило» из среды. Но они на самом деле не всегда усваивали правило, в том смысле, в каком усваивает их человек. И вот пример — если бы я вам сказал, что f(x) = x, вы могли бы это представить как x = y + 0. Есть множество способов записать это выражение. И вот у вас есть на входе бинарное число, скажем, «0 1 1 0», и на выходе у вас будет то же самое. И вы приводите такие примеры для многих вариантов входных данных. Нейронная сеть что-то выучивает, но у неё случаются ошибки. Например, если дать ей нечётное число после того, как в обучающей выборке были одни чётные числа (пример внизу на слайде), её ответ будет отличаться от того, что выдал бы человек.

Я описываю это в терминах понятия пространства обучающей выборки (training space). Скажем, сетка была обучена на жёлтых образцах. Зелёные образцы в пространстве обучающей выборки близки к жёлтым. Нейросети обычно показывают хорошие результаты на жёлтых образцах и не очень хорошие — на зелёных — вне обучающей выборки. То есть, сети почти идеальны в выучивании конкретных вещей, хорошо обобщают в рамках распределения вокруг этих вещей, но плохо обобщают, если сделать шаг в сторону. Я писал об этом в рамках исследования по когнитивной психологии. Мы тогда воевали с рецензентами. Мы пришли к заключению, что класс элиминативных коннекционистских моделей, которые сейчас так популярны, не имеет возможности научиться распространять известные ему универсалии вне пространства обучающей выборки. И я горжусь больше всего, что работал над этой проблемой.

Это привело меня к тому, что я начал работать с маленькими детьми. Я стоял на позиции, что даже маленькие дети могут делать такие обобщения, которые ставили в тупик нейросети тех дней. Мы дали детям прямой намеренный тест на генерализацию вне пространства обучающей выборки. Им были предложены «предложения» типа ‘lo ti ti’ [A B B] или ‘ga na na’ [A B B]. Я вчера зачитал их своему сыну, и его они рассмешили (ему почти семь). Так вот, потом мы протестировали детей с использованием другого набора слов, например, ‘wo fe fe’ [A B B] или ‘wo wo fe’ [A A B]. И некоторые предложения из тех, что мы им давали, имели такую же грамматику, как и в тех предложениях, которые детям показывали раньше, а в других она отличалась. (Так как все слова и предложения были новыми, нельзя было использовать более статистические техники, которые люди обычно используют, например, переходные вероятности. И это было сложной задачей для первых нейросетей). Заключение у нас было таким: дети могут обобщать вне пространства обучающей выборки даже в тех случаях, когда многие нейросети на это неспособны. Я утверждал — это должно быть описано как выучивание алгебраических правил. Этот эксперимент потом повторяли много раз (например, Gervain et al. 2012).

Я написал свою первую книгу под названием «Алгебраический разум» (The Algebraic Mind, 2001). Основная идея была в том, что люди могут строить такого типа абстракции. Я утверждал, что есть три основных компонента, которые отсутствуют в многослойных перцептронах:

  • Способность свободно выводить обобщения абстрактных отношений, которая есть у маленьких детей;
  • Способность уверенно представлять сложные отношения, такие как сложные структуры предложений;
  • Систематически отслеживать идивидуальные сущности отдельно от типов.

Мы сегодня поговорим о первых двух пунктах, и, наверное, о третьем — нет. Я утверждал, что это обрекло на провал многие попытки использования многослойных перцептронов в качестве моделей человеческого сознания. Я не говорил про ИИ, я говорил про сознание. Эти модели просто не могут охватить гибкость и силу повседневных рассуждений человека. Ключевыми структурными элементами подхода, который я защищал, и который я называю символьной манипуляцией, являются переменные, экземпляры переменных, связи и операторы над переменными. Не я придумал его, я просто попытался выразить его понятно, вступиться за него. Допустим, в алгебре есть переменные типа Х, и есть экземпляры переменных, инстанциированные переменные. Например, это «2». Мы связываем их, и говорим «сейчас Х=2» или «моё подлежащее — „мальчик“». И затем есть операции над переменными, их можно сложить или «склеить» (в программировании это называется конкатенацией), можно сравнить их, и т.д. Вместе взятые, эти механизмы представляют естественное решение задачи свободной генерализации. И компьютерные программы делают это всё время — есть так называемые факториальные функции (factorial function), если вы когда-то слушали курс по программированию, где автоматически проводится генерализация для всех экземпляров целого класса, скажем, целочисленных значений (integer). И когда у вас есть этот код… большинство ПО пользуется этим фактом [возможностью генерализации]. Человеческое сознание делает то же самое, это у них врождённое умение — такой мой вывод из исследований с детьми.

В этой первой книге был подзаголовок — «Объединение коннекционизма и когнитивистики». Я не пытался разнести в пух и прах нейронные сети, сказать: «Забудем о них». Я просто говорил: «Давайте возьмём лучшее от них, они хорошо обучаются, но давайте объединим их с наработками когнитивной науки, в большой части которой используются символы». И я утверждал, что даже если я прав и они играют важную роль в нашей ментальной жизни, это не значит, что мы не должны использовать другие подходы помимо этого, например, многослойные перцептроны, предшественники сегодняшнего глубокого обучения. Меня, откровенно говоря, в большинстве, не слушали. И это закончилось только год или два назад. Люди, кажется, вновь начали обращать внимание на мою книгу. Но она вдохновила важную книгу о нейросимвольных подходах под названием «Нейросимвольный когнитивный логический вывод» (Neural-Symbolic Cognitive Reasoning, Garcez, Lamb & Gabay, 2008), на которую, я надеюсь, некоторые обратят внимание. Я считаю, что в ней даже рассмотрены некоторые аргументы, которые сейчас приводит Йошуа.

Затем я прекратил работать над этими темами и занялся «врождённостью» (innateness), я начал учиться играть на гитаре — но об этом поговорим в другой раз. Я вспомнил об этих темах только в 2012 году, когда глубокое обучение стало опять популярно. New York Times поставили на передовицу глубокое обучение — и я подумал тогда — где-то я всё это видел. Я тогда сотрудничал c The New Yorker, и я написал для них статью, где утверждал: «Если смотреть правде в глаза, глубокое обучение — это только часть более общей задачи построения умных машин, у этой техники отсутствуют способы выводить условные отношения, у неё нет простого и очевидного способа для логического вывода. Они далеки от того, чтобы интегрировать в свою работу абстрактные знания». Я опять встал на сторону защиты гибридных моделей, говоря, что глубокое обучение — это лишь один из элементов более сложного механизма.

Потом, в 2018-м, глубокое обучение становилось всё более популярным, но я всё ещё считал, что люди упускают из виду очень важные его свойства. И я написал статью (я был здесь, в Монреале, когда писал её), которая называлась «Глубокое обучение — критический взгляд» (Deep learning — a critical appraisal), где очертил десять проблем глубокого обучения (статья есть в рекомендованной литературе к данным дебатам). И невозможность экстраполяции вне обучающей выборки была главной темой статьи. Я спровоцировал шумиху в Твиттере. Думаю, там эти записи ещё сохранились, можно их найти. Мне казалось, что мою точку зрения часто представляли неправильно — как будто я говорю, что мы должны отбросить ГО, но это совсем не то, о чём я говорил. Я был осторожен и в заключении статьи сказал: «Несмотря на все проблемы, которые я очертил, не думаю, что нам нужно оставить ГО, это лучшая техника обучения нейросетей на данный момент. Нужно его переосмыслить, перевести из статуса «универсального решателя» в статус одного инструмента из многих». Главное заключение моей научной работы — это, в том числе, что ценность представляют гибридные модели, что важны экстраполяция, композиционность, способность вычленять и представлять отношения сущностей, причинность и т.д.

Часть два, некоторые мысли относительно идей Йошуа — как, на мой взгляд, они менялись со временем, и в чём наши взгляды похожи, а в чём — отличаются.

Первое, что я хочу сказать — это что я действительно его уважаю. Например, недавно на волне хайпа я написал текст, в котором упомянул, что действительно хорошая лекция есть у Йошуа Бенджио — он заслуживает подражания в том, как он беспристрастно описывает ограничения [ГО]. Мне нравится то, что он пишет, например, в области на стыке машинного обучения и изменения климата. Думаю, он должен быть примером для подражания в смысле его интеллектуальной честности, он действительно пытается сделать этот мир лучше.

Мои разногласия с ним касаются его ранних взглядов. Мы впервые встретились здесь в Монреале пять лет назад, и тогда у нас не было общего языка. Я считал, что он слишком уж доверился чёрному ящику ГО, что он слишком сильно опирался на большие датасеты в поисках ответа. Есть Cистема I и Cистема II [имеются в виду системы, выделенные в психике человека в книге «Думай медленно… решай быстро!» Даниела Канемана, דניאל כהנמן‏], думаю, мы оба про это поговорим. Так вот, он был больше на стороне Системы I, чем II. Я тогда вернулся домой и обсудил это дело с приятелями. Многие помнят его лекцию 2015 года, которую он прочитал группе лингвистов, которым не нравились его ответы на вопросы, как он предлагал работать со словами-отрицаниями или со словами-квантификаторами, такими как «каждый». И им тогда показалось, что Йошуа в основном говорил: «Знаете, нам нужно немного больше информации в датасетах, и нейросеть сама всё вычислит». Если бы Йошуа до сих пор занимал эту позицию (я так не думаю), то у нас бы был более продолжительный спор. Но недавно Йошуа довольно сильно изменил свои взгляды в сторону позиций, за которые я давно выступал — признание фундаментальных ограничений глубокого обучения, потребность в гибридных моделях, особая важность способности к экстраполяции. Я сфотографировал несколько его слайдов [прим. ред. — см. pdf-файл по ссылке, слайд 20] с недавней лекции на NeurIPS, и у нас довольно интересно сошлись взгляды.

Итак, разногласия… Сейчас я расскажу о своём видении правильного пути построения гибридных моделей, о врождённости, важности факта, что мозг — это нейронная сеть, и что мы имеем в виду, когда говорим «композиционность». Всё! Думаю, по поводу остального мы соглашаемся. Думаю, Йошуа случайно описывал мою точку зрения как: «Смотрите, ГО не работает». Надеюсь, я вас убедил, что я так на самом деле не думаю. ГО — очень полезная вещь, но она не решает все задачи. Другое — это то, что в своей недавней работе он ухватил то, что, по моему мнению, является наиболее важным аспектом, а именно — проблемы, которые у ГО есть с экстраполяцией за пределами обучающей выборки. И именно поэтому нам нужны гибридные модели.

Какие именно гибриды мы должны строить? Йошуа был очень вдохновлён книгой Даниела Канемана о Системе I и Cистеме II. Думаю, многие из вас её читали. Если ещё нет, почитайте. В ней говорится о Системе I, которая опирается на интуицию, она быстрая и работает на бессознательном уровне. Другая — медленная, последовательная, опирается на логику, и использует сознание. Это очень похоже на то, что я говорил уже давно. Тут можно дискутировать об их различиях — отличаются ли они вообще друг от друга? Они совместимы? Мы не знаем.

Я хочу напомнить о том, что, на мой взгляд, является одним из наиболее важных различий, которые были сделаны в когнитивной науке. Дэвид Марр (David Marr) в одном из своих поздних исследований говорил о наличии вычислительного, алгоритмического и уровня реализации (implementational).

Три уровня описания по Марру (1982) (со слайда 25)

Вычислительный уровень:

  • Почему вещи работают так, как работают?
  • Какова цель вычислений?
  • Какие объединяющие принципы?

Алгоритмический уровень:

  • С помощью каких представлений можно реализовать данные вычисления?
  • Как выбор представлений влияет на сам алгоритм?

Уровень реализации:

  • Как такая система может быть построена физически [in hardware]?
  • Как нейроны могут выполнять вычисления?

Таким образом, можно взять абстрактный алгоритм или понятие, например алгоритм сортировки, пузырьковую сортировку. Можно его реализовать на базе нейронов, кремния, или даже из детского конструктора (tinkertoys). Нужно помнить об этом, когда мы говорим на такие темы. Мы хотим понять связь между тем, как мы что-то строим, и алгоритмом, который мы строим. (Кажется, у Йошуа не было такого аргумента. Может быть, он приведёт его сегодня). Это то, что нам надо бы сделать, если мы хотим уверенно заявить, что система не реализует символьные вычисления.

Йошуа в последнее время много говорит о внимании. То, чем он занимается с вниманием, напоминает мне микропроцессор — в том смысле, что тот вытаскивает вещи из регистра, записывает их в регистр, и так далее. В некотором смысле кажется, что внимание ведёт себя во многом как механизм для хранения и извлечения значений переменных из регистров, и это действительно то, о чём я давно думаю.

Касательно некоторых аргументов Йошуа, опять про символы. Вот фрагмент из электронного письма, которое он отправил студенту. В нем он говорит: «То, что вы предлагаете как нейросимвольный гибрид, не работает. Поколения исследователей ИИ испытывали такие гибриды десятилетиями и потерпели неудачу». Я слышал это много раз, не только от Йошуа. И это вводит в заблуждение, так как реальность такова, что гибриды — вокруг нас. Один из них, которым вы, возможно, пользуетесь — это поисковик Google. Он на самом деле представляет собой гибрид графа знаний, а это — классическое символьное представление знаний, и глубокого обучения, такого как система под названием BERT (кто-то, может, о ней знает). AlphaZero, до недавнего времени — чемпион мира по шахматам — тоже гибрид, мастер игры в кубик-рубик от OpenAI — тоже. Есть замечательная работа Джоша Тененбаума (Joshua B. Tenenbaum) и Цзяюаня Мао (Jiayuan Mao), которая вышла в этом (2019) году. И у них тоже используется гибрид.

Другой аргумент Йошуа заключается в том, что многие знания сложно представить в виде правил. И это правда, некоторые знания сложно представимы в правилах. Но некоторые — наоборот, легко. Опять же, Google-поисковик — это отличный пример, там некоторые знания представлены в виде правил, а некоторые — нет, и это очень эффективно.

Третья точка, в которой наши с Йошуа взгляды, видимо, расходятся (но я не до конца знаю его точку зрения) касается нативизма. Я — человек от когнитивистики, и я вижу много доказательств того, что человеческий мозг оперирует большим арсеналом способов обработки и представления информации. Мы рождены, чтобы учиться, и мы должны думать об этом как о совокупности природы и воспитания (nature and nurture), нежели как о противостоянии «природа или воспитание» (nature versus nurture). Нам следует поразмыслить над врождёнными фреймворками, которые нам позволяют понимать время, пространство и причинность (это, например, утверждал Кант в «Критике чистого разума», и Спелке (Elizabeth Spelke) в её работе по когнитивному развитию).

Аргумент, который я привёл в статье, заключается в том, что более богатые врождённые прайоры [априорные распределения] могут сильно помочь искусственному интеллекту. Машинное обучение исторически обычно избегало такого нативизма, и, насколько я могу судить, Йошуа — тоже не фанат нативизма. Не знаю, почему. Вот некоторые эмпирические данные, которые я взял из замечательной статьи Яна Лекуна (Yan Lekun) от 1989 года, показывающие, что нативизм в нейронных сетях работает. Там он сравнивал четыре разные модели, и та, которая имела больший нативизм по свёрточным прайорам (если знаете, что это), показала лучшие результаты.

А вот, например, горный козлёнок идёт по скале.

Прим. ред.: В слайдах использована другая фотография, но мы заменили её, так как она была низкого качества.

Не думаю, что кто-то может внятно доказать, что у козлёнка нет ничего врождённого. Чтобы делать те вещи, которые он делает, он должен был родиться с пониманием трёхмерного мира и того, как взаимодействовать с ним. Так что в биологии нативизм возможен, и я думаю, что мы должны больше использовать его в искусственном интеллекте.

Некоторые из вас, возможно, знают, что о нашем сегодняшнем споре был комикс авторства Дайлипа Джорджа (Dileep George), поищите в Твиттере. И в этой версии Йошуа побеждает, говоря: «Ваш мозг — это нейронная сеть», и все такие: «Ух, Йошуа в конце концов оказался прав».

«Наш мозг очень сложный, и мы не понимаем, как он работает. / Сети глубокого обучения очень сложные, и мы не понимаем, как они работают. / Таким образом, глубокое обучение работает, как мозг».

И в Facebook Йошуа мне приводил похожий аргумент, когда говорил: «Ваш мозг — это нейронная сеть с головы до ног». Конечно, глубокие нейронные сети не очень похожи на мозг. Я долго был сторонником такой точки зрения. В коре головного мозга много зон, много типов нейронов, много разных белков в разных синапсах. Я слышал, что на прошлой неделе Йошуа выступил с аналогичным аргументом на NeurIPS. Я думаю, в этом наши взгляды в значительной степени сходятся. Он привёл прекрасный аргумент про степени свободы, в частности, их уровни. Но главный вопрос такой: мозг — это какая нейронная сеть?

Возвращаясь к разделению Марра: можно построить любую вещь, любое вычисление, как из нейронов, так и из детского конструктора. И мы хотели бы знать, оперирует ли мозг символами на алгоритмическом уровне или нет. Мы приходим к вопросу — а как это всё реализовано в нейронах?.. Простое знание того, что мозг представляет собой сеть из нейронов, мало что нам даёт. Хорошо бы знать, что это за сеть.

Есть ещё один аргумент, который люди приводят: «Символов нет на биологическом уровне». Я думаю, что это нелепый аргумент. Когда мой сын на прошлой неделе освоил деление в столбик, то, следуя алгоритму, он оперировал символами. И люди в обычной жизни тоже так делают. Ещё в 80-х учёные это заметили, они сказали, что символы — это область обработки информации сознанием. Они просто отличаются от того, что мы делаем на бессознательном уровне. Но Пинкер и я утверждали: язык работает и на бессознательном уровне, но и там мы используем символы. На самом деле вопрос не в том, является ли мозг нейронной сетью, а в том, насколько в нём задействованы символьные процессы, а насколько — другие.

Но даже если бы мозг никогда не оперировал символами (что противоречит объективной реальности), зачем исключать их из ИИ? Мы не можем доказать, что они непригодны для решения нашей задачи. Более того, они доказали свою полезность. Большая часть программного кода их использует. Важно отметить, что большая часть зафиксированных знаний о мире записана в символьной форме. Всё в Википедии построено на символах. И хотелось бы иметь возможность использовать эти данные в наших системах машинного обучения.

Про композиционность. Йошуа много говорил о композиционности и ещё сегодня будет. Думаю, он имеет в виду нечто отличное от того, что я имею в виду под этим словом. Он расскажет об этом позже. Возможно, он имеет в виду комбинирование различных частей нейросетей. Я же использую этот термин в лингвистическом смысле, а именно, вопрос композиционности — это как складывать части предложений в большое целое. Хороший пример — на прошлой неделе я посоветовал моему другу Джеффу Клану (Jeff Clune) устроиться в UBC, и советовал UBC его нанять. Мой друг Алан Макворт (Alan Mackworth) мне написал, что Джефф согласился на предложение UBC. И я ответил: «Отлично, он уже сказал мне, что это так или иначе случилось бы». Алан сказал: «Я знал, что ты знал». Теперь в этой аудитории все знают, что Алан знал, что Гэри знал, что Джефф собирался принять предложение работы в UBC. Я не думаю, что мы можем представить это с помощью современных нейронных сетей.

И вряд ли такая система сможет представить разницу между ‘eating rocks’ и ‘eating apples’.

«Есть камни… нельзя, запрещено, нелегально, опасно, нормально». «Есть яблоки… нельзя, запрещено, нелегально, распространено, нормально». «Это хорошая идея — насыпать кофейные зёрна в кукурузные хлопья? Нет, да, хорошая, ага, может быть». «Это плохая идея — насыпать кофейные зёрна в кукурузные хлопья? Нет, да, ага, хорошая, может быть».

Есть знаменитая цитата Рэя Муни (Ray Mooney): «Нельзя втиснуть смысл целого грёбаного предложения в один гребаный вектор». Это утверждение остаётся в силе.

Композиционность — это не только про язык. Это также про освоение различных концепций и их объединение различными способами. На слайде мои дети придумывают новую игру. За десять минут они объединили разные известные им вещи. Дети могут чему-то научиться за несколько подходов, и мы ещё не понимаем, как у них это получается.

Дети Гэри выдумывают иргу “бильярд-боулинг”.
Дети Гэри выдумывают иргу «бильярд-боулинг».

Синтез. Главный вывод, который, я надеюсь, вы извлечете из моего монолога и из наших сегодняшних дебатов, будет о том, в какой степени сошлись два исследователя разума и машинного обучения. Мы оба согласны, что большие данные сами по себе не решат проблему. Мы согласны в том, что многослойные перцептроны сами по себе — не решат задачу. Все, кто смотрит вперёд, должны работать над одними и теми же вещами: композиционностью, логическим выводом (reasoning), причинностью, гибридными моделями, экстраполяцией за рамками пространства обучающей выборки. Мы соглашаемся в том, что нужно искать такие системы, которые представляют больше степеней нейронной свободы, приближаясь к сложности мозга.

В то же время я надеюсь, что убедил вас в том, что вопрос, использовать ли символьные манипуляции, заслуживают более глубокого рассмотрения. Их использует поисковик Google. И, может быть, вам тоже стоит. Мы отмели этот вариант преждевременно, а гибридные нейронно-символьные модели на самом деле процветают, и нет ничего, кроме предрассудков, что удерживало бы нас от принятия большей врождённости. Реальное действие, композиционность, в том, чтобы научить ИИ понимать сложные предложения и идеи, учитывая все их составляющие.

У ИИ было много волн, разные тенденции приходили и уходили. В 2009 году глубокое обучение было не в тренде. Многие люди отрицали его полезность. У меня есть друг, который видел, как Джефф Хинтон (Geoffrey Hinton) выступал с докладом, на который пришёл только один человек. К счастью, Бенджио, Лекун и Хинтон продолжали напирать, несмотря на сопротивление. Я надеюсь, что люди, работающие над символьным ИИ, будут продолжать работать.

Мой прогноз такой — когда Йошуа применит свои невероятные навыки построения моделей к реализации таких, которые учитывают и явно включают в себя операции над переменными, начнётся волшебство. Большое спасибо.

Йошуа Бенджио. Итак, спасибо Маркусу за то, что он собрался и первый прочитал презентацию. Я многое из этого законспектировал. Основные моменты, на которых я хочу сделать акцент — я хочу поговорить об обобщении вне распределения, это перекликается с несколькими вещами, о которых говорил Маркус. Думаю, оно — это больше, чем просто экстраполяция. Я вернусь к этому. Я также расскажу о своих взглядах на то, как глубокое обучение может быть распространено на работу с вычислительными возможностями Системы II, в противоположность тому, чтобы просто брать старые методы и совмещать их с нейронными сетями. Я также хочу кратко рассказать о механизмах внимания и о том, почему они могут предоставить некоторые ключевые компоненты, о которых говорил Гэри, которые наделяют символьную обработку способностью выполнять очень интересные вещи, и про то, как мы можем выполнять их в рамках нейронных сетей. Затем я проведу сравнение с некоторыми из более символьных подходов.

Я хочу прояснить несколько вещей касательно термина «глубокое обучение», так как существует много путаницы вокруг него, особенно когда оно выступает в роли «соломенного чучела» (straw man). В таких случаях оно обычно используется для обозначения многослойных перцептронов варианта 1989 года. Гэри несколько минут назад использовал этот термин в таком же значении. Если вы откроете доклады с последней конференции NeurIPS, то увидите, что ГО — это гораздо больше. ГО — это не конкретная архитектура и не конкретная процедура обучения. Это не обратное распространение ошибки, это не свёрточные сети, не рекуррентные сети и не многослойные перцептроны. Это подвижное понятие, это философия, которая постоянно меняется и расширяется, когда мы добавляем больше принципов в наш инструментарий в попытке понять, как создавать машины, во многих смыслах вдохновлённые устройством мозга и использующие некоторую форму оптимизации (обычно с одной целевой функцией, но иногда есть несколько целей, как у генеративно-состязательной нейросети). В общем, существует скоординированная оптимизация разных частей, и при этом, используются наработки из ранних идей — 80-х годов, такие как представления распределений, совместно с более современными идеями, такими как глубина репрезентаций; также используют преимущества от переиспользования вычислений и представлений в разных задачах и средах, например, в многозадачном обучении (multitask learning), в трансфер-лёрнинге (transfer learning), в обучении обучению (learning to learn) и так далее. И я утверждаю, что инструменты, которые нам помогут двигаться вперед, включают логический вывод (reasoning), поиск, умозаключения (inference) и причинно-следственные связи (causality).

Привяжу это всё к нейробиологии, так так Гэри её упомянул. Последние несколько лет идёт очень интенсивная работа — попытки связать современные исследования в области глубокого обучения с нейробиологией. У нас только что была опубликована статья в Nature Neuroscience под названием «Основы глубокого обучения для нейробиологии» (Deep learning framework for neuroscience). Но у меня не будет времени поговорить об этом сегодня. Касательно потребности в генерализации вне обучающей выборки, — она отлична от обычной генерализации, когда у нас есть данные из одного распределения, и мы пытаемся обобщить на примеры из одного и того же распределения.

Говоря об экстраполяции, Гэри не пояснил, говорим ли мы об обобщении новых конфигураций, поступающих из того же распределения, или о чём-то другом. Таким образом, чтобы можно было изменить ситуацию, нужно задуматься о понятии распределения. Для агентов реального мира оно очень важно, потому что то, что они видят в природе, меняется из-за вмешательств агентов, из-за движения во времени и пространстве. И с недавних пор я являюсь сторонником композиционности. Конечно, меньшим, чем Гэри, но всё же. В 2000-х я пытался выяснить, почему даже у современных нейронных сетей, как и у сетей из 80-х с представлениями распределений, есть мощная композиционная форма (это 5 лет назад). И, аналогично, почему комбинирование слоев привносит некоторую форму композиционности. Мой аргумент — это что у нас есть эти две формы композиционности в нейронных сетях. Мы можем включить форму, о которой любит говорить Гэри, и теперь я тоже, которая во многом вдохновлена работой лингвистов. Но я думаю, что она более мощная и более общая, для того, чтобы быть сводимой просто к языку, и её мы используем в сознательном логическом выводе (reasoning).

По сути, речь о том, как можно объединить существующие понятия таким образом, чтобы вероятность появления элемента в обучающей выборке могла быть нулевой. Дело не только в том, что это будет новый паттерн, это будет такой паттерн, который будет иметь малую вероятность появления в данном пространстве распределений, которое мы уже видели. И всё же наш мозг способен придумывать новые интерпретации и новые комбинации. На NeurIPS я привёл пример вождения в новом городе. Чтобы решить задачу навигации, нужно быть немного креативным и применять в комбинации уже освоенные навыки новыми способами. Эта проблема — не нова для глубокого обучения. Я имею в виду то, что люди думали над ней уже минимум несколько лет. На самом деле мы говорим, что это одна из самых сложных областей глубокого обучения. И мы не нашли для неё решения, но я думаю, что люди начинают понимать такие задачи лучше. И один из компонентов, над которым размышляли некоторые исследователи, имеет решающее значение в этом исследовании. Я говорю сейчас о внимании.

Внимание интересно, потому что оно во многих смыслах меняет саму природу того, что стандартные нейронные сети могут делать. На основе контекста оно создает динамические соединения на лету. Так что в этом механизме ещё больше контекстозависимости. Но она такая, что может способствовать тому, что Гэри называет «свободной генерализацией». Это важный инструмент как для языка, так и для работы сознания. Почему я так считаю? Внимание — это инструмент, который выбирает один низкоуровневый элемент из их набора, и передаёт его «мягким» способом. По крайней мере, мы обычно используем «мягкое внимание» в глубоком обучении.

Получатель получает вектор, но он не знает, откуда этот вектор пришёл. Но чтобы действительно у нас всё хорошо работало, получателю важно знать информацию не только об отправленном значении, но и о том, откуда оно приходит. «Где» — это что-то вроде имени. Но это имя — не символьное. Например, мы используем векторы, которые мы называем ключами (key) в классе моделей-преобразователей (transformer). Можно их рассматривать как некоторый тип ссылки, используемый в нейронных сетях, потому что эту информацию можно передавать дальше и переиспользовать, чтобы сравнивать некоторые два элемента для выполнения дальнейших операций внимания. И это также меняется в нейронных сетях, когда мы переходим от компьютеров, оперирующих векторами, к компьютерам, оперирующим наборами, о чём Гэри говорил в своих предыдущих выступлениях. Я думаю, что это важно для обработки сознанием информации.

Я много говорил о сознании последние пару лет. Накоплен огромный объём исследований по когнитивной нейробиологии сознания. Я пытаюсь на это взглянуть с точки зрения того, как мы можем сформулировать в виде структурных или регуляризирующих прайоров некоторые из вещей, которые обсуждаются в когнитивной науке, в нейробиологии — свойства сознания и другие аспекты высокоуровневой обработки — для построения различных видов нейронных сетей.

Один из таких прайоров я называю «прайором сознания». Его можно реализовать с помощью механизмов внимания, с помощью которых выбирается несколько элементов, находящихся на уровне (state) бессознательного, и далее они поднимаются на более узкий по объёму сознательный уровень. С точки зрения прайоров, это означает, что вместо знания, находящегося в форме, в которой каждая переменная может взаимодействовать с каждой переменной, у этого высокого уровня представления — более разрежённая форма структуры зависимости, в ней есть именно те зависимости, которые связывают лишь несколько переменных вместе, как, например, в предложении: «Если я уроню мяч, он упадет на землю».

Сверху вниз в синих блоках: сознательное состояние С, бессознательное состояние h, входные данные x, большой красной стрелкой обозначено внимание.

Конечно, каждое понятие, например «мяч» из приведённого предложения, может быть использовано во многих таких предложениях. Таким образом, существует множество зависимостей, которые могут быть связаны с конкретной концепции, но каждая из этих зависимостей сама по себе «разрежённая» (sparse), включает в себя лишь несколько переменных. Таким образом, мы можем просто представить это в машинном обучении как разрежённую модель на графах, разрежённый фактор-граф. Это один из прайоров. Причина, по которой такой прайор нам интересен, заключается в том, что мы хотим использовать такие факторы высокого уровня, которые мы используем в языке. Таким образом, существует тесная связь между этими понятиями и языком, просто потому, что те вещи, которые мы делаем сознательно, мы можем сообщить с помощью языка, а те, которые делаем бессознательно, мы сообщить не можем. И для этого есть веская причина. Потому что это просто слишком сложно выразить несколькими простыми словами. Но, что интересно, если мы можем «прикрутить» такие типы прайоров к самому высокому уровню представления наших нейронных сетей, это увеличит шансы найти тот же источник представлений, который люди используют в языке. Я называю их семантическими факторами.

Другой прайор, о котором я говорил, связан с причинностью и изменениями в распределении. Потому что, помните, я начал эту дискуссию с вопроса, «как мы можем изменить наши подходы — усовершенствовать наши глубокие сети так, чтобы они могли быть более устойчивыми к изменениям в распределении». Существует фундаментальная проблема с изменениями в распределении, которая заключается в том, что если мы опустим гипотезу, что тестовые данные находятся в том же распределении, что и обучающие данные, то мы должны добавить что-то еще, верно? Это что-то — принципиально важно для того, чтобы справиться с изменениями в распределении. В противном случае новое распределение может оказаться чем угодно. Поэтому мы должны выдвинуть какие-то предположения, чтобы быть лучше подготовленными к тому, чтобы справляться с этими изменениями в распределении. Я предполагаю, что эволюция заложила подобные предположения в человеческий мозг, и, возможно, в мозг животных. Я предлагаю следующее как прайор: изменения являются результатом воздействия одной или нескольких высокоуровневых переменных, которые мы назовем причинами. Моя позиция во многом вдохновлена работой таких людей, как Шёлькопф (Bernhard Schölkopf), Джонас Питерс (Jonas Peters) и других исследователей в области причинности (causality). Таким образом, есть такой прайор, что многие из переменных высокого уровня, о которых я говорю, являются причинно-следственными переменными. Эти прайоры могут быть причиной или следствием чего-либо, либо они должны быть связаны с тем, как причина вызывает следствие. И здесь предполагается, что изменение локализовано. Мы не можем сказать, что все сразу меняется, когда меняется распределение. Если я закрою глаза или надену темные очки, изменится только одна часть. Только одна переменная. Это значение, так? И мы можем использовать это предположение для изучения представлений, более устойчивых к изменениям в распределении.

Это то, о чём я говорил на моей презентации на NeurIPS. Мы можем воспользоваться этим, введя цель метаобучения, которая гласит: «Чем лучше представление знаний, тем в большей степени оно обладает таким свойством, что при изменении распределения очень мало частей модели необходимо изменить, чтобы учесть это изменение». И поэтому такие сети могут адаптироваться быстрее, у них может быть так называемая «меньшая сложность выборки» (smaller sample complexity), им нужно меньше данных для того, чтобы подстроиться под изменения.

Ещё одна вещь, которую мы исследовали, связана с модуляризацией и систематической генерализацией, — это идея, что мы будем динамически объединять различные части знаний вместе, чтобы обрабатывать каждые конкретные входные данные. Мы недавно написали статью под названием «Независимые рекуррентные механизмы» (Recurrent Independent Mechanisms), в которой представляем наши первые наработки в этой области. Некоторые из основных идей заключаются в том, что у вас есть рекуррентная сеть, она разбита на более мелкие рекуррентные сети, которые можно рассматривать как разные модули, которые мы называем независимыми механизмами. У них есть отдельные параметры, они не полностью связаны друг с другом, и поэтому количество свободных параметров намного меньше, чем в любой обычной большой рекуррентной сети. Вместо этого они обмениваются данными по каналу, в котором использован механизм внимания. Они могут отправлять только именованные векторы, т.е. пары «ключ-значение», и таким образом систему можно легко и быстро настроить. Один и тот же модуль может принимать на вход выходные данные, поступающие от любого модуля, при условии, что они «разговаривают» на правильном языке, что они заполняют правильные слоты, если говорить на языке символьного подхода. Но это всё — векторы, и всё это можно обучить с помощью алгоритма обратного распространения ошибки. И есть также понятие разрежённости (sparsity) — оно про то, какие модули выбираются, и работает в духе теории глобального рабочего пространства, которая исходит из когнитивной нейробиологии.

Теперь я перечислю несколько таких прайоров. Я уже упомянул парочку из них, а другие у меня не было времени затронуть. Итак, прайор сознания. Основная мысль в том, что общее распределение факторов высокого уровня представляет собой разрежённый фактор-граф. О другом прайоре я не говорил, но у него есть хорошие аналоги в классическом, старомодном ИИ, основанном на правилах, и он заключается в том, что зависимости, о которых мы говорили, это не зависимости от экземпляров переменных, они другие. Это не так, что есть отдельное правило для моей кошки, и отдельное — для моего кошачьего корма. Есть общее правило, которое относится и к кошкам, и к кошачьему корму. Мы часто делаем такие вещи в машинном обучении. В области моделей на графах они восходят к свёрточным и динамическим байесовским сетям, у которых есть общие (shared) параметры. И что-то в этом роде также должно присутствовать при представлении зависимостей между факторами высокого уровня.

Я упоминал прайор, что многие высокоуровневые факторы должны быть связаны с некоторыми причинными переменными, или с тем, как причинные переменные взаимодействуют с другими причинными переменными. Это тема для отдельной лекции, но очень тесно связанный с нашей темой, — речь идёт про агентность. Мы — субьекты, мы вмешиваемся в нашу среду. Это тесно связано с аспектом причинности. Переменные высокого уровня, если вы посмотрите на те, которыми мы оперируем в языке, часто имеют отношение к агентам, объектам или действиям, которые опосредуют отношения между агентами и объектами. В литературе по глубокому обучению уже есть несколько работ, в которых пытаются использовать эти прайоры, чтобы придать высокоуровневым агентам такие свойства. И, конечно, когда вы начинаете заниматься такими вещами, как обучение с подкреплением, и особенно обращаете внимание на внутреннее вознаграждение в обучении с подкреплением, вам могут пригодиться эти понятия.

Есть еще один прайор, я его уже упоминал, это идея о том, что изменения в распределении возникают в результате локальных причинных вмешательств. И, наконец, прайор, который связан с предыдущим, но отличается, и его исследовали мои коллеги, например, Леоном Бутю (Leon Bottou) и Мартином Арджовски (Martin Arjovsky) и учёные до него — это идея, что некоторые из знаний, которые находятся на высоком уровне, или даже на низком уровне, соответствуют разным временным шкалам. Есть вещи в мире, которые быстро меняются, есть вещи, которые очень стабильны. Есть общие знания, которые будут неизменными до конца жизни, а есть аспекты мира, которые могут изменяться быстро. Мы запоминаем новые лица, новые приспособления. Это хорошо вписывается в структуру метаобучения, в котором у вас есть быстрое обучение внутри медленного обучения. Я думаю, что это ещё одна важная часть головоломки.

Хорошо, теперь расскажу о том, как это связано с символьным ИИ, и как потенциально от него отличается. Конечно, хорошо бы встроить некоторые функциональные преимущества классического символьного ИИ в нейронные сети, но неявным образом. Поэтому нам необходимо эффективное и скоординированное крупномасштабное обучение, нам нужна семантическое обоснование в Системе I, цикл действий восприятия, нам нужны распределенные представления для генерализации (в случае глубокого обучения это сработало очень успешно). Нам нужен эффективный поиск, основанный на Системе I, нам нужно справиться с неопределенностью, но мы хотим включить и другие вещи, о которых я говорил, которые впервые были исследованы людьми в классическом ИИ, такие как систематическое обобщение, факторизация знаний в небольших взаимозаменяемых частях, манипулируя переменными, экземплярами, ссылками и взаимодействиями. Это связано с тем, почему, по моему мнению, просто взять механизмы старого доброго ИИ и применить их, скажем, к верхнему слою на нейронном выходе — этого недостаточно. Нам нужно глубокое обучение и в Системе II, и в Системе I. Чтобы добиться генерализации, нужно, чтобы эти более высокоуровневые концепции были хорошо обоснованы и имели распределенное представление. Мы не можем использовать грубую силу для поиска в пространстве рассуждений. Нужно также решить, какое представление должно быть у символов. Думаю, мы можем сохранить многие атрибуты символов без того, чтобы включать их явным образом, как в классическом ИИ. Мы, например, могли бы использовать мультимодальные представления распределений в качестве категорий. Мы можем использовать такие вещи, как Gumbel softmax, которые подталкивает к разделению на разные режимы. Мы можем реализовать направления (directions) и переменные. Мы уже можем реализовать рекурсию с помощью рекуррентного процессинга. Мы можем получить некоторый вид контекстной независимости, а она позволяет динамически активировать комбинации механизмов в зависимости от контекста.

Я всё.

Гэри Маркус. Я думаю, что наши взгляды не так уж сильно расходятся, за исключением последней пары слайдов. Я не совсем понял ответ на мой аргумент с Google-поисковиком. Я привёл его в качестве примера гибридной системы, которая работает в реальном мире, она масштабна, она огромна.

Йошуа Бенджио. Так я о нём и не говорил.

Гэри Маркус. Именно. Твоя критика старого доброго гибридного ИИ… Позволь мне просто сказать — старый добрый ИИ целиком и полностью основывается на символах, и я не то, чтобы одобряю это. Я выступаю за совмещение символов и глубокого обучения. Я считаю, что поисковик Google — это существующее доказательство возможности того, что, как ты выразился, не может существовать. Ты говорил, что старый добрый ИИ не сможет представлять вероятности…

Йошуа Бенджио. Почему ты говоришь о Google-поиске? Я же не пытаюсь подражать Google-поиску. Я пытаюсь построить интеллект!

Гэри Маркус. Правильно, ты не пытаешься создать Google-поиск, ты пытаешься создать интеллектуальную систему. А Google-поиск — это в некотором смысле интеллектуальная система, а в некотором — нет. Я думаю, здесь есть два пути развития. Можно сказать, что он настолько отличается от интеллектуальной системы, что он нам неинтересен, или же можно сказать: «он интересен и подтверждает [гибридную] концепцию».

Йошуа Бенджио. Слушай, я полностью согласен с тем, что многие современные системы, использующие машинное обучение, также используют написанные вручную наборы правил, а также код, разработанный людьми на основе того, какое у них есть понимание. Современные системы, в частности, диалоговые системы, мне кажется, это ещё более очевидный пример. Они сочетают в себе современное машинное обучение и много «рукописного» кода. Это также справедливо на данный момент и для беспилотных автомобилей. То есть, в основе всего компьютерного зрения лежит много инженерных разработок. Думаю, здесь нет вопроса. Не думаю, что у нас есть здесь разногласия. Вопрос в том, куда двигаться дальше, чтобы создать что-то более похожее на человеческий интеллект.

Гэри Маркус. Возможно, я неправильно понял твой аргумент. Я хочу повторить, чтобы убедиться, что я понимаю, что ты не утверждаешь, что гибридные системы невозможно создать.

Йошуа Бенджио. Они уже созданы.

Гэри Маркус. Это именно то, что я говорю. Значит я неправильно понял твою позицию.

Йошуа Бенджио. Я говорю о работе мозга и о том, и как нам строить ИИ в будущем.

Гэри Маркус. Давай вернёмся к той части, которая про мозг. Почему тебе не нравится утверждение, что гибриды — часть ответа? Если я правильно тебя понял…

Йошуа Бенджио. Зависит от того, что ты называешь гибридами.

Гэри Маркус. В какой точке ты сходишь с гибридного пути?

Йошуа Бенджио. Я схожу с гибридного пути, когда речь заходит о старых добрых алгоритмах, таких как в как в продукционных моделях знания, онтологиях, правилах и логике. Они имеют большую ценность и, думаю, могут служить источником вдохновения. Но пытаться взять их и прилепить к нейронным сетям… Люди пытались сделать это довольно долго. В 90-е годы было много работ по нейронно-символьным вычислениям. И я попытался обрисовать в общих чертах в моих последних паре слайдов причины, по которым это не сработает. И дело не только в том, как работает мозг, а в том что это не сработает для машинного обучения по объективным причинам, по причинам, связанным с практическими вычислениями. Одной из причин является поиск. Что я имею в виду под поиском? Это то, что мы делаем, когда у нас есть определённые знания, а также правила и части нейронных сетей. И чтобы прийти к новому выводу, мы можем динамически выбирать, какие части идут вместе с какими. В этом и заключается суть рассуждений и планирования. Если немного задуматься о том, как люди планируют или рассуждают, то мы поймём, что они не исследуют миллионы различных траекторий возможных способов объединения вещей, не выбирают тот, который, согласно некоторому критерию, лучше всего работает. По сути, мы пробуем сначала одну вещь, иногда две, и если они не работают, мы пробуем три или четыре, может быть мастера игры в го попробуют даже 50. Но их мозг странный, потому что они обучены. Или люди, которые действительно разбираются в алгебре… Но нормальное человеческое поведение построено на интуитивном поиске. Мы знаем, где искать, и это основано на Системе I, на знании, где искать, к которому у нас нет сознательного доступа. Это одна из причин, по которой мы не можем использовать старые алгоритмы. Другая причина в том, что сами символы… нам нужно представлять информацию более «богатым» способом. Причина, по которой коннекционисты хотели отказаться от символьной обработки, заключается в том, что они думали, что символьное представление недостаточно богато, чтобы получать хорошие обобщения. Хочется представлять повседневные понятия, например слова естественного языка, с помощью субсимвольных представлений, которые включают множество атрибутов. И это позволит нам обобщать схожие вещи. Я читал некоторые из твоих текстов, и ты можешь сказать: «Ну, эти атрибуты похожи на символы». Да, можно было бы так сказать, но важный момент — теперь нужно манипулировать этими богатыми представлениями, которые на самом деле могут быть довольно многомерными. Нам нужно оставить их из мира нейронных сетей. И конечно, нам нужно оставить вещи, которые хорошо работали в машинном обучении, которые включают представление неопределённости — над этим работают такие люди, как Джош Тененбаум (он работает с вероятностным программированием). В этих направлениях предпринимаются определённые усилия. Но нам нужно держать эти составляющие вместе.

Гэри Маркус. Я хочу подчеркнуть те моменты, в которых мы сходимся. Во-первых, я согласен, что у классических символьных систем есть проблемы с поиском. Я думаю, если кто-то хочет сохранить символьные системы, он должен постараться решить эти проблемы. И для этого есть способы, придуманные до этого — например, в Cyc AI (это классический самый большой проект по символьному ИИ), в нём есть микротеории, предназначенные для решения задачи рассуждений в разных областях. Думаю, эту идею стоит изучить подробнее. Но я абсолютно согласен, что если у вас есть неограниченное умозаключение (unbounded inference) [прим. ред.: имеется в виду когда процесс логического вывода ничем не ограничен и может продолжаться до тех пор, пока все возможные следствия из имеющихся фактов не будут выведены. Проблема возникает потому, что это может продолжаться бесконечное время], у вас проблемы. Alphago — это пример, где поиск частично ограничивается (bound) с помощью несимвольной системы, а затем там используется и символьная система. И вот это своего рода гибрид.

Йошуа Бенджио. В каком смысле это символьная система?

Гэри Маркус. Метод Монте-Карло для поиска в дереве.

Йошуа Бенджио. Это поиск, но там, вообще-то, нет символов.

Гэри Маркус. Нужно следить за деревьями, а деревья являются символами. Это фактически подводит меня к отдельной линии обсуждения.

Йошуа Бенджио. Это терминологические споры. Нам нужен поиск — очевидно, что нам нужен какой-то поиск, и если ты хочешь называть это символами… Я думаю, символы для меня имеют другую природу. Символы имеют отношение к дискретности понятий, и это тоже важно. Но, как я коротко упомянул в конце своей презентации, можно получить дискретность и в глубоком обучении, не обязательно в её самой сложной и чистой форме, не как у символов, но можно, имея в нейронных сетях боковое торможение (lateral inhibition), которое создаёт конкуренцию так, что в динамике происходит сходимость к тому или иному режиму. Это то, что мы наблюдаем в случае мозга. Когда человек принимает решение, существует некая конкуренция между различными вариантами потенциальных результатов, и поэтому в динамике выбор остаётся за одним видом дискретного выбора, а не за другим. Но мозг делает это мягким способом, и мозг имеет доступ ко всей этой «мягкой» информации.

Гэри Маркус. Есть ещё одно соображение для тебя. Я думаю, что мы оба считаем, что сторона оппонента делает из нашего детища соломенное чучело. Так, я думаю, что ты отказываешь в надёжности символам, потому что многие люди вложили в символы вероятности и неопределённость, но интересно, что ты думаешь, что я также отказываю в надёжности глубокому обучению. Ты говоришь, что я нападаю на модели в 1980-х, и в этом есть доля правды. Ещё есть вопрос о том, какой должен быть охват (scope). Я думаю, что как для символов, так и для нейронных сетей стоит вопрос о том, каков их охват. И тогда, получается, мы приходим к одной и той же позиции, но с разных сторон. Поэтому я бы сказал, что такие типы глубокого обучения, которые мы унаследовали из 80-х, и которые, на мой взгляд, были в ходу до 2016 года (но можно об этом спорить), типа «просто давайте сделаем большой многослойный перцептрон, давайте набросаем информацию в кучу и будем надеяться на лучшее»… Думаю, ты больше не сторонник такого подхода, но может быть когда-то был. Это один из сортов глубокого обучения, это прототип или даже каноническая форма глубокого обучения. А сейчас задача — открыть глубокое обучение для других вещей. И я думаю, что на каком-то уровне это хорошо, на каком-то уровне, я думаю, это меняет игру.

По части символов, ты можешь подумать, что я делаю то же самое. Поэтому я хочу сказать — конечно, символы, и я хочу дискретность, как у символов, но я очень рад добавить и вероятности, как в вероятностной стохастической грамматике. У меня нет проблем с этим. Я люблю многие из работ Джоша Тененбаума. Его наработки действительно похожи на символьные программы плюс неопределённость. И поэтому я хочу расширить «зонтичность» символов, а ты хочешь расширить «зонтичность» глубокого обучения. Почему бы нам не сказать «давайте построим символьные системы глубокого обучения, тем самым расширив охват как глубокого обучения, так и символьных систем”.

Йошуа Бенджио. Смотри, мне всё равно, какие слова ты хочешь использовать. Я просто пытаюсь создать что-то, что работает, и для этого нужно понять несколько простых принципов. Я согласен с тем, что сегодня мы можем почерпнуть вдохновение в той работе, которая ведётся в области символьного ИИ, но я думаю, что кое-что из этого необходимо переосмыслить. И, между прочим, уже в начале этого десятилетия мы начали делать такие вещи, как механизмы внимания, и тогда же люди занимались обучением с подкреплением. Хотя на самом деле, механизмы внимания появились гораздо раньше. И ещё одна вещь, которую ты должен иметь в виду — я работаю над рекуррентными сетями с 80-х годов, и в некотором смысле различные формы рекуррентных сетей, в том числе стробированные (gated), используют очень похожие принципы. И, опять же, такие модели существуют с начала 90-х годов. Так что это не совсем новая вещь, и есть эволюция моделей. Конечно, мы ведём дальнейшие исследования. Не то, чтобы у нас был один алгоритм, и мы застряли на нём. Мы строим новые модели, и постоянно пытаемся расширить набор принципов, которые доказанно работают. В этом нет ничего плохого.

Гэри Маркус. В самом деле, в этом нет ничего плохого. Я думаю, что сейчас мы должны передать слово Винсенту и публике.

[…]

.
Комментарии