Роботы

Зачем мозгам роботов нужны символы

23 января 2019

+7 926 604 54 63 address

Возможно, нам нужно чем-то дополнить глубокое обучение. И это «что-то» — символьная обработка.

В настоящее время словосочетание «искусственный интеллект», кажется, на устах практически у всех, от Илона Маска до Генри Киссинджера. Как минимум порядка дюжины стран развивают масштабные программы в области ИИ. Такие компании, как Google и Facebook, соревнуются за талантливых специалистов. Но с 2012 года внимание IT-компаний всё больше привлекает одно конкретное направление — глубокое обучение. Это статистическая методика, в которой для аппроксимации сложной динамики в наборах данных большого объёма используются упрощённо смоделированные «нейроны». Использование глубокого обучения привело к ощутимому прогрессу во многих областях: от распознавания речи и шахматных движков до расстановки тегов на фотографиях. Поэтому бытует мнение, что «сверхинтеллект» — компьютер, который будут гораздо умнее людей, — уже не за горами.

На самом деле, это не так. Научить робота распознавать слова в предложении — это не то же самое, что научить его понимать смысл предложения. Такая система голосового сопровождения, как Amazon Alexa, может понять простой запрос типа «включи свет», но до содержательного разговора ей ещё далеко. Робот, конечно, может пропылесосить пол, но ИИ, который приводит робота в действие, остаётся «слабым». И роботы ещё не настолько умны (и надёжны), чтобы, например, доверить им присматривать за детьми. Есть много вещей, которые люди могут делать, а машины всё ещё нет.

О том, что нужно делать дальше, ведётся много дискуссий. Мне ли не знать: уже тридцать лет я вновь и вновь вступаю в споры о природе человеческого разума и о лучшем способе построения ИИ. Я подключился к этой дискуссии ещё во времена учёбы в аспирантуре Массачусетского технологического института (Massachusetts Institute of Technology), когда учился под научным руководством яркого учёного-когнитивиста Стивена Пинкера (Steven Pinker). Я тогда временами отстаивал довольно непопулярную точку зрения: что глубокого обучения, как и предшественников этой парадигмы, недостаточно для отображения разностороннего потенциала человеческого разума.

На прошлой неделе этот вялотекущий спор неожиданно вспыхнул с новой силой на пространстве Твиттера. В комментарии сбежалось множество светлых голов, от Яна Лекуна (Yann LeCun), автора концепции глубокого обучения и ведущего специалиста по ИИ в Facebook, до Джеффа Дина (Jeff Dean), заведующего отделом ИИ в Google, и Джуды Перла (Judea Pearl), лауреата премии Тьюринга из Калифорнийского университета в Лос-Анджелесе (University of California, Los Angeles).

Когда ста сорока символов, предоставляемых Твиттером, стало недостаточно, я попытался сделать шаг назад и объяснить, почему нужно больше, чем просто глубокое обучение; рассказать, где следует искать идеи, которые в сочетании с глубоким обучением выведут ИИ на следующий уровень. Далее я кратко изложу то, о чём, на мой взгляд, весь этот спор.

Всё началось с того, что я прочитал в журнале Technology Review интервью с Йошуа Бенджио (Yoshua Bengio), одним из родоначальников концепции глубокого обучения. Часто изобретатели преувеличивают значимость своих открытий. Но Бенджио наоборот преуменьшил значимость своего, и вместо этого подчеркнул несколько других важных проблем в области ИИ, которые, возможно, придётся решить в будущем. Вот что он написал:

Я думаю, что мы должны рассматривать сложные задачи в области ИИ, а не довольствоваться краткосрочными постепенными улучшениями. Я не говорю, что нужно забыть про глубокое обучение. Наоборот, нужно на него опираться. Но необходимо расширить его, чтобы он мог выстраивать рассуждения, искать причинно-следственные связи, а также исследовать окружающий мир с целью обучения и нахождения информации.

Я согласился почти с каждым словом. Это потрясающе, что Бенджио сказал об этом публично. Меня поразило несколько вещей: (а) изменение точки зрения по сравнению с тем, что сторонники глубокого обучения говорили несколько лет назад (об этом ниже), (б) движение в том направлении, о котором я давно говорил, и (с) тот факт, что об этом заговорил сам Бенджио.

Поэтому я запостил в Твиттере интервью с ним, ожидая, что его ретвитнут максимум несколько человек. Но неожиданно для меня под постом разразился большой флейм.

Вот мой твит — хотя, наверное, флейм его затмил, и никто его не вспомнит:

«Я не говорю, что нужно забыть про глубокое обучение. Наоборот, нужно на него опираться. Но необходимо расширить его функционал, чтобы оно могло рассуждать, находить причинно-следственные связи и исследовать мир вокруг, находить в нём информацию» — вот что говорит Йошуа Бенджио, — почти то же самое, что я говорил в 2012 в интервью The New Yorker.

А кстати, для сравнения, вот что я сказал почти ровно шесть лет назад, 25 ноября 2012 года:

Глубокое обучение — это важная область исследований, у которой есть непосредственные практические применения.
…
В действительности, глубокое обучение — это всего лишь часть более сложной задачи по созданию умных машин. Эти методы не позволяют описывать причинно-следственные связи (например, между болезнями и симптомами) и, вероятно, столкнутся с трудностями при освоении абстрактных идей, таких как «брат» или «идентичный». У нейронных сетей нет очевидных способов построения логических выводов. Они ещё далеки от использования абстрактных знаний, таких как за объекты даны сети, для чего они нужны и как они обычно используются. Самые мощные ИИ-системы … используют глубокое обучение лишь как часть большой сложной комбинации методов, среди которых разные инструменты от байесовского вывода до дедуктивного вывода.

И я остаюсь при своём мнении. Насколько я знаю (хотя я могу ошибаться), это был первый случай, когда кто-то сказал, что глубокое обучение само по себе не станет панацеей. Учитывая то, что мы с Пинкером узнали о более раннем поколении предшествующих моделей, шумиха, которая окружала глубокое обучение, была неоправданной. Шесть лет спустя Бенджио высказал по большому счету то же самое.

Некоторым людям понравился мой твит, другим — нет. Реакция Яна Лекуна была очень негативной. В серии твитов он утверждал (и это была неправда), что я ненавижу глубокое обучение, и что, поскольку лично я не был разработчиком алгоритмов, я не имею права высказываться критически; он также сказал, что если я когда-то наконец и увидел «свет глубокого обучения», то это случилось только сейчас, в рамках нашей дискуссии в Твиттере (это тоже неверно).

Если мы поразмышляем над тем, что было и что не было сказано в споре, что происходит на самом деле, а что нет и над тем, где глубокое обучение до сих пор сталкивается с трудностями, то сможем многому научиться.

Проясняя некоторые заблуждения: я вовсе не ненавижу глубокое обучение. Мы применяли его в моей последней компании (я был основателем и генеральным директором), и, скорее всего, будем применять его опять; было бы очень глупо его игнорировать. Я думаю (и я заявляю это публично, не стесняйтесь меня цитировать), что глубокое обучение — это потрясающий метод решения некоторых видов задач, особенно связанных с классификацией, например таких как распознавание слов и объектов. Но этот метод — не панацея. В дебатах с Лекуном в Нью-Йоркском университете (New York University) я высоко оценил его раннюю работу по свёрточным нейронным сетям. Они являются невероятно мощным инструментом.

Я всегда отдавал положенное (но не бесконечное) уважение глубокому обучению с тех пор, как впервые написал о нём. В том числе и в «Нью-Йоркере» в 2012 году, и в своей статье «Глубокое обучение: критическая оценка» от января 2018 года, где я прямо сказал: «Я не думаю, что мы должны отказываться от глубокого обучения», и во многих других публикациях между 2012 и 2018. Лекун неоднократно и публично выставлял меня в таком свете, будто я только что осознал полезность глубокого обучения. Это далеко не так.

Утверждение Лекуна, что мне нельзя позволять комментировать события в области ИИ, также абсурдно: науке нужны критики (сам Лекун справедливо критиковал глубокое обучение с подкреплением и нейроморфные вычисления). И хотя я лично не являюсь инженером-алгоритмистом, моя критика до сих пор имела длительное прогностическое значение. Как пример можно вспомнить эксперименты, которые я проводил на предшественниках глубокого обучения, результаты которых были впервые опубликованы в 1998 году. Они сохраняют актуальность по сей день, и это показано в недавних работах про более современные модели авторства Брендана Лейка (Brendan Lake), Марко Барони (Marco Baroni) и самого Бенджио. Если учёные в той или иной области вместо того, чтобы ответить на критику, пытаются не дать ей хода, и если научные исследования вытесняются политикой, значит что-то пошло не так.

Но Лекун прав в одном; есть кое-что, что я действительно ненавижу. Это идея о том, что глубокое обучение не имеет очевидных ограничений и сама по себе может привести нас к интеллекту человеческого уровня, если мы просто дадим нейронным сетям немного больше времени и немного больше данных, как утверждал в 2016-м году Эндрю Ын (Andrew Ng), который возглавлял исследования ИИ в Google Brain и Baidu. Ын предположил, что ИИ, под которым он имел в виду, в основном, глубокое обучение, «сейчас или в ближайшем будущем» сможет выполнять «любые интеллектуальные задачи», которые может выполнить человек, «менее чем за секунду».

Как правило, хотя и не всегда, критику глубокого обучения либо игнорируют, преднамеренно или нет, либо отклоняют, часто с переходом на личности. Всякий раз, когда кто-то указывает на то, что у глубокого обучения могут быть определённые ограничения, всегда находится кто-то вроде Джереми Ховарда (Jeremy Howard), бывшего главного научного сотрудника Kaggle и основателя fast.ai, кто скажет, что идея о том, что глубокое обучение слишком «хайпово», сама по себе слишком «хайповая». Люди, которые задают тон в области ИИ, такие как Ян Лекун, признают, что какие-то пока неясные ограничения у метода должны быть, но они редко указывают, какие это ограничения, помимо зависимости от больших объёмов данных. Именно поэтому новый отчёт Бенджио был настолько примечательным.

Некоторые используют непрозрачность глубокого обучения (нейронные сети рассматривают как «чёрный ящик»), чтобы развить аргумент о неизвестности предела их возможностей. Например, на прошлой неделе один из отцов-основателей машинного обучения Томас Диттерих (Thomas G. Dietterich) в ответ на вопрос об ограничениях глубокого обучения сказал:

Мы ещё не знаем ответа. Глубокое обучение продолжает оставаться очень продуктивной парадигмой. Мы всё ещё находим новые архитектуры сетей с высокой производительностью, а также интересные стратегии мета-обучения (meta-learning) и переноса обучения (transfer learning).

Диттерих, конечно, технически прав: никто пока не предоставил формальных доказательств существования у глубокого обучения ограничений. Поэтому однозначного ответа не существует. И он также прав насчёт того, что глубокое обучение продолжает развиваться. Но в твите (в котором повторён аргумент, который я слышал много раз, в том числе и от Диттериха) автор пренебрегает тем фактом, что у нас также есть много убедительных доказательств существования по крайней мере некоторых ограничений. Это и эмпирически наблюдаемые ограничения в способности рассуждать, и плохое понимание естественного языка, и уязвимость, когда сети «скармливают» «состязательные примеры». (В конце этой статьи я приведу пример такого ограничения в области распознавания объектов, якобы сильной стороны глубокого обучения).

В качестве другого примера рассмотрим широко известную статью 2015-го года в Nature о глубоком обучении авторства Лекуна, Бенджио и Джеффри Хинтона (Geoffrey Hinton), трио, которое больше всего ассоциируется с изобретением глубокого обучения. В статье подробно рассказано о его сильных сторонах. И снова многое из написанного является правдой, но почти ничего не было сказано об ограничениях. После прочтения может остаться впечатление, будто глубокое обучение — это гораздо более широко применяемый инструментарий, чем на самом деле. Выводы статьи усиливают такое впечатление — авторы предполагают, что исторический антипод глубокого обучения — символьные операции и классический ИИ — нужно чем-то заменить: «необходимы новые парадигмы, чтобы заменить основанные на правилах операции с символьными выражениями на векторах больших размерностей». Традиционное окончание многих научных статей — перечисление ограничений — здесь по существу отсутствует. Это наводит на мысль о том, что сфера применения глубокого обучения безгранична. Представляется, что символьные операции скоро оставят на свалке истории.

Стратегия, при которой подчёркивается сила метода, но ничего не говорится о его ограничениях, ещё чётче прослеживается в статье в Nature от 2017 года. Статья рассказывает про AlphaGo, проект компании DeepMind. Из неё точно также можно сделать вывод о практически безграничных возможностях глубокого обучения с подкреплением. Авторы предполагают, что игра в го — одна из самых сложных задач в области ИИ: «Наши результаты убедительно показывают, что глубокое обучение с подкреплением можно использовать даже в самых сложных областях», — но не признают, что другие сложные задачи по своему характеру качественно отличаются от го, и вполне вероятно, что их не удастся решить с помощью аналогичных подходов. Например, в большинстве сложных задач доступной информации куда меньше, чем в этой игре. Я подробно останавливаюсь на этом вопросе в другой статье.

Меня очень беспокоит то, что область опирается — в основном или исключительно — на сильные стороны недавних открытий, не признавая открыто возможных слабых мест, которые были хорошо документированы.

По моему мнению, глубокое обучение — это действительно здорово, но это не тот инструмент, который можно применить для имитации процессов мышления. Это средство для классификации воспринимаемой информации, но универсальный интеллект — гораздо больше, чем просто классификация. В 2012 году я говорил (и никогда не отрекался от этих слов), что глубокое обучение должно быть лишь частью системы искусственного интеллекта, «только одним элементом из большого набора», как я сформулировал тогда и «не универсальным инструментом, а всего лишь одним из многих», как я выразился в январе. Оно, как и все остальные методы, является инструментом со своими сильными и слабыми сторонами. Это ни для кого не должно быть сюрпризом.

Если я критикую парадигму глубокого обучения, это не значит, что я думаю, что на его место должно прийти что-то другое (в отличие от того, что утверждают Хинтон, Лекун и Бенджио, для которых главная цель игры — «победить» все предыдущие подходы). Я делаю это потому, что я думаю, что (а) оно переоценено (см., например, цитату Эндрю Ына или общий тон статьи о DeepMind в Nature от 2017 года), внимание было приковано к сильным сторонам концепции, а не к потенциальным ограничениям; и (б) энтузиазм по отношению к глубокому обучению часто (хотя и не всегда) сопровождается недооценкой важности символьных операций. Это, по-моему, является фундаментальной ошибкой при поиске решения проблемы ИИ.

Я думаю, что гораздо более вероятно, что оба метода — и глубокое обучение, и символьные операции — будут сосуществовать. Глубокое обучение будет отвечать за задачи классификации, а символьная обработка будет играть жизненно важную роль в выполнении рассуждений об абстрактном знании. Часто прогресс в области слабого ИИ и глубоком обучении интерпретируют как то, что нам больше не нужны символьные операции. Я думаю, что это заблуждение.

Так что же такое символьные операции, и почему я стойко за них цепляюсь? Эта идея восходит к самым ранним дням информатики (или даже к более раннему времени развития формальной логики): символы могут обозначать понятия, и операции с символами могут помочь понять смыслы, которые эти символы обозначают. Если вы знаете, что P подразумевает Q, вы можете сделать вывод, что если не-Q, значит не-P. Если я скажу вам, что plonk всегда подразумевает queegle, но queegle — неверно, то можно сделать вывод, что plonk — в данном случае неверно.

В своей книге 2001 года «Алгебраический разум» (The Algebraic Mind) я утверждаю, продолжая традицию когнитивных психологов Аллена Ньюэлла (Allen Newell), Херба Саймона (Herb Simon) и моего наставника Стивена Пинкера, что человеческий разум включает, помимо других инструментов, набор механизмов для отображения структурированных наборов символов в виде, похожем на иерархическое дерево. Что ещё более важно, я утверждаю, что жизненно необходимым компонентом мышления является способность усваивать абстрактные отношения, выраженные через переменные. Такие же, с какими мы сталкиваемся в алгебре, когда изучаем уравнения типа x = y + 2, а затем вычисляем x для заданного значения y. Сопоставление y определённому значению (скажем, 5) называется связыванием (binding), а процесс, который объединяет это значение с другими элементами я буду называть операцией. Центральной идеей моей книги было то, что подобные символьные процессы — представление абстракций, присвоение переменным конкретных значений, а также применение операций к этим переменным — являются незаменимыми для человеческого разума. Я подробно показал, что ярые сторонники нейронных сетей на свой страх и риск часто игнорируют это.

Суть аргумента — показать, что модели нейронных сетей делятся на два класса. Первый — «имплементационный коннекционизм» — имеет механизмы, формально сопоставимые с символьными операциями, а второй, «элиминационный коннекционизм» — нет. Для моделей, которые успешно осваивали различные факты, прежде всего о человеческом языке, были приведены аналогии с символьной логикой, а для тех, которые нет, — нет.

Я также отметил, что правила допускают свободное обобщение универсалий (как я это назвал), в то время как многослойные перцептроны требуют больших наборов данных, чтобы как-то аппроксимировать универсальные отношения между объектами. Эту проблему упоминает Бенджио в своей недавней статье по естественному языку.

Никто пока не знает, как мозг работает с переменными или связывает их со значениями экземпляров. Но есть убедительные доказательства (рассмотренные в книге), которые позволяют предположить, что мозг может это делать. Практически все согласны с тем, что, по крайней мере, некоторые люди могут выполнять эти действия, занимаясь математикой и формальной логикой, и большинство лингвистов согласятся с тем, что мы проделываем это в процессе понимания языка. На самом деле вопрос не в том, способен ли человеческий мозг вообще оперировать символами, а в том, насколько широко мозг использует такие операции.

Другая, второстепенная цель книги была показать, что построить примитивы символьного оперирования, используя в качестве элементов искусственные нейроны, в принципе, возможно. Я изучил несколько старых идей, таких как динамическое связывание через временные колебания (dynamic binding via temporal oscillation), и лично сам отстаивал подход «слотов и заполнителей» (slots-and-fillers), который предусматривает наличие банков узловых единиц (banks of node-like units) под определёнными кодами, такими как ASCII. Сети памяти (memory networks) и дифференцированное программирование (differentiable programming) делали примерно что-то похожее, конечно с более современными (включаемыми — embedding) кодами, но следуя похожему принципу, включая манипулирование символами с помощью операций, похожих на команды микропроцессора. Я настроен умеренно оптимистически по поводу того, что для таких задач, как логический вывод, этот подход сработает лучше. Как только у нас будет достаточно надёжная машинно-интерпретируемая вероятностная база данных абстрактного здравого смысла, мы сможем использовать этот подход.

Вне зависимости от того, что вы думаете о мозге, практически всё программное обеспечение в мире построено на символах. Каждая строка компьютерного кода на самом деле является описанием некоторого набора операций над переменными: если X больше, чем Y, делайте P, в противном случае делайте Q; соедините A и B вместе и сформируйте что-то новое; и так далее. Нейронные сети могут (в зависимости от структуры и от того, можно ли их действиям сопоставить операции над переменными) предложить совершенно иную парадигму. Они полезны для таких задач, как распознавание речи, — никто сейчас не будет использовать для этого наборы правил — и на то есть причина. Но никто не возьмётся писать браузер, используя глубокое обучение с учителем (supervised learning) и наборы входных (логов, кликов пользователей) и выходных данных (изображения на экранах, загруженные пакеты). Насколько я понимаю из того, что говорит Лекун, большая часть ИИ Фейсбука — это нейронные сети, но нельзя сказать, что Facebook полностью обходится без символьных операций.

И хотя символы могут больше не использоваться в распознавании речи и, очевидно, не могут взять на себя все задачи из сферы познания и восприятия, есть множество задач, в которых они всё ещё применимы. Это такие задачи, для которых пока нет решения ни в мире классического ИИ, основанного на символьных манипуляциях, ни в мире глубокого обучения. Среди этих задач — абстрактное мышление и естественный язык, сферы, для которых и были изобретены инструменты формальной логики и символьного мышления. Для тех, кто всерьёз пытался разобраться в области формирования рассуждений (commonsense reasoning), моя мысль будет довольно очевидной.

Отцы-основатели глубокого обучения, отчасти по историческим причинам, которые относятся к раннему времени существования ИИ, настроены очень враждебно к возможности включения такого метода в свои модели. Например, Хинтон (Hinton), выступая в Стэнфорде с речью под названием «Эфирные символы» (Aetherial symbols) в 2015 году, пытался доказать, что идея о рассуждениях с помощью символов формальной логики является «столь же неверной, как и мысль о том, что свет может перемещаться в пространстве, только вызывая возмущения в «светоносном эфире».

По-моему, Хинтон не привёл аргументов, подтверждающих своё высказывание (я был в аудитории). Вместо этого он, как мне кажется, рассуждал о том, как отобразить иерархические наборы символов с помощью векторов. Но это не делает символы «эфирными», эфемерными — напротив, это делает их достаточно реальными каузальными элементами, при этом с очень конкретной реализацией. У Хинтона вышло скорее опровержение, чем защита своего аргумента. (Я попросил его уточнить, но он отказался). С научной точки зрения (в отличие от политической) вопрос не в том, что именно мы назовём такой ИИ-системой, к которой мы стремимся. Основной вопрос — как она должна работать? Будет ли она включать примитивы, которые служат воплощением аппарата символьной логики (так работают, например, современные компьютеры), или она будет работать на совершенно других принципах? Я думаю, что ответом будет и да, и нет: некоторые — но не все — задачи в любой системе общего ИИ, будет идеально удобно решать с помощью примитивов символьной логики.

Это на самом деле довольно умеренная позиция, я в ней отдаю должное обоим подходам. Однако сейчас мы находимся в ситуации, когда подавляющее большинство специалистов в области машинного обучения отказываются от открытого использования символьных выражений в моделях (например, «у собак есть носы, которыми они нюхают») или операций над переменными (например, алгоритмы, проверяющие, являются ли наблюдения P, Q и R логически непротиворечивыми).

Сейчас огромному количеству исследователей комфортнее работать с векторами. Каждый день учёные достигают новых высот в их использовании; для большинства из них символьные выражения и операции над ними не являются частью используемого инструментария. Но то, чего они достигают с помощью нейронных сетей, в какой-то мере предсказуемо: в основном они сокращают время обучения — нейронные сети быстрее постигают, как расставлять метки тех или иных классов данных; точность решения задач по классификации повышается. Не менее предсказуемы и те области, в которых меньше достижений: мышление и понимание языка. Это именно те сферы, на которые мы с Бенджио пытаемся обратить внимание. Глубокое обучение само по себе не решило эти задачи, даже после миллиардов долларов инвестиций.

Интуитивно кажется, что эти области вращаются вокруг комбинирования сложных концепций, и инструменты классического ИИ — как раз то, что идеально подходит для таких вещей. Зачем тогда продолжать их игнорировать? Символы также дают возможность включать все мировые текстовые знания, начиная от Википедии и заканчивая учебниками; глубокое обучение не имеет очевидного способа включения в ИИ основных фактов, таких как «у собак есть носы»; у него нет способа накапливать эти знания и делать из них выводы. Если мы мечтаем создавать машины, которые учатся, читая Википедию, нам следует задуматься над тем, чтобы начать со среды, которая совместима с накопленными нами знаниями.

Самый важный вопрос, на мой взгляд, который я поднял в дискуссии в Твиттере, такой: может ли глубокое обучение дать нам сильный искусственный интеллект? Или оно может работать только с задачами классификации данных? Или есть что-то среднее между этими двумя точками зрения? Что ещё нужно?

Символьные операции не справятся с этой задачей сами, и глубокое обучение само по себе — тоже. Пора объединить их, создать инновационную гибридную технологию.

Сразу после того, как я закончил первый черновик этого эссе, Макс Литтл (Max Little) обратил моё внимание на новую статью Майкла Олкорна (Michael Alcorn), Анха Нгуена (Anh Nguyen) и других, которая заставила меня задуматься. В ней говорится о рисках, связанные с тем, что мы возлагаем слишком много ожиданий на нейронные сети и большие данные. В частности, они показали, что стандартные нейронные сети часто дают сбой, когда сталкиваются с обычными графическими входными данными, необычно повёрнутыми в трёхмерном пространстве. Например, как в верхнем правом углу на этой картинке. Здесь школьный автобус ошибочно принят за снегоочиститель:

Классификации ИИ, справа налево и сверху вниз (зелёным отмечена правильная версия):
(а) школьный автобус, (b) мусоровоз, (с) боксёрская груша, (d) снегоуборочная машина.
(а) мотороллер, (b) парашют, (с) бобслей, (d) парашют.
(а) пожарная машина, (b) школьный автобус, (с) пожарное судно, (d) бобслей.

В нормально развивающейся области при обнаружении систематического класса неожиданных, но поучительных ошибок всё бы остановилось. Все бы начали переживать, что существует нерешённая проблема. Ошибка с классификацией опрокинутого школьного автобуса — это не просто ошибка, это ошибка, выводящая всё на чистую воду. Она указывает не только на то, что системы глубокого обучения могут запутаться, но и на то, что они поставлены перед фундаментальным отличием, известным всем философам: им нужно отличать свойства, основанные на ассоциациях (снег часто, но не всегда, присутствует на тех же фотографиях, что и снегоочистители), от свойств, которые являются неотъемлемыми для определённой категории вещей (снегоочистители должны, при прочих равных, иметь отвалы, которые отсутствуют разве что у разобранных машин). Ранее уже встречались подобные примеры с придуманными входными картинками-обманками. Например, можно вспомнить бейсбольный мяч Аниша Аталье, сделанный с помощью трёхмерный печати и покрытый пеной. Нейронная сеть ошибочно принимала его за эспрессо:

Полученные Олкорном результаты — среди прочего он использовал обычные фотографий окружающего мира — должны были выдвинуть эту проблему на передний план и вызвать серьёзное беспокойство.

Первоначальная реакция на происходящее, однако, была далека от заламывания рук. Она была скорее пренебрежительной. Таков был, например, твит Лекуна, который сравнивал графические стимулы в неканонических ракурсах с картинами Пикассо. Читатель может судить сам, но надо отметить, что в правой колонке представлены фотографии естественных объектов, они не нарисованы и не созданы на компьютере. Они не являются продуктами воображения, а отражают по-настоящему существующее ограничение нейронных сетей, с которым ещё предстоит разобраться.

На мой взгляд, глубокое изучение достигла момента подведения неких итогов. Когда выдающиеся лидеры области начинают это отрицать, возникает проблема.

Это заставляет меня вернуться к выводам Олкорна — совершенно правильным; на них следует обратить внимание всем, кто работает в области: «современные DNN [Deep Neural Networks, глубокие нейронные сети] хорошо классифицируют изображения, но всё ещё далеки от реального распознавания объектов». Как выразились авторы статьи, «DNN понимают такие объекты, как „школьный автобус“ и „пожарная машина“, довольно наивно». Это очень похоже на то, о чём я говорил 20 лет назад в контексте языковых моделей на основе нейронных сетей. Я тогда предположил, что концепции, приобретённые Simple Recurrent Networks, — слишком поверхностные.

Какая техническая задача движет новыми результатами Олкорна и коллег?

Как Олкорн с коллегами сформулировал:

Глубокие нейронные сети могут не смочь классифицировать входные данные, которые находятся вне нормальной выборки — например даже естественные, несостязательные, примеры, которые распространены в реальных жизненных условиях.

Смешно, что они это упомянули. Главная мотивация к использованию символьных операций, которую я дал ещё в 1998 году, заключалась в том, что у обратного распространения ошибки (которое тогда использовалось в моделях с меньшим количеством слоёв — в моделях-предшественниках глубокого обучения) были трудности с генерализацией за пределами обучающего набора данных.

И эта проблема не исчезла.

А ведь распознавание объектов должно быть сильной стороной глубокого обучения. Если глубокое обучение не может распознавать объекты в необычных положениях, почему же мы ожидаем, что оно сможет рассуждать на повседневные темы? Это задача, по которой его использование никогда не было перспективным.

На самом деле, стоит ещё раз пересмотреть мои выводы от 1998 года:

Люди способны выполнять обобщение широкого спектра универсалий на произвольные новые случаи. Обобщения используются во многих областях языка (включая синтаксис, морфологию и дискурс) и мышления (включая транзитивный вывод [transitive inference], логическое следование и отношения включения множеств).
Сторонники символьных операций предполагают, что разум демонстрирует механизмы символьных манипуляций, включая сами символы, а также категории, переменные, механизмы сопоставления экземпляров категориям, а также представления и расширения связей между переменными. Всё это предоставляет простую основу для понимания того, как универсалии распространяются на произвольные новые объекты.
Текущие элиминативные коннекционистские модели осуществляют отображение входных векторов на выходные, используя алгоритм обратного распространения ошибки (или один из его вариантов).
Для обобщения универсалий на произвольные новые экземпляры эти модели должны были бы обобщать за пределами обучающих примеров.
Но эти модели не могут обобщать за пределами пространства тренировочных экземпляров.
Таким образом, современные элиминативные коннекционистские модели не могут смоделировать те когнитивные явления, которые включают свободно распространяемые на произвольные случаи универсалии.

Недавняя статья Ричарда Эванса (Richard Evans) и Эдварда Грефенштетта (Edward Grefenstette) в DeepMind, основанная на посте Джоэля Груса (Joel Grus) про игру физз-базз (Fizz-Buzz), говорит примерно о том же. Авторы заключают, что каноническая многослойная сеть не могла самостоятельно понять, как играть в эту простую игру, «потому что она не обладает знаниями общих, определённых квантором всеобщности (universally quantified) правил, необходимых для понимания предлагаемых заданий». Это абсолютно то же самое, о чём я говорил в 1998 году.

Какое решение предлагают эти авторы? Гибридную модель, которая значительно превзошла бы то, на что способно одно только глубокое обучение, включающую как обратное распространение ошибки, так и (непрерывные версии) примитивов операций с символами, таких как переменные и операции над ними. И это действительно показательно. Мы все должны ориентироваться именно на это направление: градиентный спуск плюс символы, а не только градиентный спуск. Если мы хотим прекратить путать снегоуборочные машины со школьными автобусами, нам придётся смотреть в том же направлении. Потому что основная проблема одна и та же: практически во всех аспектах сознания, даже в визуальном восприятии, иногда мы сталкиваемся со стимулами, которые находятся за пределами домена обучения; когда это происходит, глубокое обучение даёт сбои и нам нужны другие инструменты, чтобы ему помочь.

Я всего лишь говорю, что надо дать шанс всем P (и Q).