Котики и искусственный интеллект, или Как физики космос посчитали

+7 926 604 54 63 address
Панкадж Мехта и Дэвид Шваб, авторы исследования.
Панкадж Мехта и Дэвид Шваб, авторы исследования.

С того момента, когда в 2012 году компьютер впервые научился распознавать котиков в видео на YouTube, а несколько месяцев назад смог правильно подписать фотографию «группы молодых людей, играющих во фрисби», исследователи искусственного интеллекта отпраздновали триумфальное появление новых побед в сфере «глубокого обучения» (deep learning) — весьма успешного набора алгоритмов, в общих чертах повторяющих увеличение чувствительности мозга к признакам окружающего мира с помощью прямого воздействия.

Компьютерные модели, состоящие из искусственных нейронных сетей, используют новейшие протоколы глубокого обучения и становятся всё более искусными в распознавании изображений, речи и образов — ключевой технологии для создания роботизированных персональных помощников, анализа сложных данных и самоуправляемых автомобилей. Но при всей очевидности прогресса в развитии обучаемых компьютеров при отделении характерных признаков и несущественных единиц информации, исследователи не до конца понимают работу алгоритмов и сам феномен биологического обучения.

Совсем недавно два физика доказали, что одна из форм глубокого обучения работает в точности как наиболее важный и повсеместно применяемый в физике математический метод — процедура расчёта поведения на больших масштабах таких физических систем, как элементарные частицы, жидкости и космическое пространство.

Новая работа доцента Бостонского университета Панкаджа Мехты (Pankaj Mehta), написанная в соавторстве с доцентом Северо-Западного университета Дэвидом Швабом (David Schwab), наглядно показывает, что статистический метод «перенормировки», дающий физикам возможность точно описывать системы, не располагая при этом точными данными о состоянии всех компонентов, также позволяет искусственным нейронным сетям классифицировать прочие данные (например, «котика» в видеоролике) независимо от его цвета, размера или позы.

«Они убедительно и с точными доказательствами изложили на бумаге теорию, о которой люди могли лишь мечтать, — пишет Илья Неменман (Ilya Nemenman), биофизик из Университета Эмори. — Извлечение релевантных признаков в контексте статистической физики и извлечение релевантных признаков в контексте глубокого изучения — это не просто схожие выражения. По сути, они едины и являются одним целым».

Что касается нашей потрясающей природной способности определять котика в кустах, выделять знакомое лицо в толпе или любой объект в окружающем водовороте из красок, текстур и звуков, то значительные соответствия между глубоким и биологическим обучением подсказывают, что наш мозг также использует некую форму перенормировки, чтобы осмыслить окружающий мир.

«Возможно, существует некая универсальная логика в том, как мы выбираем релевантные признаки из набора данных», — пишет Мехта. — Я бы назвал это прямым намёком на то, что нечто подобное существует».

Это открытие формализует ту философскую схожесть между физическими методами и процедурами обучения в распознавании речи или объектов, которую наблюдают Шваб, Мехта и другие исследователи. «Перенормировка — это процесс, когда из действительно сложной системы извлекаются фундаментальные части, — отмечает Шваб. — Этим процессом заняты глубокие нейронные сети. Это работа и биологического мозга».

Пёстрый кот в траве

Послойное обучение

Всего десять лет назад было очевидно, что глубокое обучение не работает. Компьютерные модели, выполняющие процедуру распознавания, зачастую были не в состоянии идентифицировать объекты на фотографиях или произносимые слова в аудиозаписях.

Джеффри Хинтон (Geoffrey Hinton), британский специалист по информатике из Торонтского университета, и другие исследователи разработали процедуру, которая должна работать в многоуровневой сети виртуальных нейронов, передающих сигналы «возбуждения» и «торможения» своим соседям. Строение этих «глубоких» нейронных сетей было основано на многоуровневой архитектуре зрительной зоны коры головного мозга человека — области, отвечающей за преобразование потока фотонов в значимые, осознанные образы.

Когда человек смотрит на кошку, которая идёт по газону, зрительная зона коры головного мозга, по всей видимости, обрабатывает всю сцену иерархически, с возбуждением нейронов в каждом последующем слое в ответ на крупномасштабные, ярко выраженные признаки. Сначала возбуждаются нейроны в сетчатке, если они обнаруживают контрасты в своем участке поля зрения, указывающие на край или на конечную точку. Эти сигналы передаются нейронам более высокого уровня, обладающим как чувствительностью к различным комбинациям граней, так и к другим, более сложным деталям. По мере перемещения вверх по слоям, сигнал о наличии усов может кооперироваться с другими сигналами, к ним добавляется сигнал о наличии навострённых ушей и все вместе они приводят в действие нейроны верхнего уровня, которые отвечают за формирование самой концепции «котика».

Десять лет назад Хинтон попытался повторить процесс, посредством которого развивающийся мозг младенца становится восприимчивым к соответствующим корреляциям в восприятии чувственной информации, обучаясь группировать усы с ушами, а не с цветами, стоящими на заднем плане. Хинтон попытался обучить глубокие нейронные сети, применив простое правило обучения, изобретённое им в соавторстве c нейробиологом Терри Сейновски (Terry Sejnowski) в восьмидесятых годах прошлого века. Когда звуки или изображения загружались в нижние слои глубокой нейронной сети, эта информация провоцировала срабатывание целого каскада возбуждения нейронов. Возбуждение одного из виртуальных нейронов также могло вызвать срабатывание подключённого нейрона в смежном слое, в зависимости от прочности связи между ними. Первоначально всем связям было присвоено случайное распределение сил, но когда два нейрона возбуждались в ответ на полученную информацию, алгоритм Хинтона и Сейновски определял, что их соединение следует усилить, повышая вероятность того, что эта связь будет и далее успешно передавать сигналы. И наоборот, малоиспользуемые связи были ослаблены. По мере того, как обрабатывалось всё большее количество изображений или звуков, их шаблоны постепенно проложили своеобразные «колеи» в сети, подобно системам трибутарных потоков, струящиеся сквозь слои вверх. В теории, трибутарные потоки должны были сходиться в небольшое количество нейронов верхнего уровня, отвечающих за распознавание звуковых или объектных категорий.

Но на практике проблема заключалась в том, что данным требовалось слишком много времени, чтобы проделать весь путь от нижнего сетевого уровня до уровня категорий, расположенного наверху. Очевидно, что алгоритм был недостаточно эффективен.

Рыжий кот и жёлтые листья

В 2005 году Хинтон со своими коллегами разработал новый тренировочный режим, вдохновлённый различными аспектами развития головного мозга, о которых он впервые узнал будучи студентом Кембриджского университета в шестидесятых годах прошлого века. Проводя вскрытие головного мозга кошек, биолог Колин Блэкмор обнаружил, что зрительная зона коры головного мозга развивается в несколько этапов, настраивая связи в ответ на получение сенсорной информации послойно, начиная с сетчатки.

Для того чтобы воссоздать подобное развитие зрительной зоны коры головного мозга, Хилтон запустил обучающий алгоритм в своей сети послойно, обучая связи внутри каждого слоя перед использованием выходного сигнала (приблизительного представления исходных данных) в качестве ввода для обучения вышестоящего слоя, и затем выполнил точную настройку всей сети. Обучающий процесс стал значительно эффективней. Вскоре после этого, глубокое обучение било все рекорды точности распознавания образов и речи. В компаниях Google, Facebook и Microsoft возникли целые программы научных исследований, посвящённых этому методу.

«В руках Хинтона [и других исследователей] глубокие нейронные сети стали лучшими классификаторами из известных нам, — пишет Нафтали Тишби (Naftali Tishby), специалист по вычислительной нейробиологии и информатике из Еврейского университета в Иерусалиме. — Для теоретиков в области машинного обучения это было очень неприятно — ведь они не понимали, почему это работает так хорошо».

Глубокое изучение в значительной степени работает по тому же принципу, что и головной мозг. Разумеется, данная аналогия далека от совершенства, поскольку биологические кортикальные слои устроены гораздо сложнее искусственных — они обладают своими внутренними сетями, живущими по неизвестным алгоритмам. С момента прорыва, совершённого Хинтоном, глубокое обучение разделилось на множество собственных направлений, используя биологически неправдоподобные алгоритмы для решения множества обучающих задач. Но Хинтон, который в настоящее время делит своё время поровну между Торонтским университетом и компанией Google, ключевым принципом, лежащим в основе машинного и биологического обучения, считает следующую формулировку: «Сначала необходимо изучить простые признаки, и уже на основе этого знания вы осваиваете более сложные признаки; этот процесс происходит в несколько этапов».

Кварки в таблицах

В 2010 году Шваб, будучи научным исследователем-биофизиком в Принстонском университете, отправился на поезде в Нью-Йорк, чтобы послушать лекцию Хинтона о глубоком обучении. Послойная процедура обучения Хинтона сразу же напомнила ему о технике, которая широко используется в физике. Шваб так сформулировал своё отношение к ней: «квинтэссенция того, чем, по сути, является физика».

Вернувшись в Принстон, Шваб позвонил Мехте и спросил его, не напоминает ли ему глубокое обучение перенормировку. Они были друзьями и коллегами, познакомившись годами ранее на летней исследовательской программе, и часто обсуждали различные «безумные идеи». Мехта не посчитал эту идею особенно «безумной», и они приступили к работе, пытаясь выяснить, являлась ли их догадка правильной. «Мы созванивались по ночам и подолгу обсуждали эту теорию, — делится Мехта. — Мы оба были одержимы этой идеей».

Перенормировка — это систематический способ перехода от микроскопической к макроскопической картине в физической системе, с особой фиксацией на элементах, которые влияют на поведение в крупном масштабе и усредняют остальные. К счастью для физиков, большинство микроскопических деталей не имеют большого значения; описание таблицы не требует знаний о взаимодействии между всеми её субатомными кварками. Однако необходим набор сложных схем аппроксимации для масштабного преобразования, чтобы можно было расширять релевантные детали и размывать незначительные во время этого процесса.

Метод, изобретённый Лео Кадановым в 1966 году для описания решётки «спинов» при изменении разрешения, является аналогом современного протокола глубокого обучения. Иллюстрация Алёны Шмахало / Quanta Magazine.
Метод, изобретенный Лео Кадановым в 1966 году для описания решетки «спинов» при изменении разрешения, является аналогом современного протокола глубокого обучения. Иллюстрация Алёны Шмахало / Журнал Quanta.
Прорыв в исследовании у Мехты и Шваба случился в баре на Джазовом фестивале в Монтрё, когда они решили сосредоточиться на так называемой «вариационной» перенормировке или на ренормализации «блок-спин», которую изобрёл статистический физик Лео Каданов (Leo Kadanoff) в 1966 году. Метод ренормгруппы «блок-спин» подразумевает группировку компонентов системы во всё более крупные блоки, каждый из которых является средней величиной компонентов в ней. Данный подход хорошо подходит для описания фрактальных объектов, которые выглядят одинаково на разных уровнях масштабирования; канонический пример Каданова — двумерная модель Изинга, т. е. решётка, состоящая из «спинов» или крошечных магнитов, указывающих направление: вверх или вниз. Он доказал, что можно легко изменить масштаб на решётке, преобразуя описание параметров «спинов» на уровне блоков «спинов».

Надеясь объединить подход к иерархическому представлению данных в методе глубокого обучения, Шваб и Мехта попытались связать старые наработки Каданова и пару часто цитируемых документов 2006 года Хинтона и его коллег, подробно описывающих первый протокол глубокого обучения. В результате они увидели, как можно связать математику одной процедуры с другой, доказав, что оба механизма для описания признаков окружающей действительности, в принципе, работают одинаково.

Чтобы продемонстрировать эквивалентность, Шваб и Мехта обучили четырёхслойную нейронную сеть 20 000 примерам модели решётки Изинга. Нейроны послойно и спонтанно отобразили состояние большого количества блоков спинов, обобщая данные, полученные методом Каданова. «Система обучается на примерах и понимает, что ей следует провести перенормировку на основе блоков, — отмечает Мехта. — Для нас настоящим открытием стал тот факт, что ничего не нужно вводить вручную, и, тем не менее, система обучается».

Глубокая нейронная сеть при распознавании фотографии котика может использовать другую, более гибкую форму перенормировки, чем при обработке фрактальной магнитной решётки, но исследователи предположили, что система будет действовать аналогично и обрабатывать информацию послойно, начиная с пикселей и постепенно смещаясь к масштабу всего животного, выбирая и агрегируя соответствующие признаки «котика» в общем объёме данных.

Кошка на осенней листве

Как объединить всё на свете

Исследователи рассчитывают на то, что перекрёстное опыление между статистической физикой и глубоким обучением приведёт к новым достижениям в обеих областях, но пока слишком рано говорить о том, «каким станет приложение-приманка для обоих направлений», — пишет Шваб.

Поскольку глубокое обучение подстраивается под информацию автоматически, исследователи рассчитывают на то, что оно окажется полезным для оценки поведения сложных систем, которые не подходят для обычной схемы перенормировки, например, агрегаты клеток или сложные белки. Для подобных биологических систем, не обладающих симметрией и выглядящих в точности как фрактал, «ни один из механических методов, которые мы разработали в статистической физике, не работает, — отмечает Неменман. — Но мы знаем, что существует грубое определение для практически любого явления, поскольку мозг может осознавать окружающий нас мир. И если бы реальность не была доступна осмыслению, человеческий мозг не смог бы сделать это».

Глубокое обучение также даёт нам надежду на лучшее теоретическое понимание того, как работает человеческое познание. Виджай Баласубраманиан (Vijay Balasubramanian), физик и нейробиолог из Пенсильванского университета, отмечает, что он и другие эксперты, которые занимаются изучением этих областей, давно заметили концептуальную близость между перенормировкой и человеческим восприятием. «Дальнейший прогресс в работе Панкаджа и Дэвида позволит нам сделать эту аналогию более точной», — надеется Баласубраманиан.

Их наработки позволяют нам сформулировать гипотезу о том, что некоторые части мозга работают в «критической точке», где каждый нейрон влияет на работоспособность всей нейросети. «В физике перенормировка выполняется математически в критической точке конкретной физической системы, — поясняет профессор Сейновски из калифорнийского Института биологических исследований Солка. — Поэтому единственной актуальной аналогией для работы мозга будет состояние, когда он находится в критической точке».

Кошка и цветы

Возможно, в этой работе содержится ещё более глубокий смысл. Тишби видит зацепку в том, что перенормировка, глубокое обучение и биологическое обучение находятся в рамках одной идеи в теории информации. Все эти методы направлены на снижение избыточности в потоке данных. Шаг за шагом они сжимают информацию до её сути, некоего окончательного представления, в котором ни один бит не связан с другим. Котики могут выдать своё присутствие многими признаками, но глубокие нейронные сети объединяют различные корреляции и сжимают их в виде одного нейрона. «Сеть занята сжатием информации, — пишет Тишби. — Она похожа на узкое горлышко бутылки».

«С помощью математических действий информация обнажается до её минимальной формы, — отмечает он. — Эта работа открывает двери для весьма волнующих открытий».

.
Комментарии