Во вторник 8 октября 2024 года Нобелевский комитет объявил о лауреатах главной научной премии этого года в области физики. Лауреаты этого года — Джон Хопфилд (John Hopfield) из Принстонского университета и Джеффри Хинтон (Geoffrey Hinton) из университета Торонто «за фундаментальные открытия и изобретения, которые обеспечили развитие машинного обучения на искусственных нейросетях».
Премия этого года посвящена «машинам, которые учатся» (так сказано в анонсе). Оба лауреата использовали аппарат физики для разработки методов, которые легли в основу машинного обучения. Джон Хопфилд создал ассоциативную память, которая может хранить и восстанавливать изображения и другие типы данных. Джеффри Хинтон разработал метод, который может автономно находить определённые свойства в наборах данных, то есть выполнять задачи наподобие нахождения отдельных элементов в изображениях.
Искусственный интеллект часто понимают как алгоритмы машинного обучения с использованием искусственных нейронных сетей. Эта технология первоначально была попыткой понять и эмулировать структуру работы мозга. В искусственной нейросети нейроны мозга представлены узлами, каждому из которых присваивается определённое значение. Узлы связаны между собой — так же, по-видимому, нейроны связываются при помощи синапсов, причём эти связи могут быть сильнее или слабее, и именно такую систему связей мы понимаем под обучением. Также искусственная нейросеть обучается — связи между отдельными узлами можно сделать сильнее, присваивая им соответствующие более высокие весовые коэффициенты («веса»). Премия 2024 года отмечает некоторые важные достижения в развитии искусственных нейронных сетей с 1980-х годов.
Джон Хопфилд изобрёл сеть (сеть Хопфилда), в которой можно сохранять и восстанавливать структуры. Узлы, или нейроны в сети Хопфилда могут принимать два состояния, например, их можно обозначить как +1 и -1. В этом узел похож на спин в физике — особое свойство вещества (атома или электрона) находиться в двух возможных состояниях. В частности, спин атома — это характеристика, которая определяет магнитные свойства вещества и благодаря которой атом можно рассматривать как микромагнит. Сеть — это совокупность таких спинов, которые взаимодействуют между собой подобно взаимодействию спинов в физических системах: каждый спин связан с каждым с каким-либо весовым коэффициентом связи. Основная концепция в физике таких систем — суммарная энергия системы. Сохранённое изображение кодируется как определённая конфигурация спинов. Сеть из «спиновых» элементов обучается, подбирая эти весовые коэффициенты таким образом, чтобы «энергия» такого сохранённого изображения имела минимальное значение. Если на вход сети Хопфилда подать искажённое или неполное изображение, она работает над его восстановлением: связи между узлами последовательно модифицируются так, чтобы минимизировать энергию системы. Таким образом сеть, получив на вход искажённый рисунок, систематически «скатывается» к состоянию, в котором можно определить изображение из сохранённых, наиболее близкое к исходному рисунку, то есть с хорошей результативностью «восстановить» исходное изображение. Это можно объяснить при помощи популярной аналогии нейросети с горным пейзажем, как на этом изображении из пресс-релиза Нобелевского комитета: минимум «энергии» — это отдельные впадины и ложбины на таком рельефе, которые и соответствуют хранящимися в нейросети изображениям. Искажённое входное изображение соответствует «точке» ландшафта, которая не находится на дне впадины. Шарик, брошенный в такую точку, начинает скатываться под действием гравитации и в конце концов занимает понижение рельефа (один из сохранённых образов), к которому был наиболее близок.
Джеффри Хинтон использовал сеть Хопфилда в качестве основы для новой сети, использующей другой подход — машины Больцмана. По сути это стохастическая модель из тех, что используются в статистической физике. Речь идёт о модели спинового взаимодействия, которая применяется, например, в спиновых стёклах (за исследование спиновых стёкол в 2021 году Нобелевскую премию получил известный физик-теоретик Дж. Паризи). Xинтон использовал модель Хопфилда с добавлением случайности («стохастичности»). Машину Больцмана можно использовать для классификации изображений или создания новых образцов того типа, на которых была обучена сеть. Машину Больцмана можно обучать при помощи не инструкций, а примеров. Она обучается, изменяя соответствующие веса связей между узлами так, чтобы изображения («паттерны»), поданные на вход, имели максимальную вероятность выпасть при работе сети. Если то или иное изображение попадается при обучении несколько раз, связи между нейронами изменяются так, что вероятность выпадения такого изображения ещё больше увеличивается. Также в обучении таким способом закладывается вероятность получения новых паттернов, похожих на те, по которым проводилось обучение.
Обученная машина Больцмана может распознавать «знакомые» признаки в данных, которые она видит в первый раз. Например, при виде незнакомого родственника близко нам знакомого человека мы часто можем мгновенно распознать, что он и наш близкий друг — именно кровные родственники. Таким же образом машина Больцмана может «узнать» новое изображение, если оно относится к той же категории, что и данные из обучающего набора, и отличить его от незнакомых по обучению паттернов.
Работы лауреатов начиная с 1980-х годов подготовили революцию в машинном обучении, которая началась около 2010 года. Развитие ИИ стало возможным благодаря доступу к огромным массивам данных для обучения нейросетей, а также взрывному увеличению мощности вычислительных систем. Стоит заметить, например, что в обзорной статье 1982 года Хопфилд упоминает использованную им сеть с 30 узлами, то есть 435 связями (если каждый узел соединён с каждым). Итого такая сеть может контролировать до 500 параметров. Эксперименты со 100 узлами были уже слишком сложными в то время из-за недостатка вычислительной мощности. Современные нейросети, например для больших языковых моделей, содержат более триллиона параметров. Кроме того, они состоят из множества слоёв (сеть Хопфилда по построению однослойная). Сегодня такие сети называют глубокими нейронными сетями, а способы их обучения — глубоким обучением.