Новый подход к пониманию мышления машин

Если врач сказал, что вам нужна операция, вы, наверное, захотите узнать, почему. И будете ожидать, что объяснение будет вам понятно, даже если вы никогда не учились в медицинском вузе. Бин Ким (Been Kim), исследовательница из Google Brain, считает, что для искусственного интеллекта в таких случаях не стоит понижать планку. Она — специалист по «интерпретируемому» машинному обучению, и её цель — создать такой ИИ, который сможет объяснять свои решения обычным людям.

За последние десять лет нейронные сети, со своей способностью учиться и выявлять закономерности в данных, изменили множество вещей — от электронной почты до процесса разработки лекарств. Но не обошлось и без подвоха: та самая сложность, которая позволяет современным нейросетям учиться вождению автомобиля и выявлять случаи мошенничества, приводит к тому, что понять их внутреннее устройство почти невозможно — и это проблема даже для экспертов. Если нейронная сеть выявляет пациентов с риском развития рака печени — как, например, система Deep patient — точно определить, на какие именно свойства данных она обращает внимание, нельзя. Ответ на этот вопрос распределён по многочисленным слоям нейронной сети, каждый из которых имеет сотни или тысячи межнейронных связей.

По мере того, как всё больше отраслей пытаются с помощью ИИ улучшить или автоматизировать процесс принятия решений, проблема «чёрного ящика» кажется всё более серьёзным недостатком. Эта тема заинтересовала даже Управление перспективных исследовательских проектов (Defense Advanced Research Projects Agency, DAPRA) Министерства обороны США. Там запустили проект по созданию интерпретируемого ИИ под названием XAI. Обеспечение интерпретируемости перестало быть маргинальной задачей, теперь это одна из центральных задач исследований машинного обучения. «Сейчас для ИИ настал критический момент: человечество пытается решить, хороша эта технология для нас или нет, — говорит Ким. — Если мы не решим проблему интерпретируемости, вряд ли мы возьмём эту технологию с собой в будущее. Может быть, человечество просто забудет про неё».

Ким и её коллеги из Google Brain недавно разработали систему под названием «Тестирование с помощью векторов активации концепций» (Testing with Concept Activation Vectors, TCAV). Исследовательница описывает её как «переводчик на человеческий язык». Система позволяет пользователю спрашивать у «чёрного ящика», насколько на полученный результат повлияла та или иная высокоуровневая концепция. Например, если система машинного обучения была обучена распознавать зебр, то с помощью TCAV можно узнать, каким весом при принятии решения обладает «полосатость».

Изначально TCAV тестировали на моделях, обученных распознавать изображения, но его также можно использовать в моделях, работающих с текстом или с определёнными видами визуализации данных, например, с графиками ЭЭГ. «Эта система универсальная и простая — её можно использовать с разными моделями», — говорит Ким.

Журнал Quanta поговорил с Ким о том, что означает интерпретируемость, кому она нужна и почему важна. Далее мы приводим отредактированную и сжатую версию интервью.

Джон Павлус (John Pavlus). Вы сосредоточили карьеру на «интерпретируемости» в машинном обучении. Но что именно означает этот термин?

Бин Ким. Есть две разновидности интерпретируемости. Одна — это интерпретируемость для науки: если рассматривать нейронную сеть как объект исследования, то можно провести научные эксперименты, чтобы по-настоящему понять скрытые характеристики модели, как она реагирует на различные стимулы и т.д.

Вторая разновидность интерпретируемости, которой я, в основном, занимаюсь, это интерпретируемость «ответственного ИИ». Не нужно понимать о модели всё, достаточно лишь понимать, как безопасно ей пользоваться. Это и есть наша цель.

Павлус. Но как можно доверять системе, если не до конца понимаешь, как она работает?

Б. К. Приведу аналогию. Допустим, у меня на заднем дворе растёт дерево, и я хочу его спилить. Можно было бы для этого использовать бензопилу. Хотя я не совсем понимаю, как она работает. Но в инструкции сказано: «Вот ситуации, в которых вы должны быть осторожны, чтобы не отпилить себе палец». Учитывая, что у меня есть инструкция, я бы предпочла использовать бензопилу, а не ручную пилу. Устройство обычной пилы, конечно, легче понять, но я бы тогда пилила дерево пять часов.

Павлус. Вы понимаете, что такое «пилить», хотя и не понимаете до конца, как механизм это делает.

Б. К. Да. Вторая разновидности интерпретируемости пытается ответить на вопрос: понимаем ли мы инструмент достаточно, чтобы можно было безопасно его использовать? И мы можем получить это понимание, подтвердив, что в инструменте отражены полезные человеческие знания.

Павлус. Как тот факт, что инструмент «отражает человеческие знания», делает чёрный ящик искусственного интеллекта более понятным?

Б. К. Вот ещё пример. Если врач ставит диагноз «рак», прибегая к помощи инструмента машинного обучения, он наверно захочет заранее знать, не опирается ли модель на какую-то случайную корреляцию в данных, которая для врача совсем не важна. Один из способов убедиться в этом — удостовериться, что модель машинного обучения делает то же, что сделал бы врач. Другими словами, показать, что знания врача о том, как ставить диагноз, отражены в модели.

Поэтому, если бы врачи смотрели на образец клеток, чтобы диагностировать рак, они, вероятно, искали бы в нём нечто вроде «слившихся желёз» (fused glands). Можно также учесть возраст пациента и то, проходил ли он в прошлом химиотерапию. Это такие факторы, на которые врачи обращают внимание, когда диагностируют рак. Если мы сможем показать, что ИИ-модель также учитывает эти факторы, мы будем её лучше понимать: она отражает знания врачей.

Павлус. TCAV делает именно это? Показывает, какие высокоуровневые концепции использует ИИ-модель для принятия решений?

Б. К. Да. Методы интерпретации, которые у нас были до этого, могли объяснить только то, что нейронные сети делают с точки зрения «входных характеристик». Что я имею в виду под этим? Если у вас есть изображение, то каждый его пиксель будет входной характеристикой. На самом деле, Ян Лекун (Yann LeCun) [первопроходец в области глубокого обучения и в настоящее время директор по исследованиям ИИ в Facebook] сказал, что он считает, что наши модели уже и так суперинтерпретируемые: можно посмотреть на каждый узел нейронной сети и увидеть, какие числовые значения соответствуют каждой входной характеристике. Да, компьютеры это могут, но люди так не мыслят. Я же не говорю вам: «О, посмотрите на пиксели от 100 до 200, их значения RGB равны 0,2 и 0,3». Вместо этого я говорю: «Здесь изображена собака, у неё пушистая шерсть». Вот как общаются люди — с помощью концепций.

Павлус. Как TCAV выполняет перевод с языка входных характеристик на язык понятий?

Б. К. Давайте вернёмся к примеру с врачом, который использует ИИ-модель, обученную отличать изображения потенциально злокачественных образцов клеток. Если бы вы были врачом, вы, наверное, захотели бы узнать, какой вес в модели имеет понятие «слившиеся железы» при прогнозировании рака. Сначала нужно собрать несколько изображений — скажем, 20 — с примерами слившихся желёз, и потом включить эти размеченные примеры в модель.

TCAV делает так называемое тестирование чувствительности (sensitivity testing). Когда мы добавляем эти маркированные изображения слившихся желёз, насколько увеличивается вероятность положительного прогноза рака? На этот вопрос можно получить ответ — число от нуля до единицы. Вот и всё. Это ваш балл TCAV. Если вероятность возросла, это была важная для модели концепция. А если нет — то неважная.

Павлус. «Концепция» — это нечёткий термин. Есть ли какие-то концепции, с которыми TCAV не будет работать?

Б. К. Если вы не сможете выразить свою концепцию, используя некоторое подмножество среды [набора данных], то да, работать не будет. Если ваша ИИ-модель обучена на изображениях, то концепция должна быть визуально выражаема. Допустим, я если я захочу визуально выразить понятие «любовь», это будет очень сложно.

Мы также тщательно проверяем концепцию. У нас есть процедура статистического тестирования, которая отклоняет вектор концепции, если он оказывает на модель такое же влияние, что и случайный вектор. Если ваша концепция не пройдёт этот тест, то TCAV скажет: «Не знаю, кажется эта концепция не важна для этой модели».

Павлус. В сущности, TCAV используется скорее для создания доверия к искусственному интеллекту, чем для его подлинного понимания?

Б. К. Это не так — и я объясню, почему. Нужно уметь различать эти вещи.

Из ряда исследований в области когнитивной науки и психологии мы знаем, что люди очень доверчивы. Это означает, что на самом деле довольно легко обмануть человека и заставить его чему-то верить. Цель интерпретируемости машинного обучения совершенно другая. Её цель — в случае чего оповестить людей о том, что система небезопасна. Речь идёт о раскрытии правды, так что «доверие» тут — не то слово.

Павлус. То есть, смысл интерпретируемости заключается в том, чтобы выявить потенциальные недостатки в рассуждениях ИИ?

Б. К. Да, именно.

Павлус. И как это можно сделать?

МБ. К. Можно использовать TCAV, чтобы спросить обученную модель, какие концепции для неё нерелевантны. Возвращаясь к примеру врачей, использующих искусственный интеллект для прогнозирования рака. Врачи могут внезапно подумать: «Похоже, что наша модель даёт положительные прогнозы по раку для многих изображений, в которых есть своеобразный синеватый артефакт. Сомнительно, что этот фактор следует принимать во внимание». Если они получат высокий балл TCAV по концепции «синий», они выявят проблему в своей модели машинного обучения.

Павлус. Система TCAV предназначена для использования с существующими системами искусственного интеллекта, которые не поддаются интерпретации. Почему бы тогда не делать системы интерпретируемыми с самого начала — не чёрными ящиками, как сейчас?

Б. К. Есть направление исследований интерпретируемости, в центре которого — построение изначально интерпретируемых моделей, которые бы отражали то, как люди рассуждают. Но моё мнение таково: сейчас у нас много таких ИИ-моделей, в которых интерпретируемость не была учтена с начала, и которые уже делают важные вещи. Это факт. У нас в Google таких много! Вы можете сказать: «Интерпретируемость очень полезна, давайте я построю вам другую модель, чтобы заменить ту, которая у вас». Ага, удачи.

Ну и что же нам делать? Нам ещё предстоит принять критически важное решение и определиться: хороша ли технология нейронных сетей для нас или нет. Вот почему я работаю с апостериорными методами интерпретации. Если у вас есть модель, которую кто-то вам дал, и которую вы не можете изменить, то как вы будете получать объяснения её поведения, чтобы безопасно её использовать? В этом и заключается функция TCAV.

Павлус. TCAV позволяет людям спрашивать ИИ, имеют ли определённые понятия для него значение. Но что, если мы не будем знать, что спросить — что если мы захотим, чтобы система сама всё объяснила?

Б. К. Мы сейчас работаем над статьёй, в которой описываем, как система сможет автоматически находить концепции. Мы называем это DTCAV — обнаруживающая (discovery) TCAV. Но я считаю, что участие людей в процессе, обеспечение возможности общения между машинами и людьми — основа интерпретируемости.

Во многих случаях в важных сферах применения у экспертов уже есть список понятий, которые для них важны. В Google Brain, в ходе нашей работы над медицинскими проектами, мы видим это снова и снова. Исследователи не хотят, чтобы им давали готовый набор понятий — они хотят «скормить» модели те понятия, которые их интересуют. Как-то раз мы работали с врачом, которая лечила диабетическую ретинопатию, такое заболевание глаз. И когда мы рассказали ей о TCAV, она была очень заинтересована, потому что у неё уже было множество гипотез о том, что делает модель. А с TCAV она может проверить эти гипотезы. На самом деле это огромное достоинство, это ориентированный на пользователя способ обучения машин в коллаборации.

Павлус. Вы считаете, что без интерпретируемости человечество может отказаться от технологии ИИ. Вы действительно думаете, что это возможно, учитывая, насколько это мощный инструмент?

Б. К. Да. Давайте посмотрим, что случилось с экспертными системами. [В 1980-х] мы установили, что при выполнении определённых задач использовать их дешевле, чем операторов-людей. Но кто сейчас применяет экспертные системы? Никто. И после этого наступила зима искусственного интеллекта.

Не думаю, что это произойдёт прямо сейчас, когда вокруг ИИ много шумихи и денег. Но я думаю, что в долгосрочной перспективе человечество может решить — возможно, из-за страха, возможно, из-за отсутствия доказательств [безопасности] — что эта технология не для нас. Может так случиться.

Александра «Renoire» Алексеева :