Исследователи из Национального института стандартов и технологий США (NIST) разработали статистический инструмент, который можно использовать для прогнозирования функций белков.
Он не только будет помогать в сложной практической работе по модификации белков, но и делать это «прозрачно», полностью интерпретируемо. Это явное преимущество перед уже существующими основанными на технологиях искусственного интеллекта (ИИ) методами.
Новый инструмент получил имя LANTERN — «ФОНАРЬ» и может оказаться полезным в самых разных областях — от производства биотоплива до улучшения урожайности сельскохозяйственных культур и разработки новых методов лечения болезней.
Белки как строительные блоки жизни — ключевые элементы во всех этих задачах. Сейчас, когда мы научились сравнительно легко вносить изменения в цепочки ДНК, которые служат основой при создании белков, остаётся сложной задачей определить, какие конкретные пары оснований нужно заменить для искомого эффекта. Для поиска этих ключевых пар используется модель ИИ, построенная на основе глубоких нейронных сетей (DNN), которые, хотя и эффективны, непрозрачны для человеческого понимания.
В опубликованной в PNAS статье сообщается, что «ФОНАРЬ» показал способность предсказывать генетические изменения, необходимые для создания полезных различий в трёх разных белках. Один из них — спайковый белок SARS-CoV-2; понимание того, как изменения в ДНК могут повлиять на этот белок-шип, может помочь эпидемиологам предсказать будущее пандемии COVID-19. Два других — хорошо известные лабораторные «рабочие лошадки»: белок LacI бактерии E. coli и зелёный флуоресцентный белок (GFP), его используют как маркер в биологических экспериментах.
Выбор этих трёх белков позволил команде NIST показать не только то, что их инструмент работает, но и то, что его результаты поддаются интерпретации — важная характеристика для промышленности, которая остро нуждается в методах прогнозирования, которые помогают понять базовую систему.
«У нас есть подход, который полностью поддаётся интерпретации и который также не теряет своей прогностической силы, — сказал Питер Тоннер (Peter Tonner), статистик и специалист по вычислительной биологии в NIST, главный разработчик LANTERN. — Широко распространено предположение, что если вы хотите одну из этих вещей, вы не получите другую. Мы показали, что иногда у вас может быть и то, и другое».
Проблему, над которой работает команда NIST, можно представить как взаимодействие со сложной машиной, оснащённой обширной панелью управления, заполненной тысячами немаркированных переключателей. Эта машина — ген, цепочка ДНК, которая кодирует белок; переключатели представляют собой пары оснований на цепочке. Все переключатели каким-то образом влияют на выходной сигнал устройства. Если ваша задача состоит в том, чтобы заставить машину работать иначе, но определённым образом — какие переключатели вы должны переключить?
Поскольку ответ может потребовать изменения нескольких пар оснований, учёным приходится перебирать их комбинации — измерять результат, затем собирать новую комбинацию и повторять процесс снова и снова. А количество возможных перестановок — пугающее.
«Количество потенциальных комбинаций может быть больше, чем количество атомов во Вселенной, — сообщает Тоннер. — Вы никогда не сможете проверить все возможности. Это смехотворно большое число».
Из-за огромного количества задействованных данных перед глубокой нейронной сетью ставится задача сортировать выборку данных и предсказывать, какие пары оснований нужно заменить. И это работает — до тех пор, пока вы не попытаетесь понять, как получены ответы. ИИ выступает как «чёрный ящик», внутренняя работа которого непостижима.
«Действительно трудно понять, как DNN делают свои прогнозы», — говорит физик NIST Дэвид Росс (David Ross), один из авторов статьи. «И это большая проблема, если вы хотите использовать эти прогнозы для создания чего-то нового».
«ФОНАРЬ» разработан так, чтобы быть понятным. Часть его объяснимости связана с использованием интерпретируемых параметров для представления анализируемых данных. Вместо того, чтобы позволять числу этих параметров становиться необычайно большим и вследствие непостижимым (как в случае с DNN), каждый параметр в расчетах «ФОНАРЯ» имеет цель, которая должна быть интуитивно понятной. Пользователь понимает, что означают эти параметры и как они влияют на итог.
«ФОНАРЬ» представляет мутации белка с использованием векторов, популярных математических инструментов, часто представляемых визуально в виде стрелок. Каждая «стрелка» обладает двумя свойствами: её направление — эффект мутации, а длина показывает, насколько силён этот эффект. Когда два белка имеют равнонаправленные векторы, «ФОНАРЬ» понимает, что белки имеют схожую функцию.
Направления этих векторов зачастую указывают на какие-то биологические механизмы. Например, «ФОНАРЬ» определил направление, связанное с фолдингом белка во всех трёх наборах данных, изученных командой. Фолдинг играет решающую роль в функционировании белка, поэтому выявление этого фактора в наборах данных было признаком того, что модель функционирует так, как задумано. Делая прогнозы, «ФОНАРЬ» просто складывает такие векторы — метод, который пользователи могут отслеживать при изучении прогнозов «ФОНАРЯ».
Другие лаборатории уже использовали DNN для прогнозирования того, какие «переключатели» внесут полезные изменения в три исследуемых белка, поэтому команда NIST могла сопоставить полученные от «ФОНАРЯ» результаты с результатами DNN. Новый подход оказался не просто хорош; по словам авторов, он обеспечивает лучшую на данный момент точность прогнозирования для решения такого типа задач.
«Почти со всеми алтернативными подходами ФОНАРЬ сравнялся в отношении точности прогнозирования или превзошёл их, — заявил Тоннер. — Он превосходит все другие подходы в прогнозировании изменений LacI и обадает сопоставимой точностью прогнозирования изменений GFP во всех, кроме одного, случаев. Для SARS-CoV-2 он обладает более высокой точностью прогнозирования, чем все альтернативы; кроме одного типа DNN, который по точности такой же, ничем не лучше ФОНАРЯ».
ФОНАРЬ выясняет, какие наборы переключателей оказывают наибольшее влияние на конкретный атрибут белка — например, на стабильность его трёхмерной структуры, — и обобщает, как пользователь может настроить этот атрибут для достижения желаемого эффекта. В некотором смысле, ФОНАРЬ превращает множество переключателей на панели нашей «машины» в несколько простых шкал.
«Это сводит тысячи переключателей к, возможно, пяти небольшим их наборам, — говорит Росс. — Мы можем видеть, что первый набор будет иметь большой эффект, второй будет иметь другой эффект, но меньший, третий ещё меньше, и так далее. Итак, это говорит мне, как инженеру, что я могу сосредоточиться на первом и втором наборе, чтобы получить нужный мне результат. «ФОНАРЬ» объясняет всё это для меня, и это невероятно полезно».
Тоннер отметил, что, хотя он и доволен результатами, ФОНАРЬ не панацея от проблемы объяснимости ИИ. По его словам, более широкое изучение альтернатив DNN принесёт пользу в общем деле создания объяснимого, заслуживающего доверия ИИ.
«В контексте прогнозирования генетических эффектов на функцию белка, «ФОНАРЬ» является первым примером чего-то, что соперничает с DNN в прогностической силе, оставаясь при этом полностью интерпретируемым, — говорит Тоннер. — Он обеспечивает конкретное решение конкретной проблемы. Мы надеемся, что это может быть применимо к другим задачам и что эта работа вдохновит на разработку новых интерпретируемых подходов. Мы не хотим, чтобы прогнозирующий ИИ оставался чёрным ящиком».