Исследователи из Массачусетского Технологического Института (MIT) используют искусственный интеллект для проектирования новых белков.
В стенах института разработаны алгоритмы машинного обучения для проектирования белков со специфическими структурными характеристиками — их можно использовать для создания материалов с заданными заранее механическими свойствами (жёсткостью или эластичностью).
Исследователи из MIT, лаборатории искусственного интеллекта им. Уотсона MIT—IBM (MIT—IBM Watson AI Lab) и университета Тафтса (Tufts University) обучили две генеративные модели, которые нужны не для выдачи реалистичных изображений по запросу на естественном языке (как это делает, например, DALL-E), а для того, чтобы предсказывать необходимые для достижения специфических структурных целей последовательности аминокислот белков.
В статье, опубликованной в журнале Chem, показано, как эти модели могут генерировать реалистичные новые белки.
Модели, изучившие биологические связи, контролирующие процесс формирования белков, могут показывать и новые белки, что расширит сферу их применения, считает главный автор работы, профессор Маркус Бюэлер (Markus Buehler).
Например, этот инструмент можно будет использовать для разработки безвредных при проглатывании белковых оболочек для пищи, которые помогут дольше сохранять продукты.
И модели могут генерировать миллионы белков в считанные дни, предоставляя учёным обширный каталог идей для исследований.
«Когда думаешь о разработке белков, которые природа ещё не создала, то понимаешь, что это такой простор для проектирования, что невозможно разобраться с ним с карандашом и листком бумаги. Необходимо разобраться с языком жизни, с тем, каким образом аминокислоты кодируются ДНК и затем соединяются, формируя белковые структуры. До появления глубокого обучения мы этого просто не могли» — говорит Бюэлер.
В команде Бюэлера — работающий в его лаборатории по атомистической и молекулярной механике постдокторант Бо Ни (Bo Ni) и Дэвид Каплан, профессор био-инжиниринга университета Тафтса.
Новые инструменты подготавливаются к работе
Белки формируются из аминокислотных цепей, сложенных в трёхмерные структуры. Последовательность аминокислот определяет механические свойства белка. Учёными определены тысячи белков, возникших в процессе эволюции, но огромное количество аминокислот остаются неизвестными.
Чтобы упростить и усовершенствовать процесс обнаружение белков, недавно были разработаны модели глубокого обучения, способные предсказывать трёхмерные белковые структуры для определённого набора аминокислот. Однако обратная задача — прогнозирование последовательности аминокислотных структур, соответствующих поставленным задачам, оказалась ещё более сложной.
Пройти этот тернистый путь Бюэлеру и его коллегам позволило изобретение в области машинного обучения — основанные на внимании диффузионные модели (англ. attention-based diffusion models).
Основанные на внимании модели могут обучаться очень дальним связям, что крайне важно в разработке белков, так как единственная мутация в длинной аминокислотной последовательности способна оживить или убить весь дизайн, отмечает Бюэлер. Диффузионная модель учится генерировать новые данные путём добавления шума к тренировочным данным с последующим обучением восстановлению данных за счёт удаления шума. Такие модели зачастую более эффективнее других моделей генерируют высококачественные, реалистичные данные: их можно натренировать так, чтобы они отвечали ряду целевых параметров и соответствовали задачам проекта.
Исследователи использовали эту архитектуру для проектирования двух моделей машинного обучения, которые могут прогнозировать разнообразные новые аминокислотные последовательности, образующие отвечающие структурным целевым показателям белки.
«В биохимической промышленности абсолютно неизвестный белок будет нежелательным, поскольку неизвестны его свойства. Однако в некоторых случаях может понадобиться абсолютно новый белок, который подобен существующему в природе, но кое-что делает иначе. С помощью этих моделей мы можем генерировать некий спектр, который мы контролируем настройкой определённых переключателей» — говорит Бюэлер.
Различные схемы складывания аминокислот в так называемые вторичные структуры придают итоговому материалу различные механические свойства. Например, белки с альфа-спиральной структурой дают тянущиеся материалы, а форма бета-листа даёт жёсткие материалы. Комбинируя альфа-спирали и бета-листы можно создавать материалы тянущиеся и крепкие, как шёлк.
Исследователями разработано две модели: первая работает над общими структурными свойствами белка, вторая работает на уровне аминокислот. Обе модели работают путём комбинирования аминокислот для генерации белков. Для модели, которая работает над общими структурными свойствами, пользователь вводит желаемый процент различных структур (например, 40% альфа-спиралей, 60% бета-листов). Затем модель генерирует последовательности, которые соответствуют этим требованиям. Для второй модели учёные уточняют последовательность аминокислотных структур, что обеспечивает более тонкий уровень контроля.
Модели соединены с алгоритмом, который предсказывает фолдинг белка, что необходимо для определения его трёхмерной структуры. Затем модели вычисляют итоговые свойства получившегося белка и сверяют результат с проектной спецификацией.
Реалистичные, но новые структуры
Модели были испытаны на сравнении новых белков с уже известными, обладающими подобными структурными свойствами. Некоторые новые белки были сходны с известными аминокислотными последовательностями (совпадение на 50-60% в большинстве случаев), но были выявлены и несколько абсолютно новых последовательностей. Уровень подобия предполагает, что многие из сгенерированных белков можно синтезировать, уверяет Бюэлер.
Чтобы убедиться, что прогнозируемые белки спроектированы разумно, исследовали попытались обмануть модели, вводя физически невозможные целевые показатели. Они были впечатлены, увидев, что вместо того, чтобы выдать невозможные белки, модели выработали ближайший к поставленной задаче реалистичный вариант решения.
«Алгоритмы обучения могут схватывать скрытые связи, имеющиеся в природе. Это даёт нам уверенность, что какой бы результат не давала наша модель, он скорее всего будет реалистичным» — говорит Ни.
Исследователи планируют изучить некоторые из новых спроектированных белков, синтезировав их в лабораторных условиях. Далее можно будет дополнять и усовершенствовать модели, чтобы они могли разрабатывать аминокислотные последовательности, которые будут соответствовать большему количеству критериев, включая биологические функции.
«Для интересующих нас областей применения, таких как экологическая устойчивость, медикаменты, продукты питания, здравоохранение и разработка материалов, нам потребуется выйти за пределы созданного природой. Теперь у нас есть новый инструмент проектирования, который мы сможем использовать для создания перспективных решений, которые помогут нам решить некоторые действительно злободневные проблемы, стоящие перед обществом» — заключает Бюэлер.