Первый раунд соревнования по машинному обучению в биологии DREAM-ENCODE, приуроченный к международной конференции DREAM, выиграла команда autosome.ru из России. Члены команды — Иван Кулаковский, ведущий научный сотрудник Лаборатории вычислительных методов системной биологии ИМБ РАН, Григорий Сапунов, сооснователь Inten.to и Всеволод Макеев, член-корреспондент РАН, заведующий лабораторией Системной биологии и вычислительной генетики ИОГен РАН, рассказали «XX2 веку» о компьютерном анализе регуляторных участков генома и о некоторых заблуждениях, живущих в современном обществе.
XX2 ВЕК: Первый вопрос — как можно объяснить, что такое факторы транскрипции, для тех, кто далёк от науки?
Иван: По сути, это локальные переключатели активности генов.
Вспомним основы молекулярной биологии и посмотрим на геном как на абстрактную последовательность нуклеотидных оснований — букв «А, Ц, Г, Т». Наиболее изучены участки последовательности, которые кодируют белки, то есть белок-кодирующие гены. Полезно понимать, что у высших эукариот белок-кодирующие гены покрывают только малую долю генома, для генома человека лишь 1—2 %. Первый вопрос — что ещё важного записано в геноме, кроме генов, кодирующих белки. Второй вопрос — как на основании одинакового генома реализуется всё разнообразие типов клеток в одном многоклеточном организме.
Оба вопроса имеют прямое отношение к регуляторным сегментам генома, участкам некодирующих областей, которые определяют активность работы генов, например, изменяя эффективность синтеза РНК (транскрипции). Факторы транскрипции — особый класс белков, которые регулируют запуск транскрипции конкретных генов. Большинство факторов транскрипции способны самостоятельно узнавать в ДНК подходящие «сайты связывания», характерные последовательности нуклеотидов в регуляторных районах. Связав участок ДНК, фактор транскрипции включает или выключает соответствующие гены-мишени.
XX2 ВЕК: Если учёные смогут обнаружить алгоритм, по которому белки связываются с ДНК, как они смогут его использовать? И верите ли вы, что в скором времени этот алгоритм будет обнаружен?
Иван: Глобальная задача достаточно масштабна: хромосомы эукариот сложным образом уложены в ядре клетки в запутанный клубок, какие-то участки генома чрезвычайно плотно упакованы и недоступны для взаимодействия, другие участки уже связаны белками-конкурентами. Придумана масса экспериментальных методов по картированию сайтов связывания, занятых конкретным белком, но сам эксперимент является трудоёмким, а получаемые данные — достаточно «шумными». Проблема осложняется тем, что факторов транскрипции очень много (у человека — как минимум полторы тысячи), и в разных типах клеток они работают в разных комбинациях. То есть, для каждого фактора транскрипции эксперимент придётся проводить отдельно в каждом типе клеток. И наконец, методически не так просто перейти от клеточных культур, выращенных «в пробирке», к нормальным клеткам и органам.
Здесь на сцену выходит биоинформатика. Фактор транскрипции связывает ДНК характерным «хвостом» (ДНК-связывающим доменом), который предпочитает встречать в ДНК конкретные «слова» — последовательности нуклеотидов, и заякоривается в наиболее удачных. То есть, используя статистические методы анализа текстов можно — для относительно короткой последовательности — установить наиболее вероятное место посадки фактора транскрипции.
В свою очередь, экспериментально определив карту доступных регионов генома (т. н. «открытый хроматин») в конкретном типе клеток можно предсказать связывание конкретных факторов транскрипции с помощью вычислительных методов.
Нельзя сказать, что мы уже полностью понимаем, как белок находит свои сайты связывания, но с помощью комбинации экспериментальных и компьютерных подходов уже можно получить детальную «геномную карту» сайтов связывания. Карта показывает, где находятся регуляторные области, какие гены потенциально находятся под их управлением. Глобальные цели — расшифровка «грамматики» регуляторных областей, инжиниринг регуляторных последовательностей с нужными свойствами. С точки зрения практики — подбор «коктейлей» из факторов транскрипции и контролируемая смена типов клеток для задач регенеративной медицины и моделирования болезней различных тканей и органов. Уже сейчас подробная геномная карта сайтов связывания позволяет предсказывать последствия возможных мутаций в регуляторных областях, затрагивающих активность конкретных генов.
Всеволод: Я хочу дополнительно обратить внимание на то, что прямые медицинские приложения редактирования генов, все-таки рискованное дело. Иван не зря сказал про «моделирование болезней», то есть изменения, которые позволяют воспроизвести в «искусственных органах» мутации, приводящие к наследственным заболеваниям, изучить их течение, и тем самым лучше понять механизм их возникновения и возможную терапию. С точки зрения непосредственных приложений более реальными выглядят приложения в области биотехнологий. Можно пытаться изменять методами редактирования регуляторных районов динамику работы генов у домашних животных или сельскохозяйственных растений, добиваясь появления новых потребительских свойств.
XX2 ВЕК: Расскажите о методе, благодаря которому вы выиграли в соревновании.
Иван: Хочется сказать несколько слов о самом конкурсе — совместном проекте международного консорциума ENCODE и инициативы DREAM. ENCODE уже более 10 лет занимается аннотацией регуляторных районов в геномах человека и мыши с помощью различных экспериментальных методов. DREAM, в свою очередь, проводит различные соревнования по применению методов машинного обучения для широкого спектра биологических задач.
Опубликованные результаты ENCODE получены на «бессмертных» клеточных линиях, но на новом витке консорциум проводит и опыты на образцах живых тканей. Задача соревнования DREAM-ENCODE — предсказать связывание факторов транскрипции в нормальной ткани, используя знание открытых районов хроматина и особенности геномной карты сайтов связывания, полученной на клеточных линиях. У этой задачи есть простое практическое приложение: в перспективе можно ограничиться минимальным набором опытов на первичных тканях и органах и максимально переиспользовать уже готовые данные.
Наш метод основан на осмысленном выборе «тренировочных» данных. Для этого мы придумали простой алгоритм, в рабочей версии названный «Чебурашкой» за наивный подход. Так Чебурашка стал неформальным талисманом команды.
А для итоговых предсказаний использовали хорошо известную библиотеку машинного обучения — XGBoost. Думаю, что именно комбинированный подход позволил нам успешно выступить в первом раунде соревнования, приуроченном к профильной конференции DREAM. Победители первого раунда раскрывают карты: делятся техническими деталями и соображениями. Участник нашей группы, Андрей Ландо (студент московского Физтеха), приглашён с докладом на конференцию DREAM. Второй раунд продлится до начала 2017 года, и мы рассчитываем, что наши наработки пригодятся будущим лидерам.
XX2 ВЕК: Расскажите о машинном обучении. Почему для вашей работы был необходим специалист в этой области?
Григорий: Количество доступных данных в биологии огромно и продолжает расти. Охватить их все разумом одного человека невозможно, для группы людей крайне трудно. На помощь приходят компьютеры.
Если один человек способен держать в голове 3—5 переменных, имеющих отношение к задаче, то компьютер способен одновременно работать с сотнями и тысячами переменных, ещё и учитывая взаимодействия между ними. А ведь уже для 5 переменных есть 10 попарных комбинаций, с увеличением числа переменных число комбинаций растёт квадратично, плюс есть ещё более сложные сочетания из трёх, четырёх и более факторов, так что даже с пятью переменными человеку работать уже трудно.
Дополнительных трудностей добавляют количество и объёмы доступных данных. Пересмотреть сотни тысяч и миллионы геномных интервалов человеку невозможно, нужно сильно сокращать объём информации, оставляя какие-то суммарные статистики и другую агрегированную информацию. И это уже полпути к машинному обучению, статистика очень тесно связана с областью машинного обучения, а придумывание правильного способа агрегировать данные уже по сути является деятельностью по «придумыванию» подходящих для решения задачи признаков (feature engineering) — это важнейший элемент классического машинного обучения (в противовес глубокому обучению, deep learning, которое в значительной степени может быть избавлено от этого шага).
В данной задаче мы ограничились классическим машинным обучением. Для полноценных экспериментов с глубоким обучением у нас уже не хватило времени и вычислительных ресурсов, но предварительные эксперименты показали, что этот подход разумен и даёт обнадёживающие результаты, в будущем мы ожидаем здесь серьёзных прорывов.
В целом в ближайшие годы и десятилетия наиболее заметные и ощутимо влияющие на качество нашей жизни изменения произойдут именно в биологии и медицине. Там уже накоплено огромное количество данных, а в ближайшие годы их накопится ещё на порядки больше — и за счёт большего распространения секвенирования, и за счёт большей цифровизации всей нашей жизни (движение Quantified Self здесь является наиболее очевидным примером, сюда же можно отнести и электронные медицинские карты). Потенциал для извлечения пользы из всех этих данных огромен, и применение машинного обучения для этого будет необходимостью.
XX2 ВЕК: В то время, пока проводятся такие важные конкурсы, общество оказывается во власти страхов по поводу тех же ГМО. С чем это может быть связано — по крайней мере, в нашей стране?
Всеволод: По моему мнению, проблема ГМО — во многом наведённая СМИ.
Широкая публика плохо понимает, что сейчас любой промышленный сорт — результат высоких технологий, и «традиционная технология» — это далеко не крестьянское хозяйство позапрошлого века (например, существует «геном-ориентированная селекция», в которой каталогизируются всевозможные варианты генома конкретной культуры, и разрабатываются способы получения заданных комбинаций вариантов). Собственно, то, что сейчас называется ГМО, то есть внедрение генов других видов, — отличается в первую очередь тем, что такие манипуляции легче определить в конечном продукте. Новые сорта, полученные и с использованием «генетических модификаций» и без, завязаны на «большие технологии» культивирования, и реальная конкуренция идёт именно между этими «большими технологиями», в преимуществах и недостатках которых у населения, не имеющего доступа к данным, нет возможности разобраться. Скорее всего, кто-то (и не в нашей стране) проводит комплексный социально-экономический анализ, а публика вынуждена слушать придуманные страшные истории, что именно эти внедрённые гены опасны, и лёгкие для понимания разоблачения этих историй. Истинная дискуссия нам даже не ясна. Подозреваю, что сам накал дискуссии говорит о том, что технология, основанная на ГМО, и так называемая «традиционная технология», примерно равны по эффективности, иначе какой-то ответ был бы уже найден. Но повторюсь, без отдельного исследования в области, где многие данные, скорее всего, являются коммерческой тайной, что-то трудно сказать.
XX2 ВЕК: Я упомянула страх перед ГМО — а, может, вы назовёте другие заблуждения, которые опасны для развития науки?
Иван: Слабая связь фундаментальной науки с обществом играет ей на руку: от заблуждений сильнее страдает прикладная наука, инновации, попытки внедрения новых технологий.
В то же время на волне «инноваций» и «внедряемости» маскируется первичная цель фундаментальной науки — расширять область объективных знаний об устройстве мира. Хорошо, когда результаты научной работы выходят за пределы профильных журналов и находят применение в жизни, но ожидание от научных исследований немедленной практической полезности — самое опасное заблуждение.