«Черчилль» — программный комплекс для быстрого анализа генома

Доктор Питер Уайт, директор Biomedical Genomics Core (Центра биомедицинской геномики), руководитель команды, разработавшей вычислительную систему «Черчилль».

Исследователи из Национальной детской больницы (Огайо, США) разработали новый метод анализа данных, сокращающий время, необходимое для поиска в геноме человека патологических изменений с нескольких недель до нескольких часов. Статья, в которой описывается сверхбыстрое, хорошо масштабируемое программное обеспечение, опубликована в журнале Genome Biology.

«Потребовалось около 13 лет усилий и 3 млрд долларов, чтобы секвенировать первый человеческий геном, — говорит старший автор исследования Питер Уайт, директор Центра биомедицинской геномики, входящего в структуру Национальной детской больницы.  — Теперь даже самые маленькие исследовательские группы могут получить данные о геномной последовательности в течение нескольких дней. Однако после этого наступает момент, когда многие коллективы упираются в стену. После определения последовательности генома учёным необходимо проанализировать огромный массив данных, чтобы выделить действительно полезную для исследований и в клинической практике информацию».

Для преодоления проблем, связанных с анализом большого количества данных, д-р Уайт и его команда разработали вычислительную систему «Черчилль» (Churchill). Она способна проводить эффективный анализ целого образца генома всего за 90 минут.

«„Черчилль“ полностью автоматизирует процесс анализа, прогоняя весь массив сырых данных через комплексную последовательность алгоритмов специализированного анализа, которые представляют собой достаточно тяжёлые с вычислительной точки зрения процессы. В конечном счёте, мы получаем список всех генетических отклонений и особенностей, готовый к третичной обработке и к клинической интерпретации, — объясняет Питер Уайт, — Каждый из шагов процесса максимально оптимизирован, а при его работе не нарушается целостность данных. Исходные данные можно восстановить со 100-процентной точностью».

Эффективность работы «Черчилля» подтверждена Национальным институтом стандартов и технологий (NIST). По сравнению с другими вычислительными комплексами «Черчилль» обладает наибольшей точностью (99,7%); точность вычислений составляет 99,99%, а общая эффективность диагностики 99,66%.

«В Национальной детской больнице перед нами стоит стратегическая цель: введение геномной медицины в практику исследований в области педиатрии и здравоохранения. Экспресс-диагностика моногенных заболеваний может иметь решающее значение для лечения новорождённых, так что нашей первоочередной задачей было создание аналитической системы, работающей максимально быстро, возможно, с потерей в точности, — рассказывает Уайт. — Добившись этого, мы обнаружили, что преимуществом новой системы было то, что она может быть адаптирована и для масштабного геномного анализа».

Оптимизировав использование ресурсов в процессе анализа данных, команда доктора Уайта добилась того, что «Черчилль» показывает высокую эффективность и масштабируется для использования на нескольких серверах. Другие подобные системы на это не рассчитаны. Эффективность и способность задействовать мощные вычислительные ресурсы позволяет проводить масштабные популяционные геномные исследования. Так, используя технологию распределённых вычислений, «Черчилль» за семь дней провёл анализ 1088 образцов полных геномов, полученных в рамках проекта «1000 геномов», и определил миллионы новых вариантов генетических особенностей.

Сергей Сыров :