Российский R&D Центр Dell EMC создал прототип системы хранения и поиска по вариациям генотипа, важного элемента будущего «Интернета ДНК» — единого облачного пространства для хранения геномной информации по всему миру. Один из компонентов, лежащих в основе решения, iResearch — выложен в открытый доступ.
Прототип платформы создан для хранения и поиска среди различных типов данных — геномных вариантов, сделанных врачами описаний, электронных медицинских карт, медицинских справочников и классификаторов (онтологий), постоянно растущих баз ассоциаций между геномными параметрами, симптомами болезни, результатами лечения.
Полностью готовых программных средств для эффективной работы со столь различными типами данных одновременно, быстрого определения прямых или непрямых связей между ними, пока не существует. И текущий прототип — важный шаг на пути создания такого инструмента.
Элемент ядра технологии доступен по адресу: https://github.com/iresearch-toolkit/iresearch.
Проект предусматривает создание такой инфраструктуры, которая даст возможность врачам и исследователям находить ценную для лечения информацию, анализировать её и обмениваться ею.
О своей работе команда разработчиков центра Dell EMC рассказала на конференции «Интернет ДНК», прошедшей 13 декабря 2016 года в Москве.
Работа прототипа уже была протестирована — в рамках совместного проекта с Центром интегральной диагностики Массачусетской главной больницы (Massachusetts General Hospital) в Бостоне и объединением Partners Healthcare. Выбор партнёров для тестового периода основывался на определённых факторах, необходимых для качественной работы платформы: наличие реального практического опыта применения генотипирования в онкологии для предсказания выживаемости пациентов и для рекомендации методов лечения; баз данных из нескольких тысяч случаев; возможности интеграции с электронными картами, чтобы отслеживать дальнейшую судьбу пациентов.
Размер тестового набора данных составил 400 ГБ данных. Это 2,5 тысячи образцов генома, 450 млн вариантов. Достигнута скорость поиска, позволяющая отвечать на запросы по индексируемым полям в течение секунды. Команда Dell EMC продолжает работу над обеспечением надёжного хранения данных, интеграцией с публичными источниками данных, а также упрощением системы для удобства её использования практикующими врачами.
«После успешного международного тестирования системы нам важно начать сотрудничать с российскими специалистами, клиниками, лабораториями, чтобы понимать, как мы можем адаптировать наши решения к российским реалиям», — комментирует ведущий разработчик в области биоинформатики R&D Центра Dell EMC Россия в Сколково Андрей Запарий.
Зачем генетикам собственный интернет
В начале текущего тысячелетия учёным удалось полностью секвенировать геном человека. Для следующего прорыва в биомедицине исследователям и клиницистам необходимо получить возможность сравнивать геномные данные пациентов с данными других людей по всему миру.
Геномы людей схожи примерно на 99,9%. Генетическое отличие — 4—5 млн пар нуклеотидов. Разница в 0,1% при сравнении данных генома нескольких людей позволяет объяснить вероятность развития глаукомы, влияние генетических мутаций при раковых заболеваниях и много другое.
Многие генетические вариации относительно редки, поэтому важно анализировать данные сотен, тысяч и даже миллионов человек. Прежде всего это касается онкологических и редких болезней. К примеру, мутации в генах BRCA1 и BRCA2 могут приводить к повышенному риску возникновения рака молочной железы. В среднем один из 800 человек имеет мутацию в одном из этих генов. Чтобы понять, какие из этих мутаций патогенны, необходимо проанализировать выборки пациентов.
Генетические данные хранятся в медицинских и научных организациях по всему миру, имеют разные форматы и структуру. Объединив всю эту информацию, учёные могут найти ключи к лечению многих болезней.