Биоинформатики Университета ИТМО разработали алгоритм, позволяющий оценить влияние генов на различные процессы в организме человека, в том числе на развитие заболеваний.
Работа опубликована в журнале BMC Bioinformatics.
Заболевания или предрасположенность к облысению, полноте, плохому зрению могут быть связаны с определёнными генами. Чтобы повлиять на их работу и, соответственно, на состояние человека, нужно понять, какой именно участок генома из большого количества «подозреваемых» виновен в изменениях. Более того, чтобы увидеть, есть ли связь между конкретным геном и болезнью, важно знать, как взаимодействуют между собой сами гены.
«Всего у человека около 20 тысяч генов. Сравнивая гены пациентов с исследуемым заболеванием и гены здоровых людей, можно увидеть отличия образцов в их активности и выраженности. На основе этой информации создаётся общий граф, где видна связь между всеми генами, и каждому присвоен показатель важности. Обычно учёные продолжают работу только с самыми активными генами, выделяя их в отдельных подграф. Однако, вырывая гены из «общего контекста», мы теряем возможность оценивать корреляцию каждого входящего в него гена с другими генами и рассматриваемым диагнозом»,
— объясняет доцент Университета ИТМО Алексей Сергушичев.
Вместо того, что выделять только одну систему из генов с наибольшей важностью, биоинформатики ИТМО предложили способ, при котором генерируется сотни и тысячи подграфов с использованием данных всего генома. Разработанный алгоритм позволяет рассчитать вероятность связи каждого образца с интересующей болезнью и проанализировать их состав с учетом взаимодействия каждого гена. В его основе — метод Монте-Карло по схеме марковских цепей (Markov chain Monte Carlo).
«Представьте, что вы хотите собрать корабль в бутылке. Можно попытаться сделать это пинцетом, а можно просто, грубо говоря, трясти бутылку. Когда детальки соберутся, как нужно, мы фиксируем систему в этом состоянии и продолжаем трясти дальше. Если же нас не устраивает новое положение деталей — начинаем сначала. Рано или поздно у нас получится что-то похожее на корабль. Аналогично и в нашей программе. В одном из наборов генов убирается один. Если число активных генов растёт — мы сделали всё правильно, сохраняем. Если нет — действуем дальше. Через несколько похожих шагов важность может резко возрастать. Так алгоритм формирует множество вариантов графов»,
— объяснил ведущий научный сотрудник Университета ИТМО Никита Алексеев.
Получив такую выборку, можно увидеть, какие гены встречаются в ней чаще. Например, если какой-то из генов встречается в 90% таких подграфах, значит, учёные могут быть уверены в его связи с исследуемым состоянием на 90%.
Авторы проекта отмечают, что в будущем алгоритм может быть представлен в виде системы с ползунком, с помощью которой можно будет получать показания для разных целей и с разной точностью.
«Например, чем меньше мы поставим степень нашей уверенности, тем больше генов нам будет показано — и наоборот. При необходимости выявить только те гены, в которых мы уверены, мы должны поставить ползунок где-то на 99%»,
— заключает Никита Алексеев.