Благодаря новым алгоритмам и достижениям в области компьютерных технологий, электронные вычислительные машины теперь могут обучать сложные модели искусственного интеллекта и генерировать высококачественные синтетические данные, такие как фотореалистичные изображения или резюме вымышленных людей. В исследовании, недавно опубликованном в международном журнале PLOS Genetics, представлен обученный на базах существующих биобанков алгоритм машинного обучения, генерирующий фрагменты человеческих геномов, не принадлежащих реальным людям, но имеющих характеристики реальных ДНК.
— Существующие базы данных геномов — бесценный ресурс для биомедицинских исследований, но они либо недоступны для сообщества, либо защищены длительными и изнурительными процедурами подачи заявок в связи с обоснованными этическими соображениями. Это создаёт серьёзный барьер для исследователей. Машинные геномы, или искусственные геномы, как мы их называем, могут помочь нам преодолеть эту проблему в безопасных этических рамках,
Многопрофильная группа учёных провела множество анализов для оценки качества генерируемых геномов по сравнению с реальными.
— Удивительно, но эти геномы, создаваемые случайно, имитируют сложности, которые мы можем наблюдать в реальных человеческих популяциях, и по большинству свойств они не отличаются от других геномов из базы данных, которую мы использовали для обучения нашего алгоритма, за исключением одной детали: они не принадлежат ни одному из доноров,
Оценка близости искусственных геномов к реальным производится также, чтобы проверить, сохраняется ли конфиденциальность оригинальных образцов.
— Хотя поиск утечек среди тысяч геномов может показаться поиском иголки в стоге сена, сочетание множества статистических вычислений позволило нам тщательно проверить все модели. Детальное изучение сложных закономерностей утечки может привести к улучшению оценки и проектирования генеративных моделей, а также будет способствовать развитию машинного обучения,
С использованием машинного обучения уже генерируются лица, биографии, а теперь и геномы несуществующих людей. Эти воображаемые люди с реалистичными геномами могли бы служить в исследованиях своего рода представителями реальных геномов, доступ к которым затруднён для учёных.