215 петабайт в одном грамме ДНК

+7 926 604 54 63 address
Ведущий автор исследования Янив Эрлих (слева) в лаборатории Нью-Йоркского геномного центра. Источник: New York Genome Center.
Ведущий автор исследования Янив Эрлих (слева) в лаборатории Нью-Йоркского геномного центра. Источник

Учёные Нью-Йоркского геномного центра (New York Genome Center) усовершенствовали технологию хранения информации в ДНК. Им удалось закодировать операционную систему, фильм и несколько других файлов, многократно скопировать данные и без ошибок считать их. Новая технология позволяет хранить в одном грамме ДНК 215 миллионов гигабайт. Результаты исследования опубликованы в журнале Science.

Человечество с каждым годом производит всё больше и больше информации. Сложно подсчитать, сколько именно: кто-то вспоминает, что только Фейсбук хранит 250 миллиардов фотографий (информация двухлетней давности), другие говорят, что Wallmart использует 2,5 петабайт (информация семилетней давности), а норвежский Фонд научных и промышленных исследований в 2013 заявил, что «за последние 2 года произведено 90% всех данных». Чем дальше, тем сложнее такое количество информации будет хранить на жёстких дисках. Исследователи из Нью-Йоркского геномного центра усовершенствовали технологию хранения данных в ДНК — теперь в одном грамме можно хранить 215 петабайт.

У технологии записи информации в ДНК есть много преимуществ. Такая «флешка» очень компактна и может храниться сотни тысяч лет. «ДНК не устареет и не придёт в негодность, в отличие от магнитофонной ленты и CD-дисков», — говорит Янив Эрлих (Yaniv Erlich), один из авторов исследования. Первые попытки записать информацию на ДНК предприняли ещё в 1988 году. Но особенно успешными они не были: за 24 года учёным удалось запихнуть в биомолекулу максимум 7 920 бит. Пять лет назад генетики из Гарвардского университета существенно продвинулись вперёд — с помощью тысячи цепочек ДНК они закодировали 5,27 мегабит (примерно 5 270 000 бит). Однако их метод был не очень эффективным и позволял хранить в одном грамме ДНК только 1,28 петабайт. Постепенно эта цифра росла, но достичь предела — 1,8 битов на один нуклеотид — не удавалось никому. Почему 1,8? В идеальных условиях в один нуклеотид можно было бы записать 2 бита информации (возможно 4 состояния). Но в процессе копирования или хранения короткие фрагменты ДНК могут «потеряться» — таким образом, число нуклеотидов, которыми можно кодировать информацию, снижается.

Для того чтобы справиться с потерей нуклеотидов, учёные использовали фонтанные коды, которые применяют для передачи данных по ненадёжным каналам связи. С их помощью можно преобразовать файлы в практически неограниченное количество блоков — создать «фонтан» данных. Собрав достаточно «капель» из фонтана, получатель может восстановить исходные данные, при этом неважно, какие «капли» у него есть, а какие он пропустил. Члены научной группы выбрали шесть файлов, в том числе операционную систему Колибри, фильм «Прибытие поезда», вирус и статью Клода Шеннона. Они сжали все файлы в один и «порезали» бинарный код на короткие фрагменты. Алгоритм «Фонтан ДНК» (DNA fountain) случайным образом формировал из них пакеты и конвертировал сочетания 00 ,01, 10, 11 в A, C, G, T соответственно. Затем удалял некорректные последовательности нуклеотидов и добавлял к пакетам метки, чтобы их можно было собрать в нужном порядке.

Всего получилось около 72 000 цепочек ДНК, длиной около 200 оснований каждая. Эту информацию в виде текстового файла отправили компании Twist Bioscience, которая синтезировала молекулы ДНК. Чтобы считать файлы, учёные секвенировали ДНК и конвертировали последовательность нуклеотидов в бинарный код. Им удалось восстановить все файлы в прежнем виде. Исследователи показали, что закодированные в молекуле данные можно копировать с  помощью полимеразной цепной реакции (ПЦР) — да так, что и копии, и копии копий и даже копии копий копий можно считать без ошибок.

С помощью фонтана ДНК можно закодировать в одном грамме 215 петабайт данных — 1,6 бит на один нуклеотид. Это 85% от максимального объёма и на 60% больше, чем у группы из Гарварда. Но мы увидим технологию в действии не скоро: мешает высокая цена. Синтез ДНК стоил 7000 долларов, чтение данных — ещё 2000. И если цена на секвенирование быстро падает, то синтез вряд ли будет дешеветь с той же скоростью. «Возможно, инвесторы не захотят рисковать кучей денег, чтобы снизить цену», — поясняет биохимик Шри Косури (Sri Kosuri). Но ДНК-флешки не стоит сбрасывать со счетов: человечество прошло путь от дискет до жёстких дисков размером в терабайт, а ведь когда-то и это казалось невозможным.

.
Комментарии