Цифровое хранение данных ДНК представляет собой процесс кодирования и декодирования двоичных данных в синтезированные цепи ДНК и из них . [1] [2]
Хотя ДНК как носитель информации имеет огромный потенциал из-за высокой плотности хранения, ее практическое использование в настоящее время серьезно ограничено из-за ее высокой стоимости и очень медленного времени чтения и записи. [3]
В июне 2019 года ученые сообщили, что все 16 ГБ текста из английской Википедии были закодированы в синтетической ДНК . [4] В 2021 году ученые сообщили, что был разработан специальный редактор данных ДНК, способный записывать данные в ДНК со скоростью 1 Мбит/с. [5]
Возможны многие методы кодирования данных в ДНК. Оптимальными являются те, которые экономно используют ДНК и защищают от ошибок. [6] Если сообщение ДНК должно храниться в течение длительного периода времени, например, 1000 лет, также полезно, если последовательность явно искусственная, а рамка считывания легко идентифицируется. [6]
Было предложено несколько простых методов кодирования текста. Большинство из них включают перевод каждой буквы в соответствующий «кодон», состоящий из уникальной небольшой последовательности нуклеотидов в таблице поиска . Некоторые примеры таких схем кодирования включают коды Хаффмана , коды с запятой и чередующиеся коды. [6]
Для кодирования произвольных данных в ДНК данные обычно сначала преобразуются в троичные (основание 3) данные, а не в бинарные (основание 2). Затем каждая цифра (или «трит») преобразуется в нуклеотид с помощью таблицы поиска. Чтобы предотвратить гомополимеры (повторяющиеся нуклеотиды), которые могут вызвать проблемы с точным секвенированием, результат поиска также зависит от предыдущего нуклеотида. Используя пример таблицы поиска ниже, если предыдущий нуклеотид в последовательности — T ( тимин ), а трит — 2, следующим нуклеотидом будет G ( гуанин ). [7] [8]
Различные системы могут быть включены для разделения и адресации данных, а также для защиты их от ошибок. Один из подходов к исправлению ошибок заключается в регулярном перемежающемся размещении нуклеотидов синхронизации между нуклеотидами, кодирующими информацию. Эти нуклеотиды синхронизации могут действовать как каркасы при реконструкции последовательности из нескольких перекрывающихся нитей. [8]
Генетический код в живых организмах потенциально может быть использован для хранения информации. Кроме того, синтетическая биология может быть использована для создания клеток с «молекулярными регистраторами», чтобы обеспечить хранение и извлечение информации, хранящейся в генетическом материале клетки. [1] Редактирование генов CRISPR также может быть использовано для вставки искусственных последовательностей ДНК в геном клетки. [1] Для кодирования данных о линии развития (молекулярный бортовой самописец) примерно 30 триллионов ядер клеток на мышь * 60 участков записи на ядро * 7-15 бит на участок дают около 2 терабайт записанных данных на мышь (но считываемых очень избирательно). [9]
Была продемонстрирована экспериментальная система прямой записи данных ДНК in vivo посредством включения оптогенетически регулируемых рекомбиназ в качестве части сконструированного «молекулярного регистратора», позволяющего напрямую кодировать стимулы на основе света в сконструированных клетках E.coli . [10] Этот подход также можно распараллелить для хранения и записи текста или данных в 8-битной форме посредством использования физически разделенных индивидуальных клеточных культур в планшетах для клеточных культур.
Этот подход использует редактирование «плазмиды-регистратора » светорегулируемыми рекомбиназами, что позволяет идентифицировать популяции клеток, подвергшихся воздействию различных стимулов. Этот подход позволяет напрямую кодировать физический стимул в «плазмиде-регистраторе» посредством действия рекомбиназы. В отличие от других подходов, этот подход не требует ручного проектирования, вставки и клонирования искусственных последовательностей для записи данных в генетический код. В этом процессе записи каждая отдельная популяция клеток в каждой лунке планшета для культивирования клеток может рассматриваться как цифровой «бит», функционирующий как биологический транзистор, способный записывать один бит данных.
Идея цифрового хранения данных на основе ДНК восходит к 1959 году, когда физик Ричард П. Фейнман в работе «Там внизу полно места: приглашение войти в новую область физики» обрисовал общие перспективы создания искусственных объектов, подобных объектам микромира (в том числе биологического) и обладающих аналогичными или даже более широкими возможностями. [11] В 1964–65 годах Михаил Самойлович Нейман , советский физик, опубликовал 3 статьи о микроминиатюризации в электронике на молекулярно-атомном уровне, в которых независимо друг от друга изложил общие соображения и некоторые расчеты относительно возможности записи, хранения и извлечения информации на синтезированных молекулах ДНК и РНК. [12] [13] [14] После публикации первой статьи М.С. Неймана и получения редактором рукописи его второй статьи (8 января 1964 г., как указано в той статье) было опубликовано интервью с кибернетиком Норбертом Винером . [15] Н. Винер высказал идеи о миниатюризации памяти ЭВМ, близкие идеям, предложенным М.С. Нейманом независимо. Эти идеи Винера М.С. Нейман упомянул в третьей своей статье. Подробно эта история описана. [16]
Одно из самых ранних применений хранения ДНК произошло в 1988 году в сотрудничестве между художником Джо Дэвисом и исследователями из Гарвардского университета . Изображение, сохраненное в последовательности ДНК в E.coli , было организовано в матрицу 5 x 7, которая после декодирования образовывала изображение древней германской руны, представляющей жизнь и женскую Землю. В матрице единицы соответствовали темным пикселям, а нули — светлым пикселям. [17]
В 2007 году в Университете Аризоны было создано устройство, использующее адресные молекулы для кодирования несовпадений в цепочке ДНК. Эти несовпадения затем можно было считывать, выполняя рестрикционный дайджест, тем самым восстанавливая данные. [18]
В 2011 году Джордж Чёрч, Шри Косури и Юань Гао провели эксперимент, который должен был закодировать книгу объёмом 659 кб , написанную Чёрчем в соавторстве. Для этого исследовательская группа провела соответствие два к одному, где двоичный ноль был представлен либо аденином , либо цитозином , а двоичная единица была представлена гуанином или тимином. После проверки в ДНК было обнаружено 22 ошибки. [17]
В 2012 году Джордж Чёрч и его коллеги из Гарвардского университета опубликовали статью, в которой ДНК была закодирована с помощью цифровой информации, которая включала черновик HTML книги на 53 400 слов, написанной ведущим исследователем, одиннадцать изображений JPEG и одну программу JavaScript . Было добавлено несколько копий для избыточности, и в каждом кубическом миллиметре ДНК можно хранить 5,5 петабит . [19] Исследователи использовали простой код, в котором биты были сопоставлены один к одному с основаниями, [ необходимо разъяснение ] , который имел тот недостаток, что он приводил к длинным пробегам одного и того же основания, последовательность которого подвержена ошибкам. Этот результат показал, что помимо своих других функций, ДНК также может быть другим типом носителя информации, таким как жесткие диски и магнитные ленты . [20]
В 2013 году статья под руководством исследователей из Европейского института биоинформатики (EBI) и представленная примерно в то же время, что и статья Чёрча и коллег, подробно описывала хранение, извлечение и воспроизведение более пяти миллионов бит данных. Все файлы ДНК воспроизводили информацию с точностью от 99,99% до 100%. [21] Основными нововведениями в этом исследовании были использование схемы кодирования с коррекцией ошибок для обеспечения крайне низкого уровня потери данных, а также идея кодирования данных в серии перекрывающихся коротких олигонуклеотидов, идентифицируемых с помощью схемы индексации на основе последовательностей. [20] Кроме того, последовательности отдельных цепей ДНК перекрывались таким образом, что каждая область данных повторялась четыре раза, чтобы избежать ошибок. Две из этих четырех цепей были построены в обратном порядке, также с целью устранения ошибок. [21] Стоимость за мегабайт была оценена в 12 400 долларов США для кодирования данных и 220 долларов США для извлечения. Однако было отмечено, что экспоненциальное снижение затрат на синтез и секвенирование ДНК, если оно продолжится в будущем, должно сделать технологию экономически эффективной для долгосрочного хранения данных к 2023 году. [20]
В 2013 году Маниш К. Гупта и его коллеги разработали программное обеспечение DNACloud для кодирования компьютерных файлов в их ДНК-представление. Оно реализует версию алгоритма эффективности памяти, предложенную Голдманом и др. для кодирования (и декодирования) данных в ДНК (файлы .dnac). [22] [23]
Долгосрочная стабильность данных, закодированных в ДНК, была описана в феврале 2015 года в статье исследователей из ETH Zurich . Команда добавила избыточность с помощью кодирования с исправлением ошибок Рида-Соломона и инкапсуляции ДНК в сферы из кварцевого стекла с помощью золь-гель химии. [24]
В 2016 году было опубликовано исследование Church и Technicolor Research and Innovation , в котором 22 МБ сжатой последовательности фильмов MPEG были сохранены и восстановлены из ДНК. Было обнаружено, что восстановление последовательности не имело никаких ошибок. [25]
В марте 2017 года Янив Эрлих и Дина Зелински из Колумбийского университета и Нью-Йоркского центра генома опубликовали метод, известный как DNA Fountain, который хранил данные с плотностью 215 петабайт на грамм ДНК. Метод приближается к ёмкости хранения ДНК по Шеннону , достигая 85% от теоретического предела. Метод не был готов к широкомасштабному использованию, поскольку он стоит 7000 долларов, чтобы синтезировать 2 мегабайта данных, и ещё 2000 долларов, чтобы прочитать их. [26] [27] [28]
В марте 2018 года Вашингтонский университет и Microsoft опубликовали результаты, демонстрирующие хранение и извлечение около 200 МБ данных. Исследование также предложило и оценило метод случайного доступа к элементам данных, хранящимся в ДНК. [29] [30] В марте 2019 года та же группа объявила, что они продемонстрировали полностью автоматизированную систему для кодирования и декодирования данных в ДНК. [31]
Исследование, опубликованное Eurecom и Imperial College в январе 2019 года, продемонстрировало возможность хранения структурированных данных в синтетической ДНК. Исследование показало, как кодировать структурированные или, более конкретно, реляционные данные в синтетической ДНК , а также продемонстрировало, как выполнять операции обработки данных (похожие на SQL ) непосредственно на ДНК в виде химических процессов. [32] [33]
В апреле 2019 года благодаря сотрудничеству с TurboBeads Labs в Швейцарии альбом Mezzanine группы Massive Attack был закодирован в синтетической ДНК, что сделало его первым альбомом, сохраненным таким образом. [34]
В июне 2019 года ученые сообщили, что все 16 ГБ Википедии были закодированы в синтетической ДНК. [4] В 2021 году CATALOG сообщил, что они разработали специальный ДНК-писатель, способный записывать данные со скоростью 1 Мбит/с в ДНК. [5]
Первая статья, описывающая хранение данных на нативных последовательностях ДНК с помощью ферментативного никирования, была опубликована в апреле 2020 года. В статье ученые демонстрируют новый метод записи информации в остов ДНК, который обеспечивает побитовый произвольный доступ и вычисления в памяти. [35]
В 2021 году исследовательская группа в Университете Ньюкасла под руководством Н. Красногора реализовала стековую структуру данных с использованием ДНК, что позволило осуществлять запись и извлечение данных по принципу «последним пришел — первым вышел» (LIFO). Их подход использовал гибридизацию и смещение нитей для записи сигналов ДНК в полимерах ДНК, которые затем выпускались в обратном порядке. Исследование показало, что операции, подобные структурам данных, возможны в молекулярной сфере. Исследователи также изучили ограничения и будущие улучшения для динамических структур данных ДНК, подчеркнув потенциал вычислительных систем на основе ДНК. [36]
21 января 2015 года Ник Голдман из Европейского института биоинформатики (EBI), один из первоначальных авторов статьи Nature 2013 года , [21] объявил о проведении Davos Bitcoin Challenge на ежегодном заседании Всемирного экономического форума в Давосе. [37] [38] Во время его презентации аудитории были розданы пробирки с ДНК, в которых говорилось, что каждая пробирка содержит закрытый ключ ровно одного биткойна , закодированного в ДНК. Первый, кто секвенирует и расшифрует ДНК, может получить биткойн и выиграть соревнование. Соревнование было назначено на три года и будет закрыто, если никто не заберет приз до 21 января 2018 года. [38]
Почти три года спустя, 19 января 2018 года, EBI объявил, что бельгийский аспирант Сандер Вюйтс из Университета Антверпена и Брюссельского свободного университета стал первым, кто выполнил задание. [39] [40] Рядом с инструкциями о том, как получить биткойн (хранящимися в виде обычного текста и файла PDF ), из ДНК были извлечены логотип EBI, логотип компании, которая напечатала ДНК (CustomArray), и набросок Джеймса Джойса . [41]
Лунная библиотека, запущенная на посадочном модуле Beresheet организацией Arch Mission Foundation , содержит информацию, закодированную в ДНК, которая включает 20 известных книг и 10 000 изображений. Это был один из оптимальных вариантов хранения, поскольку ДНК может храниться долгое время. Arch Mission Foundation предполагает, что ее все еще можно прочитать спустя миллиарды лет. [42] Посадочный модуль потерпел крушение 11 апреля 2019 года и был потерян. [43]
Концепция ДНК вещей (DoT) была представлена в 2019 году группой исследователей из Израиля и Швейцарии, включая Янива Эрлиха и Роберта Грасса. [44] [45] [46] DoT кодирует цифровые данные в молекулы ДНК, которые затем встраиваются в объекты. Это дает возможность создавать объекты, которые несут свой собственный чертеж, подобно биологическим организмам. В отличие от Интернета вещей , который представляет собой систему взаимосвязанных вычислительных устройств, DoT создает объекты, которые являются независимыми объектами хранения, полностью автономными .
В качестве доказательства концепции DoT исследователь напечатал на 3D-принтере кролика из Стэнфорда , чертеж которого находится в пластиковой нити, используемой для печати. Отрезав крошечный кусочек уха кролика, они смогли прочитать чертеж, размножить его и создать следующее поколение кроликов. Кроме того, способность DoT служить стеганографическим целям была продемонстрирована путем создания неразличимых линз, которые содержат видео YouTube , интегрированное в материал.