Проект «Микробиом Земли» (EMP) был инициативой, основанной Джанет Янссон , Джеком Гилбертом и Робом Найтом в 2010 году для сбора природных образцов и анализа микробной жизни по всему миру. [1]
В рамках EMP планировалось обработать до 200 000 образцов в различных биомах , создав базу данных микробов на Земле для характеристики окружающей среды и экосистем по микробному составу и взаимодействию. [2]
Сайт EMP не обновлялся годами, и считается, что проект закрыт. [3]
Проект был запущен в 2010 году, и по состоянию на январь 2018 года в нем было перечислено 161 учреждение, все из которых являются университетами и аффилированными с университетами учреждениями, за исключением IBM Research и зоопарка Атланты . Краудсорсинг осуществлялся Фондом Джона Темплтона , Фондом WM Keck , Аргоннской национальной лабораторией Министерства энергетики США , Австралийским исследовательским советом , Фондом Тулы и Фондом Сэмюэля Лоуренса. Компании предоставили поддержку в натуральной форме, включая MO BIO Laboratories, Luca Technologies, Eppendorf , Boreal Genomics, Illumina , Roche и Integrated DNA Technologies . [4]
Основная цель [ кем? ] проекта «Микробиом Земли» (EMP) заключалась [ когда? ] в исследовании микробного состава во многих средах по всей планете, во времени и пространстве, используя стандартный набор протоколов. [1] Разработка стандартизированных протоколов снижает вариативность и предвзятость в аналитических процессах, что усложняет сравнение структур микробных сообществ. [5] [6]
Другая важная цель — определить, как реконструкция микробных сообществ зависит от аналитических предубеждений. Скорость технического прогресса высока, и необходимо понимать, как данные, полученные с использованием обновленных протоколов, будут сравниваться с данными, полученными с использованием более ранних методов. Информация из этого проекта будет архивироваться в базе данных для облегчения анализа. Другие результаты будут включать глобальный атлас функций белков и каталог повторно собранных геномов, классифицированных по их таксономическому распределению. [5]
Разработаны стандартные протоколы для отбора проб, экстракции ДНК, амплификации 16S рРНК , амплификации 18S рРНК и метагеномики «shotgun» . [7]
Образцы будут собираться с использованием соответствующих методов из различных сред, включая глубокий океан, пресноводные озера, песок пустыни и почву. По возможности будут использоваться стандартизированные протоколы сбора, чтобы результаты были сопоставимыми. Микробы из природных образцов не всегда можно культивировать. Из-за этого будут использоваться метагеномные методы для секвенирования всей ДНК или РНК в образце в культурально-независимой манере.
Влажная лаборатория использовалась для выполнения серии процедур по отбору и очистке микробной части образцов. Процесс очистки варьируется в зависимости от типа образца. ДНК будет извлечена из частиц почвы, или микробы будут сконцентрированы с использованием методов фильтрации. Кроме того, для увеличения выхода ДНК могут использоваться различные методы амплификации. Например, некоторые исследователи предпочитают амплификацию с множественным смещением, не основанную на ПЦР . Извлечение ДНК, использование праймеров и протоколы ПЦР — все это области, которые, чтобы избежать смещения, необходимо выполнять в соответствии с тщательно стандартизированными протоколами. [5]
Исследователи могут секвенировать метагеномный образец, используя два основных подхода, в зависимости от биологического вопроса. Чтобы определить типы и распространенность присутствующих организмов, предпочтительным подходом является нацеливание и амплификация определенного гена, часто высококонсервативного среди интересующих видов, часто гена рибосомальной РНК 16S для бактерий и гена рибосомальной РНК 18S для простейших. Этот подход называется «глубоким секвенированием», что позволяет идентифицировать редкие виды в образце. Однако этот подход не позволит собрать какие-либо целые геномы и не предоставит информацию о том, как организмы могут взаимодействовать друг с другом. Второй подход — метагеномика дробовика, при которой вся ДНК в образце разрезается, а фрагменты секвенируются. В принципе, этот подход позволяет собирать целые микробные геномы и делать выводы о метаболических связях. Однако, если большинство микробов не охарактеризованы в данной среде, сборка de novo будет вычислительно затратной. [8]
EMP предлагает стандартизировать биоинформатические аспекты обработки образцов. [5]
Анализ данных обычно включает следующие шаги: 1) Очистка данных. Предварительная процедура для очистки любых прочтений с низкими показателями качества, удаляющая любые последовательности, содержащие «N» или неоднозначные нуклеотиды, и 2) Назначение таксономии последовательностям, что обычно делается с помощью таких инструментов, как BLAST [9] или RDP. [10] Очень часто обнаруживаются новые последовательности, которые не могут быть сопоставлены с существующей таксономией. В этом случае таксономия выводится из филогенетического дерева , которое создается с новыми последовательностями и пулом близкородственных известных последовательностей. [11]
Дополнительные методы могут быть использованы в зависимости от технологии секвенирования и лежащего в основе биологического вопроса. Например, сборка потребуется, если секвенированные считывания слишком короткие, чтобы вывести какую-либо полезную информацию. Сборка также может быть использована для построения целых геномов, предоставляя полезную информацию о видах. Кроме того, если необходимо понять метаболические связи в микробном метагеноме, последовательности ДНК должны быть переведены в аминокислотные последовательности, например, с использованием инструментов предсказания генов, таких как GeneMark [12] или FragGeneScan. [13]
Четыре основных результата EMP: [14]
Большие объемы данных о последовательностях, полученных в результате анализа разнообразных микробных сообществ, представляют собой сложную задачу для хранения, организации и анализа. Проблема усугубляется короткими считываниями, предоставляемыми высокопроизводительной платформой секвенирования, которая будет стандартным инструментом, используемым в проекте EMP. Потребуются улучшенные алгоритмы, инструменты анализа, огромные объемы компьютерного хранения и доступ к тысячам часов суперкомпьютерного времени. [8]
Еще одной проблемой является большое количество ожидаемых ошибок секвенирования и их различение от фактического разнообразия в собранных микробных образцах. [8] Технологии секвенирования следующего поколения обеспечивают огромную пропускную способность, но более низкую точность, чем старые методы секвенирования. При секвенировании одного генома внутренняя более низкая точность этих методов более чем компенсируется возможностью охватывать весь геном несколько раз в противоположных направлениях от нескольких начальных точек, но эта возможность не обеспечивает улучшения точности при секвенировании разнообразной смеси геномов.
Несмотря на выпуск стандартных протоколов, ожидаются систематические смещения от лаборатории к лаборатории. Необходимость амплификации ДНК из образцов с низкой биомассой внесет дополнительные искажения в данные. Сборка геномов даже доминирующих организмов в разнообразной выборке организмов требует гигабайт данных о последовательностях. [8]
С развитием технологий высокопроизводительного секвенирования многие последовательности попадают в общедоступные базы данных без экспериментально определенной функции, но которые были аннотированы на основе наблюдаемых гомологий с известной последовательностью. Первая известная последовательность используется для аннотации первой неизвестной последовательности, но проблема, которая стала распространенной в общедоступных базах данных последовательностей, которую EMP должен избегать, заключается в том, что первая неизвестная последовательность используется для аннотации второй неизвестной последовательности и так далее. Гомология последовательностей является лишь умеренно надежным предиктором функции. [15]