В метагеномике биннинг — это процесс группировки прочтений или контигов и отнесения их к отдельному геному . Методы биннинга могут быть основаны либо на композиционных признаках, либо на выравнивании (сходстве), либо на обоих. [1]
Метагеномные образцы могут содержать считывания от огромного количества организмов. Например, в одном грамме почвы может быть до 18000 различных типов организмов, каждый со своим собственным геномом. [2] Метагеномные исследования отбирают образцы ДНК из всего сообщества и делают их доступными в виде нуклеотидных последовательностей определенной длины . В большинстве случаев неполная природа полученных последовательностей затрудняет сборку отдельных генов, [3] не говоря уже о восстановлении полных геномов каждого организма. Таким образом, методы биннинга представляют собой «наилучшую попытку» идентифицировать считывания или контиги в определенных геномах, известных как собранный метагеном геном (MAG). Таксономия MAG может быть выведена путем помещения в справочное филогенетическое дерево с использованием алгоритмов, таких как GTDB -Tk. [4]
Первые исследования, в которых брали образцы ДНК из нескольких организмов, использовали определенные гены для оценки разнообразия и происхождения каждого образца. [5] [6] Эти маркерные гены были ранее секвенированы из клонированных культур известных организмов, поэтому, когда один из таких генов появлялся в прочтении или контиге из метагеномного образца, это прочтение можно было отнести к известному виду или к OTU этого вида. Проблема с этим методом заключалась в том, что только крошечная часть последовательностей несла маркерный ген, оставляя большую часть данных нераспределенными.
Современные методы биннинга используют как ранее имеющуюся информацию, независимую от образца, так и внутреннюю информацию, присутствующую в образце. В зависимости от разнообразия и сложности образца, степень их успешности варьируется: в некоторых случаях они могут разрешить последовательности вплоть до отдельных видов, в то время как в некоторых других последовательности в лучшем случае идентифицируются с очень широкими таксономическими группами. [7]
Объединение метагеномных данных из различных мест обитания может значительно расширить древо жизни. Такой подход к глобально доступным метагеномам объединил 52 515 индивидуальных микробных геномов и расширил разнообразие бактерий и архей на 44%. [8]
Алгоритмы биннинга могут использовать предыдущую информацию и, таким образом, действовать как контролируемые классификаторы , или они могут попытаться найти новые группы, которые действуют как неконтролируемые классификаторы . Многие, конечно, делают и то, и другое. Классификаторы используют ранее известные последовательности, выполняя выравнивания по базам данных , и пытаются разделить последовательности на основе специфических для организма характеристик ДНК, [9] таких как GC-контент .
Некоторые известные алгоритмы биннинга для метагеномных наборов данных, полученных с помощью дробового секвенирования, включают TETRA, MEGAN, Phylopythia, SOrt-ITEMS и DiScRIBinATE, среди прочих. [10]
TETRA — это статистический классификатор, который использует шаблоны использования тетрануклеотидов в геномных фрагментах. [11] В ДНК существует четыре возможных нуклеотида , поэтому могут быть различные фрагменты из четырех последовательных нуклеотидов; эти фрагменты называются тетрамерами. TETRA работает, табулируя частоты каждого тетрамера для заданной последовательности. Из этих частот затем вычисляются z-оценки , которые указывают, насколько пере- или недопредставлен тетрамер в противоречии с тем, что можно было бы ожидать, рассматривая индивидуальные нуклеотидные композиции. Z-оценки для каждого тетрамера собираются в вектор, и векторы, соответствующие различным последовательностям, сравниваются попарно, чтобы получить меру того, насколько похожи различные последовательности из образца. Ожидается, что наиболее похожие последовательности принадлежат организмам в одной и той же OTU.
В подходе DIAMOND [12] +MEGAN [13] все считывания сначала выравниваются по базе данных референсных белков, такой как NCBI-nr, а затем полученные выравнивания анализируются с использованием наивного алгоритма LCA, который помещает считывание в самый нижний таксономический узел в таксономии NCBI, который лежит выше всех таксонов, с которыми считывание имеет значимое выравнивание. Здесь выравнивание обычно считается «значимым», если его битовая оценка превышает заданный порог (который зависит от длины считываний) и находится в пределах, скажем, 10% от наилучшей оценки, наблюдаемой для этого считывания. Обоснованием использования референсных последовательностей белков, а не референсных последовательностей ДНК, является то, что текущие референсные базы данных ДНК охватывают лишь малую часть истинного разнообразия геномов, существующих в окружающей среде.
Phylopythia — это один из контролируемых классификаторов, разработанный исследователями в лабораториях IBM, и по сути представляющий собой машину опорных векторов , обученную с помощью ДНК-k-меров из известных последовательностей. [6]
SOrt-ITEMS [14] — это алгоритм биннинга на основе выравнивания, разработанный Innovations Labs of Tata Consultancy Services (TCS) Ltd., Индия. Пользователям необходимо выполнить поиск сходства входных метагеномных последовательностей (чтений) по базе данных белков nr с помощью поиска BLASTx. Затем сгенерированный вывод BLASTx принимается в качестве входных данных программой SOrt-ITEMS. Метод использует диапазон пороговых значений параметров выравнивания BLAST, чтобы сначала определить соответствующий таксономический уровень (или ранг), на котором может быть назначено чтение. Затем для окончательного назначения метагеномного чтения применяется подход на основе ортологии. Другие алгоритмы биннинга на основе выравнивания, разработанные Innovation Labs of Tata Consultancy Services (TCS), включают DiScRIBinATE, [15] ProViDE [16] и SPHINX. [17] Методологии этих алгоритмов обобщены ниже.
DiScRIBinATE [15] — это алгоритм биннинга на основе выравнивания, разработанный Innovations Labs of Tata Consultancy Services (TCS) Ltd., Индия. DiScRIBinATE заменяет подход ортологии SOrt-ITEMS на более быстрый подход «без выравнивания». Было отмечено, что включение этой альтернативной стратегии сокращает время биннинга вдвое без существенной потери точности и специфичности назначений. Кроме того, новая стратегия реклассификации, включенная в DiScRIBinATE, по-видимому, снижает общую частоту ошибочной классификации.
ProViDE [16] — это подход биннинга на основе выравнивания, разработанный Innovation Labs of Tata Consultancy Services (TCS) Ltd. для оценки вирусного разнообразия в метагеномных образцах. ProViDE использует подход на основе обратной ортологии, аналогичный SOrt-ITEMS, для таксономической классификации метагеномных последовательностей, полученных из наборов данных виромов. Это настраиваемый набор пороговых значений параметров BLAST, специально подходящий для вирусных метагеномных последовательностей. Эти пороговые значения фиксируют закономерности расхождения последовательностей и неоднородную таксономическую иерархию, наблюдаемую внутри/между различными таксономическими группами вирусного царства.
PCAHIER [18] , другой алгоритм биннинга, разработанный Технологическим институтом Джорджии, использует частоты n-мерных олигонуклеотидов в качестве признаков и принимает иерархический классификатор (PCAHIER) для биннинга коротких метагеномных фрагментов. Анализ главных компонентов использовался для снижения высокой размерности пространства признаков. Эффективность PCAHIER была продемонстрирована путем сравнения с неиерархическим классификатором и двумя существующими алгоритмами биннинга (TETRA и Phylopythia).
SPHINX [17] , другой алгоритм биннинга, разработанный Innovation Labs of Tata Consultancy Services (TCS) Ltd., использует гибридную стратегию, которая достигает высокой эффективности биннинга за счет использования принципов алгоритмов биннинга на основе как «композиции», так и «выравнивания». Подход был разработан с целью анализа метагеномных наборов данных так же быстро, как и подходы на основе композиции, но тем не менее с точностью и специфичностью алгоритмов на основе выравнивания. Было замечено, что SPHINX классифицирует метагеномные последовательности так же быстро, как и алгоритмы на основе композиции. Кроме того, было замечено, что эффективность биннинга (с точки зрения точности и специфичности назначений) SPHINX сопоставима с результатами, полученными с использованием алгоритмов на основе выравнивания.
Представляют собой другие алгоритмы биннинга на основе состава, разработанные инновационными лабораториями Tata Consultancy Services (TCS) Ltd. Эти алгоритмы используют ряд параметров состава олигонуклеотидов (а также статистических) для улучшения времени биннинга, сохраняя при этом точность и специфичность таксономических назначений. [19] [20]