Биннинг (метагеномика)

В метагеномике биннинг — это процесс группировки прочтений или контигов и отнесения их к отдельному геному . Методы биннинга могут быть основаны либо на композиционных признаках, либо на выравнивании (сходстве), либо на обоих. ^[1]

Введение

Метагеномные образцы могут содержать считывания от огромного количества организмов. Например, в одном грамме почвы может быть до 18000 различных типов организмов, каждый со своим собственным геномом. ^[2] Метагеномные исследования отбирают образцы ДНК из всего сообщества и делают их доступными в виде нуклеотидных последовательностей определенной длины . В большинстве случаев неполная природа полученных последовательностей затрудняет сборку отдельных генов, ^[3] не говоря уже о восстановлении полных геномов каждого организма. Таким образом, методы биннинга представляют собой «наилучшую попытку» идентифицировать считывания или контиги в определенных геномах, известных как собранный метагеном геном (MAG). Таксономия MAG может быть выведена путем помещения в справочное филогенетическое дерево с использованием алгоритмов, таких как GTDB -Tk. ^[4]

Первые исследования, в которых брали образцы ДНК из нескольких организмов, использовали определенные гены для оценки разнообразия и происхождения каждого образца. ^[5]^[6] Эти маркерные гены были ранее секвенированы из клонированных культур известных организмов, поэтому, когда один из таких генов появлялся в прочтении или контиге из метагеномного образца, это прочтение можно было отнести к известному виду или к OTU этого вида. Проблема с этим методом заключалась в том, что только крошечная часть последовательностей несла маркерный ген, оставляя большую часть данных нераспределенными.

Современные методы биннинга используют как ранее имеющуюся информацию, независимую от образца, так и внутреннюю информацию, присутствующую в образце. В зависимости от разнообразия и сложности образца, степень их успешности варьируется: в некоторых случаях они могут разрешить последовательности вплоть до отдельных видов, в то время как в некоторых других последовательности в лучшем случае идентифицируются с очень широкими таксономическими группами. ^[7]

Объединение метагеномных данных из различных мест обитания может значительно расширить древо жизни. Такой подход к глобально доступным метагеномам объединил 52 515 индивидуальных микробных геномов и расширил разнообразие бактерий и архей на 44%. ^[8]

Алгоритмы

Алгоритмы биннинга могут использовать предыдущую информацию и, таким образом, действовать как контролируемые классификаторы , или они могут попытаться найти новые группы, которые действуют как неконтролируемые классификаторы . Многие, конечно, делают и то, и другое. Классификаторы используют ранее известные последовательности, выполняя выравнивания по базам данных , и пытаются разделить последовательности на основе специфических для организма характеристик ДНК, ^[9] таких как GC-контент .

Некоторые известные алгоритмы биннинга для метагеномных наборов данных, полученных с помощью дробового секвенирования, включают TETRA, MEGAN, Phylopythia, SOrt-ITEMS и DiScRIBinATE, среди прочих. ^[10]

ТЕТРА

TETRA — это статистический классификатор, который использует шаблоны использования тетрануклеотидов в геномных фрагментах. ^{[11] В}ДНК существует четыре возможных нуклеотида , поэтому могут быть различные фрагменты из четырех последовательных нуклеотидов; эти фрагменты называются тетрамерами. TETRA работает, табулируя частоты каждого тетрамера для заданной последовательности. Из этих частот затем вычисляются z-оценки , которые указывают, насколько пере- или недопредставлен тетрамер в противоречии с тем, что можно было бы ожидать, рассматривая индивидуальные нуклеотидные композиции. Z-оценки для каждого тетрамера собираются в вектор, и векторы, соответствующие различным последовательностям, сравниваются попарно, чтобы получить меру того, насколько похожи различные последовательности из образца. Ожидается, что наиболее похожие последовательности принадлежат организмам в одной и той же OTU. $4^{4}=256$

МЕГАН

В подходе DIAMOND ^[12] +MEGAN ^[13] все считывания сначала выравниваются по базе данных референсных белков, такой как NCBI-nr, а затем полученные выравнивания анализируются с использованием наивного алгоритма LCA, который помещает считывание в самый нижний таксономический узел в таксономии NCBI, который лежит выше всех таксонов, с которыми считывание имеет значимое выравнивание. Здесь выравнивание обычно считается «значимым», если его битовая оценка превышает заданный порог (который зависит от длины считываний) и находится в пределах, скажем, 10% от наилучшей оценки, наблюдаемой для этого считывания. Обоснованием использования референсных последовательностей белков, а не референсных последовательностей ДНК, является то, что текущие референсные базы данных ДНК охватывают лишь малую часть истинного разнообразия геномов, существующих в окружающей среде.

Филопифия

Phylopythia — это один из контролируемых классификаторов, разработанный исследователями в лабораториях IBM, и по сути представляющий собой машину опорных векторов , обученную с помощью ДНК-k-меров из известных последовательностей. ^[6]

Сортировать-ЭЛЕМЕНТЫ

SOrt-ITEMS ^[14] — это алгоритм биннинга на основе выравнивания, разработанный Innovations Labs of Tata Consultancy Services (TCS) Ltd., Индия. Пользователям необходимо выполнить поиск сходства входных метагеномных последовательностей (чтений) по базе данных белков nr с помощью поиска BLASTx. Затем сгенерированный вывод BLASTx принимается в качестве входных данных программой SOrt-ITEMS. Метод использует диапазон пороговых значений параметров выравнивания BLAST, чтобы сначала определить соответствующий таксономический уровень (или ранг), на котором может быть назначено чтение. Затем для окончательного назначения метагеномного чтения применяется подход на основе ортологии. Другие алгоритмы биннинга на основе выравнивания, разработанные Innovation Labs of Tata Consultancy Services (TCS), включают DiScRIBinATE, ^[15] ProViDE ^[16] и SPHINX. ^[17] Методологии этих алгоритмов обобщены ниже.

ДИСКРИБИНАЦИЯ

DiScRIBinATE ^[15] — это алгоритм биннинга на основе выравнивания, разработанный Innovations Labs of Tata Consultancy Services (TCS) Ltd., Индия. DiScRIBinATE заменяет подход ортологии SOrt-ITEMS на более быстрый подход «без выравнивания». Было отмечено, что включение этой альтернативной стратегии сокращает время биннинга вдвое без существенной потери точности и специфичности назначений. Кроме того, новая стратегия реклассификации, включенная в DiScRIBinATE, по-видимому, снижает общую частоту ошибочной классификации.

Предоставлять

ProViDE ^[16] — это подход биннинга на основе выравнивания, разработанный Innovation Labs of Tata Consultancy Services (TCS) Ltd. для оценки вирусного разнообразия в метагеномных образцах. ProViDE использует подход на основе обратной ортологии, аналогичный SOrt-ITEMS, для таксономической классификации метагеномных последовательностей, полученных из наборов данных виромов. Это настраиваемый набор пороговых значений параметров BLAST, специально подходящий для вирусных метагеномных последовательностей. Эти пороговые значения фиксируют закономерности расхождения последовательностей и неоднородную таксономическую иерархию, наблюдаемую внутри/между различными таксономическими группами вирусного царства.

ПЧАЙЕР

PCAHIER ^[18] , другой алгоритм биннинга, разработанный Технологическим институтом Джорджии, использует частоты n-мерных олигонуклеотидов в качестве признаков и принимает иерархический классификатор (PCAHIER) для биннинга коротких метагеномных фрагментов. Анализ главных компонентов использовался для снижения высокой размерности пространства признаков. Эффективность PCAHIER была продемонстрирована путем сравнения с неиерархическим классификатором и двумя существующими алгоритмами биннинга (TETRA и Phylopythia).

СФИНКСА

SPHINX ^[17] , другой алгоритм биннинга, разработанный Innovation Labs of Tata Consultancy Services (TCS) Ltd., использует гибридную стратегию, которая достигает высокой эффективности биннинга за счет использования принципов алгоритмов биннинга на основе как «композиции», так и «выравнивания». Подход был разработан с целью анализа метагеномных наборов данных так же быстро, как и подходы на основе композиции, но тем не менее с точностью и специфичностью алгоритмов на основе выравнивания. Было замечено, что SPHINX классифицирует метагеномные последовательности так же быстро, как и алгоритмы на основе композиции. Кроме того, было замечено, что эффективность биннинга (с точки зрения точности и специфичности назначений) SPHINX сопоставима с результатами, полученными с использованием алгоритмов на основе выравнивания.

ИНДУС и ТВАРИТ

Представляют собой другие алгоритмы биннинга на основе состава, разработанные инновационными лабораториями Tata Consultancy Services (TCS) Ltd. Эти алгоритмы используют ряд параметров состава олигонуклеотидов (а также статистических) для улучшения времени биннинга, сохраняя при этом точность и специфичность таксономических назначений. ^[19]^[20]

Ссылки

^ Магуайр, Финлей; Цзя, Баофэн; Грей, Кристен Л.; Лау, Вин Инь Венера; Бейко, Роберт Г.; Бринкман, Фиона СЛ (2020-10-01). «Методы сортировки генома на основе метагенома с короткими прочтениями непропорционально неэффективны для плазмид и геномных островов». Microbial Genomics . 6 (10): mgen000436. doi : 10.1099/mgen.0.000436 . ISSN 2057-5858. PMC 7660262 . PMID 33001022.
^ Дэниел, Рольф (2005-06-01). «Метагеномика почвы». Nature Reviews Microbiology . 3 (6): 470–478. doi :10.1038/nrmicro1160. ISSN 1740-1526. PMID 15931165. S2CID 32604394.
^ Вули, Джон К.; Годзик, Адам; Фридберг, Иддо (2010-02-26). «Учебник по метагеномике». PLOS Comput Biol . 6 (2): e1000667. Bibcode : 2010PLSCB...6E0667W. doi : 10.1371/journal.pcbi.1000667 . PMC 2829047. PMID 20195499 .
^ Шомей, Пьер-Ален; Муссиг, Аарон Дж.; Хугенхольц, Филипп; Паркс, Донован Х. (15.11.2019). Хэнкок, Джон (ред.). «GTDB-Tk: набор инструментов для классификации геномов с помощью базы данных таксономии генома». Биоинформатика . 36 (6): 1925–1927. doi :10.1093/bioinformatics/btz848. ISSN 1367-4803. PMC 7703759. PMID 31730192 .
^ Джованнони, Стивен Дж.; Бричги, Тереза Б.; Мойер, Крейг Л.; Филд, Кэтрин Г. (1990-05-03). «Генетическое разнообразие бактериопланктона Саргассова моря». Nature . 345 (6270): 60–63. Bibcode :1990Natur.345...60G. doi :10.1038/345060a0. PMID 2330053. S2CID 4370502.
^ ab McHardy, Alice Carolyn; Martin, Hector Garcia; Tsirigos, Aristotelis; Hugenholtz, Philip; Rigoutsos, Isidore (январь 2007 г.). «Точная филогенетическая классификация фрагментов ДНК переменной длины». Nature Methods . 4 (1): 63–72. doi :10.1038/nmeth976. ISSN 1548-7091. PMID 17179938. S2CID 28797816.
^ Хикл, Оскар; Кейрос, Педро; Вильмес, Пол; Мэй, Патрик; Хайнц-Бушарт, Анна (19 ноября 2022 г.). «binny: автоматизированный алгоритм биннинга для восстановления высококачественных геномов из сложных метагеномных наборов данных». Briefings in Bioinformatics . 23 (6). doi :10.1093/bib/bbac431.
^ Консорциум данных IMG/M; Найфах, Стивен; Ру, Саймон; Сешадри, Рекха; Удвари, Даниэль; Варгезе, Неха; Шульц, Фредерик; Ву, Дунъин; Паес-Эспино, Дэвид; Чэнь, И-Мин; Хантманн, Марсель (2020-11-09). "Геномный каталог микробиомов Земли". Nature Biotechnology . 39 (4): 499–509. doi : 10.1038/s41587-020-0718-6 . ISSN 1087-0156. PMC 8041624. PMID 33169036 .
^ Карлин, С.; И. Ладунга; Б. Э. Блейсделл (1994). «Гетерогенность геномов: меры и значения». Труды Национальной академии наук . 91 (26): 12837–12841. Bibcode : 1994PNAS...9112837K. doi : 10.1073/pnas.91.26.12837 . PMC 45535. PMID 7809131 .
^ Манде, Шармила С.; Мохаммед, Монзурул Хак; Гош, Тарини Шанкар (1 ноября 2012 г.). «Классификация метагеномных последовательностей: методы и проблемы». Briefings in Bioinformatics . 13 (6): 669–681. doi :10.1093/bib/bbs054. PMID 22962338.
^ Teeling, Hanno; Waldmann, Jost; Lombardot, Thierry; Bauer, Margarete; Glockner, Frank (2004). "TETRA: веб-сервис и автономная программа для анализа и сравнения шаблонов использования тетрануклеотидов в последовательностях ДНК". BMC Bioinformatics . 5 (1): 163. doi : 10.1186/1471-2105-5-163 . PMC 529438 . PMID 15507136.
^ Бухфинк, Бенджамин; Кси, Чао; Хасон, Дэниел Х (январь 2015 г.). «Быстрое и чувствительное выравнивание белков с использованием DIAMOND». Nature Methods . 12 (1): 59–60. doi :10.1038/nmeth.3176. PMID 25402007. S2CID 5346781.
^ Huson, Daniel H.; Beier, Sina; Flade, Isabell; Górska, Anna; El-Hadidi, Mohamed; Mitra, Suparna; Ruscheweyh, Hans-Joachim; Tappu, Rewati (21 июня 2016 г.). "MEGAN Community Edition - Interactive Exploration and Analysis of Large-Scale Microbiome Sequencing Data". PLOS Computational Biology . 12 (6): e1004957. Bibcode : 2016PLSCB..12E4957H. doi : 10.1371/journal.pcbi.1004957 . PMC 4915700. PMID 27327495 .
^ Monzoorul Haque, M.; Ghosh, Tarini Shankar; Komanduri, Dinakar; Mande, Sharmila S. (15 июля 2009 г.). "SOrt-ITEMS: подход на основе ортологии последовательностей для улучшенной таксономической оценки метагеномных последовательностей". Bioinformatics . 25 (14): 1722–1730. doi :10.1093/bioinformatics/btp317. PMID 19439565.
^ ab Ghosh, Tarini Shankar; Haque M, Monzoorul; Mande, Sharmila S (октябрь 2010 г.). "DiScRIBinATE: быстрый метод точной таксономической классификации метагеномных последовательностей". BMC Bioinformatics . 11 (S7): S14. doi : 10.1186/1471-2105-11-s7-s14 . PMC 2957682 . PMID 21106121.
^ ab Ghosh, Tarini Shankar; Mohammed, Monzoorul Haque; Komanduri, Dinakar; Mande, Sharmila Shekhar (22 марта 2011 г.). "ProViDE: Программный инструмент для точной оценки вирусного разнообразия в метагеномных образцах". Bioinformation . 6 (2): 91–94. doi :10.6026/97320630006091. PMC 3082859 . PMID 21544173.
^ ab Mohammed, Monzoorul Haque; Ghosh, Tarini Shankar; Singh, Nitin Kumar; Mande, Sharmila S. (1 января 2011 г.). "SPHINX — алгоритм таксономического биннинга метагеномных последовательностей". Bioinformatics . 27 (1): 22–30. doi :10.1093/bioinformatics/btq608. PMID 21030462.
^ Чжэн, Хао; У, Хунвэй (декабрь 2010 г.). «Короткое прокариотическое ДНК-объединение фрагментов с использованием иерархического классификатора на основе линейного дискриминантного анализа и анализа главных компонент». Журнал биоинформатики и вычислительной биологии . 08 (6): 995–1011. doi :10.1142/s0219720010005051. PMID 21121023.
^ Мохаммед, Монзурул Хак; Гош, Тарини Шанкар; Редди, Рачамалла Махидхар; Редди, Ченнаредди Венката Сива Кумар; Сингх, Нитин Кумар; Манде, Шармила С. (декабрь 2011 г.). "INDUS - подход на основе состава для быстрой и точной таксономической классификации метагеномных последовательностей". BMC Genomics . 12 (S3): S4. doi : 10.1186/1471-2164-12-s3-s4 . PMC 3333187 . PMID 22369237.
^ Reddy, Rachamalla Maheedhar; Mohammed, Monzoorul Haque; Mande, Sharmila S (сентябрь 2012 г.). «TWARIT: чрезвычайно быстрый и эффективный подход к филогенетической классификации метагеномных последовательностей». Gene . 505 (2): 259–265. doi :10.1016/j.gene.2012.06.014. PMID 22710135.