Горизонтальный или латеральный перенос генов (ГПГ или ЛГП) — это передача частей геномной ДНК между организмами посредством процесса, отделенного от вертикального наследования . При наличии событий ГПГ различные фрагменты генома являются результатом различных эволюционных историй. Поэтому это может усложнить исследования эволюционного родства линий и видов. Кроме того, поскольку ГПГ может привносить в геномы радикально отличающиеся генотипы из отдаленных линий или даже новые гены , несущие новые функции, он является основным источником фенотипических инноваций и механизмом адаптации ниши . Например, особое значение для здоровья человека имеет латеральный перенос детерминант устойчивости к антибиотикам и патогенности , что приводит к появлению патогенных линий. [1]
Вывод горизонтального переноса генов посредством вычислительной идентификации событий ГПГ основан на исследовании состава последовательности или эволюционной истории генов. Методы, основанные на составе последовательности («параметрические»), ищут отклонения от геномного среднего, тогда как подходы, основанные на эволюционной истории (« филогенетические »), идентифицируют гены, эволюционная история которых существенно отличается от истории вида- хозяина . Оценка и сравнительный анализ методов вывода ГПГ обычно основаны на смоделированных геномах, для которых известна истинная история. На реальных данных разные методы, как правило, выводят разные события ГПГ, и в результате может быть сложно установить все, кроме простых и четких событий ГПГ.
Горизонтальный перенос генов впервые наблюдался в 1928 году в эксперименте Фредерика Гриффита : показав, что вирулентность может передаваться от вирулентных к невирулентным штаммам Streptococcus pneumoniae , Гриффит продемонстрировал, что генетическая информация может горизонтально передаваться между бактериями посредством механизма, известного как трансформация . [2] Аналогичные наблюдения в 1940-х [3] и 1950-х годах [4] показали доказательства того, что конъюгация и трансдукция являются дополнительными механизмами горизонтального переноса генов. [5]
Для вывода событий ГПГ, которые не обязательно приводят к фенотипическим изменениям, большинство современных методов основаны на анализе данных геномной последовательности. Эти методы можно в целом разделить на две группы: параметрические и филогенетические методы. Параметрические методы ищут разделы генома, которые значительно отличаются от геномного среднего, например, содержание GC или использование кодонов . [6] Филогенетические методы изучают эволюционные истории вовлеченных генов и выявляют конфликтующие филогении. Филогенетические методы можно далее разделить на те, которые явно реконструируют и сравнивают филогенетические деревья , и те, которые используют суррогатные меры вместо филогенетических деревьев. [7]
Главной особенностью параметрических методов является то, что они полагаются только на изучаемый геном, чтобы вывести события ГПГ, которые могли произойти в его родословной. Это было значительным преимуществом в ранние времена эры секвенирования, когда для сравнительных методов было доступно немного близкородственных геномов. Однако, поскольку они полагаются на единообразие сигнатуры хозяина, чтобы вывести события ГПГ, неучет внутригеномной изменчивости хозяина приведет к завышенным прогнозам — пометке собственных сегментов как возможных событий ГПГ. [8] Аналогично, перенесенные сегменты должны демонстрировать сигнатуру донора и существенно отличаться от реципиента. [6] Более того, геномные сегменты чужеродного происхождения подвержены тем же мутационным процессам, что и остальная часть генома хозяина, и поэтому разница между ними имеет тенденцию исчезать со временем, процесс, называемый улучшением. [9] Это ограничивает способность параметрических методов обнаруживать древние ГПГ.
Филогенетические методы извлекают выгоду из недавней доступности многих секвенированных геномов . Действительно, как и для всех сравнительных методов, филогенетические методы могут интегрировать информацию из нескольких геномов и, в частности, интегрировать их с использованием модели эволюции. Это дает им возможность лучше характеризовать события ГПГ, которые они выводят, в частности, путем обозначения вида-донора и времени переноса. Однако модели имеют ограничения и должны использоваться осторожно. Например, конфликтующие филогении могут быть результатом событий, не учтенных моделью, таких как нераспознанная паралогия из-за дупликации , за которой следует потеря генов . Кроме того, многие подходы полагаются на референтное дерево видов, которое, как предполагается, известно, когда во многих случаях бывает трудно получить надежное дерево. Наконец, вычислительные затраты на реконструкцию многих деревьев генов/видов могут быть непомерно дорогими. Филогенетические методы, как правило, применяются к генам или белковым последовательностям как к основным эволюционным единицам, что ограничивает их способность обнаруживать ГПГ в регионах за пределами или через границы генов.
Из-за их взаимодополняющих подходов — и часто неперекрывающихся наборов кандидатов ГПГ — объединение прогнозов параметрических и филогенетических методов может дать более полный набор генов-кандидатов ГПГ . Действительно, было сообщено, что объединение различных параметрических методов значительно улучшает качество прогнозов. [10] [11] Более того, при отсутствии полного набора истинно горизонтально перенесенных генов, расхождения между различными методами [12] [13] могут быть разрешены путем объединения параметрических и филогенетических методов. Однако объединение выводов из нескольких методов также влечет за собой риск увеличения ложноположительного уровня . [14]
Параметрические методы для вывода HGT используют характеристики последовательности генома, специфичные для определенных видов или клад , также называемые геномными сигнатурами . Если фрагмент генома сильно отклоняется от геномной сигнатуры, это является признаком потенциального горизонтального переноса. Например, поскольку бактериальное содержание GC попадает в широкий диапазон, содержание GC сегмента генома является простой геномной сигнатурой. Обычно используемые геномные сигнатуры включают нуклеотидный состав, [15] частоты олигонуклеотидов , [16] или структурные особенности генома. [17]
Для обнаружения HGT с использованием параметрических методов геномная сигнатура хозяина должна быть четко распознаваемой. Однако геном хозяина не всегда однороден в отношении сигнатуры генома: например, содержание GC в третьей позиции кодона ниже вблизи конца репликации [ 18 ] , а содержание GC имеет тенденцию быть выше в высокоэкспрессируемых генах . [19] Неучет такой внутригеномной изменчивости у хозяина может привести к завышенным прогнозам, отмечая нативные сегменты как кандидатов HGT. [8] Более крупные скользящие окна могут учитывать эту изменчивость за счет сниженной способности обнаруживать более мелкие области HGT. [12]
Не менее важно, что горизонтально перенесенные сегменты должны демонстрировать геномную сигнатуру донора. Это может быть не так для древних переносов, где перенесенные последовательности подвергаются тем же мутационным процессам, что и остальная часть генома хозяина, что потенциально приводит к тому, что их отличительные сигнатуры «улучшаются» [9] и становятся необнаруживаемыми с помощью параметрических методов. Например, Bdellovibrio bacteriovorus , хищная δ-Proteobacterium , имеет однородное содержание GC, и можно сделать вывод, что ее геном устойчив к HGT. [20] Однако последующий анализ с использованием филогенетических методов выявил ряд древних событий HGT в геноме B. bacteriovorus . [21] Аналогично, если вставленный сегмент был ранее улучшен в геноме хозяина, как в случае вставок профага , [22] параметрические методы могут не предсказать эти события HGT. Кроме того, состав донора должен значительно отличаться от состава реципиента, чтобы быть идентифицированным как ненормальный, состояние, которое может быть пропущено в случае короткого или среднего ГПГ, которые являются наиболее распространенными. Кроме того, сообщалось, что недавно приобретенные гены, как правило, богаче AT, чем средний показатель реципиента, [15] , что указывает на то, что различия в сигнатуре содержания GC могут быть результатом неизвестных мутационных процессов после приобретения, а не генома донора.
Содержание ГЦ бактерий колеблется в широких пределах: у Ca. Zinderia Insecticola содержание ГЦ составляет 13,5% [23] , а у Anaeromyxobacter dehalogenans — 75%. [24] Даже в пределах близкородственной группы α-Proteobacteria значения варьируются от приблизительно 30% до 65%. [25] Эти различия можно использовать при обнаружении событий горизонтального переноса генов, поскольку значительно отличающееся содержание ГЦ для сегмента генома может быть признаком чужеродного происхождения. [15]
Спектр олигонуклеотидов (или частоты k-меров ) измеряет частоту всех возможных последовательностей нуклеотидов определенной длины в геноме. Он имеет тенденцию меньше варьироваться внутри геномов, чем между геномами, и поэтому может также использоваться в качестве геномной сигнатуры. [26] Отклонение от этой сигнатуры предполагает, что геномный сегмент мог попасть в результате горизонтального переноса.
Спектр олигонуклеотидов во многом обязан своей дискриминационной способностью числу возможных олигонуклеотидов: если n — размер словаря, а w — размер олигонуклеотида, то число возможных отдельных олигонуклеотидов равно n w ; например, существует 4 5 =1024 возможных пентануклеотидов. Некоторые методы могут улавливать сигнал, записанный в мотивах переменного размера, [27] таким образом улавливая как редкие, так и дискриминационные мотивы вместе с частыми, но более распространенными.
Смещение использования кодонов , мера, связанная с частотами кодонов , была одним из первых методов обнаружения, используемых в методических оценках ГПГ. [16] Этот подход требует генома хозяина, который содержит смещение в сторону определенных синонимичных кодонов (разные кодоны, которые кодируют одну и ту же аминокислоту), которое явно отличается от смещения, обнаруженного в геноме донора. Простейшим олигонуклеотидом, используемым в качестве геномной сигнатуры, является динуклеотид, например, третий нуклеотид в кодоне и первый нуклеотид в следующем кодоне представляют собой динуклеотид, наименее ограниченный предпочтением аминокислот и использованием кодона. [28]
Важно оптимизировать размер скользящего окна, в котором следует подсчитывать частоту олигонуклеотидов: большее скользящее окно будет лучше буферизировать изменчивость в геноме хозяина за счет худшего обнаружения более мелких областей HGT. [29] Сообщалось о хорошем компромиссе с использованием частот тетрануклеотидов в скользящем окне 5 кб с шагом 0,5 кб. [30]
Удобным методом моделирования геномных сигнатур олигонуклеотидов является использование цепей Маркова . Матрица вероятностей перехода может быть получена для эндогенных и приобретенных генов, [31] из которой могут быть получены байесовские апостериорные вероятности для определенных участков ДНК. [32]
Так же, как нуклеотидный состав молекулы ДНК может быть представлен последовательностью букв, ее структурные особенности могут быть закодированы в числовой последовательности. Структурные особенности включают энергии взаимодействия между соседними парами оснований, [ 33] угол скручивания, который делает два основания пары некопланарными , [ 34] или деформируемость ДНК, вызванная белками, формирующими хроматин. [35]
Автокорреляционный анализ некоторых из этих числовых последовательностей показывает характерные периодичности в полных геномах. [36] Фактически , после обнаружения археоподобных областей в термофильной бактерии Thermotoga maritima , [37] спектры периодичности этих областей были сравнены со спектрами периодичности гомологичных областей в архее Pyrococcus horikoshii . [17] Выявленные сходства в периодичности были сильными подтверждающими доказательствами в пользу случая массивного горизонтального переноса генов между бактериями и царствами архей . [17]
Существование геномных островов , коротких (обычно длиной 10–200 кб) областей генома, которые были приобретены горизонтально, подтверждает возможность идентифицировать неродные гены по их местоположению в геноме. [38] Например, ген неоднозначного происхождения, который является частью неродного оперона, может считаться неродным. В качестве альтернативы, фланкирующие повторяющиеся последовательности или наличие близлежащих интеграз или транспозаз могут указывать на неродной регион. [39] Сообщалось, что подход машинного обучения , сочетающий сканирование частоты олигонуклеотидов с контекстной информацией, эффективен при идентификации геномных островов. [40] В другом исследовании контекст использовался в качестве вторичного индикатора после удаления генов, которые, как полагают, являются нативными или ненативными, с помощью других параметрических методов. [10]
Использование филогенетического анализа для обнаружения ГПГ было продвинуто благодаря доступности многих новых секвенированных геномов. Филогенетические методы обнаруживают несоответствия в генной и видовой эволюционной истории двумя способами: явно, путем реконструкции генного дерева и согласования его с референтным видовым деревом, или неявно, путем изучения аспектов, которые коррелируют с эволюционной историей рассматриваемых генов, например, закономерности присутствия/отсутствия у разных видов или неожиданно короткие или далекие попарные эволюционные расстояния.
Целью явных филогенетических методов является сравнение генных деревьев с соответствующими им деревьями видов. В то время как слабо подкрепленные различия между генными и видовыми деревьями могут быть вызваны неопределенностью вывода, статистически значимые различия могут указывать на события ГПГ. Например, если два гена из разных видов разделяют самый последний предковый соединительный узел в генном дереве, но соответствующие виды разнесены в видовом дереве, можно вызвать событие ГПГ. Такой подход может дать более подробные результаты, чем параметрические подходы, поскольку потенциально можно определить вовлеченный вид, время и направление переноса.
Как более подробно обсуждается ниже, филогенетические методы варьируются от простых методов, просто идентифицирующих несоответствия между генными и видовыми деревьями, до механистических моделей, выводящих вероятные последовательности событий ГПГ. Промежуточная стратегия подразумевает деконструкцию генного дерева на более мелкие части, пока каждая из них не будет соответствовать видовому дереву (спектральные подходы генома).
Явные филогенетические методы полагаются на точность входных корневых генных и видовых деревьев, однако их может быть сложно построить. [41] Даже когда нет сомнений во входных деревьях, конфликтующие филогении могут быть результатом эволюционных процессов, отличных от ГПГ, таких как дупликации и потери, заставляя эти методы ошибочно выводить события ГПГ, когда паралогия является правильным объяснением. Аналогично, при наличии неполной сортировки по родословной явные филогенетические методы могут ошибочно выводить события ГПГ. [42] Вот почему некоторые явные методы, основанные на моделях, проверяют несколько эволюционных сценариев, включающих различные виды событий, и сравнивают их соответствие с данными, заданными экономными или вероятностными критериями.
Для обнаружения наборов генов, которые плохо соответствуют референтному дереву, можно использовать статистические тесты топологии, такие как тесты Кишино–Хасегавы (KH), [43], Симодайры–Хасегавы (SH), [44] и Approximately Unbiased (AU) [45] . Эти тесты оценивают вероятность выравнивания последовательности генов , когда референтная топология задана как нулевая гипотеза.
Отклонение референтной топологии является указанием на то, что эволюционная история для этого семейства генов не соответствует референтному дереву. Когда эти несоответствия не могут быть объяснены с использованием небольшого числа негоризонтальных событий, таких как потеря гена и дупликация, выводится событие горизонтального переноса генов.
Один из таких анализов проверял наличие ГПГ в группах гомологов линии γ-Proteobacterial . [46] Шесть референтных деревьев были реконструированы с использованием либо высококонсервативных последовательностей малых субъединиц рибосомальной РНК, либо консенсуса доступных деревьев генов, либо конкатенированных выравниваний ортологов . Неспособность отклонить шесть оцененных топологий и отклонение семи альтернативных топологий были интерпретированы как доказательство небольшого числа событий ГПГ в выбранных группах.
Тесты топологии выявляют различия в топологии дерева, принимая во внимание неопределенность в выводе дерева, но они не пытаются сделать вывод о том, как возникли различия. Чтобы вывести специфику конкретных событий, требуются методы спектрального генома или обрезки поддерева и повторной трансплантации .
Для определения местоположения событий горизонтального переноса генов спектральные подходы разлагают генное дерево на подструктуры (например, двойные части или квартеты) и выявляют те из них, которые соответствуют или не соответствуют видовому дереву.
Двудольные структуры Удаление одного ребра из справочного дерева создает два несвязанных поддерева, каждое из которых представляет собой непересекающийся набор узлов — двудольную структуру. Если двудольная структура присутствует как в генном, так и в видовом дереве, она совместима; в противном случае она конфликтует. Эти конфликты могут указывать на событие горизонтального переноса генов или могут быть результатом неопределенности в выводе генного дерева. Чтобы уменьшить неопределенность, двудольный анализ обычно фокусируется на сильно поддерживаемых двудольных структурах, таких как те, которые связаны с ветвями со значениями бутстрапа или апостериорными вероятностями выше определенных пороговых значений. Любое семейство генов, в котором обнаружено одно или несколько конфликтующих, но сильно поддерживаемых двудольных структур, рассматривается как кандидат на горизонтальный перенос генов. [47] [48] [49]
Разложение квартета Квартеты — это деревья, состоящие из четырех листьев. В разветвленных (полностью разрешенных) деревьях каждая внутренняя ветвь индуцирует квартет, листья которого являются либо поддеревьями исходного дерева, либо фактическими листьями исходного дерева. Если топология квартета, извлеченного из дерева эталонного вида, встроена в генное дерево, квартет совместим с генным деревом. Наоборот, несовместимые сильно поддерживаемые квартеты указывают на потенциальные события горизонтального переноса генов. [50] Методы картирования квартетов гораздо более эффективны с вычислительной точки зрения и естественным образом обрабатывают гетерогенное представление таксонов среди семейств генов, что делает их хорошей основой для разработки крупномасштабных сканирований для горизонтального переноса генов, ищущих магистрали совместного использования генов в базах данных сотен полных геномов. [51] [52]
Механистический способ моделирования события ГПГ на референтном дереве заключается в том, чтобы сначала отрезать внутреннюю ветвь, т. е. обрезать дерево, а затем повторно привить ее на другое ребро, операция, называемая обрезкой и повторной прививкой поддерева (SPR). [53] Если генное дерево топологически согласуется с исходным референтным деревом, редактирование приводит к несоответствию. Аналогично, когда исходное генное дерево не согласуется с референтным деревом, можно получить последовательную топологию с помощью серии из одной или нескольких операций обрезки и повторной прививки, примененных к референтному дереву. Интерпретируя путь редактирования обрезки и повторной прививки, можно пометить узлы-кандидаты ГПГ и вывести геномы хозяина и донора. [49] [48] [54] Чтобы избежать ложноположительных событий ГПГ из-за неопределенной топологии генного дерева, оптимальный «путь» операций SPR можно выбрать среди нескольких возможных комбинаций, учитывая поддержку ветвей в генном дереве. Слабо поддерживаемые ребра генного дерева можно игнорировать априори [55] или поддержку можно использовать для вычисления критерия оптимальности. [49] [56] [57] [58]
Поскольку преобразование одного дерева в другое с помощью минимального количества операций SPR является NP-Hard , [59] решение проблемы становится значительно сложнее по мере рассмотрения большего количества узлов. Вычислительная задача заключается в поиске оптимального пути редактирования, т. е. того, который требует наименьшего количества шагов, [60] [61] и при решении проблемы используются различные стратегии. Например, алгоритм HorizStory уменьшает проблему, сначала устраняя согласованные узлы; [62] рекурсивная обрезка и повторная прививка согласовывают опорное дерево с генным деревом, а оптимальные правки интерпретируются как события HGT. Методы SPR, включенные в пакет реконструкции супердерева SPRSupertrees, существенно сокращают время поиска оптимального набора операций SPR, рассматривая несколько локализованных подзадач в больших деревьях с помощью подхода кластеризации. [63] T -REX (веб-сервер) включает в себя ряд методов обнаружения HGT [56] (в основном основанных на SPR) и позволяет пользователям вычислять поддержку начальной загрузки предполагаемых передач. [49]
Согласование генных и видовых деревьев подразумевает отображение эволюционных событий на генных деревьях таким образом, чтобы они соответствовали видовому дереву. Существуют различные модели согласования, различающиеся по типам событий, которые они рассматривают для объяснения несоответствий между топологиями генных и видовых деревьев. Ранние методы моделировали исключительно горизонтальные переносы (T). [53] [57] [56] Более поздние также учитывают события дупликации (D), потери (L), неполной сортировки по линиям (ILS) или гомологичной рекомбинации (HR). Сложность заключается в том, что при допущении нескольких типов событий количество возможных согласований быстро увеличивается. Например, конфликтующие топологии генного дерева могут быть объяснены в терминах одного события горизонтального переноса или нескольких событий дупликации и потери. Обе альтернативы можно считать правдоподобным согласованием в зависимости от частоты этих соответствующих событий вдоль видового дерева.
Методы согласования могут полагаться на экономную или вероятностную структуру для вывода наиболее вероятного сценария(ов), где относительная стоимость/вероятность событий D, T, L может быть зафиксирована априори или оценена на основе данных. [64] Пространство согласований DTL и их экономные затраты, которые могут быть чрезвычайно обширны для больших многокопийных генных генных деревьев, могут быть эффективно исследованы с помощью алгоритмов динамического программирования . [64] [65] [66] В некоторых программах топология генного дерева может быть уточнена, если неясно, соответствует ли она лучшему эволюционному сценарию, а также исходному выравниванию последовательностей. [65] [67] [68] Более уточненные модели учитывают смещенную частоту ГПГ между близкородственными линиями, [69] отражая потерю эффективности HR с филогенетическим расстоянием, [70] для ILS , [71] или тот факт, что фактический донор большинства ГПГ принадлежит к вымершим или невыбранным линиям. [72] Дальнейшие расширения моделей DTL разрабатываются в направлении комплексного описания процессов эволюции генома. В частности, некоторые из них рассматривают горизонтальные в нескольких масштабах — моделирование независимой эволюции фрагментов генов [73] или распознавание совместной эволюции нескольких генов (например, из-за совместного переноса) внутри и между геномами. [74] [75] [76]
В отличие от явных филогенетических методов, которые сравнивают соответствие между генными и видовыми деревьями, неявные филогенетические методы сравнивают эволюционные расстояния или сходство последовательностей. Здесь неожиданно короткое или большое расстояние от заданной ссылки по сравнению со средним может указывать на событие горизонтального переноса генов. Поскольку построение дерева не требуется, неявные подходы, как правило, проще и быстрее явных методов.
Однако неявные методы могут быть ограничены несоответствиями между правильной филогенией и рассматриваемыми эволюционными расстояниями. Например, наиболее похожая последовательность, полученная с помощью наиболее высоко оцененного BLAST- хита, не всегда является эволюционно ближайшей. [77]
Простой способ идентификации событий ГПГ — поиск совпадений последовательностей с высоким показателем в отдаленно родственных видах. Например, анализ лучших результатов BLAST последовательностей белков в бактериях Thermotoga maritima показал, что большинство результатов были в археях, а не в близкородственных бактериях, что предполагает обширный ГПГ между ними; [37] эти прогнозы позже были подтверждены анализом структурных особенностей молекулы ДНК. [17]
Однако этот метод ограничен обнаружением относительно недавних событий ГПГ. Действительно, если ГПГ произошел у общего предка двух или более видов, включенных в базу данных, ближайшее совпадение будет находиться в пределах этой клады, и поэтому ГПГ не будет обнаружен методом. Таким образом, порог минимального числа чужеродных верхних совпадений BLAST для наблюдения, чтобы решить, что ген был перенесен, сильно зависит от таксономического покрытия баз данных последовательностей. Поэтому экспериментальные настройки, возможно, должны быть определены специальным образом. [78]
Гипотеза молекулярных часов утверждает, что гомологичные гены эволюционируют с приблизительно постоянной скоростью у разных видов. [79] Если рассматривать только гомологичные гены, связанные через события видообразования (называемые «ортологичными» генами), их базовое дерево по определению должно соответствовать видовому дереву. Поэтому, предполагая молекулярные часы, эволюционное расстояние между ортологичными генами должно быть приблизительно пропорционально эволюционным расстояниям между их соответствующими видами. Если предполагаемая группа ортологов содержит ксенологов (пары генов, связанных через горизонтальный перенос генов), пропорциональность эволюционных расстояний может сохраняться только среди ортологов, но не ксенологов. [80]
Простые подходы сравнивают распределение оценок сходства конкретных последовательностей и их ортологичных аналогов у других видов; ГПГ выводятся из выбросов. [81] [82] Более сложный метод DLIGHT («Вывод горизонтально перенесенных генов на основе расстояния») одновременно учитывает влияние ГПГ на все последовательности в группах предполагаемых ортологов: [7] если тест отношения правдоподобия гипотезы ГПГ по сравнению с гипотезой об отсутствии ГПГ является значимым, выводится предполагаемое событие ГПГ. Кроме того, метод позволяет выводить потенциальные виды доноров и реципиентов и обеспечивает оценку времени с момента события ГПГ.
Группа ортологичных или гомологичных генов может быть проанализирована с точки зрения наличия или отсутствия членов группы в референтных геномах; такие паттерны называются филогенетическими профилями . [83] Чтобы найти события ГПГ, филогенетические профили сканируются на предмет необычного распределения генов. Отсутствие гомолога у некоторых членов группы близкородственных видов является указанием на то, что исследуемый ген мог появиться в результате события ГПГ. Например, три факультативно симбиотических штамма Frankia sp. имеют поразительно разные размеры: 5,43 Мбн, 7,50 Мбн и 9,04 Мбн, в зависимости от диапазона их хозяев. [84] Было обнаружено, что отмеченные части генов, специфичных для штамма, не имеют значительного совпадения в референтной базе данных и, возможно, были приобретены путем переноса ГПГ от других бактерий. Аналогично, три фенотипически различных штамма Escherichia coli ( уропатогенный , энтерогеморрагический и доброкачественный) разделяют около 40% общего объединенного генофонда , а остальные 60% являются штаммоспецифичными генами и, следовательно, кандидатами на горизонтальный перенос генов. [85] Дополнительным доказательством того, что эти гены являются результатом горизонтального переноса генов, стали их поразительно отличающиеся паттерны использования кодонов от основных генов и отсутствие сохранения порядка генов (сохранение порядка типично для вертикально эволюционировавших генов). [85] Таким образом, наличие/отсутствие гомологов (или их эффективное количество) может использоваться программами для реконструкции наиболее вероятного эволюционного сценария вдоль древа видов. Так же, как и в случае с методами согласования, этого можно достичь с помощью экономной [86] или вероятностной оценки числа событий приобретения и потери. [87] [88] Модели можно усложнять, добавляя процессы, такие как усечение генов, [89] , а также моделируя неоднородность скоростей приобретения и потери в разных родословных [90] и/или семействах генов. [88] [91]
Гены обычно рассматриваются как основные единицы, передаваемые посредством события горизонтального переноса генов. Однако горизонтальный перенос генов также может происходить внутри генов. Например, было показано, что горизонтальный перенос между близкородственными видами приводит к большему обмену фрагментами ORF , [92] [93] типу переноса, называемому генной конверсией , опосредованному гомологичной рекомбинацией. Анализ группы из четырех штаммов Escherichia coli и двух штаммов Shigella flexneri показал, что участки последовательности, общие для всех шести штаммов, содержат полиморфные сайты , последствия гомологичной рекомбинации. [94] Таким образом, кластеры избытка полиморфных сайтов могут использоваться для обнаружения следов ДНК, рекомбинированной с дальним родственником. [95] Однако этот метод обнаружения ограничен сайтами, общими для всех анализируемых последовательностей, ограничивая анализ группой близкородственных организмов.
Существование многочисленных и разнообразных методов вывода ГПГ поднимает вопрос о том, как проверять отдельные выводы и как сравнивать различные методы.
Основная проблема заключается в том, что, как и в случае с другими типами филогенетических выводов, фактическая эволюционная история не может быть установлена с уверенностью. В результате сложно получить репрезентативный тестовый набор событий ГПГ. Кроме того, методы вывода ГПГ значительно различаются по информации, которую они рассматривают, и часто выявляют несовместимые группы кандидатов ГПГ: [6] [96] неясно, в какой степени пересечение , объединение или какая-либо другая комбинация отдельных методов влияет на ложноположительные и ложноотрицательные показатели. [14]
Параметрические и филогенетические методы опираются на разные источники информации; поэтому трудно делать общие заявления об их относительной производительности. Однако можно ссылаться на концептуальные аргументы. В то время как параметрические методы ограничены анализом одного или пары геномов, филогенетические методы предоставляют естественную основу для использования информации, содержащейся в нескольких геномах. Во многих случаях сегменты геномов, выведенные как ГПГ на основе их аномального состава, также могут быть распознаны как таковые на основе филогенетического анализа или через их простое отсутствие в геномах родственных организмов. Кроме того, филогенетические методы опираются на явные модели эволюции последовательностей, которые предоставляют хорошо понятную основу для вывода параметров, проверки гипотез и выбора модели. Это отражено в литературе, которая имеет тенденцию отдавать предпочтение филогенетическим методам как стандарту доказательства ГПГ. [97] [98] [99] [100] Таким образом, использование филогенетических методов представляется предпочтительным стандартом, особенно с учетом того, что увеличение вычислительной мощности в сочетании с усовершенствованиями алгоритмов сделало их более поддающимися обработке, [63] [72] и что все более плотная выборка геномов придает этим тестам большую мощность.
Рассматривая филогенетические методы, были приняты несколько подходов к проверке отдельных выводов ГПГ и методов сравнительного анализа, обычно полагающихся на различные формы моделирования . Поскольку истина известна в моделировании, количество ложных положительных и ложных отрицательных результатов легко вычислить. Однако моделирование данных не решает проблему тривиально, поскольку истинная степень ГПГ в природе остается в значительной степени неизвестной, а указание скоростей ГПГ в моделируемой модели всегда опасно. Тем не менее, исследования, включающие сравнение нескольких филогенетических методов в рамках моделирования, могут обеспечить количественную оценку их соответствующих характеристик и, таким образом, помочь биологу в выборе объективно правильных инструментов. [58]
Стандартные инструменты для моделирования эволюции последовательностей вдоль деревьев, такие как INDELible [101] или PhyloSim [102], могут быть адаптированы для моделирования ГПГ. События ГПГ приводят к конфликту соответствующих деревьев генов с деревом видов. Такие события ГПГ можно моделировать посредством обрезки поддеревьев и перестройки перестроек дерева видов. [55] Однако важно моделировать данные, которые достаточно реалистичны, чтобы быть репрезентативными для задачи, предоставляемой реальными наборами данных, и поэтому моделирование в рамках сложных моделей является предпочтительным. Была разработана модель для моделирования деревьев генов с гетерогенными процессами замещения в дополнение к возникновению переноса и учета того факта, что перенос может исходить от ныне вымерших донорских линий. [103] В качестве альтернативы симулятор эволюции генома ALF [104] напрямую генерирует семейства генов, подверженные ГПГ, путем учета всего спектра эволюционных сил на базовом уровне, но в контексте полного генома. Учитывая смоделированные последовательности, которые имеют HGT, анализ этих последовательностей с использованием интересующих методов и сравнение их результатов с известной истиной позволяет изучить их производительность. Аналогично, тестирование методов на последовательности, о которой известно, что она не имеет HGT, позволяет изучить ложноположительные показатели.
Моделирование событий ГПГ также может быть выполнено путем манипулирования самими биологическими последовательностями. Искусственные химерные геномы могут быть получены путем вставки известных чужеродных генов в случайные позиции генома хозяина. [12] [105] [106] [107] Донорские последовательности вставляются в хозяина неизменными или могут быть дополнительно развиты путем моделирования, [7] например, с использованием инструментов, описанных выше.
Одно важное предостережение относительно моделирования как способа оценки различных методов заключается в том, что моделирование основано на сильных упрощающих предположениях, которые могут благоприятствовать определенным методам. [108]
Эта статья была адаптирована из следующего источника по лицензии CC BY 4.0 (2015) (отчеты рецензента): Мэтт Равенхолл; Нивес Шкунца; Флоран Лассаль; Кристоф Дессимо (май 2015 г.). "Inferring horizontal gene transfer". PLOS Computational Biology . 11 (5): e1004095. doi : 10.1371/JOURNAL.PCBI.1004095 . ISSN 1553-734X. PMC 4462595. PMID 26020646. Wikidata Q21045419 .