Вычислительная филогенетика , вывод филогении или филогенетический вывод фокусируется на вычислительных и оптимизационных алгоритмах , эвристике и подходах, используемых в филогенетическом анализе. Цель состоит в том, чтобы найти филогенетическое дерево , представляющее оптимальное эволюционное происхождение между набором генов , видов или таксонов . Максимальное правдоподобие , экономия , байесовский и минимальная эволюция являются типичными критериями оптимальности, используемыми для оценки того, насколько хорошо топология филогенетического дерева описывает данные последовательности. [1] [2] Обмен ближайшими соседями (NNI), обрезка и пересадка поддерева (SPR) и бисекция и повторное соединение дерева (TBR), известные как перестановки деревьев , являются детерминированными алгоритмами для поиска оптимального или наилучшего филогенетического дерева. Пространство и ландшафт поиска оптимального филогенетического дерева известны как пространство поиска филогении.
Критерий оптимальности максимального правдоподобия (также вероятности) — это процесс нахождения топологии дерева вместе с длинами его ветвей, которые обеспечивают наивысшую вероятность наблюдения данных последовательности, в то время как критерий оптимальности экономии — это наименьшее количество изменений состояний и эволюции, необходимых для филогенетического дерева для объяснения данных последовательности. [1] [2]
Традиционная филогенетика опирается на морфологические данные, полученные путем измерения и количественной оценки фенотипических свойств репрезентативных организмов, в то время как более современная область молекулярной филогенетики использует в качестве основы для классификации нуклеотидные последовательности, кодирующие гены, или аминокислотные последовательности, кодирующие белки .
Многие формы молекулярной филогенетики тесно связаны с выравниванием последовательностей и широко используют его при построении и уточнении филогенетических деревьев, которые используются для классификации эволюционных связей между гомологичными генами, представленными в геномах расходящихся видов. Филогенетические деревья, построенные с помощью вычислительных методов, вряд ли будут идеально воспроизводить эволюционное дерево , представляющее исторические связи между анализируемыми видами. [ необходима цитата ] Историческое дерево видов также может отличаться от исторического дерева отдельного гомологичного гена, общего для этих видов.
Филогенетические деревья, созданные вычислительной филогенетикой, могут быть как укорененными , так и неукорененными в зависимости от входных данных и используемого алгоритма. Укорененное дерево — это направленный граф , который явно идентифицирует последнего общего предка (MRCA), [ требуется ссылка ] обычно это введенная последовательность, которая не представлена во входных данных. Меры генетического расстояния могут использоваться для построения дерева с входными последовательностями в качестве конечных узлов и их расстояниями от корня, пропорциональными их генетическому расстоянию от предполагаемого MRCA. Идентификация корня обычно требует включения во входные данные по крайней мере одной «внешней группы», о которой известно, что она лишь отдаленно связана с интересующими последовательностями.
Напротив, некорневые деревья отображают расстояния и отношения между входными последовательностями без предположений относительно их происхождения. Некорневое дерево всегда можно получить из корневого дерева, но корень обычно нельзя поместить на некорневое дерево без дополнительных данных о скоростях расхождения, таких как предположение о гипотезе молекулярных часов . [3]
Набор всех возможных филогенетических деревьев для заданной группы входных последовательностей можно концептуализировать как дискретно определенное многомерное «пространство деревьев», через которое можно проследить пути поиска с помощью алгоритмов оптимизации . Хотя подсчет общего числа деревьев для нетривиального числа входных последовательностей может быть затруднен из-за вариаций в определении топологии дерева, всегда верно, что для заданного числа входных последовательностей и выбора параметров существует больше корневых деревьев, чем некорневых. [2]
Как корневые, так и некорневые филогенетические деревья могут быть в дальнейшем обобщены до корневых или некорневых филогенетических сетей , которые позволяют моделировать эволюционные явления, такие как гибридизация или горизонтальный перенос генов .
Основная проблема в морфологической филогенетике — это сборка матрицы, представляющей отображение каждого из сравниваемых таксонов с репрезентативными измерениями для каждой из фенотипических характеристик, используемых в качестве классификатора. Типы фенотипических данных, используемых для построения этой матрицы, зависят от сравниваемых таксонов; для отдельных видов они могут включать измерения среднего размера тела, длины или размеров отдельных костей или других физических особенностей, или даже поведенческих проявлений. Конечно, поскольку не все возможные фенотипические характеристики могут быть измерены и закодированы для анализа, выбор характеристик для измерения является основным неотъемлемым препятствием для метода. Решение о том, какие признаки использовать в качестве основы для матрицы, обязательно представляет собой гипотезу о том, какие признаки вида или более высокого таксона являются эволюционно значимыми. [4] Морфологические исследования могут быть озадачены примерами конвергентной эволюции фенотипов. [5] Основной проблемой при построении полезных классов является высокая вероятность межтаксонного перекрытия в распределении вариации фенотипа. Включение вымерших таксонов в морфологический анализ часто затруднено из-за отсутствия или неполноты ископаемых записей, но было показано, что это оказывает значительное влияние на полученные деревья; в одном исследовании только включение вымерших видов обезьян дало морфологически полученное дерево, которое соответствовало дереву, полученному на основе молекулярных данных. [6]
Некоторые фенотипические классификации, особенно те, которые используются при анализе очень разнообразных групп таксонов, являются дискретными и недвусмысленными; например, классификация организмов как обладающих или не обладающих хвостом, в большинстве случаев проста, как и подсчет таких признаков, как глаза или позвонки. Однако наиболее подходящее представление непрерывно изменяющихся фенотипических измерений является спорной проблемой без общего решения. Распространенный метод заключается в том, чтобы просто отсортировать интересующие измерения по двум или более классам, делая непрерывно наблюдаемые вариации дискретно классифицируемыми (например, все примеры с плечевыми костями длиннее заданного порогового значения, оцениваются как члены одного состояния, а все члены, плечевые кости которых короче порогового значения, оцениваются как члены второго состояния). Это приводит к легко манипулируемому набору данных , но подвергается критике за плохое представление основы для определений классов и за принесение в жертву информации по сравнению с методами, которые используют непрерывное взвешенное распределение измерений. [7]
Поскольку сбор морфологических данных является чрезвычайно трудоемким процессом, будь то из литературных источников или из полевых наблюдений, повторное использование ранее скомпилированных матриц данных не является редкостью, хотя это может привести к распространению недостатков в исходной матрице на множественные производные анализы. [8]
Проблема кодирования символов сильно отличается в молекулярном анализе, поскольку символы в данных биологических последовательностей определяются немедленно и дискретно - отдельные нуклеотиды в последовательностях ДНК или РНК и отдельные аминокислоты в последовательностях белков . Однако определение гомологии может быть сложным из-за присущих трудностей множественного выравнивания последовательностей . Для заданного MSA с зазорами можно построить несколько укорененных филогенетических деревьев, которые различаются по своей интерпретации того, какие изменения являются « мутациями » по сравнению с предковыми признаками, и какие события являются мутациями вставки или мутациями делеции . Например, имея только попарное выравнивание с областью разрыва, невозможно определить, несет ли одна последовательность мутацию вставки или другая несет делецию. Проблема усугубляется в MSA с невыровненными и неперекрывающимися зазорами. На практике значительные области вычисленного выравнивания могут быть проигнорированы при построении филогенетического дерева, чтобы избежать интеграции шумных данных в расчет дерева.
Методы филогенетического анализа на основе матрицы расстояний явно полагаются на меру «генетического расстояния» между классифицируемыми последовательностями, и поэтому они требуют MSA в качестве входных данных. Расстояние часто определяется как доля несовпадений в выровненных позициях, при этом пробелы либо игнорируются, либо считаются несовпадениями. [3] Методы расстояний пытаются построить матрицу «все-все» из набора запросов последовательностей, описывающую расстояние между каждой парой последовательностей. Из этого строится филогенетическое дерево, которое помещает близкородственные последовательности под один и тот же внутренний узел и чьи длины ветвей близко воспроизводят наблюдаемые расстояния между последовательностями. Методы матриц расстояний могут создавать как корневые, так и некорневые деревья, в зависимости от алгоритма, используемого для их вычисления. Они часто используются в качестве основы для прогрессивных и итеративных типов множественных выравниваний последовательностей . Основным недостатком методов матриц расстояний является их неспособность эффективно использовать информацию о локальных регионах с высокой вариабельностью, которые появляются в нескольких поддеревьях. [2]
Методы UPGMA ( метод невзвешенных парных групп со средним арифметическим ) и WPGMA ( метод взвешенных парных групп со средним арифметическим ) создают корневые деревья и требуют предположения о постоянной скорости, то есть они предполагают ультраметрическое дерево, в котором расстояния от корня до каждой верхушки ветви равны. [9]
Методы объединения соседей применяют общие методы кластерного анализа к анализу последовательностей, используя генетическое расстояние в качестве метрики кластеризации. Простой метод объединения соседей создает некорневые деревья, но он не предполагает постоянную скорость эволюции (т. е. молекулярные часы ) по всем линиям. [10]
Метод Фитча-Марголиаша использует метод взвешенных наименьших квадратов для кластеризации на основе генетического расстояния. [11] Близкородственным последовательностям придается больший вес в процессе построения дерева для коррекции возросшей неточности измерения расстояний между отдаленно родственными последовательностями. Расстояния, используемые в качестве входных данных для алгоритма, должны быть нормализованы для предотвращения больших артефактов при вычислении взаимосвязей между близкородственными и отдаленно родственными группами. Расстояния, вычисляемые этим методом, должны быть линейными ; критерий линейности для расстояний требует, чтобы ожидаемые значения длин ветвей для двух отдельных ветвей были равны ожидаемому значению суммы двух расстояний ветвей — свойство, которое применяется к биологическим последовательностям только тогда, когда они были скорректированы на возможность обратных мутаций на отдельных участках. Эта коррекция выполняется с помощью матрицы подстановки, такой как полученная из модели эволюции ДНК Джукса-Кантора . Коррекция расстояния необходима на практике только тогда, когда скорости эволюции между ветвями различаются. [2] Другая модификация алгоритма может быть полезна, особенно в случае концентрированных расстояний (см. явление концентрации меры и проклятие размерности ): было показано, что эта модификация, описанная в [12], повышает эффективность алгоритма и его надежность.
Критерий наименьших квадратов, применяемый к этим расстояниям, более точен, но менее эффективен, чем методы объединения соседей. Дополнительное улучшение, которое корректирует корреляции между расстояниями, возникающими из многих тесно связанных последовательностей в наборе данных, также может быть применено при увеличении вычислительных затрат. Нахождение оптимального дерева наименьших квадратов с любым поправочным коэффициентом является NP-полным [ 13], поэтому эвристические методы поиска, подобные тем, которые используются в анализе максимальной экономии, применяются к поиску в пространстве деревьев.
Независимая информация о взаимосвязи между последовательностями или группами может быть использована для сокращения пространства поиска дерева и корневых некорневых деревьев. Стандартное использование методов матрицы расстояний подразумевает включение по крайней мере одной последовательности внешней группы , которая, как известно, имеет лишь отдаленное родство с интересующими последовательностями в наборе запросов. [3] Такое использование можно рассматривать как тип экспериментального контроля . Если внешняя группа была выбрана правильно, она будет иметь гораздо большее генетическое расстояние и, следовательно, большую длину ветви, чем любая другая последовательность, и она будет отображаться вблизи корня укорененного дерева. Выбор подходящей внешней группы требует выбора последовательности, которая умеренно связана с интересующими последовательностями; слишком близкое родство сводит на нет цель внешней группы, а слишком отдаленное добавляет шум в анализ. [3] Также следует проявлять осторожность, чтобы избегать ситуаций, в которых виды, из которых были взяты последовательности, имеют отдаленное родство, но ген, кодируемый последовательностями, высококонсервативен между линиями. Горизонтальный перенос генов , особенно между в противном случае расходящимися бактериями , также может затруднить использование внешней группы.
Максимальная экономия (MP) — это метод определения потенциального филогенетического дерева, которое требует наименьшего общего числа эволюционных событий для объяснения наблюдаемых данных о последовательностях. Некоторые способы оценки деревьев также включают «стоимость», связанную с определенными типами эволюционных событий, и пытаются найти дерево с наименьшей общей стоимостью. Это полезный подход в случаях, когда не все возможные типы событий одинаково вероятны — например, когда известно, что определенные нуклеотиды или аминокислоты более изменчивы, чем другие.
Самый наивный способ определения наиболее экономного дерева — это простое перечисление — рассмотрение каждого возможного дерева по порядку и поиск дерева с наименьшим счетом. Однако это возможно только для относительно небольшого числа последовательностей или видов, поскольку известно, что проблема определения наиболее экономного дерева является NP-трудной ; [2] следовательно, был разработан ряд эвристических методов поиска для оптимизации, чтобы найти высокоэкономное дерево, если не лучшее в наборе. Большинство таких методов включают механизм минимизации в стиле наискорейшего спуска , работающий на критерии перестановки деревьев .
Алгоритм ветвей и границ — это общий метод, используемый для повышения эффективности поиска почти оптимальных решений NP-трудных задач, впервые примененный в филогенетике в начале 1980-х годов. [14] Ветви и границы особенно хорошо подходят для построения филогенетического дерева, поскольку он по своей сути требует разделения проблемы на древовидную структуру , поскольку подразделяет проблемное пространство на более мелкие области. Как следует из его названия, он требует в качестве входных данных как правило ветвления (в случае филогенетики — добавление следующего вида или последовательности к дереву), так и границу (правило, которое исключает определенные области пространства поиска из рассмотрения, тем самым предполагая, что оптимальное решение не может занимать эту область). Определение хорошей границы — самый сложный аспект применения алгоритма в филогенетике. Простой способ определения границы — это максимальное количество предполагаемых эволюционных изменений, разрешенных для одного дерева. Набор критериев, известный как правила Жарких [15], серьезно ограничивает пространство поиска, определяя характеристики, общие для всех кандидатов на «наиболее экономные» деревья. Два самых основных правила требуют устранения всех, кроме одной избыточной последовательности (для случаев, когда множественные наблюдения дали идентичные данные) и устранения характерных участков, в которых два или более состояний не встречаются по крайней мере у двух видов. В идеальных условиях эти правила и связанный с ними алгоритм полностью определяли бы дерево.
Алгоритм Санкоффа-Мореля-Седергрена был одним из первых опубликованных методов для одновременного создания MSA и филогенетического дерева для последовательностей нуклеотидов. [16] Метод использует расчет максимальной экономии в сочетании с функцией оценки, которая штрафует пробелы и несовпадения, тем самым отдавая предпочтение дереву, которое вводит минимальное количество таких событий (альтернативная точка зрения гласит, что деревья, которым следует отдавать предпочтение, - это те, которые максимизируют количество сходства последовательностей, которое можно интерпретировать как гомологию, точка зрения, которая может привести к различным оптимальным деревьям [17] ). Вмененные последовательности во внутренних узлах дерева оцениваются и суммируются по всем узлам в каждом возможном дереве. Сумма дерева с наименьшей оценкой обеспечивает как оптимальное дерево, так и оптимальное MSA с учетом функции оценки. Поскольку метод является очень вычислительно интенсивным, приближенный метод, в котором начальные предположения для внутренних выравниваний уточняются по одному узлу за раз. Как полная, так и приближенная версия на практике вычисляются с помощью динамического программирования. [2]
Более поздние методы филогенетического дерева/MSA используют эвристики для выделения деревьев с высокими оценками, но не обязательно оптимальных. Метод MALIGN использует технику максимальной экономии для вычисления множественного выравнивания путем максимизации оценки кладограммы , а его компаньон POY использует итеративный метод, который объединяет оптимизацию филогенетического дерева с улучшениями в соответствующей MSA. [18] Однако использование этих методов при построении эволюционных гипотез подвергалось критике как предвзятое из-за преднамеренного построения деревьев, отражающих минимальные эволюционные события. [19] Это, в свою очередь, было опровергнуто мнением, что такие методы следует рассматривать как эвристические подходы для поиска деревьев, которые максимизируют количество сходства последовательностей, которое можно интерпретировать как гомологию. [17] [20]
Метод максимального правдоподобия использует стандартные статистические методы для вывода распределений вероятностей , чтобы назначить вероятности конкретным возможным филогенетическим деревьям. Метод требует модели замещения для оценки вероятности конкретных мутаций ; грубо говоря, дерево, которому требуется больше мутаций во внутренних узлах для объяснения наблюдаемой филогении, будет оцениваться как имеющее более низкую вероятность. Это в целом похоже на метод максимальной экономии, но максимальное правдоподобие обеспечивает дополнительную статистическую гибкость, допуская различные скорости эволюции как по линиям, так и по участкам. Фактически, метод требует, чтобы эволюция на разных участках и вдоль разных линий была статистически независимой . Таким образом, максимальное правдоподобие хорошо подходит для анализа отдаленно связанных последовательностей, но считается, что его вычислительно трудно вычислить из-за его NP-трудности. [21]
Алгоритм «отсечения», вариант динамического программирования , часто используется для сокращения пространства поиска путем эффективного вычисления вероятности поддеревьев. [2] Метод вычисляет вероятность для каждого сайта «линейным» образом, начиная с узла, единственными потомками которого являются листья (то есть кончики дерева), и работая в обратном направлении к «нижнему» узлу во вложенных наборах. Однако деревья, полученные с помощью метода, укореняются только в том случае, если модель подстановки необратима, что обычно не относится к биологическим системам. Поиск дерева максимального правдоподобия также включает компонент оптимизации длины ветвей, который трудно улучшить алгоритмически; часто используются общие глобальные инструменты оптимизации, такие как метод Ньютона–Рафсона .
Некоторые инструменты, которые используют максимальное правдоподобие для выведения филогенетических деревьев из данных о частоте аллелей вариантов (VAF), включают AncesTree и CITUP. [22] [23]
Байесовский вывод может быть использован для создания филогенетических деревьев способом, тесно связанным с методами максимального правдоподобия. Байесовские методы предполагают априорное распределение вероятностей возможных деревьев, которое может быть просто вероятностью любого одного дерева среди всех возможных деревьев, которые могут быть сгенерированы из данных, или может быть более сложной оценкой, полученной из предположения, что события расхождения, такие как видообразование, происходят как стохастические процессы . Выбор априорного распределения является предметом спора среди пользователей методов филогенетики байесовского вывода. [2]
Реализации байесовских методов обычно используют алгоритмы выборки Монте-Карло с цепями Маркова , хотя выбор набора перемещений варьируется; выборки, используемые в байесовской филогенетике, включают циклическую перестановку листовых узлов предлагаемого дерева на каждом шаге [24] и обмен поддеревьями потомков случайного внутреннего узла между двумя связанными деревьями. [25] Использование байесовских методов в филогенетике было спорным, в основном из-за неполной спецификации выбора набора перемещений, критерия приемлемости и предварительного распределения в опубликованных работах. [2] Байесовские методы, как правило, считаются превосходящими методы, основанные на экономии; они могут быть более склонны к притяжению длинных ветвей, чем методы максимального правдоподобия, [26] хотя они лучше способны учитывать отсутствующие данные. [27]
В то время как методы правдоподобия находят дерево, которое максимизирует вероятность данных, байесовский подход восстанавливает дерево, которое представляет наиболее вероятные клады, опираясь на апостериорное распределение. Однако оценки апостериорной вероятности кладов (измерение их «поддержки») могут быть довольно далеки от цели, особенно в кладах, которые не являются подавляюще вероятными. Таким образом, были предложены другие методы для оценки апостериорной вероятности. [28]
Некоторые инструменты, которые используют байесовский вывод для выведения филогенетических деревьев из данных о частоте аллелей вариантов (VAF), включают Canopy, EXACT и PhyloWGS. [29] [30] [31]
Методы молекулярной филогенетики опираются на определенную модель замещения , которая кодирует гипотезу об относительных скоростях мутаций на различных участках вдоль изучаемых последовательностей гена или аминокислот. В простейшем случае модели замещения направлены на корректировку различий в скоростях переходов и трансверсий в последовательностях нуклеотидов. Использование моделей замещения обусловлено тем фактом, что генетическое расстояние между двумя последовательностями увеличивается линейно только в течение короткого времени после того, как две последовательности расходятся друг от друга (в качестве альтернативы расстояние становится линейным только незадолго до слияния ). Чем больше времени проходит после расхождения, тем больше вероятность того, что две мутации произойдут в одном и том же нуклеотидном участке. Таким образом, простые расчеты генетического расстояния будут недооценивать число событий мутаций, которые произошли в эволюционной истории. Степень этого недоучета увеличивается с увеличением времени с момента расхождения, что может привести к явлению притяжения длинных ветвей или неправильному назначению двух отдаленно связанных, но конвергентно эволюционирующих последовательностей как тесно связанных. [32] Метод максимальной экономии особенно восприимчив к этой проблеме из-за его явного поиска дерева, представляющего минимальное количество различных эволюционных событий. [2]
Все модели замен назначают набор весов каждому возможному изменению состояния, представленному в последовательности. Наиболее распространенные типы моделей неявно обратимы, поскольку они назначают тот же вес, например, мутации нуклеотида G>C, что и мутации C>G. Самая простая возможная модель, модель Джукса-Кантора , назначает равную вероятность каждому возможному изменению состояния для данного нуклеотидного основания. Скорость изменения между любыми двумя различными нуклеотидами будет составлять одну треть от общей скорости замены. [2] Более продвинутые модели различают переходы и трансверсии . Самая общая возможная обратимая во времени модель, называемая моделью GTR, имеет шесть параметров скорости мутации. Еще более обобщенная модель, известная как общая 12-параметрическая модель, нарушает обратимость во времени ценой значительного дополнительного усложнения расчета генетических расстояний, которые согласованы между несколькими линиями. [2] Одна из возможных вариаций на эту тему корректирует скорости таким образом, что общее содержание GC — важная мера стабильности двойной спирали ДНК — меняется со временем. [33]
Модели также могут допускать вариацию скоростей в зависимости от позиций во входной последовательности. Наиболее очевидный пример такой вариации следует из расположения нуклеотидов в генах, кодирующих белок, в трехосновных кодонах . Если местоположение открытой рамки считывания (ORF) известно, скорости мутаций можно скорректировать для позиции заданного сайта в кодоне, поскольку известно, что спаривание оснований с колебаниями может допускать более высокие скорости мутаций в третьем нуклеотиде заданного кодона, не влияя на значение кодона в генетическом коде . [32] Менее основанный на гипотезах пример, который не полагается на идентификацию ORF, просто назначает каждому сайту скорость, случайно выбранную из предопределенного распределения, часто гамма-распределения или логнормального распределения . [2] Наконец, более консервативная оценка вариаций скоростей, известная как метод ковариона, допускает автокоррелированные вариации скоростей, так что скорость мутаций заданного сайта коррелирует между сайтами и линиями. [34]
Выбор подходящей модели имеет решающее значение для проведения хорошего филогенетического анализа, как потому, что недостаточно параметризованные или чрезмерно ограничительные модели могут давать аномальное поведение, когда нарушаются их основные предположения, так и потому, что чрезмерно сложные или чрезмерно параметризованные модели требуют больших вычислительных затрат, а параметры могут быть переобучены. [32] Наиболее распространенным методом выбора модели является тест отношения правдоподобия (LRT), который дает оценку правдоподобия, которую можно интерпретировать как меру « хорошего соответствия » между моделью и входными данными. [32] Однако следует проявлять осторожность при использовании этих результатов, поскольку более сложная модель с большим количеством параметров всегда будет иметь более высокое правдоподобие, чем упрощенная версия той же модели, что может привести к наивному выбору моделей, которые являются слишком сложными. [2] По этой причине компьютерные программы выбора модели выберут самую простую модель, которая не будет значительно хуже, чем более сложные модели замещения. Существенным недостатком LRT является необходимость проведения серии попарных сравнений между моделями; Было показано, что порядок, в котором сравниваются модели, оказывает большое влияние на выбор той, которая в конечном итоге будет выбрана. [35]
Альтернативным методом выбора модели является информационный критерий Акаике (AIC), формально представляющий собой оценку расхождения Кульбака–Лейблера между истинной моделью и проверяемой моделью. Его можно интерпретировать как оценку правдоподобия с поправочным коэффициентом для штрафования сверхпараметризованных моделей. [32] AIC рассчитывается для отдельной модели, а не для пары, поэтому он не зависит от порядка оценки моделей. Связанная альтернатива, информационный критерий Байеса (BIC), имеет схожую базовую интерпретацию, но сильнее штрафует сложные модели. [32] Определение наиболее подходящей модели для реконструкции филогении является фундаментальным шагом во многих эволюционных исследованиях. Однако различные критерии выбора модели приводят к спорам о том, какой критерий предпочтительнее. Недавно было показано, что когда желаемым результатом являются топологии и реконструкция предковой последовательности, выбор одного критерия вместо другого не имеет решающего значения. Вместо этого использование самой сложной модели замены нуклеотидов, GTR+I+G, приводит к аналогичным результатам для вывода топологии дерева и предковых последовательностей. [36]
Полный пошаговый протокол построения филогенетических деревьев, включая сборку смежных последовательностей ДНК/аминокислот, множественное выравнивание последовательностей, модельный тест (тестирование наиболее подходящих моделей замен) и реконструкцию филогении с использованием максимального правдоподобия и байесовского вывода, доступен на сайте Protocol Exchange [37]
Нетрадиционный способ оценки филогенетического дерева — сравнить его с результатом кластеризации. Можно использовать технику многомерного масштабирования, так называемое интерполяционное соединение, чтобы уменьшить размерность и визуализировать результат кластеризации для последовательностей в 3D, а затем сопоставить филогенетическое дерево с результатом кластеризации. Лучшее дерево обычно имеет более высокую корреляцию с результатом кластеризации. [38]
Как и в случае любого статистического анализа, оценка филогений по данным о признаках требует оценки достоверности. Существует ряд методов для проверки объема поддержки филогенетического дерева, либо путем оценки поддержки для каждого поддерева в филогении (узловая поддержка), либо путем оценки того, значительно ли филогения отличается от других возможных деревьев (тесты гипотез альтернативного дерева).
Наиболее распространенным методом оценки поддержки дерева является оценка статистической поддержки для каждого узла на дереве. Обычно узел с очень низкой поддержкой не считается действительным в дальнейшем анализе и визуально может быть свернут в политомию, чтобы указать, что отношения внутри клады не разрешены.
Многие методы оценки поддержки узлов включают рассмотрение множественных филогений. Дерево консенсуса суммирует узлы, которые являются общими для набора деревьев. [39] В *строгом консенсусе* показаны только узлы, найденные в каждом дереве, а остальные свернуты в неразрешенную политомию . Менее консервативные методы, такие как дерево *консенсуса большинства*, рассматривают узлы, которые поддерживаются заданным процентом рассматриваемых деревьев (например, не менее 50%).
Например, в анализе максимальной экономии может быть много деревьев с одинаковым показателем экономии. Строгое консенсусное дерево покажет, какие узлы встречаются во всех одинаково экономных деревьях, а какие узлы отличаются. Консенсусные деревья также используются для оценки поддержки филогений, реконструированных с помощью байесовского вывода (см. ниже).
В статистике бутстрап — это метод вывода изменчивости данных с неизвестным распределением с использованием псевдорепликаций исходных данных. Например, если задан набор из 100 точек данных, псевдореплика — это набор данных того же размера (100 точек), случайно выбранный из исходных данных с заменой. То есть каждая исходная точка данных может быть представлена в псевдореплике более одного раза или вообще не представлена. Статистическая поддержка включает оценку того, имеют ли исходные данные схожие свойства с большим набором псевдорепликаций.
В филогенетике бутстреппинг проводится с использованием столбцов матрицы признаков. Каждая псевдорепликация содержит одинаковое количество видов (строк) и признаков (столбцов), случайно выбранных из исходной матрицы, с заменой. Филогения реконструируется из каждой псевдорепликации с использованием тех же методов, которые использовались для реконструкции филогении из исходных данных. Для каждого узла в филогении узловая поддержка представляет собой процент псевдорепликаций, содержащих этот узел. [40]
Статистическая строгость теста bootstrap была эмпирически оценена с использованием вирусных популяций с известной эволюционной историей [41] , обнаружив, что 70% поддержки bootstrap соответствует 95% вероятности того, что клада существует. Однако это было проверено в идеальных условиях (например, отсутствие изменений в эволюционных скоростях, симметричные филогении). На практике значения выше 70% обычно поддерживаются и оставляются исследователю или читателю для оценки достоверности. Узлы с поддержкой ниже 70% обычно считаются неразрешенными.
Jackknife в филогенетике — это похожая процедура, за исключением того, что столбцы матрицы выбираются без замены. Псевдореплики генерируются путем случайной подвыборки данных — например, «10% jackknife» будет включать случайную выборку 10% матрицы много раз для оценки узловой поддержки.
Реконструкция филогений с использованием байесовского вывода генерирует апостериорное распределение высоковероятных деревьев с учетом данных и эволюционной модели, а не одно «лучшее» дерево. Деревья в апостериорном распределении обычно имеют много различных топологий. Когда входные данные представляют собой данные о частоте аллелей вариантов (VAF), инструмент EXACT может точно вычислять вероятности деревьев для небольших биологически значимых размеров деревьев, путем исчерпывающего поиска по всему пространству деревьев. [29]
Большинство методов байесовского вывода используют итерацию Монте-Карло с цепочкой Маркова, и начальные шаги этой цепи не считаются надежными реконструкциями филогении. Деревья, сгенерированные на ранних этапах цепи, обычно отбрасываются как burn-in . Наиболее распространенным методом оценки поддержки узлов в байесовском филогенетическом анализе является расчет процента деревьев в апостериорном распределении (после burn-in), которые содержат узел.
Ожидается, что статистическая поддержка узла в байесовском выводе будет отражать вероятность того, что клад действительно существует с учетом данных и эволюционной модели. [42] Поэтому порог для принятия узла как поддерживаемого, как правило, выше, чем для бутстреппинга.
Поддержка Бремера подсчитывает количество дополнительных шагов, необходимых для противоречия кладу.
У каждой из этих мер есть свои слабости. Например, клады меньшего или большего размера, как правило, привлекают большие значения поддержки, чем клады среднего размера, просто из-за количества таксонов в них. [43]
Поддержка Bootstrap может обеспечить высокие оценки поддержки узлов из-за шума в данных, а не из-за истинного существования клады. [44]
В конечном счете, нет способа измерить, является ли конкретная филогенетическая гипотеза точной или нет, если только истинные отношения между изучаемыми таксонами уже не известны (что может произойти с бактериями или вирусами в лабораторных условиях). Лучший результат, которого может надеяться достичь эмпирический филогенетик, — это дерево с ветвями, которые хорошо подкреплены имеющимися доказательствами. Было выявлено несколько потенциальных ловушек:
Некоторые признаки с большей вероятностью будут развиваться конвергентно , чем другие; логически, таким признакам следует придавать меньший вес при реконструкции дерева. [45] Веса в форме модели эволюции можно вывести из наборов молекулярных данных, чтобы можно было использовать методы максимального правдоподобия или байесовские методы для их анализа. Для молекулярных последовательностей эта проблема усугубляется, когда изучаемые таксоны существенно расходятся. По мере того, как время после расхождения двух таксонов увеличивается, увеличивается и вероятность множественных замен на одном и том же сайте или обратных мутаций, все из которых приводят к гомоплазиям. Для морфологических данных, к сожалению, единственным объективным способом определения конвергенции является построение дерева — несколько круговой метод. Тем не менее, взвешивание гомоплазированных признаков [ как? ] действительно приводит к более поддерживаемым деревьям. [45] Дальнейшее уточнение может быть достигнуто путем взвешивания изменений в одном направлении выше, чем изменений в другом; Например, наличие грудных крыльев почти гарантирует размещение среди крыловидных насекомых, поскольку, хотя крылья часто теряются вторично, нет никаких доказательств того, что они были приобретены более одного раза. [46]
В целом, организмы могут наследовать гены двумя способами: вертикальный перенос генов и горизонтальный перенос генов . Вертикальный перенос генов — это передача генов от родителя к потомству, а горизонтальный (также называемый латеральным) перенос генов происходит, когда гены перескакивают между неродственными организмами, что является обычным явлением, особенно у прокариот ; хорошим примером этого является приобретенная устойчивость к антибиотикам в результате обмена генами между различными бактериями, что приводит к появлению видов бактерий с множественной лекарственной устойчивостью. Также были хорошо документированы случаи горизонтального переноса генов между эукариотами .
Горизонтальный перенос генов усложнил определение филогении организмов, и были зарегистрированы несоответствия в филогении среди определенных групп организмов в зависимости от генов, используемых для построения эволюционных деревьев. Единственный способ определить, какие гены были приобретены вертикально, а какие горизонтально, — это экономно предположить, что наибольший набор генов, которые были унаследованы вместе, был унаследован вертикально; это требует анализа большого количества генов.
Основное предположение, лежащее в основе математической модели кладистики, заключается в ситуации, когда виды аккуратно разделяются бифуркационным образом. Хотя такое предположение может иметь место в большем масштабе (за исключением горизонтального переноса генов, см. выше), видообразование часто гораздо менее упорядочено. Исследования с момента введения кладистического метода показали, что гибридное видообразование , когда-то считавшееся редким, на самом деле довольно распространено, особенно у растений. [47] [48] Также распространено парафилетическое видообразование , что делает предположение о бифуркационном шаблоне непригодным, что приводит к филогенетическим сетям , а не деревьям. [49] [50] Интрогрессия также может перемещать гены между в остальном различными видами, а иногда даже родами, [51] усложняя филогенетический анализ, основанный на генах. [52] Это явление может способствовать «неполной сортировке по родословной» и считается распространенным явлением в ряде групп. При анализе на уровне видов с этим можно справиться с помощью более крупной выборки или лучшего анализа всего генома. [53] Часто эту проблему можно обойти, ограничив анализ меньшим количеством не тесно связанных между собой образцов.
Благодаря развитию передовых методов секвенирования в молекулярной биологии стало возможным собирать большие объемы данных (ДНК или аминокислотные последовательности) для выведения филогенетических гипотез. Например, нередко можно найти исследования с матрицами признаков, основанными на целых митохондриальных геномах (~16 000 нуклеотидов у многих животных). Однако моделирование показало, что важнее увеличить количество таксонов в матрице, чем увеличить количество признаков, поскольку чем больше таксонов, тем точнее и надежнее полученное филогенетическое дерево. [54] [55] Это может быть отчасти связано с разрывом длинных ветвей .
Другим важным фактором, влияющим на точность реконструкции дерева, является то, содержат ли анализируемые данные полезный филогенетический сигнал, термин, который обычно используется для обозначения того, развивается ли признак достаточно медленно, чтобы иметь одинаковое состояние в близкородственных таксонах, в отличие от случайных изменений. Существуют тесты на филогенетический сигнал. [56]
Морфологические признаки, которые являются выборкой континуума, могут содержать филогенетический сигнал, но их трудно кодировать как дискретные признаки. Было использовано несколько методов, одним из которых является кодирование пробелов, и существуют вариации кодирования пробелов. [57] В исходной форме кодирования пробелов: [57]
Групповые средние значения для символа сначала упорядочиваются по размеру. Вычисляется объединенное внутригрупповое стандартное отклонение... и сравниваются различия между соседними средними значениями... относительно этого стандартного отклонения. Любая пара соседних средних значений считается различной и получает различные целочисленные оценки... если средние значения разделены "пробелом", большим, чем внутригрупповое стандартное отклонение... умноженное на некоторую произвольную константу.
Если в анализ добавляется больше таксонов, промежутки между таксонами могут стать настолько малыми, что вся информация будет потеряна. Обобщенное кодирование промежутков решает эту проблему, сравнивая отдельные пары таксонов, а не рассматривая один набор, содержащий все таксоны. [57]
В общем, чем больше данных доступно при построении дерева, тем точнее и надежнее будет полученное дерево. Отсутствующие данные не более вредны, чем просто меньше данных, хотя влияние сильнее всего, когда большая часть отсутствующих данных находится в небольшом количестве таксонов. Концентрация отсутствующих данных по небольшому количеству признаков дает более надежное дерево. [58]
Поскольку многие признаки включают в себя эмбриологические или мягкотканные или молекулярные признаки, которые (в лучшем случае) почти никогда не окаменевают, а интерпретация ископаемых более неоднозначна, чем интерпретация живых таксонов , вымершие таксоны почти всегда имеют более высокие доли недостающих данных, чем живые. Однако, несмотря на эти ограничения, включение ископаемых бесценно, поскольку они могут предоставить информацию в редких областях деревьев, разбивая длинные ветви и ограничивая промежуточные состояния признаков; таким образом, ископаемые таксоны вносят такой же вклад в разрешение дерева, как и современные таксоны. [59] Ископаемые также могут ограничивать возраст родословных и, таким образом, демонстрировать, насколько дерево соответствует стратиграфической записи; [1] стратокладистика включает информацию о возрасте в матрицы данных для филогенетического анализа.
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )Программа GoLife основана на программе AToL, приспосабливаясь к сложности моделей диверсификации на протяжении всей истории жизни. Наши текущие знания о таких процессах, как гибридизация, эндосимбиоз и латеральный перенос генов, ясно показывают, что эволюционная история жизни на Земле не может быть точно изображена — для каждой ветви дерева — как единое, типологическое, разветвляющееся дерево.