Вычислительная филогенетика

Вычислительная филогенетика , филогенетический вывод или филогенетический вывод фокусируются на вычислительных и оптимизационных алгоритмах , эвристике и подходах, используемых в филогенетическом анализе. Цель состоит в том, чтобы найти филогенетическое дерево , представляющее оптимальное эволюционное происхождение между набором генов , видов или таксонов . Максимальное правдоподобие , экономичность , байесианство и минимальная эволюция — типичные критерии оптимальности, используемые для оценки того, насколько хорошо топология филогенетического дерева описывает данные последовательности. ^[1]^[2] Обмен ближайшим соседом (NNI), обрезка и пересадка поддерева (SPR) и разделение и пересоединение дерева (TBR), известные как перестановки деревьев , представляют собой детерминированные алгоритмы для поиска оптимального или лучшего филогенетического дерева. Пространство и ландшафт поиска оптимального филогенетического дерева известны как пространство поиска филогении.

Критерий оптимальности максимального правдоподобия (также правдоподобия) — это процесс поиска топологии дерева вместе с длинами его ветвей, который обеспечивает наибольшую вероятность наблюдения за данными последовательности, в то время как критерий оптимальности экономичности — это наименьшее количество эволюционно-состоятельных изменений, необходимых для того, чтобы филогенетическое дерево объясните данные последовательности. ^[1]^[2]

Традиционная филогенетика опирается на морфологические данные, полученные путем измерения и количественной оценки фенотипических свойств репрезентативных организмов, в то время как более поздняя область молекулярной филогенетики использует в качестве основы для классификации нуклеотидные последовательности, кодирующие гены, или аминокислотные последовательности, кодирующие белки .

Многие формы молекулярной филогенетики тесно связаны с выравниванием последовательностей и широко используют его при построении и уточнении филогенетических деревьев, которые используются для классификации эволюционных отношений между гомологичными генами , представленными в геномах дивергентных видов. Филогенетические деревья, построенные с помощью вычислительных методов, вряд ли смогут идеально воспроизвести эволюционное дерево , отражающее исторические отношения между анализируемыми видами. ^{[ нужна цитация ]} Историческое дерево видов может также отличаться от исторического дерева отдельного гомологичного гена, принадлежащего этим видам.

Типы филогенетических деревьев и сетей

Филогенетические деревья , созданные с помощью компьютерной филогенетики, могут быть как корневыми , так и некорневыми, в зависимости от входных данных и используемого алгоритма. Корневое дерево — это ориентированный граф , который явно идентифицирует самого последнего общего предка (MRCA), ^{обычно это вмененная} последовательность, которая не представлена во входных данных. Меры генетического расстояния можно использовать для построения дерева с входными последовательностями в виде конечных узлов и их расстояниями от корня, пропорциональными их генетическому расстоянию от гипотетического MRCA. Идентификация корня обычно требует включения во входные данные по крайней мере одной «внешней группы», о которой известно, что она имеет лишь отдаленное отношение к интересующим последовательностям.

Напротив, некорневые деревья отображают расстояния и отношения между входными последовательностями, не делая предположений относительно их происхождения. Некорневое дерево всегда можно создать из корневого дерева, но корень обычно не может быть помещен в некорневое дерево без дополнительных данных о скорости расхождения, таких как предположение о гипотезе молекулярных часов . ^[3]

Набор всех возможных филогенетических деревьев для данной группы входных последовательностей можно представить как дискретно определенное многомерное «деревянное пространство», через которое алгоритмы оптимизации могут отслеживать пути поиска . Хотя подсчет общего количества деревьев для нетривиального числа входных последовательностей может быть затруднен из-за различий в определении топологии дерева, всегда верно, что для заданного количества входных данных и выбора параметров существует больше корневых деревьев, чем некорневых. ^[2]

Как укорененные, так и неукорененные филогенетические деревья могут быть далее обобщены до укорененных или неукорененных филогенетических сетей , которые позволяют моделировать эволюционные явления, такие как гибридизация или горизонтальный перенос генов .

Кодирование символов и определение гомологии

Морфологический анализ

Основная проблема морфологической филогенетики - это сборка матрицы, представляющей отображение каждого сравниваемого таксона с репрезентативными измерениями для каждой из фенотипических характеристик, используемых в качестве классификатора. Типы фенотипических данных, используемых для построения этой матрицы, зависят от сравниваемых таксонов; для отдельных видов они могут включать измерения среднего размера тела, длины или размеров отдельных костей или других физических особенностей или даже поведенческих проявлений. Конечно, поскольку не все возможные фенотипические характеристики можно измерить и закодировать для анализа, выбор признаков для измерения является основным препятствием для этого метода. Решение о том, какие признаки использовать в качестве основы для матрицы, обязательно представляет собой гипотезу о том, какие признаки вида или более высокого таксона являются эволюционно значимыми. ^[4] Морфологические исследования могут быть сбиты с толку примерами конвергентной эволюции фенотипов. ^[5] Основной проблемой при построении полезных классов является высокая вероятность межтаксонного перекрытия в распределении вариаций фенотипа. Включение вымерших таксонов в морфологический анализ часто затруднено из-за отсутствия или неполноты летописей окаменелостей , но было показано, что они оказывают значительное влияние на полученные деревья; в одном исследовании только включение вымерших видов обезьян привело к образованию дерева, морфологически производного, которое соответствовало дереву, полученному на основе молекулярных данных. ^[6]

Некоторые фенотипические классификации, особенно те, которые используются при анализе весьма разнообразных групп таксонов, дискретны и однозначны; Например, классифицировать организмы на наличие или отсутствие хвоста в большинстве случаев несложно, как и подсчет таких особенностей, как глаза или позвонки. Однако наиболее подходящее представление постоянно меняющихся фенотипических измерений является спорной проблемой, не имеющей общего решения. Распространенный метод состоит в том, чтобы просто отсортировать интересующие измерения по двум или более классам, делая непрерывные наблюдаемые вариации дискретно классифицируемыми (например, все примеры с костями плечевой кости длиннее заданного порогового значения оцениваются как представители одного состояния, а все члены, чья плечевая кость кости короче минимального значения оцениваются как представители второго государства). В результате получается набор данных, которым легко манипулировать , но его критикуют за плохое представление основы для определений классов и за принесение в жертву информации по сравнению с методами, которые используют непрерывное взвешенное распределение измерений. ^[7]

Поскольку сбор морфологических данных, будь то из литературных источников или из полевых наблюдений, чрезвычайно трудоемкий, повторное использование ранее скомпилированных матриц данных не является редкостью, хотя это может привести к распространению недостатков в исходной матрице на несколько производных анализов. ^[8]

Молекулярный анализ

Проблема кодирования символов в молекулярном анализе сильно отличается, поскольку символы в данных биологических последовательностей являются непосредственными и дискретно определенными - отдельные нуклеотиды в последовательностях ДНК или РНК и отдельные аминокислоты в последовательностях белков . Однако определение гомологии может быть затруднено из-за трудностей, присущих множественному выравниванию последовательностей . Для данного MSA с пробелами можно построить несколько укорененных филогенетических деревьев, которые различаются по своей интерпретации того, какие изменения являются « мутациями » по сравнению с наследственными признаками, а какие события являются инсерционными мутациями или делеционными мутациями . Например, учитывая только парное выравнивание с областью пробела, невозможно определить, несет ли одна последовательность инсерционную мутацию или другая несет делецию. Проблема усугубляется в MSA с невыровненными и неперекрывающимися пробелами. На практике значительные области рассчитанного выравнивания могут не учитываться при построении филогенетического дерева, чтобы избежать интеграции зашумленных данных в расчет дерева.

Дистанционно-матричные методы

Методы филогенетического анализа с использованием матрицы расстояний явно полагаются на меру «генетического расстояния» между классифицируемыми последовательностями, и, следовательно, они требуют MSA в качестве входных данных. Расстояние часто определяется как доля несовпадений в совмещенных позициях, при этом пробелы либо игнорируются, либо считаются несовпадениями. ^[3] Методы расстояния пытаются построить матрицу «все ко всем» из набора запросов последовательностей, описывающую расстояние между каждой парой последовательностей. На основе этого строится филогенетическое дерево, которое помещает близкородственные последовательности в один и тот же внутренний узел и длина ветвей которого точно воспроизводит наблюдаемые расстояния между последовательностями. Методы матрицы расстояний могут создавать как корневые, так и некорневые деревья, в зависимости от алгоритма, используемого для их расчета. Они часто используются в качестве основы для прогрессивных и итеративных типов множественного выравнивания последовательностей . Основным недостатком методов матрицы расстояний является их неспособность эффективно использовать информацию о локальных регионах с высокой изменчивостью, которые появляются в нескольких поддеревьях. ^[2]

УПГМА и ВПГМА

Методы UPGMA ( метод группы невзвешенных пар со средним арифметическим ) и WPGMA ( метод группы взвешенных пар со средним арифметическим ) создают корневые деревья и требуют допущения о постоянной скорости, то есть предполагается ультраметрическое дерево, в котором расстояния от корня до кончики всех ветвей равны. ^[9]

Присоединение к соседям

Методы объединения соседей применяют общие методы кластерного анализа к анализу последовательностей с использованием генетического расстояния в качестве показателя кластеризации. Простой метод объединения соседей создает некорневые деревья, но он не предполагает постоянную скорость эволюции (т. е. молекулярные часы ) между линиями. ^[10]

Метод Фитча – Марголиаша

Метод Фитча -Марголиаша использует взвешенный метод наименьших квадратов для кластеризации на основе генетического расстояния. ^[11] Близкородственным последовательностям придается больший вес в процессе построения дерева, чтобы исправить повышенную неточность измерения расстояний между отдаленно родственными последовательностями. Расстояния, используемые в качестве входных данных для алгоритма, должны быть нормализованы, чтобы предотвратить большие артефакты при вычислении отношений между тесно связанными и отдаленно связанными группами. Расстояния, рассчитанные этим методом, должны быть линейными ; критерий линейности расстояний требует, чтобы ожидаемые значения длин ветвей для двух отдельных ветвей равнялись ожидаемому значению суммы двух расстояний ветвей - свойство, которое применимо к биологическим последовательностям только тогда, когда они скорректированы на возможность обратного пути . мутации в отдельных сайтах. Эта коррекция осуществляется за счет использования матрицы замещения , например, полученной на основе модели эволюции ДНК Джукса-Кантора . Коррекция расстояния необходима на практике только тогда, когда скорости развития разных ветвей различаются. ^[2] Другая модификация алгоритма может быть полезна, особенно в случае концентрированных расстояний (см. феномен концентрации меры и проклятие размерности ): было показано, что эта модификация, описанная в ^[12] , повышает эффективность Алгоритм и его надежность.

Критерий наименьших квадратов, применяемый к этим расстояниям, более точен, но менее эффективен, чем методы соединения соседей. Дополнительное улучшение, которое корректирует корреляции между расстояниями, возникающими из многих тесно связанных последовательностей в наборе данных, также может быть применено с увеличением вычислительных затрат. Поиск оптимального дерева методом наименьших квадратов с любым поправочным коэффициентом является NP-полным , ^[13] поэтому эвристические методы поиска, подобные тем, которые используются в анализе максимальной экономии, применяются к поиску в древовидном пространстве.

Использование внешних групп

Независимая информация о взаимоотношениях между последовательностями или группами может использоваться, чтобы помочь уменьшить пространство поиска в дереве и укоренить некорневые деревья. Стандартное использование методов матрицы расстояний предполагает включение по крайней мере одной последовательности внешней группы , о которой известно, что она лишь отдаленно связана с интересующими последовательностями в наборе запросов. ^[3] Такое использование можно рассматривать как своего рода экспериментальный контроль . Если внешняя группа выбрана правильно, она будет иметь гораздо большее генетическое расстояние и, следовательно, большую длину ветвей, чем любая другая последовательность, и она появится возле корня укорененного дерева. Выбор подходящей внешней группы требует выбора последовательности, которая умеренно связана с интересующими последовательностями; слишком близкие отношения противоречат целям внешней группы, а слишком отдаленные добавляют шума в анализ. ^[3] Следует также проявлять осторожность, чтобы избежать ситуаций, в которых виды, от которых были взяты последовательности, имеют отдаленное родство, но ген, кодируемый последовательностями, высоко консервативен в разных линиях. Горизонтальный перенос генов , особенно между расходящимися в других отношениях бактериями , также может затруднить использование чужих групп.

Максимальная экономия

Максимальная экономия (MP) - это метод идентификации потенциального филогенетического дерева, который требует наименьшего общего количества эволюционных событий для объяснения наблюдаемых данных о последовательностях. Некоторые способы оценки деревьев также включают «стоимость», связанную с определенными типами эволюционных событий, и пытаются найти дерево с наименьшей общей стоимостью. Это полезный подход в тех случаях, когда не все возможные типы событий одинаково вероятны — например, когда известно, что определенные нуклеотиды или аминокислоты более изменчивы, чем другие.

Самый наивный способ определить самое экономное дерево — это простое перебор — последовательное рассмотрение каждого возможного дерева и поиск дерева с наименьшим баллом. Однако это возможно только для относительно небольшого числа последовательностей или видов, поскольку известно, что проблема определения наиболее экономного дерева является NP-трудной ; ^[2] в результате был разработан ряд эвристических методов поиска для оптимизации , чтобы найти очень экономное дерево, если не лучшее в наборе. Большинство таких методов включают в себя механизм минимизации в стиле наискорейшего спуска , работающий на критерии перестановки дерева .

Ветвь и граница

Алгоритм ветвей и границ — это общий метод, используемый для повышения эффективности поиска почти оптимальных решений NP-трудных задач, впервые примененный в филогенетике в начале 1980-х годов. ^[14] Метод «ветви и границы» особенно хорошо подходит для построения филогенетического дерева, поскольку он по своей сути требует разделения проблемы на древовидную структуру , поскольку она подразделяет проблемное пространство на более мелкие области. Как следует из названия, он требует в качестве входных данных как правила ветвления (в случае филогенетики — добавление следующего вида или последовательности к дереву), так и границы (правило, которое исключает из рассмотрения определенные области пространства поиска, тем самым предполагая, что оптимальное решение не может занимать эту область). Идентификация хорошей границы — самый сложный аспект применения алгоритма в филогенетике. Простой способ определения границы — это максимальное количество предполагаемых эволюционных изменений, разрешенных для одного дерева. Набор критериев, известный как правила Жарких ^[15], жестко ограничивает пространство поиска, определяя характеристики, общие для всех кандидатов в «наиболее экономные» деревья. Два самых основных правила требуют исключения всех избыточных последовательностей, кроме одной (для случаев, когда множественные наблюдения дали идентичные данные) и исключения признаковых участков, в которых два или более состояний не встречаются по крайней мере у двух видов. В идеальных условиях эти правила и связанный с ними алгоритм полностью определяли бы дерево.

Алгоритм Санкоффа-Мореля-Седергрена

Алгоритм Санкоффа-Мореля-Седергрена был одним из первых опубликованных методов одновременного создания MSA и филогенетического дерева нуклеотидных последовательностей. ^[16] В этом методе используется расчет максимальной экономии в сочетании с функцией оценки, которая штрафует за пробелы и несоответствия, тем самым отдавая предпочтение дереву, которое вводит минимальное количество таких событий (альтернативная точка зрения предполагает, что предпочтение отдается деревьям, которые максимизируют степень сходства последовательностей, которую можно интерпретировать как гомологию, точка зрения, которая может привести к различным оптимальным деревьям ^[17] ). Вмененные последовательности во внутренних узлах дерева оцениваются и суммируются по всем узлам каждого возможного дерева. Сумма дерева с наименьшей оценкой обеспечивает как оптимальное дерево, так и оптимальный MSA с учетом оценочной функции. Поскольку этот метод требует больших вычислительных ресурсов, это приближенный метод, в котором первоначальные предположения о внутреннем выравнивании уточняются по одному узлу за раз. Как полная, так и приблизительная версия на практике рассчитываются методом динамического программирования. ^[2]

МАЛИГН и ПОЙ

Более поздние методы филогенетического дерева / MSA используют эвристику для выделения деревьев с высокими показателями, но не обязательно оптимальных. Метод MALIGN использует метод максимальной экономии для вычисления множественного выравнивания путем максимизации оценки кладограммы , а его сопутствующий метод POY использует итерационный метод, который сочетает оптимизацию филогенетического дерева с улучшениями соответствующего MSA. ^[18] Однако использование этих методов при построении эволюционных гипотез подвергалось критике как предвзятое из-за преднамеренного построения деревьев, отражающих минимальные эволюционные события. ^[19] Этому, в свою очередь, противоречило мнение, что такие методы следует рассматривать как эвристические подходы к поиску деревьев, которые максимизируют степень сходства последовательностей, которое можно интерпретировать как гомологию. ^[17]^[20]

Максимальная вероятность

Метод максимального правдоподобия использует стандартные статистические методы для вывода распределений вероятностей для присвоения вероятностей конкретным возможным филогенетическим деревьям. Для этого метода требуется модель замещения для оценки вероятности определенных мутаций ; Грубо говоря, дерево, которому требуется больше мутаций во внутренних узлах для объяснения наблюдаемой филогении, будет оценено как имеющее меньшую вероятность. Это во многом похоже на метод максимальной экономии, но максимальное правдоподобие обеспечивает дополнительную статистическую гибкость, допуская различную скорость эволюции как по линиям, так и по участкам. Фактически, метод требует, чтобы эволюция на разных участках и по разным линиям была статистически независимой . Таким образом, метод максимального правдоподобия хорошо подходит для анализа отдаленно связанных последовательностей, но считается, что его вычислительно сложно вычислить из-за его NP-трудности. ^[21]

Алгоритм «обрезки» — вариант динамического программирования — часто используется для сокращения пространства поиска за счет эффективного расчета вероятности появления поддеревьев. ^[2] Метод вычисляет вероятность для каждого сайта «линейным» способом, начиная с узла, единственными потомками которого являются листья (то есть верхушки дерева), и двигаясь назад к «нижнему» узлу во вложенных наборах. Однако деревья, полученные с помощью этого метода, укореняются только в том случае, если модель замещения необратима, что обычно не относится к биологическим системам. Поиск дерева максимального правдоподобия также включает в себя компонент оптимизации длины ветвей, который трудно улучшить алгоритмически; Часто используются общие инструменты глобальной оптимизации , такие как метод Ньютона-Рафсона .

Некоторые инструменты, которые используют максимальную вероятность для вывода филогенетических деревьев на основе данных о частоте вариантов аллелей (VAF), включают AncesTree и CITUP. ^[22]^[23]

Байесовский вывод

Байесовский вывод можно использовать для создания филогенетических деревьев способом, тесно связанным с методами максимального правдоподобия. Байесовские методы предполагают априорное распределение вероятностей возможных деревьев, которое может быть просто вероятностью любого одного дерева среди всех возможных деревьев, которые могут быть созданы на основе данных, или может быть более сложной оценкой, полученной из предположения, что события расхождения, такие как Поскольку видообразование происходит как случайные процессы . Выбор априорного распределения является предметом разногласий среди пользователей методов филогенетики с байесовским выводом. ^[2]

Реализации байесовских методов обычно используют алгоритмы выборки Монте-Карло цепи Маркова , хотя выбор набора перемещений варьируется; отборы, используемые в байесовской филогенетике, включают в себя циклическую перестановку листовых узлов предлагаемого дерева на каждом этапе ^[24] и замену поддеревьев-потомков случайного внутреннего узла между двумя связанными деревьями. ^[25] Использование байесовских методов в филогенетике вызывает споры, в основном из-за неполной спецификации выбора набора ходов, критерия приемлемости и предварительного распределения в опубликованных работах. ^[2] Обычно считается, что байесовские методы превосходят методы, основанные на экономии; они могут быть более склонны к привлечению длинных ветвей, чем методы максимального правдоподобия, ^[26] , хотя они лучше способны компенсировать недостающие данные. ^[27]

В то время как методы правдоподобия находят дерево, которое максимизирует вероятность данных, байесовский подход восстанавливает дерево, которое представляет наиболее вероятные клады, опираясь на апостериорное распределение. Однако оценки апостериорной вероятности клад (измерение их «поддержки») могут быть весьма ошибочными, особенно в кладах, вероятность которых не является абсолютно вероятной. Таким образом, были предложены другие методы для оценки апостериорной вероятности. ^[28]

Некоторые инструменты, которые используют байесовский вывод для построения филогенетических деревьев на основе данных о частоте вариантов аллелей (VAF), включают Canopy, EXACT и PhyloWGS. ^[29]^[30]^[31]

Выбор модели

Методы молекулярной филогенетики основаны на определенной модели замещения , которая кодирует гипотезу об относительных скоростях мутаций в различных сайтах изучаемого гена или аминокислотных последовательностей. В самом простом случае модели замещения направлены на корректировку различий в скорости переходов и трансверсий в нуклеотидных последовательностях. Использование моделей замещения обусловлено тем фактом, что генетическое расстояние между двумя последовательностями увеличивается линейно только в течение короткого времени после того, как две последовательности расходятся друг от друга (альтернативно, расстояние является линейным только незадолго до слияния ). Чем дольше проходит время после дивергенции, тем более вероятно, что две мутации происходят в одном и том же нуклеотидном сайте. Таким образом, простые расчеты генетических расстояний будут недооценивать количество событий мутаций, произошедших в истории эволюции. Степень этого недоучета увеличивается с увеличением времени с момента расхождения, что может привести к феномену притяжения длинных ветвей или ошибочному отнесению двух отдаленно связанных, но конвергентно развивающихся последовательностей как тесно связанных. ^[32] Метод максимальной экономии особенно подвержен этой проблеме из-за его явного поиска дерева, представляющего минимальное количество различных эволюционных событий. ^[2]

Типы моделей

Все модели замещения присваивают набор весов каждому возможному изменению состояния, представленному в последовательности. Наиболее распространенные типы моделей неявно обратимы, поскольку они присваивают, например, мутации нуклеотида G>C тот же вес, что и мутации C>G. Самая простая из возможных моделей, модель Джукса-Кантора , приписывает равную вероятность каждому возможному изменению состояния данного нуклеотидного основания. Скорость изменения между любыми двумя различными нуклеотидами будет составлять одну треть от общей скорости замены. ^[2] Более продвинутые модели различают переходы и трансверсии . Самая общая возможная обратимая во времени модель, называемая моделью GTR, имеет шесть параметров скорости мутаций. Еще более обобщенная модель, известная как общая 12-параметрическая модель, нарушает обратимость во времени за счет значительной дополнительной сложности расчета генетических расстояний, которые согласуются между несколькими линиями. ^[2] Один из возможных вариантов этой темы регулирует скорости так, что общее содержание GC - важный показатель стабильности двойной спирали ДНК - меняется со временем. ^[33]

Модели также могут учитывать изменение ставок в зависимости от позиции во входной последовательности. Самый очевидный пример такой вариации следует из расположения нуклеотидов в генах, кодирующих белки, в трехосновные кодоны . Если известно расположение открытой рамки считывания (ORF), скорость мутаций можно скорректировать с учетом положения данного сайта внутри кодона, поскольку известно, что колебательное спаривание оснований может обеспечить более высокую частоту мутаций в третьем нуклеотиде кодона. данный кодон, не затрагивая значения кодона в генетическом коде . ^[32] Менее основанный на гипотезах пример, который не полагается на идентификацию ORF, просто присваивает каждому сайту частоту, случайно полученную из заранее определенного распределения, часто гамма- распределения или логарифмически нормального распределения . ^[2] Наконец, более консервативная оценка изменений скорости, известная как коварионный метод, позволяет автокоррелировать изменения в скорости, так что частота мутаций данного сайта коррелирует между сайтами и линиями. ^[34]

Выбор лучшей модели

Выбор подходящей модели имеет решающее значение для проведения хорошего филогенетического анализа, как потому, что недостаточно параметризованные или чрезмерно ограничительные модели могут привести к аберрантному поведению, когда их основные предположения нарушаются, так и потому, что слишком сложные или чрезмерно параметризованные модели требуют больших вычислительных затрат, а параметры могут быть переопределены. . ^[32] Наиболее распространенным методом выбора модели является тест отношения правдоподобия (LRT), который дает оценку правдоподобия, которую можно интерпретировать как меру « степени соответствия » между моделью и входными данными. ^[32] Однако следует проявлять осторожность при использовании этих результатов, поскольку более сложная модель с большим количеством параметров всегда будет иметь более высокую вероятность, чем упрощенная версия той же модели, что может привести к наивному выбору слишком сложных моделей. . ^[2] По этой причине компьютерные программы выбора модели будут выбирать самую простую модель, которая не значительно хуже, чем более сложные модели замещения. Существенным недостатком ЛРТ является необходимость проведения серии попарных сравнений моделей; Было показано, что порядок сравнения моделей оказывает большое влияние на выбор той, которая в конечном итоге будет выбрана. ^[35]

Альтернативным методом выбора модели является информационный критерий Акаике (AIC), формально оценка расхождения Кульбака-Лейблера между истинной моделью и тестируемой моделью. Ее можно интерпретировать как оценку правдоподобия с поправочным коэффициентом для наказания чрезмерно параметризованных моделей. ^[32] AIC рассчитывается для отдельной модели, а не для пары, поэтому он не зависит от порядка оценки моделей. Связанная альтернатива, байесовский информационный критерий (BIC), имеет аналогичную базовую интерпретацию, но более строго наказывает сложные модели. ^[32] Определение наиболее подходящей модели для реконструкции филогении представляет собой фундаментальный шаг в многочисленных эволюционных исследованиях. Однако различные критерии выбора модели приводят к спорам о том, какой критерий предпочтительнее. Недавно было показано, что, когда желаемым результатом являются топологии и реконструкция предковой последовательности, выбор одного критерия над другим не имеет решающего значения. Вместо этого использование наиболее сложной модели нуклеотидных замен, GTR+I+G, приводит к аналогичным результатам для вывода топологии дерева и наследственных последовательностей. ^[36]

Подробный пошаговый протокол построения филогенетических деревьев, включая сборку смежных последовательностей ДНК/аминокислот, множественное выравнивание последовательностей, модельное тестирование (тестирование наиболее подходящих моделей замещения) и реконструкцию филогении с использованием метода максимального правдоподобия и байесовского вывода, доступен по адресу Протокол обмена ^[37]

Нетрадиционный способ оценки филогенетического дерева — сравнение его с результатом кластеризации. Можно использовать метод многомерного масштабирования, так называемое интерполяционное объединение, чтобы уменьшить размерность и визуализировать результат кластеризации последовательностей в 3D, а затем сопоставить филогенетическое дерево с результатом кластеризации. Лучшее дерево обычно имеет более высокую корреляцию с результатом кластеризации. ^[38]

Оценка поддержки дерева

Как и при любом статистическом анализе, оценка филогений на основе данных о характерах требует оценки достоверности. Существует ряд методов проверки степени поддержки филогенетического дерева, либо путем оценки поддержки каждого поддерева в филогении (узловая поддержка), либо путем оценки того, значительно ли филогения отличается от других возможных деревьев (проверка гипотез альтернативного дерева). ).

Узловая поддержка

Наиболее распространенным методом оценки поддержки дерева является оценка статистической поддержки каждого узла дерева. Обычно узел с очень низкой поддержкой не считается действительным при дальнейшем анализе и визуально может быть свернут в политомию, чтобы указать, что отношения внутри клады неразрешены.

Дерево консенсуса

Многие методы оценки узловой поддержки включают рассмотрение множественных филогений. Дерево консенсуса суммирует узлы, которые являются общими для набора деревьев. ^[39] При *строгом консенсусе* показаны только узлы, найденные в каждом дереве, а остальные свернуты в неразрешенную политомию . Менее консервативные методы, такие как дерево *консенсусного правила*, рассматривают узлы, которые поддерживаются заданным процентом рассматриваемых деревьев (например, не менее 50%).

Например, при анализе максимальной экономии может быть много деревьев с одинаковым показателем экономии. Строгое консенсусное дерево покажет, какие узлы встречаются во всех одинаково экономных деревьях, а какие различаются. Деревья консенсуса также используются для оценки поддержки филогений, реконструированных с помощью байесовского вывода (см. Ниже).

Бутстрэппинг и складной нож

В статистике бутстрап — это метод определения изменчивости данных, распределение которых неизвестно, с использованием псевдорепликаций исходных данных. Например, для набора из 100 точек данных псевдорепликат представляет собой набор данных того же размера (100 точек), случайно выбранный из исходных данных с заменой. То есть каждая исходная точка данных может быть представлена в псевдорепликате более одного раза или не представлена вообще. Статистическая поддержка включает оценку того, имеют ли исходные данные свойства, аналогичные свойствам большого набора псевдорепликатов.

В филогенетике бутстрэппинг проводится с использованием столбцов матрицы символов. Каждый псевдорепликат содержит одинаковое количество видов (строк) и символов (столбцов), случайно выбранных из исходной матрицы с заменой. Филогения реконструируется по каждой псевдорепликации с использованием тех же методов, которые используются для реконструкции филогении по исходным данным. Для каждого узла филогении узловая поддержка представляет собой процент псевдорепликатов, содержащих этот узел. ^[40]

Статистическая строгость бутстрап-теста была эмпирически оценена с использованием вирусных популяций с известной эволюционной историей: ^[41] обнаружено, что 70% бутстреп-теста соответствует 95% вероятности существования клады. Однако это было проверено в идеальных условиях (например, отсутствие изменений в скорости эволюции, симметричная филогения). На практике значения выше 70% обычно поддерживаются и оставляются на усмотрение исследователя или читателя, чтобы оценить достоверность. Узлы с поддержкой ниже 70% обычно считаются неразрешенными.

Складной нож в филогенетике представляет собой аналогичную процедуру, за исключением того, что образцы столбцов матрицы отбираются без замены. Псевдорепликаты генерируются путем случайной выборки данных - например, «складной нож 10%» будет включать многократную случайную выборку 10% матрицы для оценки узловой поддержки.

Апостериорная вероятность

Реконструкция филогений с использованием байесовского вывода генерирует апостериорное распределение высоковероятных деревьев с учетом данных и эволюционной модели, а не одно «лучшее» дерево. Деревья в апостериорном распределении обычно имеют много разных топологий. Когда входными данными являются данные частоты вариантов аллелей (VAF), инструмент EXACT может точно вычислить вероятности деревьев для небольших, биологически значимых размеров деревьев, путем исчерпывающего поиска по всему пространству деревьев. ^[29]

Большинство методов байесовского вывода используют итерацию Монте-Карло цепи Маркова, и начальные шаги этой цепочки не считаются надежными реконструкциями филогении. Деревья, созданные на ранних этапах цепочки, обычно отбрасываются как выгорающие . Самый распространенный метод оценки узловой поддержки в байесовском филогенетическом анализе - это расчет процента деревьев в заднем распределении (после выгорания), которые содержат узел.

Ожидается, что статистическая поддержка узла в байесовском выводе будет отражать вероятность того, что клада действительно существует с учетом данных и эволюционной модели. ^[42] Таким образом, порог для принятия узла как поддерживаемый обычно выше, чем для начальной загрузки.

Методы подсчета шагов

Поддержка Бремера подсчитывает количество дополнительных шагов, необходимых для противоречия кладе.

Недостатки

Каждая из этих мер имеет свои слабые стороны. Например, меньшие или более крупные клады, как правило, привлекают большую поддержку, чем клады среднего размера, просто из-за количества в них таксонов. ^[43]

Поддержка начальной загрузки может обеспечить высокие оценки поддержки узлов в результате шума в данных, а не реального существования клада. ^[44]

Ограничения и обходные пути

В конечном счете, невозможно измерить, является ли конкретная филогенетическая гипотеза точной или нет, если уже не известны истинные взаимоотношения между исследуемыми таксонами (что может произойти с бактериями или вирусами в лабораторных условиях). Наилучший результат, на который может надеяться эмпирический филогенетик, — это дерево с ветвями, которые хорошо подтверждаются имеющимися данными. Было выявлено несколько потенциальных ловушек:

Гомоплазия

Некоторые персонажи с большей вероятностью будут развиваться конвергентно, чем другие; по логике вещей, таким символам следует придавать меньший вес при реконструкции дерева. ^[45] Веса в форме модели эволюции могут быть выведены из наборов молекулярных данных, так что для их анализа можно использовать методы максимального правдоподобия или байесовские методы. Для молекулярных последовательностей эта проблема усугубляется, когда изучаемые таксоны существенно разошлись. По мере того как время, прошедшее с момента расхождения двух таксонов, увеличивается, увеличивается и вероятность множественных замен на одном и том же сайте или обратных мутаций, все из которых приводят к гомоплазии. К сожалению, для морфологических данных единственный объективный способ определить сходимость — это построение дерева — несколько круговой метод. Несмотря на это, взвешивание гомоплазных персонажей ^{[ как? ]} действительно приводит к созданию деревьев с лучшей поддержкой. ^[45] Дальнейшее уточнение может быть достигнуто путем придания изменениям в одном направлении большего веса, чем изменениям в другом; например, наличие грудных крыльев почти гарантирует попадание в число крыловидных насекомых, поскольку, хотя крылья часто теряются вторично, нет никаких свидетельств того, что они приобретались более одного раза. ^[46]

Горизонтальный перенос генов

В целом организмы могут наследовать гены двумя способами: вертикальный перенос генов и горизонтальный перенос генов . Вертикальный перенос генов — это переход генов от родителя к потомству, а горизонтальный (также называемый латеральным) перенос генов происходит, когда гены переходят между несвязанными организмами, что является обычным явлением, особенно у прокариот ; Хорошим примером этого является приобретенная устойчивость к антибиотикам в результате обмена генами между различными бактериями, что приводит к появлению видов бактерий с множественной лекарственной устойчивостью. Также были хорошо задокументированы случаи горизонтального переноса генов между эукариотами .

Горизонтальный перенос генов усложнил определение филогении организмов, и сообщалось о несоответствиях в филогении между конкретными группами организмов в зависимости от генов, используемых для построения эволюционных деревьев. Единственный способ определить, какие гены были приобретены вертикально, а какие горизонтально, — это осторожно предположить, что самый большой набор генов, унаследованных вместе, унаследован вертикально; для этого требуется анализ большого количества генов.

Гибриды, видообразование, интрогрессия и неполная сортировка линий.

Основное предположение, лежащее в основе математической модели кладистики, — это ситуация, когда виды аккуратно разделяются, образуя раздвоение. Хотя такое предположение может быть справедливым в более широком масштабе (за исключением горизонтального переноса генов, см. выше), видообразование часто бывает гораздо менее упорядоченным. Исследования, проведенные с момента появления кладистического метода, показали, что гибридное видообразование , которое когда-то считалось редким, на самом деле довольно распространено, особенно у растений. ^[47]^[48] Также распространено парафилетическое видообразование , что делает предположение о раздвоении непригодным, что приводит к филогенетическим сетям, а не к деревьям. ^[49]^[50] Интрогрессия также может перемещать гены между разными видами, а иногда даже между родами, ^[51] усложняя филогенетический анализ, основанный на генах. ^[52] Это явление может способствовать «неполной сортировке родословной» и считается обычным явлением для ряда групп. При анализе на уровне вида эту проблему можно решить путем увеличения выборки или более качественного анализа всего генома. ^[53] Часто этой проблемы можно избежать, ограничивая анализ меньшим количеством неродственных образцов.

Выборка таксонов

Благодаря развитию передовых методов секвенирования в молекулярной биологии стало возможным собирать большие объемы данных (последовательности ДНК или аминокислот) для вывода филогенетических гипотез. Например, нередко можно найти исследования с матрицами признаков, основанными на целых митохондриальных геномах (~ 16 000 нуклеотидов у многих животных). Однако моделирование показало, что более важно увеличить количество таксонов в матрице, чем увеличить количество признаков, поскольку чем больше таксонов, тем точнее и надежнее получаемое филогенетическое дерево. ^[54]^[55] Частично это может быть связано с разрушением длинных ветвей .

Филогенетический сигнал

Еще одним важным фактором, влияющим на точность реконструкции дерева, является то, действительно ли анализируемые данные содержат полезный филогенетический сигнал. Этот термин обычно используется для обозначения того, развивается ли признак достаточно медленно, чтобы иметь одно и то же состояние в близкородственных таксонах, а не изменяться случайным образом. . Существуют тесты на филогенетический сигнал. ^[56]

Непрерывные символы

Морфологические символы, составляющие выборку континуума, могут содержать филогенетический сигнал, но их трудно закодировать как дискретные символы. Было использовано несколько методов, одним из которых является пробельное кодирование, и существуют варианты пробельного кодирования. ^[57] В исходной форме пробельного кодирования: ^[57]

Групповые средства для символа сначала упорядочиваются по размеру. Рассчитывается объединенное внутригрупповое стандартное отклонение... и различия между соседними средними значениями... сравниваются относительно этого стандартного отклонения. Любая пара соседних средних считается разной и получает разные целочисленные оценки... если средние разделены "промежутком", превышающим стандартное отклонение внутри группы... умноженное на некоторую произвольную константу.

Если к анализу добавить больше таксонов, разрывы между таксонами могут стать настолько малыми, что вся информация будет потеряна. Обобщенное кодирование пробелов решает эту проблему, сравнивая отдельные пары таксонов, а не рассматривая один набор, содержащий все таксоны. ^[57]

Недостающие данные

В общем, чем больше данных доступно при построении дерева, тем точнее и надежнее будет полученное дерево. Отсутствие данных не более вредно, чем просто недостаток данных, хотя влияние является наибольшим, когда большая часть недостающих данных приходится на небольшое количество таксонов. Концентрация недостающих данных по небольшому количеству символов позволяет получить более надежное дерево. ^[58]

Роль окаменелостей

Поскольку многие признаки включают эмбриологические, мягкотканные или молекулярные признаки, которые (в лучшем случае) почти никогда не окаменевают, а интерпретация окаменелостей более неоднозначна, чем интерпретация живых таксонов , у вымерших таксонов почти всегда более высокая доля недостающих данных, чем у живых. Однако, несмотря на эти ограничения, включение окаменелостей неоценимо, поскольку они могут предоставить информацию о редких участках деревьев, разбивая длинные ветви и ограничивая промежуточные состояния признаков; таким образом, ископаемые таксоны вносят такой же вклад в разрешение деревьев, как и современные таксоны. ^[59] Окаменелости также могут определить возраст линий и, таким образом, продемонстрировать, насколько дерево соответствует стратиграфическим данным; ^[1] стратокладистика включает информацию о возрасте в матрицы данных для филогенетического анализа.

Смотрите также

Список программного обеспечения для филогенетики

дальнейшее чтение

Сэмпл С, Стил М (2003). Филогенетика. Издательство Оксфордского университета. ISBN 978-0-19-850942-4.
Ципра Б.А. (2007). «Алгебраические геометры видят идеальный подход к биологии» (PDF) . СИАМ Новости . 40 (6). Архивировано из оригинала (PDF) 3 марта 2016 года.
Пресс WH, Теукольский С.А., Феттерлинг В.Т., Фланнери BP (2007). «Раздел 16.4. Иерархическая кластеризация по филогенетическим деревьям». Численные рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8. Архивировано из оригинала 11 августа 2011 года . Проверено 17 августа 2011 г.
Хьюсон Д.Х., Рупп Р., Скорнавакка К. (2010). Филогенетические сети: концепции, алгоритмы и приложения. Издательство Кембриджского университета. ISBN 978-1-139-49287-4.

Внешние ссылки

СМИ, связанные с вычислительной филогенетикой, на Викискладе?