stringtranslate.com

Многовидовой коалесцентный процесс

Процесс коалесценции нескольких видов — это модель стохастического процесса, которая описывает генеалогические связи для выборки последовательностей ДНК, взятых у нескольких видов. [1] [2] Она представляет собой применение теории коалесценции к случаю нескольких видов. Результаты коалесценции нескольких видов в случаях, когда связи между видами для отдельного гена ( генное дерево ) могут отличаться от более широкой истории вида ( дерево вида ). Она имеет важные последствия для теории и практики филогенетики [3] [4] и для понимания эволюции генома.

Генное дерево — это бинарный граф, описывающий эволюционные отношения между выборкой последовательностей для нерекомбинирующего локуса. Видовое дерево описывает эволюционные отношения между набором видов, предполагая древовидную эволюцию. Однако несколько процессов могут привести к несоответствию между генными деревьями и видовыми деревьями . Модель Multispecies Coalescent обеспечивает основу для выведения филогений видов с учетом предкового полиморфизма и конфликта генного дерева и вида . Этот процесс также называется Censored Coalescent . [1]

Помимо оценки дерева видов, модель многовидового объединения также обеспечивает основу для использования геномных данных для решения ряда биологических проблем, таких как оценка времени расхождения видов, размеров популяций предковых видов, разграничение видов и вывод о межвидовом потоке генов. [5] [6]

Соответствие генного дерева и дерева видов

Многовидовое объединение для укорененного трехтаксонного дерева
Иллюстрация многовидового объединения, показывающая связь между деревом видов (черный контур) и деревьями генов (пунктирные красные линии, встроенные в дерево видов). Время между двумя событиями видообразования (T, измеренное в единицах объединения) можно использовать для расчета вероятности четырех возможных деревьев генов (используя показанные уравнения). Обратите внимание, что два из деревьев генов топологически идентичны, но они различаются по времени, в которое происходит объединение линий.

Если мы рассмотрим корневое дерево из трех таксонов, простейшее нетривиальное филогенетическое дерево, то существует три различных топологии деревьев [7], но четыре возможных дерева генов. [8] Существование четырех различных деревьев генов, несмотря на меньшее количество топологий, отражает тот факт, что существуют топологически идентичные деревья генов, которые различаются по времени их слияния. В дереве типа 1 аллели видов A и B объединяются после события видообразования, которое отделило линию AB от линии C. В дереве типа 2 аллели видов A и B объединяются до события видообразования, которое отделило линию AB от линии C (другими словами, дерево типа 2 является деревом глубокого слияния ). Деревья генов типа 1 и типа 2 оба совпадают с деревом вида. Два других дерева генов отличаются от дерева вида; два несогласованных дерева генов также являются деревьями глубокого слияния .

Распределение времени до слияния фактически непрерывно для всех этих деревьев. Другими словами, точное время слияния для любых двух локусов с одним и тем же генным деревом может отличаться. Однако удобно разбить деревья на основе того, произошло ли слияние до или после самого раннего события видообразования.

Учитывая внутреннюю длину ветви в коалесцентных единицах, легко вычислить вероятность каждого генного дерева. [9] Для диплоидных организмов длина ветви в коалесцентных единицах равна числу поколений между событиями видообразования, деленным на удвоенный эффективный размер популяции. Поскольку все три дерева глубокой коалесценции равновероятны, а два из этих деревьев глубокой коалесценции являются несогласованными, легко увидеть, что вероятность того, что укорененное трехтаксонное генное дерево будет совпадать с видовым деревом, равна:

Гемиплазия против истинной гомоплазии
Примеры деревьев видов со встроенным генным деревом, показывающие различия между гемиплазией (которая требует различий между деревом генов и деревом видов) и истинной гомоплазией (которая может возникнуть на генном дереве, которое совпадает с деревом видов, или на генном дереве, которое не совпадает с деревом видов). Мы используем истинную гомоплазию для примера, показывающего гомоплазию, чтобы подчеркнуть, что и гемиплазия, и гомоплазия кажутся гомопластичными, учитывая дерево видов. Этот пример показывает происхождение некоторого признака на генном дереве (синий). Наличие (+) или отсутствие (-) признака у каждого вида указано в верхней части рисунка. Обратите внимание, что гомоплазия может отражать два (или более) независимых приобретения (как показано здесь), а также может отражать одно происхождение, за которым следует потеря (или несколько потерь).

Где длина ветви в единицах слияния ( T ) также записана в альтернативной форме: число поколений ( t ), деленное на удвоенный эффективный размер популяции ( N e ). Памило и Ней [9] также вывели вероятность конгруэнтности для корневых деревьев из четырех и пяти таксонов, а также общую верхнюю границу вероятности конгруэнтности для более крупных деревьев. Розенберг [10] продолжил с уравнениями, используемыми для полного набора топологий (хотя большое количество отдельных филогенетических деревьев, которое становится возможным по мере увеличения числа таксонов [7], делает эти уравнения непрактичными, если только число таксонов не очень ограничено).

Феномен гемиплазии является естественным продолжением базовой идеи, лежащей в основе несоответствия генного дерева и дерева видов. Если мы рассмотрим распределение некоторого признака, которое не согласуется с деревом видов, оно может отражать гомоплазию (множественные независимые происхождения признака или единое происхождение, за которым следуют множественные потери) или оно может отражать гемиплазию (единое происхождение признака, которое связано с генным деревом, которое не согласуется с деревом видов).

С этим явлением связано явление, называемое неполной сортировкой по линиям (часто сокращенно ILS в научной литературе [11] ). Если мы рассмотрим иллюстрацию гемиплазии с использованием корневого четырехтаксонного дерева (см. изображение справа), то линия между общим предком таксонов A, B и C и общим предком таксонов A и B должна быть полиморфной для аллеля с производным признаком (например, вставка транспозируемого элемента [12] ) и аллеля с предковым признаком. Концепция неполной сортировки по линиям в конечном итоге отражает сохранение полиморфизмов в течение одного или нескольких событий видообразования.

Математическое описание многовидового коалесцента

Обсуждается плотность вероятности генных деревьев в рамках модели многовидового слияния, а также ее использование для оценки параметров с использованием данных многолокусных последовательностей.

Предположения

В базовой модели коалесценции нескольких видов предполагается, что филогения видов известна. Также предполагается полная изоляция после расхождения видов, без миграции, гибридизации или интрогрессии. Мы предполагаем отсутствие рекомбинации, так что все сайты в локусе имеют одно и то же генное дерево (топология и время коалесценции). Однако базовую модель можно расширить разными способами, чтобы учесть миграцию или интрогрессию, изменения размера популяции, рекомбинацию. [13] [14]

Данные и параметры модели

Модель и реализация этого метода могут быть применены к любому дереву видов. В качестве примера рассматривается дерево видов человекообразных обезьян : люди (H), шимпанзе (C), гориллы (G) и орангутаны (O). Топология дерева видов, (((HC)G)O)), предполагается известной и фиксированной в анализе (рисунок 1). [1] Пусть будет полным набором данных, где представляет собой выравнивание последовательностей в локусе , с для всего количества локусов.

Численность популяции текущего вида учитывается только в том случае, если в некоторых локусах отобрано более одной особи этого вида.

Параметры в модели для примера на рисунке 1 включают три времени расхождения , и и параметры размера популяции для людей; для шимпанзе; и , и для трех предковых видов.

Время расхождения ( с) измеряется ожидаемым числом мутаций на сайт от предкового узла в видовом дереве до настоящего времени (рисунок 1 Ранналы и Янга, 2003).

Таким образом, параметры следующие .

Распределение генеалогий генов

Совместное распределение выводится непосредственно в этом разделе. [1] Две последовательности из разных видов могут объединяться только в одной популяции, которая является предковой для двух видов. Например, последовательности H и G могут объединяться в популяциях HCG или HCGO, но не в популяциях H или HC. Процессы объединения в разных популяциях различны.

Для каждой популяции генеалогия прослеживается назад во времени до конца популяции в момент времени , и регистрируется количество линий, входящих в популяцию, и количество линий, выходящих из нее . Например, и для популяции H (таблица 1). [1] Этот процесс называется цензурированным процессом слияния , поскольку процесс слияния для одной популяции может быть завершен до того, как все линии, вошедшие в популяцию, слились. Если популяция состоит из разъединенных поддеревьев или линий.

При единице времени, определяемой как время, необходимое для накопления одной мутации на сайте, любые две линии объединяются со скоростью . Время ожидания до следующего события объединения, которое уменьшает количество линий с до имеет экспоненциальную плотность

Если , вероятность того, что между последним событием и концом популяции в момент времени не произойдет никакого слияния событий ; т.е. в течение временного интервала . Эта вероятность равна и равна 1, если .

(Примечание: следует помнить, что вероятность отсутствия событий в течение временного интервала для пуассоновского процесса со скоростью равна . Здесь скорость слияния при наличии родословных равна .)

Кроме того, чтобы вывести вероятность определенной топологии генного дерева в популяции, если в выборке линий происходит событие слияния, вероятность того, что конкретная пара линий сольется, составляет .

Перемножая эти вероятности, получаем совместное распределение вероятностей топологии генного дерева в популяции и времени его слияния как

.

Вероятность генного дерева и времени слияния для локуса является произведением таких вероятностей по всем популяциям. Таким образом, генеалогия рисунка 1, [1] [15] у нас есть

Вывод, основанный на вероятности

Генеалогия генов в каждом локусе представлена ​​топологией дерева и временем слияния . При наличии дерева видов и его параметров распределение вероятностей определяется процессом слияния как

,

где — плотность вероятности для генного дерева в локусе locus , [1] а произведение равно , поскольку мы предполагаем, что генные деревья независимы при заданных параметрах.

Вероятность данных, заданных генным деревом и временем слияния (и, следовательно, длиной ветвей) в локусе, является филогенетической вероятностью Фельзенштейна. [16] В связи с предположением о независимой эволюции по локусам,

Функция правдоподобия или вероятность данных последовательности с учетом параметров затем является средним значением по ненаблюдаемым генным деревьям.

где интеграция представляет собой суммирование по всем возможным топологиям генного дерева ( ) и, для каждой возможной топологии в каждом локусе, интеграцию по временам слияния . [17] Это, как правило, неразрешимо, за исключением очень маленьких видовых деревьев.

В байесовском выводе мы назначаем априорную вероятность параметрам, а затем апостериорную вероятность задаем как

где снова интеграция представляет собой суммирование по всем возможным топологиям генного дерева ( ) и интеграцию по временам слияния . На практике эта интеграция по генным деревьям достигается с помощью алгоритма Монте-Карло цепи Маркова , который делает выборки из совместного условного распределения параметров и генных деревьев

Вышеизложенное предполагает, что дерево видов фиксировано. При оценке дерева видов дерево видов ( ) также изменяется, так что совместное условное распределение (из которого берутся образцы MCMC) равно

где находится априорная вероятность на деревьях видов.

В качестве основного отхода от двухшаговых методов суммирования, методы полного правдоподобия усредняют по генным деревьям. Это означает, что они используют информацию о длинах ветвей (времена слияния) на генных деревьях и в то же время учитывают их неопределенности (из-за ограниченной длины последовательности в выравниваниях). Это также объясняет, почему методы полного правдоподобия являются гораздо более требовательными в вычислительном отношении, чем двухшаговые методы суммирования.

Марковская цепь Монте-Карло под многовидовым коалесцентным

Интеграция или суммирование по генным деревьям в определении функции правдоподобия выше практически невозможны для вычисления, за исключением очень маленьких видовых деревьев с двумя или тремя видами. [18] Методы полного правдоподобия или полных данных, основанные на вычислении функции правдоподобия на выравниваниях последовательностей, таким образом, в основном полагались на алгоритмы Монте-Карло с цепями Маркова. Алгоритмы MCMC в рамках модели многовидового объединения похожи на те, которые используются в байесовской филогенетике, но они заметно сложнее, в основном из-за того, что генные деревья в нескольких локусах и видовое дерево должны быть совместимы: расхождение последовательностей должно быть старше, чем расхождение видов. В результате изменение видового дерева, в то время как генные деревья фиксированы (или изменение генного дерева, в то время как видовое дерево фиксировано), приводит к неэффективным алгоритмам с плохими свойствами смешивания. Значительные усилия были предприняты для разработки интеллектуальных алгоритмов, которые изменяют древовидную структуру и генные деревья скоординированным образом, как в алгоритме «резиновой ленты» для изменения времени расхождения видов [1] , скоординированных движениях NNI, SPR и NodeSlider. [19] [20]

Рассмотрим, например, случай двух видов ( A и B ) и двух последовательностей в каждом локусе с временем расхождения последовательностей в локусе . У нас есть для всех . Когда мы хотим изменить время расхождения видов в рамках ограничения текущего , у нас может быть очень мало места для изменения, так как может быть практически идентичным наименьшему из . Алгоритм резиновой ленты [1] изменяется без учета , а затем изменяет детерминированно таким же образом, как метки на движении резиновой ленты, когда резиновая лента удерживается из фиксированной точки и тянется к одному концу. В общем, движение резиновой ленты гарантирует, что возрасты узлов в генных деревьях изменяются таким образом, чтобы они оставались совместимыми с измененным временем расхождения видов.

Методы полного правдоподобия, как правило, достигают своего предела, когда данные состоят из нескольких сотен локусов, даже несмотря на то, что в нескольких опубликованных исследованиях было проанализировано более 10 000 локусов. [21] [22]

Расширения

Базовая модель многовидового слияния может быть расширена несколькими способами, чтобы учесть основные факторы биологического процесса воспроизводства и дрейфа. [13] [14] Например, включение непрерывной миграции во времени приводит к модели MSC+M (для MSC с миграцией), также известной как модели изоляции с миграцией или IM. [23] [24] Включение эпизодической гибридизации/интрогрессии приводит к модели MSC с интрогрессией (MSci) [25] или многовидовой сетевой коалесцентной модели (MSNC). [26] [27]

Влияние на филогенетическую оценку

Многовидовое слияние имеет глубокие последствия для теории и практики молекулярной филогенетики. [3] [4] Поскольку отдельные генные деревья могут отличаться от видового дерева, нельзя оценить дерево для одного локуса и предположить, что генное дерево соответствует видовому дереву. Фактически, можно быть практически уверенным, что любое отдельное генное дерево будет отличаться от видового дерева по крайней мере для некоторых отношений, когда рассматривается любое разумное количество таксонов. Однако несоответствие генного дерева и видового дерева оказывает влияние на теорию и практику оценки видового дерева, которое выходит за рамки простого наблюдения, что нельзя использовать одно генное дерево для оценки видового дерева, потому что есть часть пространства параметров, где наиболее частое генное дерево не соответствует видовому дереву. Эта часть пространства параметров называется зоной аномалии [28], и любые несоответствующие генные деревья, которые, как ожидается, будут возникать чаще, чем генное дерево, которое соответствует видовому дереву, называются аномальными генными деревьями .

Существование зоны аномалии подразумевает, что нельзя просто оценить большое количество генных деревьев и предположить, что генное дерево, восстановленное наибольшее количество раз, является деревом вида. Конечно, оценка дерева вида с помощью «демократического голосования» генных деревьев будет работать только для ограниченного числа таксонов за пределами зоны аномалии, учитывая чрезвычайно большое число возможных филогенетических деревьев. [7] Однако существование аномальных генных деревьев также означает, что простые методы объединения генных деревьев, такие как метод расширенного («жадного») консенсуса большинства или подход супердерева матричного представления с экономией (MRP) [29] [30] , не будут последовательными оценщиками дерева вида [31] [32] (т. е. они будут вводить в заблуждение). Простое создание дерева консенсуса большинства для генных деревьев, где сохраняются группы, которые присутствуют по крайней мере в 50% генных деревьев, не будет вводить в заблуждение, если используется достаточное количество генных деревьев. [31] Однако эта способность консенсусного дерева большинства для набора генных деревьев избегать неправильных клад достигается за счет наличия неразрешенных групп.

Моделирование показало, что существуют части пространства параметров дерева видов, где оценки максимального правдоподобия филогении являются неверными деревьями с возрастающей вероятностью по мере увеличения количества анализируемых данных. [33] Это важно, потому что «подход конкатенации», когда множественные выравнивания последовательностей из разных локусов объединяются для формирования одного большого суперматричного выравнивания, которое затем используется для анализа максимального правдоподобия (или байесовского MCMC ), прост в реализации и широко используется в эмпирических исследованиях. Это представляет собой случай неправильной спецификации модели, потому что подход конкатенации неявно предполагает, что все деревья генов имеют одинаковую топологию. [34] Действительно, в настоящее время доказано, что анализы данных, полученных в рамках многовидового объединения с использованием анализа максимального правдоподобия объединенных данных, не гарантируют сходимости на истинном дереве видов по мере увеличения количества локусов, используемых для анализа [35] [36] [37] (т. е. конкатенация максимального правдоподобия статистически непоследовательна).

Программное обеспечение для вывода в рамках многовидового коалесцентного анализа

Существует два основных подхода к филогенетической оценке в рамках многовидового объединения: 1) методы полного правдоподобия или полных данных, которые работают непосредственно с выравниваниями последовательностей нескольких локусов, включая как методы максимального правдоподобия, так и байесовские методы, и 2) методы обобщения, которые используют обобщение исходных данных последовательностей, включая двухэтапные методы, которые используют оцененные деревья генов в качестве обобщенных входных данных, и SVDQuartets, которые используют подсчеты шаблонов сайтов, объединенные по локусам, в качестве обобщенных входных данных.

Ссылки

  1. ^ abcdefghi Rannala B, Yang Z (август 2003 г.). «Байесовская оценка времени расхождения видов и размеров предковых популяций с использованием последовательностей ДНК из нескольких локусов». Генетика . 164 (4): 1645–56. doi :10.1093/genetics/164.4.1645. PMC  1462670 . PMID  12930768.
  2. ^ Degnan JH, Rosenberg NA (июнь 2009). «Несогласованность генного дерева, филогенетический вывод и многовидовое слияние». Trends in Ecology & Evolution . 24 (6): 332–40. doi :10.1016/j.tree.2009.01.009. PMID  19307040.
  3. ^ ab Maddison WP (1997-09-01). «Деревья генов в деревьях видов». Systematic Biology . 46 (3): 523–536. doi : 10.1093/sysbio/46.3.523 . ISSN  1063-5157.
  4. ^ ab Edwards SV (январь 2009). «Появляется ли новая и общая теория молекулярной систематики?». Эволюция; Международный журнал органической эволюции . 63 (1): 1–19. doi : 10.1111/j.1558-5646.2008.00549.x . PMID  19146594.
  5. ^ Ян, Цзыхэн (15 мая 2014 г.), «Моделирование молекулярной эволюции», Molecular Evolution , Oxford University Press, стр. 418–441, doi : 10.1093/acprof:oso/9780199602605.003.0012, ISBN 978-0-19-960260-5
  6. ^ Брюс Раннала, Скотт В. Эдвардс, Адам Личе и Цзихэн Ян (2020). Модель многовидового слияния и вывод дерева видов. В Scornavacca, C., Delsuc, F., и Galtier, N., редакторы, Филогенетика в геномную эру, глава № 3.3, стр. 3.3:1–3.3:21. Нет коммерческого издателя | Авторы книги в открытом доступе.
  7. ^ abc Felsenstein J (март 1978). «Число эволюционных деревьев». Систематическая зоология . 27 (1): 27–33. doi :10.2307/2412810. JSTOR  2412810.
  8. ^ Hobolth A, Christensen OF, Mailund T, Schierup MH (февраль 2007 г.). «Геномные связи и время видообразования человека, шимпанзе и гориллы, выведенные из коалесцентной скрытой марковской модели». PLOS Genetics . 3 (2): e7. doi : 10.1371/journal.pgen.0030007 . PMC 1802818 . PMID  17319744. 
  9. ^ ab Pamilo P, Nei M (сентябрь 1988 г.). «Связи между генными деревьями и деревьями видов». Молекулярная биология и эволюция . 5 (5): 568–83. doi : 10.1093/oxfordjournals.molbev.a040517 . PMID  3193878.
  10. ^ Розенберг NA (март 2002 г.). «Вероятность топологического соответствия генных деревьев и деревьев видов». Теоретическая популяционная биология . 61 (2): 225–47. doi :10.1006/tpbi.2001.1568. PMID  11969392.
  11. ^ Джарвис Э.Д., Мирараб С., Аберер А.Дж., Ли Б., Хоуд П., Ли К. и др. (декабрь 2014 г.). «Анализ всего генома выявляет ранние ветви в древе жизни современных птиц». Science . 346 (6215): 1320–31. Bibcode :2014Sci...346.1320J. doi :10.1126/science.1253451. PMC 4405904 . PMID  25504713. 
  12. ^ Suh A, Smeds L, Ellegren H (август 2015 г.). Penny D (ред.). «Динамика неполной сортировки линий в древней адаптивной радиации неопатриархальных птиц». PLOS Biology . 13 (8): e1002224. doi : 10.1371/journal.pbio.1002224 . PMC 4540587. PMID 26284513  . 
  13. ^ ab «Моделирование гибридизации в условиях сетевого многовидового коалесцентного слияния».
  14. ^ ab "Мультивидовая коалесцентная модель и вывод дерева видов". Филогенетика в геномную эру . Нет коммерческого издателя | Авторы книги в открытом доступе. 2020.Авторская книга открытого доступа.
  15. ^ Yang Z (2014). Молекулярная эволюция: статистический подход (Первое издание). Оксфорд: Oxford University Press. стр. Глава 9. ISBN 9780199602605. OCLC  869346345.
  16. ^ Felsenstein J (1981). «Эволюционные деревья из последовательностей ДНК: подход максимального правдоподобия». Журнал молекулярной эволюции . 17 (6): 368–76. Bibcode : 1981JMolE..17..368F. doi : 10.1007/BF01734359. PMID  7288891. S2CID  8024924.
  17. ^ Xu B, Yang Z (декабрь 2016 г.). «Проблемы оценки дерева видов в рамках модели многовидового слияния». Genetics . 204 (4): 1353–1368. doi :10.1534/genetics.116.190173. PMC 5161269 . PMID  27927902. 
  18. ^ Ян, Цзихэн (2002-12-01). «Оценка правдоподобия и байесовская оценка размеров предковой популяции гоминоидов с использованием данных из нескольких локусов». Генетика . 162 (4): 1811–1823. doi :10.1093/genetics/162.4.1811. ISSN  0016-6731. PMC 1462394 . PMID  12524351. 
  19. ^ Yang, Z.; Rannala, B. (2014-12-01). «Неуправляемое разграничение видов с использованием данных о последовательностях ДНК из нескольких локусов». Молекулярная биология и эволюция . 31 (12): 3125–3135. doi :10.1093/molbev/msu279. ISSN  0737-4038. PMC 4245825. PMID 25274273  . 
  20. ^ Раннала, Брюс; Ян, Цзихэн (2017-01-04). «Эффективный байесовский вывод дерева видов при многовидовом объединении». Systematic Biology . 66 (5): 823–842. doi : 10.1093/sysbio/syw119 . ISSN  1063-5157. PMC 8562347. PMID 28053140  . 
  21. ^ Ши, Ченг-Мин; Ян, Цзихэн (2018-01-01). «Анализ данных геномной последовательности на основе коалесценции обеспечивает надежное разрешение филогенетических отношений среди основных групп гиббонов». Молекулярная биология и эволюция . 35 (1): 159–179. doi :10.1093/molbev/msx277. ISSN  0737-4038. PMC 5850733. PMID 29087487  . 
  22. ^ Thawornwattana, Yuttapong; Dalquen, Daniel; Yang, Ziheng (2018-10-01). Tamura, Koichiro (ред.). «Coalescent Analysis of Phylogenomic Data Confidently Resolves the Species Relationships in the Anopheles gambiae Species Complex». Молекулярная биология и эволюция . 35 (10): 2512–2527. doi :10.1093/molbev/msy158. ISSN  0737-4038. PMC 6188554. PMID 30102363  . 
  23. ^ Эй, Джоди (апрель 2010 г.). «Изоляция с моделями миграции для более чем двух популяций». Молекулярная биология и эволюция . 27 (4): 905–920. doi :10.1093/molbev/msp296. ISSN  1537-1719. PMC 2877539. PMID 19955477  . 
  24. ^ Чжу, Т.; Ян, З. (2012-10-01). «Максимальная правдоподобная реализация модели изоляции с миграцией с тремя видами для проверки видообразования с потоком генов». Молекулярная биология и эволюция . 29 (10): 3131–3142. doi : 10.1093/molbev/mss118 . ISSN  0737-4038. PMID  22504520.
  25. ^ Flouri, Tomáš; Jiao, Xiyun; Rannala, Bruce; Yang, Ziheng (2020-04-01). Rosenberg, Michael (ред.). «Байесовская реализация многовидовой коалесцентной модели с интрогрессией для филогеномного анализа». Молекулярная биология и эволюция . 37 (4): 1211–1223. doi :10.1093/molbev/msz296. ISSN  0737-4038. PMC 7086182. PMID 31825513  . 
  26. ^ Вэнь, Динцяо; Нахлех, Луай (2018-05-01). Кубатко, Лора (ред.). «Коэстимация ретикулярных филогений и деревьев генов на основе данных о многолокусных последовательностях». Систематическая биология . 67 (3): 439–457. doi : 10.1093/sysbio/syx085 . ISSN  1063-5157. PMID  29088409.
  27. ^ Чжан, Чи; Огилви, Хув А.; Драммонд, Алексей Дж.; Штадлер, Таня (2018-02-01). «Байесовский вывод сетей видов из данных о многолокусных последовательностях». Молекулярная биология и эволюция . 35 (2): 504–517. doi :10.1093/molbev/msx307. ISSN  0737-4038. PMC 5850812. PMID 29220490  . 
  28. ^ Degnan JH, Rosenberg NA (май 2006 г.). Wakeley J (ред.). «Несоответствие деревьев видов их наиболее вероятным деревьям генов». PLOS Genetics . 2 (5): e68. doi : 10.1371/journal.pgen.0020068 . PMC 1464820. PMID  16733550 . 
  29. ^ Baum BR (февраль 1992 г.). «Объединение деревьев как способ объединения наборов данных для филогенетического вывода и желательность объединения деревьев генов». Taxon . 41 (1): 3–10. doi :10.2307/1222480. ISSN  0040-0262. JSTOR  1222480.
  30. ^ Раган МА (март 1992). «Филогенетический вывод на основе матричного представления деревьев». Молекулярная филогенетика и эволюция . 1 (1): 53–58. doi :10.1016/1055-7903(92)90035-F. PMID  1342924.
  31. ^ ab Degnan JH, DeGiorgio M, Bryant D, Rosenberg NA (февраль 2009 г.). «Свойства методов консенсуса для вывода деревьев видов из деревьев генов». Systematic Biology . 58 (1): 35–54. doi :10.1093/sysbio/syp008. PMC 2909780 . PMID  20525567. 
  32. ^ Ван И, Дегнан Дж. Х. (2011-05-02). "Производительность матричного представления с экономичностью для вывода видов из генных деревьев". Статистические приложения в генетике и молекулярной биологии . 10 (1). doi :10.2202/1544-6115.1611. S2CID  199663909.
  33. ^ Кубатко Л.С., Дегнан Дж.Х. (февраль 2007 г.). Коллинз Т. (ред.). «Несогласованность филогенетических оценок из конкатенированных данных при объединении». Систематическая биология . 56 (1): 17–24. doi : 10.1080/10635150601146041 . PMID  17366134.
  34. ^ Warnow T (май 2015 г.). «Анализ конкатенации при неполной сортировке родословной». PLOS Currents . 7. doi : 10.1371/currents.tol.8d41ac0f13d1abedf4c4a59f5d17b1f7 . PMC 4450984. PMID 26064786  . 
  35. ^ Roch S, Steel M (март 2015 г.). «Реконструкция дерева на основе правдоподобия на основе конкатенации выровненных наборов данных последовательностей может быть статистически несовместимой». Теоретическая популяционная биология . 100C : 56–62. arXiv : 1409.2051 . doi : 10.1016/j.tpb.2014.12.005. PMID  25545843.
  36. ^ Мендес Ф. К., Хан М. В. (январь 2018 г.). «Почему конкатенация не работает вблизи зоны аномалии». Systematic Biology . 67 (1): 158–169. doi : 10.1093/sysbio/syx063 . PMID  28973673.
  37. ^ Roch S, Nute M, Warnow T (март 2019 г.). Kubatko L (ред.). «Притяжение длинных ветвей в оценке дерева видов: несоответствие методов разделения правдоподобия и топологии». Systematic Biology . 68 (2): 281–297. arXiv : 1803.02800 . doi :10.1093/sysbio/syy061. PMID  30247732.
  38. ^ Sayyari E, Mirarab S (июль 2016 г.). «Быстрое вычисление поддержки локальных ветвей на основе коалесценции из частот квартета». Молекулярная биология и эволюция . 33 (7): 1654–68. doi :10.1093/molbev/msw079. PMC 4915361. PMID  27189547 . 
  39. ^ Mirarab S, Reaz R, Bayzid MS, Zimmermann T, Swenson MS, Warnow T (сентябрь 2014 г.). "ASTRAL: оценка дерева видов на основе объединения геномов". Биоинформатика . 30 (17): i541-8. doi :10.1093/bioinformatics/btu462. PMC 4147915. PMID  25161245 . 
  40. ^ Чжан С, Раби М, Сайяри Э, Мирараб С (май 2018 г.). "ASTRAL-III: реконструкция дерева видов за полиномиальное время из частично разрешенных деревьев генов". BMC Bioinformatics . 19 (Suppl 6): 153. doi : 10.1186/s12859-018-2129-y . PMC 5998893 . PMID  29745866. 
  41. ^ Лю, Лян; Ю, Лили (2011-10-01). «Оценка деревьев видов по некорневым деревьям генов». Systematic Biology . 60 (5): 661–667. doi : 10.1093/sysbio/syr027 . ISSN  1076-836X. PMID  21447481.
  42. ^ Rhodes JA, Nute MG, Warnow T. (январь 2020 г.). «NJst и ASTRID статистически не согласованы при случайной модели пропущенных данных». arXiv:2001.07844 https://arxiv.org/abs/2001.07844
  43. ^ Вачаспати, Пранджал; Уорнов, Тэнди (декабрь 2015 г.). «ASTRID: Точные деревья видов по междоузлиям». BMC Genomics . 16 (S10): S3. doi : 10.1186/1471-2164-16-S10-S3 . ISSN  1471-2164. PMC 4602181 . PMID  26449326. 
  44. ^ Yang Z (2015-10-01). «Программа BPP для оценки видового дерева и разграничения видов». Current Zoology . 61 (5): 854–865. doi : 10.1093/czoolo/61.5.854 . ISSN  2396-9814.
  45. ^ Flouri T, Jiao X, Rannala B, Yang Z (октябрь 2018 г.). Yoder AD (ред.). «Вывод дерева видов с помощью BPP с использованием геномных последовательностей и многовидового объединения». Молекулярная биология и эволюция . 35 (10): 2585–2593. doi :10.1093/molbev/msy147. PMC 6188564. PMID  30053098 . 
  46. ^ Jones GR, Aydin Z, Oxelman B (2015-10-01). "TDISSECT: байесовский метод обнаружения без присвоения для разграничения видов в условиях многовидового объединения". Биоинформатика . 31 (7): 991–998. doi : 10.1093/bioinformatics/btu770 . PMID  25422051.
  47. ^ Джонс Г (10 июня 2016 г.). Оксельман Б (ред.). «Алгоритмические улучшения в определении границ видов и оценке филогении в условиях многовидового объединения». Журнал математической биологии . 74 (1–2): 447–467. doi :10.1007/s00285-016-1034-0. PMID  27287395. S2CID  13308130.
  48. ^ Хелед, Дж.; Драммонд, А.Дж. (2010-03-01). «Байесовский вывод деревьев видов из многолокусных данных». Молекулярная биология и эволюция . 27 (3): 570–580. doi :10.1093/molbev/msp274. ISSN  0737-4038. PMC 2822290. PMID  19906793 . 
  49. ^ Лю Л., Ю Л., Эдвардс С. В. (октябрь 2010 г.). «Подход максимального псевдоправдоподобия для оценки деревьев видов в рамках модели объединения». BMC Evolutionary Biology . 10 (1): 302. Bibcode : 2010BMCEE..10..302L. doi : 10.1186/1471-2148-10-302 . PMC 2976751. PMID  20937096 . 
  50. ^ Чифман Дж., Кубатко Л. (декабрь 2014 г.). «Вывод квартета из данных SNP в рамках модели объединения». Биоинформатика . 30 (23): 3317–24. doi :10.1093/bioinformatics/btu530. PMC 4296144. PMID  25104814 .