Минимальная эволюция — это метод расстояния, используемый в моделировании филогенетики . Он разделяет с максимальной экономией аспект поиска филогении, которая имеет наименьшую общую сумму длин ветвей. [1] [2]
Теоретические основы критерия минимальной эволюции (МЭ) заложены в основополагающих работах Кидда и Сгарамелла-Зонта (1971) [3] и Ржецкого и Нея (1993). [4] В этих рамках молекулярные последовательности таксонов заменяются набором мер их различия (т. е. так называемыми «эволюционными расстояниями»), и фундаментальный результат гласит, что если бы такие расстояния были несмещенными оценками истинных эволюционных расстояний от таксонов (т. е. расстояний, которые можно было бы получить, если бы были доступны все молекулярные данные по таксонам), то истинная филогения таксонов имела бы ожидаемую длину короче, чем любая другая возможная филогения T, совместимая с этими расстояниями.
Здесь стоит отметить тонкое различие между критерием максимальной экономии и критерием ME: в то время как критерий максимальной экономии основан на абдуктивной эвристике, т. е. на правдоподобии простейшей эволюционной гипотезы таксонов по отношению к более сложным, критерий ME основан на гипотезах Кидда и Сгарамелла-Зонта, истинность которых была доказана 22 года спустя Ржецки и Неем. [4] Эти математические результаты освобождают критерий ME от принципа бритвы Оккама и дают ему прочную теоретическую и количественную основу.
В 1978 году было показано, что критерий максимальной экономии, использующий расстояние Хэмминга для определения длины ветвей, является статистически несостоятельным. Это привело к интересу к статистически состоятельным альтернативам, таким как МЭ. [5]
Neighbor joining можно рассматривать как жадную эвристику для критерия сбалансированной минимальной эволюции (BME). Алгоритм NJ Сайто и Нея 1987 года намного предшествует критерию BME 2000 года. В течение двух десятилетий исследователи использовали NJ без прочной теоретической основы того, почему он работает. [6]
Известно, что критерий ME статистически последователен, когда длины ветвей оцениваются с помощью метода наименьших квадратов (OLS) или линейного программирования . [4] [7] [8] Однако, как отмечено в статье Ржецкого и Нея, филогения, имеющая минимальную длину в модели оценки длины ветвей OLS, может быть охарактеризована, в некоторых обстоятельствах, отрицательными длинами ветвей, которые, к сожалению, лишены биологического смысла. [4]
Чтобы устранить этот недостаток, Поплин [9] предложил заменить МНК новой конкретной моделью оценки длины ветвей, известной как сбалансированная базовая эволюция (BME). Ричард Деспер и Оливье Гаскюэль [10] показали, что модель оценки длины ветвей BME обеспечивает общую статистическую согласованность минимальной длины филогении, а также неотрицательность ее длин ветвей, когда оцененные эволюционные расстояния от таксонов удовлетворяют неравенству треугольника.
Le Sy Vinh и Arndt von Haeseler [11] показали с помощью масштабных и систематических экспериментов по моделированию, что точность критерия ME в модели оценки длины ветвей BME является самой высокой среди методов расстояния и не уступает таковым альтернативных критериев, основанных, например, на максимальном правдоподобии или байесовском выводе. Более того, как показали Daniele Catanzaro, Martin Frohn и Raffaele Pesenti [12] , минимальная длина филогении в модели оценки длины ветвей BME может быть интерпретирована как (оптимальное по Парето) консенсусное дерево между параллельными процессами с минимальной энтропией, закодированными лесом из n филогений, укорененных в n анализируемых таксонах. Предполагается, что эта конкретная интерпретация, основанная на теории информации, является общей для всех методов расстояния в филогенетике.
«Проблема минимальной эволюции» (MEP), в которой филогения минимальной суммарной длины выводится из набора последовательностей в соответствии с критерием ME, называется NP-трудной . [13] [14] «Проблема сбалансированной минимальной эволюции» (BMEP), которая использует более новый критерий BME, является APX-трудной . [5]
Было описано несколько точных алгоритмов решения BMEP. [15] [16] [17] [18] Самый известный точный алгоритм [19] остается непрактичным для более чем дюжины таксонов, даже с многопроцессорной обработкой. [5] Существует только один приближенный алгоритм с доказанными границами ошибок, опубликованный в 2012 году. [5]
На практике BMEP в подавляющем большинстве случаев реализуется эвристическим поиском . Базовый, вышеупомянутый алгоритм объединения соседей реализует жадную версию BMEP. [6] FastME, «современный», [5] начинает с грубого дерева, а затем улучшает его, используя набор топологических ходов, таких как обмены ближайшими соседями (NNI). По сравнению с NJ, он примерно такой же быстрый и более точный. [20] Также использовались метаэвристики . [21]