stringtranslate.com

УПГМА

UPGMA ( метод невзвешенных парных групп со средним арифметическим ) — это простой агломеративный (восходящий) метод иерархической кластеризации . У него также есть взвешенный вариант, WPGMA , и их обычно приписывают Сокалю и Миченеру . [1]

Обратите внимание, что невзвешенный термин указывает, что все расстояния в равной степени вносят вклад в каждое вычисляемое среднее значение, и не относится к математическим расчетам, с помощью которых оно достигается. Таким образом, простое усреднение в WPGMA дает взвешенный результат, а пропорциональное усреднение в UPGMA дает невзвешенный результат ( см. рабочий пример ). [2]

Алгоритм

Алгоритм UPGMA строит корневое дерево ( дендрограмму ), которое отражает структуру, присутствующую в матрице попарного сходства (или матрице несходства ). На каждом шаге два ближайших кластера объединяются в кластер более высокого уровня. Расстояние между любыми двумя кластерами и , каждый из которых имеет размер ( т.е. мощность ) и , принимается как среднее всех расстояний между парами объектов в и в , то есть среднее расстояние между элементами каждого кластера:

Другими словами, на каждом этапе кластеризации обновленное расстояние между объединенными кластерами и новым кластером определяется пропорциональным усреднением расстояний и :

Алгоритм UPGMA создает корневые дендрограммы и требует допущения о постоянной скорости, то есть предполагает ультраметрическое дерево, в котором расстояния от корня до каждой вершины ветвей равны. Когда кончики представляют собой молекулярные данные ( т.е. ДНК , РНК и белок ) , отобранные одновременно, предположение об ультраметричности становится эквивалентным предположению о молекулярных часах .

Рабочий пример

Этот рабочий пример основан на матрице генетических расстояний JC69 , рассчитанной на основе выравнивания последовательностей 5S рибосомальной РНК пяти бактерий: Bacillus subtilis ( ), Bacillus stearothermophilus ( ), Lactobacillus viridescens ( ), Acholeplasma modicum ( ) и Micrococcus luteus ( ). [3] [4]

Первый шаг

Предположим, что у нас есть пять элементов и следующая матрица попарных расстояний между ними:

В этом примере это наименьшее значение , поэтому мы соединяем элементы и .

Пусть обозначает узел, к которому и сейчас подключены. Установка гарантирует, что элементы и будут равноудалены от . Это соответствует ожиданию гипотезы ультраметричности . Ветви соединяются и имеют длину ( см. окончательную дендрограмму )

Затем мы приступаем к обновлению исходной матрицы расстояний в новую матрицу расстояний (см. ниже), размер которой уменьшен на одну строку и один столбец из-за кластеризации с . Жирные значения соответствуют новым расстояниям, рассчитанным путем усреднения расстояний между каждым элементом первого кластера и каждым из остальных элементов:

На значения, выделенные курсивом, обновление матрицы не влияет, поскольку они соответствуют расстояниям между элементами, не участвующими в первом кластере.

Второй шаг

Теперь мы повторяем три предыдущих шага, начиная с новой матрицы расстояний.

Здесь — наименьшее значение , поэтому мы соединяем кластер и элемент .

Пусть обозначает узел, к которому и сейчас подключены. Из-за ограничения ультраметричности ветви, соединяющие или to и to , равны и имеют следующую длину:

Выводим недостающую длину ветки: ( см. окончательную дендрограмму )

Затем мы приступаем к обновлению в новую матрицу расстояний (см. ниже), размер которой уменьшен на одну строку и один столбец из-за кластеризации с . Значения, выделенные жирным шрифтом, соответствуют новым расстояниям, рассчитанным путем пропорционального усреднения :

Благодаря этому пропорциональному среднему вычисление этого нового расстояния учитывает больший размер кластера (два элемента) по сравнению с (одним элементом). Сходным образом:

Таким образом, пропорциональное усреднение придает равный вес начальным расстояниям матрицы . По этой причине метод является невзвешенным не по отношению к математической процедуре, а по отношению к начальным расстояниям.

Третий шаг

Мы снова повторяем три предыдущих шага, начиная с обновленной матрицы расстояний .

Здесь — наименьшее значение , поэтому мы соединяем элементы и .

Пусть обозначает узел, к которому и сейчас подключены. Ветви соединяются и затем имеют длину ( см. окончательную дендрограмму )

Существует одна запись для обновления, учитывая, что вклад каждого из двух элементов в среднее вычисление составляет :

Заключительный этап

Итоговая матрица:

Итак, мы объединяем кластеры и .

Пусть обозначает (корневой) узел, к которому сейчас подключены и . Ветви соединяются и затем имеют длину:

Выводим две оставшиеся длины ветвей:

Дендрограмма UPGMA

Дендрограмма готова. [5] Он является ультраметрическим, поскольку все кончики ( до ) равноудалены от  :

Таким образом, корень дендрограммы лежит в ее самом глубоком узле.

Сравнение с другими связями

Альтернативные схемы связи включают кластеризацию с одной связью , полную кластеризацию связи и кластеризацию средней связи WPGMA . Реализация другой связи — это просто вопрос использования другой формулы для расчета расстояний между кластерами на этапах обновления матрицы расстояний вышеуказанного алгоритма. Полная кластеризация позволяет избежать недостатка альтернативного метода кластеризации с одной связью — так называемого явления цепочки , при котором кластеры, сформированные с помощью кластеризации с одной связью, могут быть объединены вместе из-за того, что отдельные элементы находятся близко друг к другу, даже если многие элементы в каждом из них кластеры могут находиться очень далеко друг от друга. Полная связь имеет тенденцию находить компактные кластеры примерно одинакового диаметра. [6]

Использование

Временная сложность

Тривиальная реализация алгоритма построения дерева UPGMA имеет временную сложность, а использование кучи для каждого кластера для сохранения его расстояний от другого кластера сокращает время до . Фионн Мурта представил алгоритм времени и пространства. [10]

Смотрите также

Рекомендации

  1. ^ Сокаль , Миченер (1958). «Статистический метод оценки систематических связей». Научный бюллетень Канзасского университета . 38 : 1409–1438.
  2. ^ Гарсия С., Пуигбо П. «DendroUPGMA: утилита для построения дендрограмм» (PDF) . п. 4.
  3. ^ Эрдманн В.А., Уолтерс Дж (1986). «Коллекция опубликованных последовательностей рибосомальных РНК 5S, 5,8S и 4,5S». Исследования нуклеиновых кислот . 14 Дополнение (Suppl): r1–59. дои : 10.1093/nar/14.suppl.r1. ПМК 341310 . ПМИД  2422630. 
  4. ^ Олсен Г.Дж. (1988). «Филогенетический анализ с использованием рибосомальной РНК». Рибосомы . Методы энзимологии. Том. 164. стр. 793–812. дои : 10.1016/s0076-6879(88)64084-5. ISBN 978-0-12-182065-7. ПМИД  3241556.
  5. ^ Суоффорд Д.Л., Олсен Г.Дж., Уодделл П.Дж., Хиллис Д.М. (1996). «Филогенетический вывод». В Hillis DM, Moritz C, Mable BK (ред.). Молекулярная систематика, 2-е издание . Сандерленд, Массачусетс: Синауэр. стр. 407–514. ISBN 9780878932825.
  6. ^ Эверитт, Б.С.; Ландау, С.; Лиз, М. (2001). Кластерный анализ. 4-е издание . Лондон: Арнольд. стр. 62–64.
  7. ^ Лежандр П., Лежандр Л. (1998). Численная экология . Развитие экологического моделирования. Том. 20 (Второе английское изд.). Амстердам: Эльзевир.
  8. ^ Васкес-Домингес Э., Касамайор Э.О., Катала П., Лебарон П. (апрель 2005 г.). «Различные морские гетеротрофные нанофлагелляты по-разному влияют на состав обогащенных бактериальных сообществ». Микробная экология . 49 (3): 474–85. Бибкод : 2005MicEc..49..474V. дои : 10.1007/s00248-004-0035-5. JSTOR  25153200. PMID  16003474. S2CID  22300174.
  9. ^ Уиллер Т.Дж., Кечечиоглу Дж.Д. (июль 2007 г.). «Множественное выравнивание путем выравнивания выравниваний». Биоинформатика . 23 (13): i559–68. doi : 10.1093/биоинформатика/btm226 . ПМИД  17646343.
  10. ^ Мурта Ф (1984). «Сложности алгоритмов иерархической кластеризации: современное состояние». Вычислительная статистика Ежеквартальный . 1 : 101–113.

Внешние ссылки