UPGMA ( метод невзвешенных парных групп со средним арифметическим ) — это простой агломеративный (восходящий) метод иерархической кластеризации . У него также есть взвешенный вариант, WPGMA , и их обычно приписывают Сокалю и Миченеру . [1]
Обратите внимание, что невзвешенный термин указывает, что все расстояния в равной степени вносят вклад в каждое вычисляемое среднее значение, и не относится к математическим расчетам, с помощью которых оно достигается. Таким образом, простое усреднение в WPGMA дает взвешенный результат, а пропорциональное усреднение в UPGMA дает невзвешенный результат ( см. рабочий пример ). [2]
Алгоритм
Алгоритм UPGMA строит корневое дерево ( дендрограмму ), которое отражает структуру, присутствующую в матрице попарного сходства (или матрице несходства ). На каждом шаге два ближайших кластера объединяются в кластер более высокого уровня. Расстояние между любыми двумя кластерами и , каждый из которых имеет размер ( т.е. мощность ) и , принимается как среднее всех расстояний между парами объектов в и в , то есть среднее расстояние между элементами каждого кластера:
Другими словами, на каждом этапе кластеризации обновленное расстояние между объединенными кластерами и новым кластером определяется пропорциональным усреднением расстояний и :
Алгоритм UPGMA создает корневые дендрограммы и требует допущения о постоянной скорости, то есть предполагает ультраметрическое дерево, в котором расстояния от корня до каждой вершины ветвей равны. Когда кончики представляют собой молекулярные данные ( т.е. ДНК , РНК и белок ) , отобранные одновременно, предположение об ультраметричности становится эквивалентным предположению о молекулярных часах .
Предположим, что у нас есть пять элементов и следующая матрица попарных расстояний между ними:
В этом примере это наименьшее значение , поэтому мы соединяем элементы и .
Оценка длины первой ветки
Пусть обозначает узел, к которому и сейчас подключены. Установка гарантирует, что элементы и будут равноудалены от . Это соответствует ожиданию гипотезы ультраметричности . Ветви соединяются и имеют длину ( см. окончательную дендрограмму )
Первое обновление матрицы расстояний
Затем мы приступаем к обновлению исходной матрицы расстояний в новую матрицу расстояний (см. ниже), размер которой уменьшен на одну строку и один столбец из-за кластеризации с . Жирные значения соответствуют новым расстояниям, рассчитанным путем усреднения расстояний между каждым элементом первого кластера и каждым из остальных элементов:
На значения, выделенные курсивом, обновление матрицы не влияет, поскольку они соответствуют расстояниям между элементами, не участвующими в первом кластере.
Второй шаг
Вторая кластеризация
Теперь мы повторяем три предыдущих шага, начиная с новой матрицы расстояний.
Здесь — наименьшее значение , поэтому мы соединяем кластер и элемент .
Оценка длины второй ветви
Пусть обозначает узел, к которому и сейчас подключены. Из-за ограничения ультраметричности ветви, соединяющие или to и to , равны и имеют следующую длину:
Выводим недостающую длину ветки: ( см. окончательную дендрограмму )
Обновление матрицы второго расстояния
Затем мы приступаем к обновлению в новую матрицу расстояний (см. ниже), размер которой уменьшен на одну строку и один столбец из-за кластеризации с . Значения, выделенные жирным шрифтом, соответствуют новым расстояниям, рассчитанным путем пропорционального усреднения :
Благодаря этому пропорциональному среднему вычисление этого нового расстояния учитывает больший размер кластера (два элемента) по сравнению с (одним элементом). Сходным образом:
Таким образом, пропорциональное усреднение придает равный вес начальным расстояниям матрицы . По этой причине метод является невзвешенным не по отношению к математической процедуре, а по отношению к начальным расстояниям.
Третий шаг
Третья кластеризация
Мы снова повторяем три предыдущих шага, начиная с обновленной матрицы расстояний .
Здесь — наименьшее значение , поэтому мы соединяем элементы и .
Оценка длины третьей ветви
Пусть обозначает узел, к которому и сейчас подключены. Ветви соединяются и затем имеют длину ( см. окончательную дендрограмму )
Обновление матрицы третьего расстояния
Существует одна запись для обновления, учитывая, что вклад каждого из двух элементов в среднее вычисление составляет :
Заключительный этап
Итоговая матрица:
Итак, мы объединяем кластеры и .
Пусть обозначает (корневой) узел, к которому сейчас подключены и . Ветви соединяются и затем имеют длину:
Выводим две оставшиеся длины ветвей:
Дендрограмма UPGMA
Дендрограмма готова. [5] Он является ультраметрическим, поскольку все кончики ( до ) равноудалены от :
Таким образом, корень дендрограммы лежит в ее самом глубоком узле.
Сравнение с другими связями
Альтернативные схемы связи включают кластеризацию с одной связью , полную кластеризацию связи и кластеризацию средней связи WPGMA . Реализация другой связи — это просто вопрос использования другой формулы для расчета расстояний между кластерами на этапах обновления матрицы расстояний вышеуказанного алгоритма. Полная кластеризация позволяет избежать недостатка альтернативного метода кластеризации с одной связью — так называемого явления цепочки , при котором кластеры, сформированные с помощью кластеризации с одной связью, могут быть объединены вместе из-за того, что отдельные элементы находятся близко друг к другу, даже если многие элементы в каждом из них кластеры могут находиться очень далеко друг от друга. Полная связь имеет тенденцию находить компактные кластеры примерно одинакового диаметра. [6]
Использование
В экологии это один из самых популярных методов классификации единиц выборки (например, участков растительности) на основе их попарного сходства по соответствующим переменным дескриптора (например, видовому составу). [7] Например, его использовали для понимания трофического взаимодействия между морскими бактериями и протистами. [8]
В биоинформатике UPGMA используется для создания фенетических деревьев (фенограмм). UPGMA изначально был разработан для использования в исследованиях электрофореза белков , но в настоящее время чаще всего используется для создания направляющих деревьев для более сложных алгоритмов. Этот алгоритм, например, используется в процедурах выравнивания последовательностей , поскольку он предлагает один порядок, в котором последовательности будут выравниваться. Действительно, направляющее дерево направлено на группировку наиболее похожих последовательностей, независимо от скорости их эволюции или филогенетического сходства, и это именно цель UPGMA [9].
В филогенетике UPGMA предполагает постоянную скорость эволюции ( гипотеза молекулярных часов ) и то, что все последовательности были отобраны в одно и то же время, и не является общепризнанным методом вывода взаимосвязей, если это предположение не было проверено и обосновано для используемого набора данных. использовал. Обратите внимание, что даже при «строгих часах» последовательности, выбранные в разное время, не должны приводить к ультраметрическому дереву.
Временная сложность
Тривиальная реализация алгоритма построения дерева UPGMA имеет временную сложность, а использование кучи для каждого кластера для сохранения его расстояний от другого кластера сокращает время до . Фионн Мурта представил алгоритм времени и пространства. [10]