Филогенетическое профилирование — это метод биоинформатики , в котором совместное присутствие или совместное отсутствие двух признаков у большого количества видов используется для вывода значимой биологической связи, такой как участие двух разных белков в одном и том же биологическом пути . Наряду с изучением консервативной синтении , консервативной структуры оперона или слияний доменов «Rosetta Stone» , сравнение филогенетических профилей является обозначенным методом «постгомологии», в котором вычисления, необходимые для этого метода, начинаются после того, как определено, какие белки гомологичны каким. Ряд этих методов были разработаны Дэвидом Эйзенбергом и его коллегами; сравнение филогенетического профиля было введено в 1999 году Пеллегрини и др. [1]
Более 2000 видов бактерий , архей и эукариот в настоящее время представлены полными последовательностями генома ДНК . Обычно каждый ген в геноме кодирует белок , который может быть отнесен к определенному семейству белков на основе гомологии . Для данного семейства белков его присутствие или отсутствие в каждом геноме (в исходной, бинарной, формулировке) представлено либо 1 (присутствует), либо 0 (отсутствует). Следовательно, филогенетическое распределение семейства белков может быть представлено длинным двоичным числом с цифрой для каждого генома; такие бинарные представления легко сравнивать друг с другом для поиска коррелированных филогенетических распределений. Большое количество полных геномов делает эти профили богатыми информацией. Преимущество использования только полных геномов заключается в том, что значения 0, представляющие отсутствие признака, как правило, надежны.
Близкородственные виды, как ожидается, будут иметь очень похожие наборы генов. Однако изменения накапливаются между более отдаленно родственными видами в результате процессов, которые включают горизонтальный перенос генов и потерю генов. Отдельные белки имеют определенные молекулярные функции, такие как выполнение одной ферментативной реакции или выполнение функции одной субъединицы более крупного белкового комплекса. Биологический процесс, такой как фотосинтез , метаногенез или биосинтез гистидина , может потребовать согласованного действия многих белков. Если какой-то белок, критически важный для процесса, теряется, другие белки, предназначенные для этого процесса, становятся бесполезными; естественный отбор делает маловероятным, что эти бесполезные белки сохранятся в течение эволюционного времени. Следовательно, если два разных семейства белков последовательно имеют тенденцию либо присутствовать, либо отсутствовать вместе, вероятная гипотеза заключается в том, что два белка взаимодействуют в каком-то биологическом процессе.
Филогенетическое профилирование привело к многочисленным открытиям в биологии, включая ранее неизвестные ферменты в метаболических путях , факторы транскрипции , которые связываются с консервативными регуляторными участками , и объяснения роли определенных мутаций в заболеваниях человека . [2] Улучшение самого метода является активной областью научных исследований, поскольку сам метод сталкивается с несколькими ограничениями. Во-первых, совместное появление двух семейств белков часто представляет собой недавнее общее происхождение двух видов, а не консервативную функциональную связь; устранение неоднозначности этих двух источников корреляции может потребовать улучшения статистических методов. Во-вторых, белки, сгруппированные как гомологи, могут различаться по функции, или белки, консервативные по функции, могут не регистрироваться как гомологи; улучшенные методы адаптации размера каждого семейства белков для отражения функциональной консервации приведут к улучшенным результатам.
Инструменты включают PLEX (Protein Link Explorer) [3] (ныне не функционирует) и JGI IMG (Integrated Microbial Genomes) Phylogenetic Profiler (как для отдельных генов, так и для генных кассет ) [4] .