Кластеризация последовательностей

В биоинформатике алгоритмы кластеризации последовательностей пытаются сгруппировать биологические последовательности , которые каким-то образом связаны. Последовательности могут быть геномного , « транскриптомного » ( EST ) или белкового происхождения. Для белков гомологичные последовательности обычно группируются в семейства . Для данных EST кластеризация важна для группировки последовательностей, происходящих из одного и того же гена, прежде чем EST будут собраны для реконструкции исходной мРНК .

Некоторые алгоритмы кластеризации используют кластеризацию с одной связью , создавая транзитивное замыкание последовательностей со сходством в пределах определенного порога. UCLUST ^[1] и CD-HIT ^[2] используют жадный алгоритм , который идентифицирует репрезентативную последовательность для каждого кластера и назначает новую последовательность этому кластеру, если она достаточно похожа на репрезентативную; если последовательность не совпадает, она становится репрезентативной последовательностью для нового кластера. Оценка сходства часто основана на выравнивании последовательностей . Кластеризация последовательностей часто используется для создания неизбыточного набора репрезентативных последовательностей .

Кластеры последовательностей часто являются синонимами (но не идентичными) семействам белков . Определение репрезентативной третичной структуры для каждого кластера последовательностей является целью многих инициатив в области структурной геномики .

Алгоритмы и пакеты кластеризации последовательностей

CD-ХИТ ^[2]
UCLUST в ИССЛЕДОВАНИЯХ ^[1]
Starcode: ^[3] алгоритм быстрой кластеризации последовательностей, основанный на точном поиске всех пар. ^[4]
OrthoFinder: ^[5] быстрый, масштабируемый и точный метод кластеризации белков в семейства генов (ортогруппы) ^[6]^[7]
Linclust: ^[8] первый алгоритм, время выполнения которого линейно масштабируется в зависимости от размера входного набора, очень быстрый, часть пакета программного обеспечения MMseqs2 ^[9] для быстрого и чувствительного поиска последовательностей и кластеризации больших наборов последовательностей.
TribeMCL: метод кластеризации белков в родственные группы ^[10]
BAG: алгоритм кластеризации последовательностей на основе теории графов ^[11]
JESAM: ^[12] Параллельно масштабируемый механизм выравнивания ДНК с открытым исходным кодом и дополнительным программным компонентом кластеризации.
UICluster: ^[13] Параллельная кластеризация последовательностей EST (генов).
Кластеризация с одной связью BLASTClust с помощью BLAST ^[14]
Clusterer: ^[15] расширяемое Java-приложение для группировки последовательностей и кластерного анализа.
PATDB: программа для быстрого определения идеальных подстрок.
nrdb: ^[16] программа для объединения тривиально избыточных (идентичных) последовательностей.
CluSTr: ^[17] База данных кластеризации последовательностей белков с одной связью на основе сходства последовательностей Смита-Уотермана; охватывает более 7 миллионов последовательностей, включая UniProt и IPI
ICAtools ^[18] — оригинальный (древний) пакет кластеризации ДНК со множеством алгоритмов, полезных для обнаружения артефактов или кластеризации EST.
Инструмент Skipredudant EMBOSS ^[19] для удаления избыточных последовательностей из набора.
Алгоритм CLUSS ^[20] для идентификации групп структурно, функционально или эволюционно связанных трудновыравниваемых белковых последовательностей. Веб-сервер КЛУСС ^[21]
Алгоритм CLUSS2 ^[22] для кластеризации семейств трудновыравниваемых белковых последовательностей с множеством биологических функций. Веб-сервер CLUSS2 ^[21]

Неизбыточные базы данных последовательностей

РЫБЫ: сервер отбора белковых последовательностей ^[23]
РДБ90 ^[24]
UniRef: неизбыточная база данных последовательностей UniProt ^[25].
Uniclust: кластеризованные последовательности UniProtKB на уровне 90%, 50% и 30% парной идентичности последовательностей. ^[26]
Вирусные ортологичные кластеры: ^[27] База данных кластеризации последовательностей вирусных белков; содержит все предсказанные гены из одиннадцати семейств вирусов, организованных в группы ортологов по сходству BLASTP.

Кластеризация последовательностей

Алгоритмы и пакеты кластеризации последовательностей

Неизбыточные базы данных последовательностей

Смотрите также

Рекомендации