В биоинформатике алгоритмы кластеризации последовательностей пытаются сгруппировать биологические последовательности , которые каким-то образом связаны. Последовательности могут быть геномного , « транскриптомного » ( EST ) или белкового происхождения. Для белков гомологичные последовательности обычно группируются в семейства . Для данных EST кластеризация важна для группировки последовательностей, происходящих из одного и того же гена, прежде чем EST будут собраны для реконструкции исходной мРНК .
Некоторые алгоритмы кластеризации используют кластеризацию с одной связью , создавая транзитивное замыкание последовательностей со сходством в пределах определенного порога. UCLUST [1] и CD-HIT [2] используют жадный алгоритм , который идентифицирует репрезентативную последовательность для каждого кластера и назначает новую последовательность этому кластеру, если она достаточно похожа на репрезентативную; если последовательность не совпадает, она становится репрезентативной последовательностью для нового кластера. Оценка сходства часто основана на выравнивании последовательностей . Кластеризация последовательностей часто используется для создания неизбыточного набора репрезентативных последовательностей .
Кластеры последовательностей часто являются синонимами (но не идентичными) семействам белков . Определение репрезентативной третичной структуры для каждого кластера последовательностей является целью многих инициатив в области структурной геномики .
Алгоритмы и пакеты кластеризации последовательностей
- CD-ХИТ [2]
- UCLUST в ИССЛЕДОВАНИЯХ [1]
- Starcode: [3] алгоритм быстрой кластеризации последовательностей, основанный на точном поиске всех пар. [4]
- OrthoFinder: [5] быстрый, масштабируемый и точный метод кластеризации белков в семейства генов (ортогруппы) [6] [7]
- Linclust: [8] первый алгоритм, время выполнения которого линейно масштабируется в зависимости от размера входного набора, очень быстрый, часть пакета программного обеспечения MMseqs2 [9] для быстрого и чувствительного поиска последовательностей и кластеризации больших наборов последовательностей.
- TribeMCL: метод кластеризации белков в родственные группы [10]
- BAG: алгоритм кластеризации последовательностей на основе теории графов [11]
- JESAM: [12] Параллельно масштабируемый механизм выравнивания ДНК с открытым исходным кодом и дополнительным программным компонентом кластеризации.
- UICluster: [13] Параллельная кластеризация последовательностей EST (генов).
- Кластеризация с одной связью BLASTClust с помощью BLAST [14]
- Clusterer: [15] расширяемое Java-приложение для группировки последовательностей и кластерного анализа.
- PATDB: программа для быстрого определения идеальных подстрок.
- nrdb: [16] программа для объединения тривиально избыточных (идентичных) последовательностей.
- CluSTr: [17] База данных кластеризации последовательностей белков с одной связью на основе сходства последовательностей Смита-Уотермана; охватывает более 7 миллионов последовательностей, включая UniProt и IPI
- ICAtools [18] — оригинальный (древний) пакет кластеризации ДНК со множеством алгоритмов, полезных для обнаружения артефактов или кластеризации EST.
- Инструмент Skipredudant EMBOSS [19] для удаления избыточных последовательностей из набора.
- Алгоритм CLUSS [20] для идентификации групп структурно, функционально или эволюционно связанных трудновыравниваемых белковых последовательностей. Веб-сервер КЛУСС [21]
- Алгоритм CLUSS2 [22] для кластеризации семейств трудновыравниваемых белковых последовательностей с множеством биологических функций. Веб-сервер CLUSS2 [21]
Неизбыточные базы данных последовательностей
- РЫБЫ: сервер отбора белковых последовательностей [23]
- РДБ90 [24]
- UniRef: неизбыточная база данных последовательностей UniProt [25].
- Uniclust: кластеризованные последовательности UniProtKB на уровне 90%, 50% и 30% парной идентичности последовательностей. [26]
- Вирусные ортологичные кластеры: [27] База данных кластеризации последовательностей вирусных белков; содержит все предсказанные гены из одиннадцати семейств вирусов, организованных в группы ортологов по сходству BLASTP.
Смотрите также
Рекомендации
- ^ ab "ПОИСК". Drive5.com .
- ^ ab «CD-HIT: сверхбыстрый метод кластеризации белковых и нуклеотидных последовательностей со многими новыми применениями в данных секвенирования следующего поколения (NGS)» . cd-hit.org .
- ^ "Репозиторий Starcode" . Гитхаб . 2018-10-11.
- ^ Зорита Э, Куско П., Филион Г.Дж. (июнь 2015 г.). «Starcode: кластеризация последовательностей на основе поиска всех пар». Биоинформатика . 31 (12): 1913–9. doi : 10.1093/биоинформатика/btv053. ПМЦ 4765884 . ПМИД 25638815.
- ^ "ОртоFinder". Лаборатория Стива Келли .
- ^ Эммс Д.М., Келли С. (август 2015 г.). «OrthoFinder: устранение фундаментальных ошибок при сравнении всего генома значительно повышает точность вывода ортогрупп». Геномная биология . 16 (1): 157. дои : 10.1186/s13059-015-0721-2 . ПМЦ 4531804 . ПМИД 26243257.
- ^ Эммс Д.М., Келли С. (ноябрь 2019 г.). «OrthoFinder: вывод филогенетической ортологии для сравнительной геномики». Геномная биология . 20 (1): 238. doi : 10.1186/s13059-019-1832-y . ПМЦ 6857279 . ПМИД 31727128.
- ^ Штайнеггер М., Сёдинг Дж. (июнь 2018 г.). «Кластеризация огромных наборов белковых последовательностей за линейное время». Природные коммуникации . 9 (1): 2542. Бибкод : 2018NatCo...9.2542S. дои : 10.1038/s41467-018-04964-5. ПМК 6026198 . ПМИД 29959318.
- ^ Штайнеггер М., Сёдинг Дж. (ноябрь 2017 г.). «MMseqs2 позволяет осуществлять поиск чувствительных белковых последовательностей для анализа огромных наборов данных». Природная биотехнология . 35 (11): 1026–1028. дои : 10.1038/nbt.3988. hdl : 11858/00-001M-0000-002E-1967-3 . PMID 29035372. S2CID 402352.
- ^ Энрайт А.Дж., Ван Донген С., Узунис, Калифорния (апрель 2002 г.). «Эффективный алгоритм для крупномасштабного обнаружения семейств белков». Исследования нуклеиновых кислот . 30 (7): 1575–84. дои : 10.1093/нар/30.7.1575. ПМК 101833 . ПМИД 11917018.
- ^ «Архивная копия». Архивировано из оригинала 6 декабря 2003 г. Проверено 19 февраля 2004 г.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка ) - ^ «Документ по биоинформатике: JESAM: программные компоненты CORBA для выравнивания и кластеров EST» . Littlest.co.uk .
- ^ "pedretti@eyeball — Страница кластеризации" . rates.eng.uiowa.edu . Архивировано из оригинала 9 апреля 2005 г.
- ^ "Новости NCBI: весна 2004 г. - BLASTLab" . nih.gov .
- ^ «Кластерер: расширяемое Java-приложение для группировки последовательностей и кластерного анализа». bugaco.com .
- ^ "Индекс /pub/nrdb". Архивировано из оригинала 1 января 2008 г.
- ^ "КлуСТр". Архивировано из оригинала 24 сентября 2006 г. Проверено 23 ноября 2006 г.
- ^ «Введение в ICAtools». Littlest.co.uk .
- ^ "EMBOSS: пропуск избыточности" . пастер.фр .
- ^ Келил А., Ван С., Бжезинский Р., Флери А. (август 2007 г.). «CLUSS: кластеризация белковых последовательностей на основе новой меры сходства». БМК Биоинформатика . 8 : 286. дои : 10.1186/1471-2105-8-286 . ЧВК 1976428 . ПМИД 17683581.
- ^ ab "Домашняя страница CLUSS" .
- ^ Келил А., Ван С., Бжезинский Р. (2008). «CLUSS2: независимый от выравнивания алгоритм кластеризации семейств белков с множеством биологических функций». Международный журнал вычислительной биологии и разработки лекарств . 1 (2): 122–40. doi : 10.1504/ijcbdd.2008.020190. ПМИД 20058485.
- ^ "Лаборатория Данбрека". fccc.edu .
- ^ Холм Л., Сандер С. (июнь 1998 г.). «Удаление избыточности ближайших соседей из больших коллекций белковых последовательностей». Биоинформатика . 14 (5): 423–9. дои : 10.1093/биоинформатика/14.5.423 . ПМИД 9682055.
- ^ «О ЮниПроте». uniprot.org .
- ^ Мирдита М., фон ден Дриш Л., Галиес С., Мартин М.Дж., Сёдинг Дж., Штайнеггер М. (январь 2017 г.). «Базы данных Uniclust кластеризованных и глубоко аннотированных белковых последовательностей и выравниваний». Исследования нуклеиновых кислот . 45 (Д1): Д170–Д176. дои : 10.1093/nar/gkw1081. ПМК 5614098 . ПМИД 27899574.
- ^ "VOCS - Ресурсный центр вирусной биоинформатики" . uvic.ca.