stringtranslate.com

Кластеризация последовательностей

В биоинформатике алгоритмы кластеризации последовательностей пытаются сгруппировать биологические последовательности , которые каким-то образом связаны. Последовательности могут быть геномного , « транскриптомного » ( EST ) или белкового происхождения. Для белков гомологичные последовательности обычно группируются в семейства . Для данных EST кластеризация важна для группировки последовательностей, происходящих из одного и того же гена, прежде чем EST будут собраны для реконструкции исходной мРНК .

Некоторые алгоритмы кластеризации используют кластеризацию с одной связью , создавая транзитивное замыкание последовательностей со сходством в пределах определенного порога. UCLUST [1] и CD-HIT [2] используют жадный алгоритм , который идентифицирует репрезентативную последовательность для каждого кластера и назначает новую последовательность этому кластеру, если она достаточно похожа на репрезентативную; если последовательность не совпадает, она становится репрезентативной последовательностью для нового кластера. Оценка сходства часто основана на выравнивании последовательностей . Кластеризация последовательностей часто используется для создания неизбыточного набора репрезентативных последовательностей .

Кластеры последовательностей часто являются синонимами (но не идентичными) семействам белков . Определение репрезентативной третичной структуры для каждого кластера последовательностей является целью многих инициатив в области структурной геномики .

Алгоритмы и пакеты кластеризации последовательностей

Неизбыточные базы данных последовательностей

Смотрите также

Рекомендации

  1. ^ ab "ПОИСК". Drive5.com .
  2. ^ ab «CD-HIT: сверхбыстрый метод кластеризации белковых и нуклеотидных последовательностей со многими новыми применениями в данных секвенирования следующего поколения (NGS)» . cd-hit.org .
  3. ^ "Репозиторий Starcode" . Гитхаб . 2018-10-11.
  4. ^ Зорита Э, Куско П., Филион Г.Дж. (июнь 2015 г.). «Starcode: кластеризация последовательностей на основе поиска всех пар». Биоинформатика . 31 (12): 1913–9. doi : 10.1093/биоинформатика/btv053. ПМЦ 4765884 . ПМИД  25638815. 
  5. ^ "ОртоFinder". Лаборатория Стива Келли .
  6. ^ Эммс Д.М., Келли С. (август 2015 г.). «OrthoFinder: устранение фундаментальных ошибок при сравнении всего генома значительно повышает точность вывода ортогрупп». Геномная биология . 16 (1): 157. дои : 10.1186/s13059-015-0721-2 . ПМЦ 4531804 . ПМИД  26243257. 
  7. ^ Эммс Д.М., Келли С. (ноябрь 2019 г.). «OrthoFinder: вывод филогенетической ортологии для сравнительной геномики». Геномная биология . 20 (1): 238. doi : 10.1186/s13059-019-1832-y . ПМЦ 6857279 . ПМИД  31727128. 
  8. ^ Штайнеггер М., Сёдинг Дж. (июнь 2018 г.). «Кластеризация огромных наборов белковых последовательностей за линейное время». Природные коммуникации . 9 (1): 2542. Бибкод : 2018NatCo...9.2542S. дои : 10.1038/s41467-018-04964-5. ПМК 6026198 . ПМИД  29959318. 
  9. ^ Штайнеггер М., Сёдинг Дж. (ноябрь 2017 г.). «MMseqs2 позволяет осуществлять поиск чувствительных белковых последовательностей для анализа огромных наборов данных». Природная биотехнология . 35 (11): 1026–1028. дои : 10.1038/nbt.3988. hdl : 11858/00-001M-0000-002E-1967-3 . PMID  29035372. S2CID  402352.
  10. ^ Энрайт А.Дж., Ван Донген С., Узунис, Калифорния (апрель 2002 г.). «Эффективный алгоритм для крупномасштабного обнаружения семейств белков». Исследования нуклеиновых кислот . 30 (7): 1575–84. дои : 10.1093/нар/30.7.1575. ПМК 101833 . ПМИД  11917018. 
  11. ^ «Архивная копия». Архивировано из оригинала 6 декабря 2003 г. Проверено 19 февраля 2004 г.{{cite web}}: CS1 maint: архивная копия в заголовке ( ссылка )
  12. ^ «Документ по биоинформатике: JESAM: программные компоненты CORBA для выравнивания и кластеров EST» . Littlest.co.uk .
  13. ^ "pedretti@eyeball — Страница кластеризации" . rates.eng.uiowa.edu . Архивировано из оригинала 9 апреля 2005 г.
  14. ^ "Новости NCBI: весна 2004 г. - BLASTLab" . nih.gov .
  15. ^ «Кластерер: расширяемое Java-приложение для группировки последовательностей и кластерного анализа». bugaco.com .
  16. ^ "Индекс /pub/nrdb". Архивировано из оригинала 1 января 2008 г.
  17. ^ "КлуСТр". Архивировано из оригинала 24 сентября 2006 г. Проверено 23 ноября 2006 г.
  18. ^ «Введение в ICAtools». Littlest.co.uk .
  19. ^ "EMBOSS: пропуск избыточности" . пастер.фр .
  20. ^ Келил А., Ван С., Бжезинский Р., Флери А. (август 2007 г.). «CLUSS: кластеризация белковых последовательностей на основе новой меры сходства». БМК Биоинформатика . 8 : 286. дои : 10.1186/1471-2105-8-286 . ЧВК 1976428 . ПМИД  17683581. 
  21. ^ ab "Домашняя страница CLUSS" .
  22. ^ Келил А., Ван С., Бжезинский Р. (2008). «CLUSS2: независимый от выравнивания алгоритм кластеризации семейств белков с множеством биологических функций». Международный журнал вычислительной биологии и разработки лекарств . 1 (2): 122–40. doi : 10.1504/ijcbdd.2008.020190. ПМИД  20058485.
  23. ^ "Лаборатория Данбрека". fccc.edu .
  24. ^ Холм Л., Сандер С. (июнь 1998 г.). «Удаление избыточности ближайших соседей из больших коллекций белковых последовательностей». Биоинформатика . 14 (5): 423–9. дои : 10.1093/биоинформатика/14.5.423 . ПМИД  9682055.
  25. ^ «О ЮниПроте». uniprot.org .
  26. ^ Мирдита М., фон ден Дриш Л., Галиес С., Мартин М.Дж., Сёдинг Дж., Штайнеггер М. (январь 2017 г.). «Базы данных Uniclust кластеризованных и глубоко аннотированных белковых последовательностей и выравниваний». Исследования нуклеиновых кислот . 45 (Д1): Д170–Д176. дои : 10.1093/nar/gkw1081. ПМК 5614098 . ПМИД  27899574. 
  27. ^ "VOCS - Ресурсный центр вирусной биоинформатики" . uvic.ca.