stringtranslate.com

Анализ последовательности

 Не путать с  последовательным анализом , анализом последовательности синтетических полимеров или анализом последовательности в социальных науках .

В биоинформатике анализ последовательностей — это процесс воздействия на последовательность ДНК , РНК или пептида любого из широкого спектра аналитических методов для понимания ее особенностей, функции, структуры или эволюции . Используемые методологии включают выравнивание последовательностей , поиск по биологическим базам данных и другие. [1]

С развитием методов высокопроизводительного получения последовательностей генов и белков скорость добавления новых последовательностей в базы данных увеличилась очень быстро. Такая коллекция последовательностей сама по себе не увеличивает понимание учеными биологии организмов. Однако сравнение этих новых последовательностей с последовательностями с известными функциями является ключевым способом понимания биологии организма, из которого произошла новая последовательность. Таким образом, анализ последовательностей можно использовать для назначения функций генам и белкам путем изучения сходства между сравниваемыми последовательностями. В настоящее время существует множество инструментов и методов, которые обеспечивают сравнение последовательностей (выравнивание последовательностей) и анализируют продукт выравнивания, чтобы понять его биологию.

Анализ последовательностей в молекулярной биологии включает в себя очень широкий спектр актуальных тем:

  1. Сравнение последовательностей с целью обнаружения сходства, часто для вывода о том, родственны ли они ( гомологичны ) .
  2. Идентификация внутренних особенностей последовательности, таких как активные сайты , сайты посттрансляционной модификации , генные структуры , рамки считывания , распределение интронов и экзонов и регуляторных элементов.
  3. Идентификация различий и вариаций последовательностей, таких как точечные мутации и однонуклеотидный полиморфизм (SNP), для получения генетического маркера .
  4. Выявление эволюции и генетического разнообразия последовательностей и организмов
  5. Идентификация молекулярной структуры только по последовательности.

История

С тех пор как самые первые последовательности белка инсулина были охарактеризованы Фредом Сэнгером в 1951 году, биологи пытались использовать эти знания, чтобы понять функции молекул. [2] [3] Открытия его и его коллег способствовали успешному секвенированию первого генома на основе ДНК. [4] Метод, использованный в этом исследовании, который называется «метод Сэнгера» или секвенирование Сэнгера , стал важной вехой в секвенировании молекул с длинными цепями, таких как ДНК. Этот метод в конечном итоге был использован в проекте генома человека . [5] По мнению Майкла Левитта , анализ последовательностей зародился в период с 1969 по 1977 год. [6] В 1969 году анализ последовательностей транспортных РНК был использован для вывода о взаимодействиях остатков на основе коррелирующих изменений в нуклеотидных последовательностях, что привело к модель вторичной структуры тРНК . [7] В 1970 году Сол Б. Нидлман и Кристиан Д. Вунш опубликовали первый компьютерный алгоритм выравнивания двух последовательностей. [8] За это время достижения в области получения нуклеотидной последовательности значительно улучшились, что привело к публикации первого полного генома бактериофага в 1977 году. [9] Считалось, что Роберт Холли и его команда из Корнелльского университета первыми секвенировали Молекула РНК. [10]

Выравнивание последовательности

Пример множественного выравнивания последовательностей

Известны миллионы белковых и нуклеотидных последовательностей. Эти последовательности делятся на множество групп родственных последовательностей, известных как семейства белков или семейства генов. Отношения между этими последовательностями обычно обнаруживаются путем их выравнивания и присвоения этому выравниванию оценки. Существует два основных типа выравнивания последовательностей. При парном выравнивании последовательностей сравниваются только две последовательности одновременно, а при множественном выравнивании последовательностей сравниваются многие последовательности. Двумя важными алгоритмами выравнивания пар последовательностей являются алгоритм Нидлмана-Вунша и алгоритм Смита-Уотермана . Популярные инструменты для выравнивания последовательностей включают:

Обычное использование парного выравнивания последовательностей заключается в том, чтобы взять интересующую последовательность и сравнить ее со всеми известными последовательностями в базе данных для идентификации гомологичных последовательностей . Как правило, совпадения в базе данных упорядочены таким образом, чтобы сначала отображались наиболее близкородственные последовательности, а затем последовательности с уменьшающимся сходством. Об этих совпадениях обычно сообщают с помощью меры статистической значимости, такой как значение ожидания .

Сравнение профилей

В 1987 году Майкл Грибсков, Эндрю Маклахлан и Дэвид Айзенберг представили метод сравнения профилей для выявления отдаленных сходств между белками. [11] Вместо использования одной последовательности в методах профиля используется множественное выравнивание последовательностей для кодирования профиля, который содержит информацию об уровне консервации каждого остатка. Эти профили затем можно использовать для поиска в коллекциях последовательностей, чтобы найти родственные последовательности. Профили также известны как матрицы оценок для конкретной позиции (PSSM). В 1993 году Андерс Крог и его коллеги представили вероятностную интерпретацию профилей с использованием скрытых марковских моделей . [12] [13] Эти модели стали известны как профильные HMM.

В последние годы [ когда? ] разработаны методы, позволяющие сравнивать профили непосредственно друг с другом. Они известны как методы сравнения профилей. [14]

Последовательность сборки

Сборка последовательности относится к реконструкции последовательности ДНК путем выравнивания и слияния небольших фрагментов ДНК. Это неотъемлемая часть современного секвенирования ДНК . Поскольку доступные в настоящее время технологии секвенирования ДНК плохо подходят для считывания длинных последовательностей, большие фрагменты ДНК (например, геномы) часто секвенируют путем (1) разрезания ДНК на мелкие кусочки, (2) считывания небольших фрагментов и (3) ) восстановление исходной ДНК путем слияния информации о различных фрагментах.

В последнее время секвенирование нескольких видов одновременно является одной из главных задач исследований. Метагеномика — это изучение микробных сообществ, полученных непосредственно из окружающей среды. В отличие от культивируемых в лаборатории микроорганизмов, дикий образец обычно содержит десятки, а иногда даже тысячи типов микроорганизмов из их первоначальной среды обитания. [15] Восстановление исходных геномов может оказаться очень сложной задачей.

Генное предсказание

Предсказание генов или поиск генов относится к процессу идентификации областей геномной ДНК, которые кодируют гены . Это включает в себя гены , кодирующие белки , а также гены РНК , но может также включать предсказание других функциональных элементов, таких как регуляторные области . Джери — один из первых и наиболее важных шагов в понимании генома вида после его секвенирования . В целом предсказание бактериальных генов значительно проще и точнее, чем предсказание генов эукариотических видов, которые обычно имеют сложные структуры интронов / экзонов . Идентификация генов в длинных последовательностях остается проблемой, особенно когда количество генов неизвестно. Скрытые марковские модели могут стать частью решения. [16] Машинное обучение сыграло значительную роль в предсказании последовательности факторов транскрипции. [17] Традиционный анализ секвенирования фокусировался на статистических параметрах самой нуклеотидной последовательности (наиболее распространенные используемые программы перечислены в Таблице 4.1). Другой метод заключается в идентификации гомологичных последовательностей на основе других известных последовательностей генов (инструменты см. в Таблице 4.3). [18] Два метода, описанные здесь, ориентированы на последовательность. Однако особенности формы этих молекул, таких как ДНК и белок, также были изучены и предположили, что они оказывают эквивалентное, если не большее, влияние на поведение этих молекул. [19]

Прогнозирование структуры белка

Структура целевого белка (3dsm, показана лентами) с кальфа-остовами (серым цветом) 354 предсказанных моделей, представленных в эксперименте по прогнозированию структуры CASP8.

Трехмерные структуры молекул имеют большое значение для их функций в природе. Поскольку предсказание структуры больших молекул на атомном уровне является в значительной степени неразрешимой проблемой, некоторые биологи предложили способы прогнозирования трехмерной структуры на уровне первичной последовательности. Это включает биохимический или статистический анализ аминокислотных остатков в локальных областях и структурные выводы на основе гомологов (или других потенциально родственных белков) с известными трехмерными структурами.

Существует большое количество разнообразных подходов к решению проблемы прогнозирования структуры. Чтобы определить, какие методы оказались наиболее эффективными, был основан конкурс по предсказанию структуры под названием CASP (Критическая оценка прогнозирования структуры). [20]

Методология

Задачи, лежащие в области анализа последовательностей, зачастую нетривиальны для решения и требуют использования относительно сложных подходов. Из множества видов методов, используемых на практике, к наиболее популярным можно отнести:

Смотрите также

Рекомендации

  1. ^ Дурбин, Ричард М .; Эдди, Шон Р .; Крог, Андерс ; Митчисон, Грэм (1998), Анализ биологических последовательностей: вероятностные модели белков и нуклеиновых кислот (1-е изд.), Кембридж, Нью-Йорк: Cambridge University Press , ISBN 0-521-62971-3, OCLC  593254083
  2. ^ Сэнгер Ф; Таппи Х (сентябрь 1951 г.). «Аминокислотная последовательность фенилаланильной цепи инсулина. I. Идентификация низших пептидов из частичных гидролизатов». Биохим. Дж . 49 (4): 463–81. дои : 10.1042/bj0490463. ПМК 1197535 . ПМИД  14886310. 
  3. ^ САНГЕР Ф; ТУППИ Х (сентябрь 1951 г.). «Аминокислотная последовательность фенилаланильной цепи инсулина. 2. Исследование пептидов из ферментных гидролизатов». Биохим. Дж . 49 (4): 481–90. дои : 10.1042/bj0490481. ПМК 1197536 . ПМИД  14886311. 
  4. ^ Сэнгер, Ф; Никлен, С; Коулсон, Арканзас (декабрь 1977 г.). «Секвенирование ДНК с ингибиторами обрыва цепи». Proc Natl Acad Sci США . 74 (12): 441–448. Бибкод : 1977PNAS...74.5463S. дои : 10.1073/pnas.74.12.5463 . ПМК 431765 . ПМИД  271968. 
  5. ^ Сэнгер, Ф; Воздух, GM; Баррелл, Б.Г.; Браун, Нидерланды; Коулсон, Арканзас; Фиддес, Калифорния; Хатчисон, Калифорния; Слокомб, премьер-министр; Смит, М. (февраль 1977 г.). «Нуклеотидная последовательность ДНК бактериофага phi X174». Природа . 265 (5596): 687–695. Бибкод : 1977Natur.265..687S. дои : 10.1038/265687a0. PMID  870828. S2CID  4206886.
  6. ^ Левитт М (май 2001 г.). «Рождение вычислительной структурной биологии». Структурная и молекулярная биология природы . 8 (5): 392–3. дои : 10.1038/87545. PMID  11323711. S2CID  6519868.
  7. ^ Левитт М (ноябрь 1969 г.). «Детальная молекулярная модель переноса рибонуклеиновой кислоты». Природа . 224 (5221): 759–63. Бибкод : 1969Natur.224..759L. дои : 10.1038/224759a0. PMID  5361649. S2CID  983981.
  8. ^ Нидлман С.Б.; Компакт-диск Вунша (март 1970 г.). «Общий метод, применимый для поиска сходства в аминокислотной последовательности двух белков». Дж. Мол. Биол . 48 (3): 443–53. дои : 10.1016/0022-2836(70)90057-4. ПМИД  5420325.
  9. ^ Сэнгер Ф., Air GM, Баррелл Б.Г. и др. (февраль 1977 г.). «Нуклеотидная последовательность ДНК бактериофага phi X174». Природа . 265 (5596): 687–95. Бибкод : 1977Natur.265..687S. дои : 10.1038/265687a0. PMID  870828. S2CID  4206886.
  10. ^ Холли, RW; Апгар, Дж; Эверетт, Джорджия; Мэдисон, Джей Ти; Маркиз, М; Меррилл, Ш.; Пенсвик, младший; Замир, А. (май 1965 г.). «Структура рибонуклеиновой кислоты». Наука . 147 (3664): 1462–1465. Бибкод : 1965Sci...147.1462H. дои : 10.1126/science.147.3664.1462. PMID  14263761. S2CID  40989800.
  11. ^ Грибсков М; Маклахлан А.Д.; Айзенберг Д. (июль 1987 г.). «Профильный анализ: обнаружение отдаленно родственных белков». Учеб. Натл. акад. наук. США . 84 (13): 4355–8. Бибкод : 1987PNAS...84.4355G. дои : 10.1073/pnas.84.13.4355 . ПМК 305087 . ПМИД  3474607. 
  12. ^ Браун М; Хьюи Р; Крог А; Миан И.С.; Шёландер К; Хаусслер Д. (1993). «Использование априорной смеси Дирихле для получения скрытых марковских моделей семейств белков». Proc Int Conf Intell Syst Mol Biol . 1 : 47–55. ПМИД  7584370.
  13. ^ Крог А; Браун М; Миан И.С.; Шёландер К; Хаусслер Д. (февраль 1994 г.). «Скрытые марковские модели в вычислительной биологии. Приложения к моделированию белков». Дж. Мол. Биол . 235 (5): 1501–31. дои : 10.1006/jmbi.1994.1104. PMID  8107089. S2CID  2160404.
  14. ^ Да Х; Ван Г; Альтшул С.Ф. (декабрь 2011 г.). «Оценка показателей замен для сравнения профилей белков». Биоинформатика . 27 (24): 3356–63. doi : 10.1093/биоинформатика/btr565. ПМК 3232366 . ПМИД  21998158. 
  15. ^ Вули, JC; Годзик, А; Фридберг, I (26 февраля 2010 г.). «Букварь по метагеномике». ПЛОС Компьютерная Биол . 6 (2): e1000667. Бибкод : 2010PLSCB...6E0667W. дои : 10.1371/journal.pcbi.1000667 . ПМК 2829047 . ПМИД  20195499. 
  16. ^ Станке, М; Ваак, С. (19 октября 2003 г.). «Прогнозирование генов с помощью скрытой модели Маркова и новой подмодели интрона». Биоинформатика . 19 Приложение 2 (2): 215–25. doi : 10.1093/биоинформатика/btg1080 . ПМИД  14534192.
  17. ^ Алипанахи, Б; Делонг, А; Вайраух, Монтана; Фрей, Би Джей (август 2015 г.). «Прогнозирование особенностей последовательностей ДНК- и РНК-связывающих белков путем глубокого обучения». Нат Биотехнология . 33 (8): 831–8. дои : 10.1038/nbt.3300 . ПМИД  26213851.
  18. ^ Вули, JC; Годзик, А; Фридберг, I (26 февраля 2010 г.). «Букварь по метагеномике». ПЛОС Компьютерная Биол . 6 (2): e1000667. Бибкод : 2010PLSCB...6E0667W. дои : 10.1371/journal.pcbi.1000667 . ПМК 2829047 . ПМИД  20195499. 
  19. ^ Абэ, Н; Дрор, я; Ян, Л; Слэттери, М; Чжоу, Т; Буссемейкер, HJ; Рохс Р, Р; Манн, RS (9 апреля 2015 г.). «Деконволюция распознавания формы ДНК по последовательности». Клетка . 161 (2): 307–18. doi :10.1016/j.cell.2015.02.008. ПМЦ 4422406 . ПМИД  25843630. 
  20. ^ Моулт Дж; Хаббард Т; Брайант Ш.; Фиделис К; Педерсен Дж.Т. (1997). «Критическая оценка методов прогнозирования структуры белков (CASP): раунд II». Белки . Приложение 1 (S1): 2–6. doi :10.1002/(SICI)1097-0134(1997)1+<2::AID-PROT2>3.0.CO;2-T. PMID  9485489. S2CID  26823924.