Не путать с последовательным анализом , анализом последовательности синтетических полимеров или анализом последовательности в социальных науках .
В биоинформатике анализ последовательностей — это процесс воздействия на последовательность ДНК , РНК или пептида любого из широкого спектра аналитических методов для понимания ее особенностей, функции, структуры или эволюции . Используемые методологии включают выравнивание последовательностей , поиск по биологическим базам данных и другие. [1]
С развитием методов высокопроизводительного получения последовательностей генов и белков скорость добавления новых последовательностей в базы данных увеличилась очень быстро. Такая коллекция последовательностей сама по себе не увеличивает понимание учеными биологии организмов. Однако сравнение этих новых последовательностей с последовательностями с известными функциями является ключевым способом понимания биологии организма, из которого произошла новая последовательность. Таким образом, анализ последовательностей можно использовать для назначения функций генам и белкам путем изучения сходства между сравниваемыми последовательностями. В настоящее время существует множество инструментов и методов, которые обеспечивают сравнение последовательностей (выравнивание последовательностей) и анализируют продукт выравнивания, чтобы понять его биологию.
Анализ последовательностей в молекулярной биологии включает в себя очень широкий спектр актуальных тем:
С тех пор как самые первые последовательности белка инсулина были охарактеризованы Фредом Сэнгером в 1951 году, биологи пытались использовать эти знания, чтобы понять функции молекул. [2] [3] Открытия его и его коллег способствовали успешному секвенированию первого генома на основе ДНК. [4] Метод, использованный в этом исследовании, который называется «метод Сэнгера» или секвенирование Сэнгера , стал важной вехой в секвенировании молекул с длинными цепями, таких как ДНК. Этот метод в конечном итоге был использован в проекте генома человека . [5] По мнению Майкла Левитта , анализ последовательностей зародился в период с 1969 по 1977 год. [6] В 1969 году анализ последовательностей транспортных РНК был использован для вывода о взаимодействиях остатков на основе коррелирующих изменений в нуклеотидных последовательностях, что привело к модель вторичной структуры тРНК . [7] В 1970 году Сол Б. Нидлман и Кристиан Д. Вунш опубликовали первый компьютерный алгоритм выравнивания двух последовательностей. [8] За это время достижения в области получения нуклеотидной последовательности значительно улучшились, что привело к публикации первого полного генома бактериофага в 1977 году. [9] Считалось, что Роберт Холли и его команда из Корнелльского университета первыми секвенировали Молекула РНК. [10]
Известны миллионы белковых и нуклеотидных последовательностей. Эти последовательности делятся на множество групп родственных последовательностей, известных как семейства белков или семейства генов. Отношения между этими последовательностями обычно обнаруживаются путем их выравнивания и присвоения этому выравниванию оценки. Существует два основных типа выравнивания последовательностей. При парном выравнивании последовательностей сравниваются только две последовательности одновременно, а при множественном выравнивании последовательностей сравниваются многие последовательности. Двумя важными алгоритмами выравнивания пар последовательностей являются алгоритм Нидлмана-Вунша и алгоритм Смита-Уотермана . Популярные инструменты для выравнивания последовательностей включают:
Обычное использование парного выравнивания последовательностей заключается в том, чтобы взять интересующую последовательность и сравнить ее со всеми известными последовательностями в базе данных для идентификации гомологичных последовательностей . Как правило, совпадения в базе данных упорядочены таким образом, чтобы сначала отображались наиболее близкородственные последовательности, а затем последовательности с уменьшающимся сходством. Об этих совпадениях обычно сообщают с помощью меры статистической значимости, такой как значение ожидания .
В 1987 году Майкл Грибсков, Эндрю Маклахлан и Дэвид Айзенберг представили метод сравнения профилей для выявления отдаленных сходств между белками. [11] Вместо использования одной последовательности в методах профиля используется множественное выравнивание последовательностей для кодирования профиля, который содержит информацию об уровне консервации каждого остатка. Эти профили затем можно использовать для поиска в коллекциях последовательностей, чтобы найти родственные последовательности. Профили также известны как матрицы оценок для конкретной позиции (PSSM). В 1993 году Андерс Крог и его коллеги представили вероятностную интерпретацию профилей с использованием скрытых марковских моделей . [12] [13] Эти модели стали известны как профильные HMM.
В последние годы [ когда? ] разработаны методы, позволяющие сравнивать профили непосредственно друг с другом. Они известны как методы сравнения профилей. [14]
Сборка последовательности относится к реконструкции последовательности ДНК путем выравнивания и слияния небольших фрагментов ДНК. Это неотъемлемая часть современного секвенирования ДНК . Поскольку доступные в настоящее время технологии секвенирования ДНК плохо подходят для считывания длинных последовательностей, большие фрагменты ДНК (например, геномы) часто секвенируют путем (1) разрезания ДНК на мелкие кусочки, (2) считывания небольших фрагментов и (3) ) восстановление исходной ДНК путем слияния информации о различных фрагментах.
В последнее время секвенирование нескольких видов одновременно является одной из главных задач исследований. Метагеномика — это изучение микробных сообществ, полученных непосредственно из окружающей среды. В отличие от культивируемых в лаборатории микроорганизмов, дикий образец обычно содержит десятки, а иногда даже тысячи типов микроорганизмов из их первоначальной среды обитания. [15] Восстановление исходных геномов может оказаться очень сложной задачей.
Предсказание генов или поиск генов относится к процессу идентификации областей геномной ДНК, которые кодируют гены . Это включает в себя гены , кодирующие белки , а также гены РНК , но может также включать предсказание других функциональных элементов, таких как регуляторные области . Джери — один из первых и наиболее важных шагов в понимании генома вида после его секвенирования . В целом предсказание бактериальных генов значительно проще и точнее, чем предсказание генов эукариотических видов, которые обычно имеют сложные структуры интронов / экзонов . Идентификация генов в длинных последовательностях остается проблемой, особенно когда количество генов неизвестно. Скрытые марковские модели могут стать частью решения. [16] Машинное обучение сыграло значительную роль в предсказании последовательности факторов транскрипции. [17] Традиционный анализ секвенирования фокусировался на статистических параметрах самой нуклеотидной последовательности (наиболее распространенные используемые программы перечислены в Таблице 4.1). Другой метод заключается в идентификации гомологичных последовательностей на основе других известных последовательностей генов (инструменты см. в Таблице 4.3). [18] Два метода, описанные здесь, ориентированы на последовательность. Однако особенности формы этих молекул, таких как ДНК и белок, также были изучены и предположили, что они оказывают эквивалентное, если не большее, влияние на поведение этих молекул. [19]
Трехмерные структуры молекул имеют большое значение для их функций в природе. Поскольку предсказание структуры больших молекул на атомном уровне является в значительной степени неразрешимой проблемой, некоторые биологи предложили способы прогнозирования трехмерной структуры на уровне первичной последовательности. Это включает биохимический или статистический анализ аминокислотных остатков в локальных областях и структурные выводы на основе гомологов (или других потенциально родственных белков) с известными трехмерными структурами.
Существует большое количество разнообразных подходов к решению проблемы прогнозирования структуры. Чтобы определить, какие методы оказались наиболее эффективными, был основан конкурс по предсказанию структуры под названием CASP (Критическая оценка прогнозирования структуры). [20]
Задачи, лежащие в области анализа последовательностей, зачастую нетривиальны для решения и требуют использования относительно сложных подходов. Из множества видов методов, используемых на практике, к наиболее популярным можно отнести: