Анализ последовательности

 Не путать с  последовательным анализом , анализом последовательности синтетических полимеров или анализом последовательности в социальных науках .

В биоинформатике анализ последовательностей — это процесс воздействия на последовательность ДНК , РНК или пептида любого из широкого спектра аналитических методов для понимания ее особенностей, функции, структуры или эволюции . Используемые методологии включают выравнивание последовательностей , поиск по биологическим базам данных и другие. ^[1]

С развитием методов высокопроизводительного получения последовательностей генов и белков скорость добавления новых последовательностей в базы данных увеличилась очень быстро. Такая коллекция последовательностей сама по себе не увеличивает понимание учеными биологии организмов. Однако сравнение этих новых последовательностей с последовательностями с известными функциями является ключевым способом понимания биологии организма, из которого произошла новая последовательность. Таким образом, анализ последовательностей можно использовать для назначения функций генам и белкам путем изучения сходства между сравниваемыми последовательностями. В настоящее время существует множество инструментов и методов, которые обеспечивают сравнение последовательностей (выравнивание последовательностей) и анализируют продукт выравнивания, чтобы понять его биологию.

Анализ последовательностей в молекулярной биологии включает в себя очень широкий спектр актуальных тем:

Сравнение последовательностей с целью обнаружения сходства, часто для вывода о том, родственны ли они ( гомологичны ) .
Идентификация внутренних особенностей последовательности, таких как активные сайты , сайты посттрансляционной модификации , генные структуры , рамки считывания , распределение интронов и экзонов и регуляторных элементов.
Идентификация различий и вариаций последовательностей, таких как точечные мутации и однонуклеотидный полиморфизм (SNP), для получения генетического маркера .
Выявление эволюции и генетического разнообразия последовательностей и организмов
Идентификация молекулярной структуры только по последовательности.

История

С тех пор как самые первые последовательности белка инсулина были охарактеризованы Фредом Сэнгером в 1951 году, биологи пытались использовать эти знания, чтобы понять функции молекул. ^[2]^[3] Открытия его и его коллег способствовали успешному секвенированию первого генома на основе ДНК. ^[4] Метод, использованный в этом исследовании, который называется «метод Сэнгера» или секвенирование Сэнгера , стал важной вехой в секвенировании молекул с длинными цепями, таких как ДНК. Этот метод в конечном итоге был использован в проекте генома человека . ^[5] По мнению Майкла Левитта , анализ последовательностей зародился в период с 1969 по 1977 год. ^[6] В 1969 году анализ последовательностей транспортных РНК был использован для вывода о взаимодействиях остатков на основе коррелирующих изменений в нуклеотидных последовательностях, что привело к модель вторичной структуры тРНК . ^[7] В 1970 году Сол Б. Нидлман и Кристиан Д. Вунш опубликовали первый компьютерный алгоритм выравнивания двух последовательностей. ^[8] За это время достижения в области получения нуклеотидной последовательности значительно улучшились, что привело к публикации первого полного генома бактериофага в 1977 году. ^[9] Считалось, что Роберт Холли и его команда из Корнелльского университета первыми секвенировали Молекула РНК. ^[10]

Выравнивание последовательности

Пример множественного выравнивания последовательностей

Известны миллионы белковых и нуклеотидных последовательностей. Эти последовательности делятся на множество групп родственных последовательностей, известных как семейства белков или семейства генов. Отношения между этими последовательностями обычно обнаруживаются путем их выравнивания и присвоения этому выравниванию оценки. Существует два основных типа выравнивания последовательностей. При парном выравнивании последовательностей сравниваются только две последовательности одновременно, а при множественном выравнивании последовательностей сравниваются многие последовательности. Двумя важными алгоритмами выравнивания пар последовательностей являются алгоритм Нидлмана-Вунша и алгоритм Смита-Уотермана . Популярные инструменты для выравнивания последовательностей включают:

Попарное выравнивание — BLAST , Точечные графики
Множественное выравнивание — ClustalW , PROBCONS , MUSCLE , MAFFT и T-Coffee .

Обычное использование парного выравнивания последовательностей заключается в том, чтобы взять интересующую последовательность и сравнить ее со всеми известными последовательностями в базе данных для идентификации гомологичных последовательностей . Как правило, совпадения в базе данных упорядочены таким образом, чтобы сначала отображались наиболее близкородственные последовательности, а затем последовательности с уменьшающимся сходством. Об этих совпадениях обычно сообщают с помощью меры статистической значимости, такой как значение ожидания .

Сравнение профилей

В 1987 году Майкл Грибсков, Эндрю Маклахлан и Дэвид Айзенберг представили метод сравнения профилей для выявления отдаленных сходств между белками. ^[11] Вместо использования одной последовательности в методах профиля используется множественное выравнивание последовательностей для кодирования профиля, который содержит информацию об уровне консервации каждого остатка. Эти профили затем можно использовать для поиска в коллекциях последовательностей, чтобы найти родственные последовательности. Профили также известны как матрицы оценок для конкретной позиции (PSSM). В 1993 году Андерс Крог и его коллеги представили вероятностную интерпретацию профилей с использованием скрытых марковских моделей . ^[12]^[13] Эти модели стали известны как профильные HMM.

В последние годы ^{[ когда? ]} разработаны методы, позволяющие сравнивать профили непосредственно друг с другом. Они известны как методы сравнения профилей. ^[14]

Последовательность сборки

Сборка последовательности относится к реконструкции последовательности ДНК путем выравнивания и слияния небольших фрагментов ДНК. Это неотъемлемая часть современного секвенирования ДНК . Поскольку доступные в настоящее время технологии секвенирования ДНК плохо подходят для считывания длинных последовательностей, большие фрагменты ДНК (например, геномы) часто секвенируют путем (1) разрезания ДНК на мелкие кусочки, (2) считывания небольших фрагментов и (3) ) восстановление исходной ДНК путем слияния информации о различных фрагментах.

В последнее время секвенирование нескольких видов одновременно является одной из главных задач исследований. Метагеномика — это изучение микробных сообществ, полученных непосредственно из окружающей среды. В отличие от культивируемых в лаборатории микроорганизмов, дикий образец обычно содержит десятки, а иногда даже тысячи типов микроорганизмов из их первоначальной среды обитания. ^[15] Восстановление исходных геномов может оказаться очень сложной задачей.

Генное предсказание

Предсказание генов или поиск генов относится к процессу идентификации областей геномной ДНК, которые кодируют гены . Это включает в себя гены , кодирующие белки , а также гены РНК , но может также включать предсказание других функциональных элементов, таких как регуляторные области . Джери — один из первых и наиболее важных шагов в понимании генома вида после его секвенирования . В целом предсказание бактериальных генов значительно проще и точнее, чем предсказание генов эукариотических видов, которые обычно имеют сложные структуры интронов / экзонов . Идентификация генов в длинных последовательностях остается проблемой, особенно когда количество генов неизвестно. Скрытые марковские модели могут стать частью решения. ^[16] Машинное обучение сыграло значительную роль в предсказании последовательности факторов транскрипции. ^[17] Традиционный анализ секвенирования фокусировался на статистических параметрах самой нуклеотидной последовательности (наиболее распространенные используемые программы перечислены в Таблице 4.1). Другой метод заключается в идентификации гомологичных последовательностей на основе других известных последовательностей генов (инструменты см. в Таблице 4.3). ^[18] Два метода, описанные здесь, ориентированы на последовательность. Однако особенности формы этих молекул, таких как ДНК и белок, также были изучены и предположили, что они оказывают эквивалентное, если не большее, влияние на поведение этих молекул. ^[19]

Прогнозирование структуры белка

Трехмерные структуры молекул имеют большое значение для их функций в природе. Поскольку предсказание структуры больших молекул на атомном уровне является в значительной степени неразрешимой проблемой, некоторые биологи предложили способы прогнозирования трехмерной структуры на уровне первичной последовательности. Это включает биохимический или статистический анализ аминокислотных остатков в локальных областях и структурные выводы на основе гомологов (или других потенциально родственных белков) с известными трехмерными структурами.

Существует большое количество разнообразных подходов к решению проблемы прогнозирования структуры. Чтобы определить, какие методы оказались наиболее эффективными, был основан конкурс по предсказанию структуры под названием CASP (Критическая оценка прогнозирования структуры). ^[20]

Методология

Задачи, лежащие в области анализа последовательностей, зачастую нетривиальны для решения и требуют использования относительно сложных подходов. Из множества видов методов, используемых на практике, к наиболее популярным можно отнести: