В биоинформатике анализ последовательности — это процесс подвергания ДНК , РНК или пептидной последовательности любому из широкого спектра аналитических методов для понимания ее особенностей, функции, структуры или эволюции. Он может быть выполнен на всем геноме, транскриптоме или протеоме организма, а также может включать только выбранные сегменты или регионы, такие как тандемные повторы и транспонируемые элементы. Используемые методологии включают выравнивание последовательностей , поиск по биологическим базам данных и другие. [1]
С развитием методов высокопроизводительного производства последовательностей генов и белков скорость добавления новых последовательностей в базы данных возросла очень быстро. Такой набор последовательностей сам по себе не увеличивает понимание ученым биологии организмов. Однако сравнение этих новых последовательностей с последовательностями с известными функциями является ключевым способом понимания биологии организма, из которого происходит новая последовательность. Таким образом, анализ последовательностей может использоваться для назначения функции кодирующим и некодирующим областям в биологической последовательности, как правило, путем сравнения последовательностей и изучения сходств и различий. В настоящее время существует множество инструментов и методов, которые обеспечивают сравнение последовательностей (выравнивание последовательностей) и анализируют продукт выравнивания для понимания его биологии.
Анализ последовательностей в молекулярной биологии включает в себя очень широкий спектр процессов:
С тех пор, как самые первые последовательности белка инсулина были охарактеризованы Фредом Сэнгером в 1951 году, биологи пытались использовать эти знания для понимания функции молекул. [2] [3] Открытия, сделанные им и его коллегами, способствовали успешному секвенированию первого генома на основе ДНК. [4] Метод, использованный в этом исследовании, который называется «метод Сэнгера» или секвенирование по Сэнгеру , стал важной вехой в секвенировании длинноцепочечных молекул, таких как ДНК. Этот метод в конечном итоге был использован в проекте генома человека . [5] По словам Майкла Левитта , анализ последовательностей зародился в период с 1969 по 1977 год. [6] В 1969 году анализ последовательностей транспортных РНК использовался для вывода взаимодействий остатков из коррелированных изменений в последовательностях нуклеотидов, что привело к созданию модели вторичной структуры тРНК . [7] В 1970 году Сол Б. Нидлман и Кристиан Д. Вунш опубликовали первый компьютерный алгоритм для выравнивания двух последовательностей. [8] За это время разработки в области получения нуклеотидной последовательности значительно усовершенствовались, что привело к публикации первого полного генома бактериофага в 1977 году. [9] Роберт Холли и его команда в Корнеллском университете считались первыми, кто секвенировал молекулу РНК. [10]
Анализы нуклеотидной последовательности идентифицируют функциональные элементы, такие как сайты связывания белков, раскрывают генетические вариации, такие как SNP, изучают паттерны экспрессии генов и понимают генетическую основу признаков. Это помогает понять механизмы, которые способствуют таким процессам, как репликация и транскрипция. Некоторые из задач, которые при этом выполняются, описаны ниже.
Контроль качества оценивает качество прочтений секвенирования, полученных с помощью технологии секвенирования (например, Illumina ). Это первый шаг в анализе последовательностей, чтобы ограничить неправильные выводы из-за некачественных данных. Инструменты, используемые на этом этапе, зависят от платформы секвенирования. Например, FastQC проверяет качество коротких прочтений (включая последовательности РНК), Nanoplot или PycoQC используются для длинных последовательностей прочтений (например, прочтений последовательностей Nanopore), а MultiQC объединяет результат FastQC в формате веб-страницы. [11] [12] [13]
Контроль качества предоставляет такую информацию, как длина прочтений, содержание GC , наличие последовательностей адаптеров (для коротких прочтений) и оценка качества, которая часто выражается по шкале PHRED . [14] Если в прочтениях присутствуют адаптеры или другие артефакты от ПЦР-амплификации (особенно короткие прочтения), их удаляют с помощью программного обеспечения, такого как Trimmomatic [15] или Cutadapt. [16]
На этом этапе прочтения секвенирования, качество которых было улучшено, сопоставляются с референтным геномом с помощью инструментов выравнивания, таких как BWA [17] для коротких прочтений последовательностей ДНК, minimap [18] для длинных прочтений последовательностей ДНК и STAR [19] для прочтений последовательностей РНК. Целью картирования является поиск источника любого данного прочтения на основе референтной последовательности. Это также важно для обнаружения вариаций или филогенетических исследований . Выходные данные этого этапа, то есть выровненные прочтения, сохраняются в совместимых форматах файлов, известных как SAM, которые содержат информацию об эталонном геноме, а также об отдельных прочтениях. В качестве альтернативы предпочтительны форматы файлов BAM , поскольку они занимают гораздо меньше места на столе или в хранилище. [14]
Примечание : Это отличается от выравнивания последовательностей, при котором сравниваются две или более целых последовательности (или участков последовательностей) для количественной оценки сходства или различий или для идентификации неизвестной последовательности (как обсуждается ниже).
Для последовательностей ДНК характерны следующие этапы анализа:
Идентификация вариантов является популярным аспектом анализа последовательностей, поскольку варианты часто содержат информацию биологического значения, например, объясняющую механизм лекарственной устойчивости при инфекционном заболевании. Эти варианты могут быть вариантами отдельных нуклеотидов (SNV), небольшими вставками/делециями (indels) и крупными структурными вариантами . Выравнивания прочтений сортируются с помощью SAMtools , после чего используются вызывающие варианты, такие как GATK [20], для выявления различий по сравнению с референтной последовательностью.
Выбор инструмента вызова вариантов во многом зависит от используемой технологии секвенирования, поэтому GATK часто используется при работе с короткими прочтениями, в то время как для длинных последовательностей прочтений требуются такие инструменты, как DeepVariant [21] и Sniffles. [22] Инструменты также могут различаться в зависимости от организма (прокариоты или эукариоты), источника данных о последовательности (рак или метагеномный ) и типа интересующего варианта (SNV или структурные варианты). Выходные данные вызова вариантов обычно находятся в формате vcf и могут быть отфильтрованы с использованием частот аллелей, показателей качества или других факторов в зависимости от рассматриваемого вопроса исследования. [14]
Этот шаг добавляет контекст к данным вариантов, используя курируемую информацию из рецензируемых статей и общедоступных баз данных, таких как gnomAD и Ensembl . Варианты могут быть аннотированы информацией о геномных особенностях, функциональных последствиях, регуляторных элементах и частотах популяции, используя такие инструменты, как ANNOVAR или SnpEff, [23] или пользовательские скрипты и конвейер. Выходом этого шага является файл аннотации в формате bed или txt. [14]
Геномные данные, такие как выравнивания прочтений, графики покрытия и вызовы вариантов, можно визуализировать с помощью геномных браузеров, таких как IGV (Integrative Genomics Viewer) или UCSC Genome Browser. Интерпретация результатов выполняется в контексте биологического вопроса или исследуемой гипотезы. Выходными данными может быть графическое представление данных в виде графиков Circos, графиков вулкана и т. д. или других форм отчетов, описывающих наблюдения. [14]
Анализ последовательности ДНК может также включать статистическое моделирование для установления взаимосвязей и эпигенетический анализ, например, выявление дифференциальных областей метилирования с использованием такого инструмента, как DSS.
Для последовательностей РНК характерны следующие этапы:
Картированные последовательности РНК анализируются для оценки уровней экспрессии генов с использованием инструментов количественной оценки, таких как HTSeq, [24] и идентификации дифференциально экспрессируемых генов (DEG) между экспериментальными условиями с использованием статистических методов, таких как DESeq2 . [25] Это выполняется для сравнения уровней экспрессии генов или изоформ между или между различными образцами и выведения биологической значимости. [14] Выходные данные анализа экспрессии генов обычно представляют собой таблицу со значениями, представляющими уровни экспрессии идентификаторов или названий генов в строках и образцов в столбцах, а также стандартными ошибками и p-значениями. Результаты в таблице могут быть дополнительно визуализированы с использованием графиков вулканов и тепловых карт, где цвета представляют предполагаемый уровень экспрессии. Пакеты, такие как ggplot2 в R и Matplotlib в Python, часто используются для создания визуальных эффектов. Таблицу также можно аннотировать с помощью файла справочной аннотации, обычно в формате GTF или GFF, чтобы предоставить больше контекста о генах, например, имя хромосомы, цепь, начало и позиции, и помочь в интерпретации результатов. [14] [12] [13] [26]
Анализ функционального обогащения выявляет биологические процессы, пути и функциональные воздействия, связанные с дифференциально экспрессируемыми генами, полученными на предыдущем этапе. Он использует такие инструменты, как GOSeq [27] и Pathview. [28] Это создает таблицу с информацией о том, какие пути и молекулярные процессы связаны с дифференциально экспрессируемыми генами, какие гены подавлены или повышены, и какие термины онтологии генов повторяются или перепредставлены. [14] [12] [13] [26]
Анализ последовательности РНК исследует динамику экспрессии генов и регуляторные механизмы, лежащие в основе биологических процессов и заболеваний. Интерпретация изображений и таблиц осуществляется в контексте исследуемых гипотез.
См. также: Транскриптомные технологии .
Анализ последовательности протеома изучает полный набор белков, экспрессируемых организмом или клеткой в определенных условиях. Он описывает структуру белка, функцию, посттрансляционные модификации и взаимодействия в биологических системах. Он часто начинается с необработанных данных масс-спектрометрии (МС) из экспериментов по протеомике, как правило, в форматах файлов mzML, mzXML или RAW. [14]
Помимо предварительной обработки сырых данных MS для удаления шума, нормализации интенсивностей и обнаружения пиков, а также преобразования собственных форматов файлов (например, RAW) в форматы с открытым исходным кодом (mzML, mzXML) для совместимости с инструментами анализа ниже по потоку, другие аналитические шаги включают идентификацию пептидов , количественную оценку пептидов, вывод и количественную оценку белков, создание отчета о контроле качества, а также нормализацию, импутацию и тестирование значимости. Выбор и порядок аналитических шагов зависят от используемого метода MS, который может быть либо зависимым от данных приобретением (DDA), либо независимым приобретением (DIA). [14] [29]
Геномные браузеры предлагают некодовый, удобный интерфейс для визуализации геномов и геномных сегментов, определения геномных особенностей и анализа взаимосвязи между многочисленными геномными элементами. Три основных геномных браузера — геномный браузер Ensembl, геномный браузер UCSC и Национальный центр биотехнологической информации (NCBI) — поддерживают различные процедуры анализа последовательностей, включая сборку генома, аннотацию генома и сравнительную геномику, например, изучение дифференциальных паттернов экспрессии и идентификацию консервативных областей. Все браузеры поддерживают несколько форматов данных для загрузки и скачивания и предоставляют ссылки на внешние инструменты и ресурсы для анализа последовательностей, что способствует их универсальности. [30] [31]
Известны миллионы последовательностей белков и нуклеотидов . Эти последовательности делятся на множество групп связанных последовательностей, известных как семейства белков или семейства генов. Отношения между этими последовательностями обычно обнаруживаются путем их выравнивания вместе и присвоения этому выравниванию оценки. Существует два основных типа выравнивания последовательностей. Парное выравнивание последовательностей сравнивает только две последовательности за раз, а множественное выравнивание последовательностей сравнивает много последовательностей. Два важных алгоритма для выравнивания пар последовательностей — это алгоритм Нидлмана-Вунша и алгоритм Смита-Уотермана . Популярные инструменты для выравнивания последовательностей включают:
Обычное использование парного выравнивания последовательностей заключается в том, чтобы взять интересующую последовательность и сравнить ее со всеми известными последовательностями в базе данных для выявления гомологичных последовательностей . В общем, совпадения в базе данных упорядочены так, чтобы сначала показать наиболее тесно связанные последовательности, а затем последовательности с уменьшающимся сходством. Эти совпадения обычно сообщаются с мерой статистической значимости, такой как значение ожидания .
В 1987 году Майкл Грибсков, Эндрю Маклахлан и Дэвид Эйзенберг представили метод сравнения профилей для выявления отдаленных сходств между белками. [32] Вместо использования одной последовательности, методы профилей используют множественное выравнивание последовательностей для кодирования профиля, который содержит информацию об уровне консервативности каждого остатка. Затем эти профили можно использовать для поиска коллекций последовательностей, чтобы найти связанные последовательности. Профили также известны как матрицы оценки специфической позиции (PSSM). В 1993 году Андерс Крог и его коллеги представили вероятностную интерпретацию профилей с использованием скрытых марковских моделей . [33] [34] Эти модели стали известны как профильные HMM.
В последние годы [ когда? ] были разработаны методы, позволяющие сравнивать профили напрямую друг с другом. Они известны как методы сравнения профиль-профиль. [35]
Сборка последовательности относится к реконструкции последовательности ДНК путем выравнивания и слияния небольших фрагментов ДНК. Это неотъемлемая часть современного секвенирования ДНК . Поскольку имеющиеся в настоящее время технологии секвенирования ДНК плохо подходят для чтения длинных последовательностей, большие фрагменты ДНК (например, геномы) часто секвенируются путем (1) разрезания ДНК на небольшие фрагменты, (2) чтения небольших фрагментов и (3) восстановления исходной ДНК путем слияния информации на различных фрагментах.
В последнее время секвенирование нескольких видов одновременно является одной из главных исследовательских задач. Метагеномика — это изучение микробных сообществ, полученных непосредственно из окружающей среды. В отличие от культивируемых микроорганизмов из лаборатории, дикий образец обычно содержит десятки, иногда даже тысячи типов микроорганизмов из их исходной среды обитания. [36] Восстановление исходных геномов может оказаться очень сложной задачей.
Предсказание генов или поиск генов относится к процессу идентификации областей геномной ДНК, которые кодируют гены . Это включает гены , кодирующие белки , а также гены РНК , но может также включать предсказание других функциональных элементов, таких как регуляторные области . Geri является одним из первых и наиболее важных шагов в понимании генома вида после его секвенирования . В целом, предсказание бактериальных генов значительно проще и точнее, чем предсказание генов эукариотических видов, которые обычно имеют сложные интронно - экзонные паттерны. Идентификация генов в длинных последовательностях остается проблемой, особенно когда количество генов неизвестно. Скрытые марковские модели могут быть частью решения. [37] Машинное обучение сыграло значительную роль в предсказании последовательности факторов транскрипции. [38] Традиционный анализ секвенирования сосредоточен на статистических параметрах самой нуклеотидной последовательности (наиболее распространенные используемые программы перечислены в таблице 4.1). Другой метод заключается в идентификации гомологичных последовательностей на основе других известных последовательностей генов (инструменты см. в таблице 4.3). [39] Два метода, описанные здесь, сосредоточены на последовательности. Однако, особенность формы этих молекул, таких как ДНК и белок, также была изучена и, как предполагается, имеет эквивалентное, если не большее, влияние на поведение этих молекул. [40]
3D-структуры молекул имеют большое значение для их функций в природе. Поскольку структурное предсказание больших молекул на атомном уровне является в значительной степени неразрешимой проблемой, некоторые биологи предложили способы предсказания 3D-структуры на уровне первичной последовательности. Это включает в себя биохимический или статистический анализ аминокислотных остатков в локальных областях и структурный вывод из гомологов (или других потенциально родственных белков) с известными 3D-структурами.
Было много различных подходов к решению проблемы прогнозирования структуры. Чтобы определить, какие методы наиболее эффективны, был основан конкурс по прогнозированию структуры под названием CASP (Critical Assessment of Structure Prediction). [41]
Задачи анализа последовательностей часто нетривиальны для решения и требуют использования относительно сложных подходов, многие из которых являются основой многих существующих инструментов анализа последовательностей. Из множества методов, используемых на практике, наиболее популярными являются следующие: