В биоинформатике анализ последовательностей — это процесс воздействия на последовательность ДНК , РНК или пептида любого из широкого спектра аналитических методов, чтобы понять ее особенности, функцию, структуру или эволюцию. Он может быть выполнен на всем геноме, транскриптоме или протеоме организма, а также может включать только выбранные сегменты или регионы, такие как тандемные повторы и мобильные элементы. Используемые методологии включают выравнивание последовательностей , поиск по биологическим базам данных и другие. [1]
С развитием методов высокопроизводительного получения последовательностей генов и белков скорость добавления новых последовательностей в базы данных увеличилась очень быстро. Такая коллекция последовательностей сама по себе не увеличивает понимание учеными биологии организмов. Однако сравнение этих новых последовательностей с последовательностями с известными функциями является ключевым способом понимания биологии организма, из которого произошла новая последовательность. Таким образом, анализ последовательностей можно использовать для назначения функций кодирующим и некодирующим областям биологической последовательности, обычно путем сравнения последовательностей и изучения сходств и различий. В настоящее время существует множество инструментов и методов, которые обеспечивают сравнение последовательностей (выравнивание последовательностей) и анализируют продукт выравнивания, чтобы понять его биологию.
Анализ последовательностей в молекулярной биологии включает в себя очень широкий спектр процессов:
С тех пор как самые первые последовательности белка инсулина были охарактеризованы Фредом Сэнгером в 1951 году, биологи пытались использовать эти знания, чтобы понять функции молекул. [2] [3] Открытия его и его коллег способствовали успешному секвенированию первого генома на основе ДНК. [4] Метод, использованный в этом исследовании, который называется «методом Сэнгера» или секвенированием Сэнгера , стал важной вехой в секвенировании длинноцепочечных молекул, таких как ДНК. Этот метод в конечном итоге был использован в проекте генома человека . [5] По мнению Майкла Левитта , анализ последовательностей зародился в период с 1969 по 1977 год. [6] В 1969 году анализ последовательностей транспортных РНК был использован для вывода о взаимодействиях остатков на основе коррелирующих изменений в нуклеотидных последовательностях, приводящих к модель вторичной структуры тРНК . [7] В 1970 году Сол Б. Нидлман и Кристиан Д. Вунш опубликовали первый компьютерный алгоритм выравнивания двух последовательностей. [8] За это время достижения в области получения нуклеотидной последовательности значительно улучшились, что привело к публикации первого полного генома бактериофага в 1977 году. [9] Считалось, что Роберт Холли и его команда из Корнелльского университета первыми секвенировали Молекула РНК. [10]
Анализ нуклеотидных последовательностей идентифицирует функциональные элементы, такие как сайты связывания белков, выявляет генетические вариации, такие как SNP, изучает закономерности экспрессии генов и понимает генетическую основу признаков. Это помогает понять механизмы, которые способствуют таким процессам, как репликация и транскрипция. Некоторые из поставленных задач описаны ниже.
Контроль качества оценивает качество считываний секвенирования, полученных с помощью технологии секвенирования (например, Illumina ). Это первый шаг в анализе последовательности, позволяющий ограничить ошибочные выводы из-за данных низкого качества. Инструменты, используемые на этом этапе, зависят от платформы секвенирования. Например, FastQC проверяет качество коротких считываний (включая последовательности РНК), Nanoplot или PycoQC используются для длинных последовательностей считывания (например, считывания последовательностей Nanopore), а MultiQC агрегирует результаты FastQC в формате веб-страницы. [11] [12] [13]
Контроль качества предоставляет такую информацию, как длина чтения, содержание GC , наличие последовательностей адаптеров (для коротких чтений) и показатель качества, который часто выражается по шкале PHRED . [14] Если в считываниях (особенно коротких считываниях) присутствуют адаптеры или другие артефакты ПЦР-амплификации, их удаляют с помощью такого программного обеспечения, как Trimmomatic [15] или Cutadapt. [16]
На этом этапе чтения секвенирования, качество которых было улучшено, сопоставляются с эталонным геномом с использованием инструментов выравнивания, таких как BWA [17] для чтения коротких последовательностей ДНК, миникарта [18] для длинных последовательностей ДНК и STAR [19] для чтения последовательностей РНК. . Цель сопоставления — найти источник любого данного чтения на основе ссылочной последовательности. Это также важно для обнаружения вариаций или филогенетических исследований . Результаты этого шага, то есть выровненные чтения, сохраняются в совместимых форматах файлов, известных как SAM, которые содержат информацию об эталонном геноме, а также об отдельных чтениях. В качестве альтернативы предпочтительны форматы файлов BAM , поскольку они занимают гораздо меньше места на столе или в хранилище. [14]
Примечание . Это отличается от выравнивания последовательностей, при котором сравниваются две или более целые последовательности (или области последовательностей) для количественной оценки сходства или различий или идентификации неизвестной последовательности (как описано ниже).
Для последовательностей ДНК характерны следующие этапы анализа:
Идентификация вариантов является популярным аспектом анализа последовательностей, поскольку варианты часто содержат информацию биологического значения, например, объясняющую механизм лекарственной устойчивости при инфекционном заболевании. Эти варианты могут представлять собой однонуклеотидные варианты (SNV), небольшие инсерции/делеции (инделы) и крупные структурные варианты . Выравнивания чтения сортируются с помощью SAMtools , после чего используются вызывающие варианты, такие как GATK [20], для выявления различий по сравнению с эталонной последовательностью.
Выбор инструмента вызова вариантов во многом зависит от используемой технологии секвенирования, поэтому GATK часто используется при работе с короткими чтениями, тогда как для длинных последовательностей чтения требуются такие инструменты, как DeepVariant [21] и Sniffles. [22] Инструменты также могут различаться в зависимости от организма (прокариоты или эукариоты), источника данных о последовательностях (рак или метагеномный ) и типа интересующего варианта (SNV или структурные варианты). Результаты вызова вариантов обычно имеют формат vcf и могут быть отфильтрованы с использованием частот аллелей, показателей качества или других факторов, основанных на рассматриваемом вопросе исследования. [14]
На этом этапе к вариантам данных добавляется контекст, используя тщательно подобранную информацию из рецензируемых статей и общедоступных баз данных, таких как gnomAD и Ensembl . Варианты могут быть аннотированы информацией о геномных особенностях, функциональных последствиях, регуляторных элементах и частоте популяций с использованием таких инструментов, как ANNOVAR или SnpEff, [23] или пользовательских сценариев и конвейера. Результатом этого шага является файл аннотаций в формате Bed или TXT. [14]
Геномные данные, такие как выравнивание чтения, графики покрытия и вызовы вариантов, можно визуализировать с помощью браузеров генома, таких как IGV (Integative Genomics Viewer) или UCSC Genome Browser. Интерпретация результатов осуществляется в контексте исследуемого биологического вопроса или гипотезы. Результатом может быть графическое представление данных в виде графиков Цирка, графиков вулканов и т. д. или других форм отчета, описывающего наблюдения. [14]
Анализ последовательности ДНК также может включать статистическое моделирование для определения взаимосвязей и эпигенетический анализ, например, выявление областей дифференциального метилирования с использованием такого инструмента, как DSS.
Для последовательностей РНК характерны следующие этапы:
Картированные последовательности РНК анализируются для оценки уровней экспрессии генов с использованием инструментов количественного анализа, таких как HTSeq, [24] и идентификации дифференциально экспрессируемых генов (DEG) в зависимости от экспериментальных условий с использованием статистических методов, таких как DESeq2 . [25] Это проводится для сравнения уровней экспрессии генов или изоформ между различными образцами или между ними и вывода о биологической значимости. [14] Результатом анализа экспрессии генов обычно является таблица со значениями, представляющими уровни экспрессии идентификаторов или названий генов в строках и образцами в столбцах, а также стандартные ошибки и p-значения. Результаты в таблице можно дополнительно визуализировать с помощью графиков вулканов и тепловых карт, где цвета представляют предполагаемый уровень экспрессии. Такие пакеты, как ggplot2 в R и Matplotlib в Python, часто используются для создания визуальных эффектов. Таблицу также можно аннотировать с использованием справочного файла аннотаций, обычно в формате GTF или GFF , чтобы предоставить больше контекста о генах, например имя хромосомы, цепь, начало и положение, а также облегчить интерпретацию результатов. [14] [12] [13] [26]
Анализ функционального обогащения идентифицирует биологические процессы, пути и функциональные воздействия, связанные с дифференциально экспрессируемыми генами, полученными на предыдущем этапе. Он использует такие инструменты, как GOSeq [27] и Pathview. [28] В результате создается таблица с информацией о том, какие пути и молекулярные процессы связаны с дифференциально экспрессируемыми генами, какие гены понижены или повышены, а также какие термины онтологии генов являются повторяющимися или перепредставленными. [14] [12] [13] [26]
Анализ последовательности РНК исследует динамику экспрессии генов и механизмы регуляции, лежащие в основе биологических процессов и заболеваний. Интерпретация изображений и таблиц осуществляется в контексте исследуемых гипотез.
См. также: Транскриптомные технологии .
Анализ последовательности протеома изучает полный набор белков, экспрессируемых организмом или клеткой в определенных условиях. Он описывает структуру белка, функции, посттрансляционные модификации и взаимодействия внутри биологических систем. Часто все начинается с необработанных данных масс-спектрометрии (МС) из экспериментов по протеомике, обычно в форматах файлов mzML, mzXML или RAW. [14]
Помимо предварительной обработки необработанных данных МС для удаления шума, нормализации интенсивностей и обнаружения пиков, а также преобразования собственных форматов файлов (например, RAW) в форматы с открытым исходным кодом (mzML, mzXML) для совместимости с последующими инструментами анализа, другие аналитические этапы включают идентификацию пептидов , количественная оценка, вывод и количественная оценка белка, создание отчета о контроле качества, а также нормализация, вменение и проверка значимости. Выбор и порядок аналитических шагов зависят от используемого метода МС, который может быть либо сбором данных (DDA), либо независимым сбором (DIA). [14] [29]
Геномные браузеры предлагают удобный интерфейс, не требующий кодирования, для визуализации геномов и геномных сегментов, определения геномных особенностей и анализа взаимосвязей между многочисленными геномными элементами. Три основных браузера генома — браузер генома Ensembl, браузер генома UCSC и Национальный центр биотехнологической информации (NCBI) — поддерживают различные процедуры анализа последовательностей, включая сборку генома, аннотацию генома и сравнительную геномику, например изучение моделей дифференциальной экспрессии и выявление консервативных областей. . Все браузеры поддерживают несколько форматов данных для загрузки и скачивания и предоставляют ссылки на внешние инструменты и ресурсы для анализа последовательностей, что способствует их универсальности. [30] [31]
Известны миллионы белковых и нуклеотидных последовательностей. Эти последовательности делятся на множество групп родственных последовательностей, известных как семейства белков или семейства генов. Отношения между этими последовательностями обычно обнаруживаются путем их выравнивания и присвоения этому выравниванию оценки. Существует два основных типа выравнивания последовательностей. При парном выравнивании последовательностей сравниваются только две последовательности одновременно, а при множественном выравнивании последовательностей сравниваются многие последовательности. Двумя важными алгоритмами выравнивания пар последовательностей являются алгоритм Нидлмана-Вунша и алгоритм Смита-Уотермана . Популярные инструменты для выравнивания последовательностей включают:
Обычное использование парного выравнивания последовательностей заключается в том, чтобы взять интересующую последовательность и сравнить ее со всеми известными последовательностями в базе данных для идентификации гомологичных последовательностей . Как правило, совпадения в базе данных упорядочены таким образом, чтобы сначала отображались наиболее близкородственные последовательности, а затем последовательности с уменьшающимся сходством. Об этих совпадениях обычно сообщают с помощью меры статистической значимости, такой как значение ожидания .
В 1987 году Майкл Грибсков, Эндрю Маклахлан и Дэвид Айзенберг представили метод сравнения профилей для выявления отдаленных сходств между белками. [32] Вместо использования одной последовательности в методах профиля используется множественное выравнивание последовательностей для кодирования профиля, который содержит информацию об уровне консервации каждого остатка. Эти профили затем можно использовать для поиска в коллекциях последовательностей, чтобы найти родственные последовательности. Профили также известны как матрицы подсчета очков для конкретной позиции (PSSM). В 1993 году Андерс Крог и его коллеги представили вероятностную интерпретацию профилей с использованием скрытых марковских моделей . [33] [34] Эти модели стали известны как профильные HMM.
В последние годы [ когда? ] разработаны методы, позволяющие сравнивать профили непосредственно друг с другом. Они известны как методы сравнения профилей. [35]
Сборка последовательности относится к реконструкции последовательности ДНК путем выравнивания и слияния небольших фрагментов ДНК. Это неотъемлемая часть современного секвенирования ДНК . Поскольку доступные в настоящее время технологии секвенирования ДНК плохо подходят для считывания длинных последовательностей, большие фрагменты ДНК (например, геномы) часто секвенируют путем (1) разрезания ДНК на мелкие кусочки, (2) считывания небольших фрагментов и (3) ) восстановление исходной ДНК путем слияния информации о различных фрагментах.
В последнее время секвенирование нескольких видов одновременно является одной из главных задач исследований. Метагеномика — это изучение микробных сообществ, полученных непосредственно из окружающей среды. В отличие от культивируемых в лаборатории микроорганизмов, дикий образец обычно содержит десятки, а иногда даже тысячи типов микроорганизмов из их первоначальной среды обитания. [36] Восстановление исходных геномов может оказаться очень сложной задачей.
Предсказание генов или поиск генов относится к процессу идентификации областей геномной ДНК, которые кодируют гены . Это включает в себя гены , кодирующие белки , а также гены РНК , но может также включать предсказание других функциональных элементов, таких как регуляторные области . Джери — один из первых и наиболее важных шагов в понимании генома вида после его секвенирования . В целом предсказание бактериальных генов значительно проще и точнее, чем предсказание генов эукариотических видов, которые обычно имеют сложные структуры интронов / экзонов . Идентификация генов в длинных последовательностях остается проблемой, особенно когда количество генов неизвестно. Скрытые марковские модели могут стать частью решения. [37] Машинное обучение сыграло значительную роль в предсказании последовательности факторов транскрипции. [38] Традиционный анализ секвенирования фокусировался на статистических параметрах самой нуклеотидной последовательности (наиболее распространенные используемые программы перечислены в Таблице 4.1). Другой метод заключается в идентификации гомологичных последовательностей на основе других известных последовательностей генов (инструменты см. в Таблице 4.3). [39] Два метода, описанные здесь, ориентированы на последовательность. Однако особенности формы этих молекул, таких как ДНК и белок, также были изучены и предположили, что они оказывают эквивалентное, если не большее, влияние на поведение этих молекул. [40]
Трехмерные структуры молекул имеют большое значение для их функций в природе. Поскольку предсказание структуры больших молекул на атомном уровне является в значительной степени неразрешимой проблемой, некоторые биологи предложили способы прогнозирования трехмерной структуры на уровне первичной последовательности. Это включает биохимический или статистический анализ аминокислотных остатков в локальных областях и структурные выводы на основе гомологов (или других потенциально родственных белков) с известными трехмерными структурами.
Существует большое количество разнообразных подходов к решению проблемы прогнозирования структуры. Чтобы определить, какие методы оказались наиболее эффективными, был основан конкурс по предсказанию структуры под названием CASP (Критическая оценка прогнозирования структуры). [41]
Задачи анализа последовательностей часто нетривиальны для решения и требуют использования относительно сложных подходов, многие из которых являются основой многих существующих инструментов анализа последовательностей. Из множества методов, используемых на практике, к наиболее популярным можно отнести следующие: