Анализ последовательности

В биоинформатике анализ последовательностей — это процесс воздействия на последовательность ДНК , РНК или пептида любого из широкого спектра аналитических методов, чтобы понять ее особенности, функцию, структуру или эволюцию. Он может быть выполнен на всем геноме, транскриптоме или протеоме организма, а также может включать только выбранные сегменты или регионы, такие как тандемные повторы и мобильные элементы. Используемые методологии включают выравнивание последовательностей , поиск по биологическим базам данных и другие. ^[1]

С развитием методов высокопроизводительного получения последовательностей генов и белков скорость добавления новых последовательностей в базы данных увеличилась очень быстро. Такая коллекция последовательностей сама по себе не увеличивает понимание учеными биологии организмов. Однако сравнение этих новых последовательностей с последовательностями с известными функциями является ключевым способом понимания биологии организма, из которого произошла новая последовательность. Таким образом, анализ последовательностей можно использовать для назначения функций кодирующим и некодирующим областям биологической последовательности, обычно путем сравнения последовательностей и изучения сходств и различий. В настоящее время существует множество инструментов и методов, которые обеспечивают сравнение последовательностей (выравнивание последовательностей) и анализируют продукт выравнивания, чтобы понять его биологию.

Анализ последовательностей в молекулярной биологии включает в себя очень широкий спектр процессов:

Сравнение последовательностей для обнаружения сходства, часто для вывода о том, родственны ли они ( гомологичны ).
Идентификация внутренних особенностей последовательности, таких как активные сайты , сайты посттрансляционной модификации , генные структуры , рамки считывания , распределение интронов и экзонов и регуляторных элементов.
Идентификация различий и вариаций последовательностей, таких как точечные мутации и однонуклеотидный полиморфизм (SNP), для получения генетического маркера .
Выявление эволюции и генетического разнообразия последовательностей и организмов
Идентификация молекулярной структуры только по последовательности.

История

С тех пор как самые первые последовательности белка инсулина были охарактеризованы Фредом Сэнгером в 1951 году, биологи пытались использовать эти знания, чтобы понять функции молекул. ^[2]^[3] Открытия его и его коллег способствовали успешному секвенированию первого генома на основе ДНК. ^[4] Метод, использованный в этом исследовании, который называется «методом Сэнгера» или секвенированием Сэнгера , стал важной вехой в секвенировании длинноцепочечных молекул, таких как ДНК. Этот метод в конечном итоге был использован в проекте генома человека . ^[5] По мнению Майкла Левитта , анализ последовательностей зародился в период с 1969 по 1977 год. ^[6] В 1969 году анализ последовательностей транспортных РНК был использован для вывода о взаимодействиях остатков на основе коррелирующих изменений в нуклеотидных последовательностях, приводящих к модель вторичной структуры тРНК . ^[7] В 1970 году Сол Б. Нидлман и Кристиан Д. Вунш опубликовали первый компьютерный алгоритм выравнивания двух последовательностей. ^[8] За это время достижения в области получения нуклеотидной последовательности значительно улучшились, что привело к публикации первого полного генома бактериофага в 1977 году. ^[9] Считалось, что Роберт Холли и его команда из Корнелльского университета первыми секвенировали Молекула РНК. ^[10]

Обзор анализа нуклеотидных последовательностей (ДНК и РНК)

Анализ нуклеотидных последовательностей идентифицирует функциональные элементы, такие как сайты связывания белков, выявляет генетические вариации, такие как SNP, изучает закономерности экспрессии генов и понимает генетическую основу признаков. Это помогает понять механизмы, которые способствуют таким процессам, как репликация и транскрипция. Некоторые из поставленных задач описаны ниже.

Контроль качества и предварительная обработка

Контроль качества оценивает качество считываний секвенирования, полученных с помощью технологии секвенирования (например, Illumina ). Это первый шаг в анализе последовательности, позволяющий ограничить ошибочные выводы из-за данных низкого качества. Инструменты, используемые на этом этапе, зависят от платформы секвенирования. Например, FastQC проверяет качество коротких считываний (включая последовательности РНК), Nanoplot или PycoQC используются для длинных последовательностей считывания (например, считывания последовательностей Nanopore), а MultiQC агрегирует результаты FastQC в формате веб-страницы. ^[11]^[12]^[13]

Контроль качества предоставляет такую информацию, как длина чтения, содержание GC , наличие последовательностей адаптеров (для коротких чтений) и показатель качества, который часто выражается по шкале PHRED . ^[14] Если в считываниях (особенно коротких считываниях) присутствуют адаптеры или другие артефакты ПЦР-амплификации, их удаляют с помощью такого программного обеспечения, как Trimmomatic ^[15] или Cutadapt. ^[16]

Читать выравнивание

На этом этапе чтения секвенирования, качество которых было улучшено, сопоставляются с эталонным геномом с использованием инструментов выравнивания, таких как BWA ^[17] для чтения коротких последовательностей ДНК, миникарта ^[18] для длинных последовательностей ДНК и STAR ^[19] для чтения последовательностей РНК. . Цель сопоставления — найти источник любого данного чтения на основе ссылочной последовательности. Это также важно для обнаружения вариаций или филогенетических исследований . Результаты этого шага, то есть выровненные чтения, сохраняются в совместимых форматах файлов, известных как SAM, которые содержат информацию об эталонном геноме, а также об отдельных чтениях. В качестве альтернативы предпочтительны форматы файлов BAM , поскольку они занимают гораздо меньше места на столе или в хранилище. ^[14]

Примечание . Это отличается от выравнивания последовательностей, при котором сравниваются две или более целые последовательности (или области последовательностей) для количественной оценки сходства или различий или идентификации неизвестной последовательности (как описано ниже).

Для последовательностей ДНК характерны следующие этапы анализа:

Вариант вызова

Идентификация вариантов является популярным аспектом анализа последовательностей, поскольку варианты часто содержат информацию биологического значения, например, объясняющую механизм лекарственной устойчивости при инфекционном заболевании. Эти варианты могут представлять собой однонуклеотидные варианты (SNV), небольшие инсерции/делеции (инделы) и крупные структурные варианты . Выравнивания чтения сортируются с помощью SAMtools , после чего используются вызывающие варианты, такие как GATK ^{[20], для выявления различий по сравнению с эталонной последовательностью.}

Выбор инструмента вызова вариантов во многом зависит от используемой технологии секвенирования, поэтому GATK часто используется при работе с короткими чтениями, тогда как для длинных последовательностей чтения требуются такие инструменты, как DeepVariant ^[21] и Sniffles. ^[22] Инструменты также могут различаться в зависимости от организма (прокариоты или эукариоты), источника данных о последовательностях (рак или метагеномный ) и типа интересующего варианта (SNV или структурные варианты). Результаты вызова вариантов обычно имеют формат vcf и могут быть отфильтрованы с использованием частот аллелей, показателей качества или других факторов, основанных на рассматриваемом вопросе исследования. ^[14]

Вариант аннотации

На этом этапе к вариантам данных добавляется контекст, используя тщательно подобранную информацию из рецензируемых статей и общедоступных баз данных, таких как gnomAD и Ensembl . Варианты могут быть аннотированы информацией о геномных особенностях, функциональных последствиях, регуляторных элементах и частоте популяций с использованием таких инструментов, как ANNOVAR или SnpEff, ^[23] или пользовательских сценариев и конвейера. Результатом этого шага является файл аннотаций в формате Bed или TXT. ^[14]

Визуализация и интерпретация

Геномные данные, такие как выравнивание чтения, графики покрытия и вызовы вариантов, можно визуализировать с помощью браузеров генома, таких как IGV (Integative Genomics Viewer) или UCSC Genome Browser. Интерпретация результатов осуществляется в контексте исследуемого биологического вопроса или гипотезы. Результатом может быть графическое представление данных в виде графиков Цирка, графиков вулканов и т. д. или других форм отчета, описывающего наблюдения. ^[14]

Анализ последовательности ДНК также может включать статистическое моделирование для определения взаимосвязей и эпигенетический анализ, например, выявление областей дифференциального метилирования с использованием такого инструмента, как DSS.

Для последовательностей РНК характерны следующие этапы:

Анализ экспрессии генов

Картированные последовательности РНК анализируются для оценки уровней экспрессии генов с использованием инструментов количественного анализа, таких как HTSeq, ^[24] и идентификации дифференциально экспрессируемых генов (DEG) в зависимости от экспериментальных условий с использованием статистических методов, таких как DESeq2 . ^[25] Это проводится для сравнения уровней экспрессии генов или изоформ между различными образцами или между ними и вывода о биологической значимости. ^[14] Результатом анализа экспрессии генов обычно является таблица со значениями, представляющими уровни экспрессии идентификаторов или названий генов в строках и образцами в столбцах, а также стандартные ошибки и p-значения. Результаты в таблице можно дополнительно визуализировать с помощью графиков вулканов и тепловых карт, где цвета представляют предполагаемый уровень экспрессии. Такие пакеты, как ggplot2 в R и Matplotlib в Python, часто используются для создания визуальных эффектов. Таблицу также можно аннотировать с использованием справочного файла аннотаций, обычно в формате GTF или GFF , чтобы предоставить больше контекста о генах, например имя хромосомы, цепь, начало и положение, а также облегчить интерпретацию результатов. ^[14]^[12]^[13]^[26]

Анализ функционального обогащения

Анализ функционального обогащения идентифицирует биологические процессы, пути и функциональные воздействия, связанные с дифференциально экспрессируемыми генами, полученными на предыдущем этапе. Он использует такие инструменты, как GOSeq ^[27] и Pathview. ^[28] В результате создается таблица с информацией о том, какие пути и молекулярные процессы связаны с дифференциально экспрессируемыми генами, какие гены понижены или повышены, а также какие термины онтологии генов являются повторяющимися или перепредставленными. ^[14]^[12]^[13]^[26]

Анализ последовательности РНК исследует динамику экспрессии генов и механизмы регуляции, лежащие в основе биологических процессов и заболеваний. Интерпретация изображений и таблиц осуществляется в контексте исследуемых гипотез.

См. также: Транскриптомные технологии .

Анализ белковых последовательностей

Анализ последовательности протеома изучает полный набор белков, экспрессируемых организмом или клеткой в определенных условиях. Он описывает структуру белка, функции, посттрансляционные модификации и взаимодействия внутри биологических систем. Часто все начинается с необработанных данных масс-спектрометрии (МС) из экспериментов по протеомике, обычно в форматах файлов mzML, mzXML или RAW. ^[14]

Помимо предварительной обработки необработанных данных МС для удаления шума, нормализации интенсивностей и обнаружения пиков, а также преобразования собственных форматов файлов (например, RAW) в форматы с открытым исходным кодом (mzML, mzXML) для совместимости с последующими инструментами анализа, другие аналитические этапы включают идентификацию пептидов , количественная оценка, вывод и количественная оценка белка, создание отчета о контроле качества, а также нормализация, вменение и проверка значимости. Выбор и порядок аналитических шагов зависят от используемого метода МС, который может быть либо сбором данных (DDA), либо независимым сбором (DIA). ^[14]^[29]

Браузеры генома в анализе последовательностей

Геномные браузеры предлагают удобный интерфейс, не требующий кодирования, для визуализации геномов и геномных сегментов, определения геномных особенностей и анализа взаимосвязей между многочисленными геномными элементами. Три основных браузера генома — браузер генома Ensembl, браузер генома UCSC и Национальный центр биотехнологической информации (NCBI) — поддерживают различные процедуры анализа последовательностей, включая сборку генома, аннотацию генома и сравнительную геномику, например изучение моделей дифференциальной экспрессии и выявление консервативных областей. . Все браузеры поддерживают несколько форматов данных для загрузки и скачивания и предоставляют ссылки на внешние инструменты и ресурсы для анализа последовательностей, что способствует их универсальности. ^[30]^[31]

Выравнивание последовательности

Пример множественного выравнивания последовательностей

Известны миллионы белковых и нуклеотидных последовательностей. Эти последовательности делятся на множество групп родственных последовательностей, известных как семейства белков или семейства генов. Отношения между этими последовательностями обычно обнаруживаются путем их выравнивания и присвоения этому выравниванию оценки. Существует два основных типа выравнивания последовательностей. При парном выравнивании последовательностей сравниваются только две последовательности одновременно, а при множественном выравнивании последовательностей сравниваются многие последовательности. Двумя важными алгоритмами выравнивания пар последовательностей являются алгоритм Нидлмана-Вунша и алгоритм Смита-Уотермана . Популярные инструменты для выравнивания последовательностей включают:

Попарное выравнивание — BLAST , Точечные графики
Множественное выравнивание — ClustalW , PROBCONS , MUSCLE , MAFFT и T-Coffee .

Обычное использование парного выравнивания последовательностей заключается в том, чтобы взять интересующую последовательность и сравнить ее со всеми известными последовательностями в базе данных для идентификации гомологичных последовательностей . Как правило, совпадения в базе данных упорядочены таким образом, чтобы сначала отображались наиболее близкородственные последовательности, а затем последовательности с уменьшающимся сходством. Об этих совпадениях обычно сообщают с помощью меры статистической значимости, такой как значение ожидания .

Сравнение профилей

В 1987 году Майкл Грибсков, Эндрю Маклахлан и Дэвид Айзенберг представили метод сравнения профилей для выявления отдаленных сходств между белками. ^[32] Вместо использования одной последовательности в методах профиля используется множественное выравнивание последовательностей для кодирования профиля, который содержит информацию об уровне консервации каждого остатка. Эти профили затем можно использовать для поиска в коллекциях последовательностей, чтобы найти родственные последовательности. Профили также известны как матрицы подсчета очков для конкретной позиции (PSSM). В 1993 году Андерс Крог и его коллеги представили вероятностную интерпретацию профилей с использованием скрытых марковских моделей . ^[33]^[34] Эти модели стали известны как профильные HMM.

В последние годы ^{[ когда? ]} разработаны методы, позволяющие сравнивать профили непосредственно друг с другом. Они известны как методы сравнения профилей. ^[35]

Последовательность сборки

Сборка последовательности относится к реконструкции последовательности ДНК путем выравнивания и слияния небольших фрагментов ДНК. Это неотъемлемая часть современного секвенирования ДНК . Поскольку доступные в настоящее время технологии секвенирования ДНК плохо подходят для считывания длинных последовательностей, большие фрагменты ДНК (например, геномы) часто секвенируют путем (1) разрезания ДНК на мелкие кусочки, (2) считывания небольших фрагментов и (3) ) восстановление исходной ДНК путем слияния информации о различных фрагментах.

В последнее время секвенирование нескольких видов одновременно является одной из главных задач исследований. Метагеномика — это изучение микробных сообществ, полученных непосредственно из окружающей среды. В отличие от культивируемых в лаборатории микроорганизмов, дикий образец обычно содержит десятки, а иногда даже тысячи типов микроорганизмов из их первоначальной среды обитания. ^[36] Восстановление исходных геномов может оказаться очень сложной задачей.

Генное предсказание

Предсказание генов или поиск генов относится к процессу идентификации областей геномной ДНК, которые кодируют гены . Это включает в себя гены , кодирующие белки , а также гены РНК , но может также включать предсказание других функциональных элементов, таких как регуляторные области . Джери — один из первых и наиболее важных шагов в понимании генома вида после его секвенирования . В целом предсказание бактериальных генов значительно проще и точнее, чем предсказание генов эукариотических видов, которые обычно имеют сложные структуры интронов / экзонов . Идентификация генов в длинных последовательностях остается проблемой, особенно когда количество генов неизвестно. Скрытые марковские модели могут стать частью решения. ^[37] Машинное обучение сыграло значительную роль в предсказании последовательности факторов транскрипции. ^[38] Традиционный анализ секвенирования фокусировался на статистических параметрах самой нуклеотидной последовательности (наиболее распространенные используемые программы перечислены в Таблице 4.1). Другой метод заключается в идентификации гомологичных последовательностей на основе других известных последовательностей генов (инструменты см. в Таблице 4.3). ^[39] Два метода, описанные здесь, ориентированы на последовательность. Однако особенности формы этих молекул, таких как ДНК и белок, также были изучены и предположили, что они оказывают эквивалентное, если не большее, влияние на поведение этих молекул. ^[40]

Прогнозирование структуры белка

Трехмерные структуры молекул имеют большое значение для их функций в природе. Поскольку предсказание структуры больших молекул на атомном уровне является в значительной степени неразрешимой проблемой, некоторые биологи предложили способы прогнозирования трехмерной структуры на уровне первичной последовательности. Это включает биохимический или статистический анализ аминокислотных остатков в локальных областях и структурные выводы на основе гомологов (или других потенциально родственных белков) с известными трехмерными структурами.

Существует большое количество разнообразных подходов к решению проблемы прогнозирования структуры. Чтобы определить, какие методы оказались наиболее эффективными, был основан конкурс по предсказанию структуры под названием CASP (Критическая оценка прогнозирования структуры). ^[41]

Вычислительные подходы и методы

Задачи анализа последовательностей часто нетривиальны для решения и требуют использования относительно сложных подходов, многие из которых являются основой многих существующих инструментов анализа последовательностей. Из множества методов, используемых на практике, к наиболее популярным можно отнести следующие:

См. также

Ссылки

^ Дурбин, Ричард М .; Эдди, Шон Р .; Крог, Андерс ; Митчисон, Грэм (1998), Анализ биологических последовательностей: вероятностные модели белков и нуклеиновых кислот (1-е изд.), Кембридж, Нью-Йорк: Cambridge University Press , ISBN 0-521-62971-3, OCLC 593254083
^ Сэнгер Ф; Таппи Х (сентябрь 1951 г.). «Аминокислотная последовательность фенилаланильной цепи инсулина. I. Идентификация низших пептидов из частичных гидролизатов». Биохим. Дж . 49 (4): 463–81. дои : 10.1042/bj0490463. ПМК 1197535 . ПМИД 14886310.
^ САНГЕР Ф; ТУППИ Х (сентябрь 1951 г.). «Аминокислотная последовательность фенилаланильной цепи инсулина. 2. Исследование пептидов из ферментных гидролизатов». Биохим. Дж . 49 (4): 481–90. дои : 10.1042/bj0490481. ПМК 1197536 . ПМИД 14886311.
^ Сэнгер, Ф; Никлен, С; Коулсон, Арканзас (декабрь 1977 г.). «Секвенирование ДНК с ингибиторами обрыва цепи». Proc Natl Acad Sci США . 74 (12): 441–448. Бибкод : 1977PNAS...74.5463S. дои : 10.1073/pnas.74.12.5463 . ПМК 431765 . ПМИД 271968.
^ Сэнгер, Ф; Воздух, GM; Баррелл, Б.Г.; Браун, Нидерланды; Коулсон, Арканзас; Фиддес, Калифорния; Хатчисон, Калифорния; Слокомб, премьер-министр; Смит, М. (февраль 1977 г.). «Нуклеотидная последовательность ДНК бактериофага phi X174». Природа . 265 (5596): 687–695. Бибкод : 1977Natur.265..687S. дои : 10.1038/265687a0. PMID 870828. S2CID 4206886.
^ Левитт М (май 2001 г.). «Рождение вычислительной структурной биологии». Структурная и молекулярная биология природы . 8 (5): 392–3. дои : 10.1038/87545. PMID 11323711. S2CID 6519868.
^ Левитт М (ноябрь 1969 г.). «Детальная молекулярная модель переноса рибонуклеиновой кислоты». Природа . 224 (5221): 759–63. Бибкод : 1969Natur.224..759L. дои : 10.1038/224759a0. PMID 5361649. S2CID 983981.
^ Нидлман С.Б.; Компакт-диск Вунша (март 1970 г.). «Общий метод, применимый для поиска сходства в аминокислотной последовательности двух белков». Дж. Мол. Биол . 48 (3): 443–53. дои : 10.1016/0022-2836(70)90057-4. ПМИД 5420325.
^ Сэнгер Ф., Air GM, Баррелл Б.Г. и др. (февраль 1977 г.). «Нуклеотидная последовательность ДНК бактериофага phi X174». Природа . 265 (5596): 687–95. Бибкод : 1977Natur.265..687S. дои : 10.1038/265687a0. PMID 870828. S2CID 4206886.
^ Холли, RW; Апгар, Дж; Эверетт, Джорджия; Мэдисон, Джей Ти; Маркиз, М; Меррилл, Ш.; Пенсвик, младший; Замир, А. (май 1965 г.). «Структура рибонуклеиновой кислоты». Наука . 147 (3664): 1462–1465. Бибкод : 1965Sci...147.1462H. дои : 10.1126/science.147.3664.1462. PMID 14263761. S2CID 40989800.
^ Батют, Беренис; Дойл, Мария; Кормье, Александр; Бретодо, Энтони; Леруа, Лаура; Корре, Эрван; Робин, Стефани; ноль, галантность; Хайд, Кэмерон (3 ноября 2023 г.). «Контроль качества (учебные материалы Galaxy)». Галактическая тренировка! . Проверено 26 апреля 2024 г.
^ abc Хильтеманн, Саския; Раше, Хелена; и др. (январь 2023 г.). «Обучение Galaxy: мощная основа обучения!». PLOS Вычислительная биология . 19 (1): e1010752. Бибкод : 2023PLSCB..19E0752H. дои : 10.1371/journal.pcbi.1010752 . ПМЦ 9829167 . ПМИД 36622853.
^ abc Batut, Беренис; и др. (2018). «Тренинг по анализу данных по инициативе сообщества в области биологии». Клеточные системы . 6 (6): 752–758.e1. doi :10.1016/j.cels.2018.05.012. ПМК 6296361 . ПМИД 29953864.
^ abcdefghij Прижибельский, Андрей Б.; Коробейников Антон Игоревич; Лапидус, Алла Львовна (сентябрь 2018 г.). «Анализ последовательности». Энциклопедия биоинформатики и вычислительной биологии . 3 : 292–322. дои : 10.1016/B978-0-12-809633-8.20106-4. ISBN 978-0-12-811432-2.
^ Болджер, Энтони М.; Лозе, Марк; Усадель, Бьорн (апрель 2014 г.). «Trimmomatic: гибкий триммер для данных последовательности Illumina». Биоинформатика . 30 (15): 2114–2120. doi : 10.1093/биоинформатика/btu170. ПМК 4103590 . ПМИД 24695404.
^ Марсель, Мартин (2011). «Cutadapt удаляет адаптерные последовательности из операций высокопроизводительного секвенирования». EMBnet.журнал . 17:10 . дои :10.14806/ej.17.1.200.
^ Ли, Хэн; Дурбин, Ричард (июль 2009 г.). «Быстрое и точное выравнивание короткого чтения с помощью преобразования Берроуза – Уиллера». Биоинформатика . 25 (14): 1754–1760. doi : 10.1093/биоинформатика/btp324. ПМИД 19451168.
^ Ли, Хэн (март 2016 г.). «Миникарта и миниазм: быстрое отображение и сборка de novo для длинных шумных последовательностей». Биоинформатика . 32 (14): 2103–2110. doi : 10.1093/биоинформатика/кстати,152. ПМЦ 4937194 . ПМИД 27153593.
^ Добин, Александр; Дэвис, Кэрри А.; и др. (октябрь 2012 г.). «STAR: сверхбыстрый универсальный выравниватель РНК-сек». Биоинформатика . 29 (1): 15–21. doi : 10.1093/биоинформатика/bts635. ПМК 3530905 . ПМИД 23104886.
^ Маккенна, Аарон; Ханна, Мэтью; и др. (июль 2010 г.). «Набор инструментов для анализа генома: платформа MapReduce для анализа данных секвенирования ДНК следующего поколения». Геномные исследования . 20 (9): 1297–1303. дои : 10.1101/гр.107524.110. ПМЦ 2928508 . ПМИД 20644199.
^ Поплин, Р; Чанг, ПК; и др. (сентябрь 2018 г.). «Универсальный SNP и вызывающий вариант с малым числом делений с использованием глубоких нейронных сетей». Природная биотехнология . 36 (10): 983–987. дои : 10.1038/nbt.4235. ПМИД 30247488.
^ Седлазек, Ф.Дж.; Решенедер, П; и др. (апрель 2018 г.). «Точное обнаружение сложных структурных изменений с помощью секвенирования одиночных молекул». Природные методы . 15 (6): 461–468. дои : 10.1038/s41592-018-0001-7. ПМК 5990442 . ПМИД 29713083.
^ Чинголани, П; Платтс, А; и др. (апрель 2012 г.). «Программа для аннотирования и прогнозирования эффектов полиморфизма отдельных нуклеотидов, SnpEff». Летать . 6 (2): 80–92. дои : 10.4161/fly.19695. ПМК 3679285 . ПМИД 22728672.
^ Андерс, Саймон; Пил, Пол Теодор; Хубер, Вольфганг (январь 2015 г.). «HTSeq — платформа Python для работы с данными высокопроизводительного секвенирования». Биоинформатика . 31 (2): 166–169. doi : 10.1093/биоинформатика/btu638. ПМК 4287950 . ПМИД 25260700.
^ С любовью, Мичиган; Хубер, В.; Андерс, С. (декабрь 2014 г.). «Умеренная оценка кратности изменения и дисперсии данных секвенирования РНК с помощью DESeq2». Геномная биология . 15 (12): 550. дои : 10.1186/s13059-014-0550-8 . ПМК 4302049 . ПМИД 25516281.
^ аб Батут, Беренис; Фриберг, Мэллори; и др. (17 марта 2024 г.). «Анализ данных RNA-Seq на основе эталонных данных (учебные материалы Galaxy)». Галактическая тренировка! . Проверено 26 апреля 2024 г.
^ Янг, доктор медицины; Уэйкфилд, MJ; и др. (февраль 2010 г.). «Анализ онтологии генов для секвенирования РНК: учет систематической ошибки отбора». Геномная биология . 11 (2): Р14. дои : 10.1186/gb-2010-11-2-r14 . hdl : 11343/56416 . ПМИД 20132535.
^ Ло, Вэйцзюнь; Брауэр, Кори (июнь 2013 г.). «Pathview: пакет R/Bioconductor для интеграции и визуализации данных на основе путей». Биоинформатика . 29 (14): 1830–1831. doi : 10.1093/биоинформатика/btt285. ПМК 3702256 . ПМИД 23740750.
^ «Рабочий процесс количественной масс-спектрометрии» . nf-ядро .
^ Ван, Цзюнь; Конг, Лей; и др. (июль 2012 г.). «Краткое введение в веб-браузеры генома». Брифинги по биоинформатике . 14 (2): 131–143. дои : 10.1093/нагрудник/bbs029. ПМИД 22764121.
^ Певснер, Дж. (февраль 2009 г.). «Анализ геномной ДНК с помощью браузера генома UCSC». Биоинформатика для анализа последовательностей ДНК . Методы молекулярной биологии. Том. 537. Хумана Пресс. стр. 277–301. дои : 10.1007/978-1-59745-251-9_14. ISBN 978-1-59745-251-9. ПМИД 19378150.
^ Грибсков М; Маклахлан А.Д.; Айзенберг Д. (июль 1987 г.). «Профильный анализ: обнаружение отдаленно родственных белков». Учеб. Натл. акад. наук. США . 84 (13): 4355–8. Бибкод : 1987PNAS...84.4355G. дои : 10.1073/pnas.84.13.4355 . ПМК 305087 . ПМИД 3474607.
^ Браун М; Хьюи Р; Крог А; Миан И.С.; Шёландер К; Хаусслер Д. (1993). «Использование априорной смеси Дирихле для получения скрытых марковских моделей семейств белков». Proc Int Conf Intell Syst Mol Biol . 1 : 47–55. ПМИД 7584370.
^ Крог А; Браун М; Миан И.С.; Шёландер К; Хаусслер Д. (февраль 1994 г.). «Скрытые марковские модели в вычислительной биологии. Приложения к моделированию белков». Дж. Мол. Биол . 235 (5): 1501–31. дои : 10.1006/jmbi.1994.1104. PMID 8107089. S2CID 2160404.
^ Да Х; Ван Г; Альтшул С.Ф. (декабрь 2011 г.). «Оценка показателей замен для сравнения профилей белков». Биоинформатика . 27 (24): 3356–63. doi : 10.1093/биоинформатика/btr565. ПМК 3232366 . ПМИД 21998158.
^ Вули, JC; Годзик, А; Фридберг, I (26 февраля 2010 г.). «Букварь по метагеномике». ПЛОС Компьютерная Биол . 6 (2): e1000667. Бибкод : 2010PLSCB...6E0667W. дои : 10.1371/journal.pcbi.1000667 . ПМК 2829047 . ПМИД 20195499.
^ Станке, М; Ваак, С. (19 октября 2003 г.). «Прогнозирование генов с помощью скрытой модели Маркова и новой подмодели интрона». Биоинформатика . 19 Приложение 2 (2): 215–25. doi : 10.1093/биоинформатика/btg1080 . ПМИД 14534192.
^ Алипанахи, Б; Делонг, А; Вайраух, Монтана; Фрей, Би Джей (август 2015 г.). «Прогнозирование особенностей последовательностей ДНК- и РНК-связывающих белков с помощью глубокого обучения». Нат Биотехнологий . 33 (8): 831–8. дои : 10.1038/nbt.3300 . ПМИД 26213851.
^ Вули, JC; Годзик, А; Фридберг, I (26 февраля 2010 г.). «Букварь по метагеномике». ПЛОС Компьютерная Биол . 6 (2): e1000667. Бибкод : 2010PLSCB...6E0667W. дои : 10.1371/journal.pcbi.1000667 . ПМК 2829047 . ПМИД 20195499.
^ Абэ, Н; Дрор, я; Ян, Л; Слэттери, М; Чжоу, Т; Буссемейкер, HJ; Рохс Р, Р; Манн, RS (9 апреля 2015 г.). «Деконволюция распознавания формы ДНК по последовательности». Клетка . 161 (2): 307–18. doi :10.1016/j.cell.2015.02.008. ПМЦ 4422406 . ПМИД 25843630.
^ Моулт Дж; Хаббард Т; Брайант С.Х.; Фиделис К; Педерсен Дж.Т. (1997). «Критическая оценка методов прогнозирования структуры белков (CASP): раунд II». Белки . Приложение 1 (S1): 2–6. doi :10.1002/(SICI)1097-0134(1997)1+<2::AID-PROT2>3.0.CO;2-T. PMID 9485489. S2CID 26823924.