Анализ последовательности

В биоинформатике анализ последовательности — это процесс подвергания ДНК , РНК или пептидной последовательности любому из широкого спектра аналитических методов для понимания ее особенностей, функции, структуры или эволюции. Он может быть выполнен на всем геноме, транскриптоме или протеоме организма, а также может включать только выбранные сегменты или регионы, такие как тандемные повторы и транспонируемые элементы. Используемые методологии включают выравнивание последовательностей , поиск по биологическим базам данных и другие. ^[1]

С развитием методов высокопроизводительного производства последовательностей генов и белков скорость добавления новых последовательностей в базы данных возросла очень быстро. Такой набор последовательностей сам по себе не увеличивает понимание ученым биологии организмов. Однако сравнение этих новых последовательностей с последовательностями с известными функциями является ключевым способом понимания биологии организма, из которого происходит новая последовательность. Таким образом, анализ последовательностей может использоваться для назначения функции кодирующим и некодирующим областям в биологической последовательности, как правило, путем сравнения последовательностей и изучения сходств и различий. В настоящее время существует множество инструментов и методов, которые обеспечивают сравнение последовательностей (выравнивание последовательностей) и анализируют продукт выравнивания для понимания его биологии.

Анализ последовательностей в молекулярной биологии включает в себя очень широкий спектр процессов:

Сравнение последовательностей для поиска сходства, часто для того, чтобы сделать вывод, являются ли они родственными ( гомологичными ).
Идентификация внутренних особенностей последовательности, таких как активные сайты , сайты посттрансляционной модификации , структуры генов , рамки считывания , распределение интронов и экзонов и регуляторных элементов
Выявление различий и вариаций последовательностей, таких как точечные мутации и полиморфизм одиночных нуклеотидов (SNP), с целью получения генетического маркера .
Выявление эволюции и генетического разнообразия последовательностей и организмов
Определение молекулярной структуры только на основе последовательности.

История

С тех пор, как самые первые последовательности белка инсулина были охарактеризованы Фредом Сэнгером в 1951 году, биологи пытались использовать эти знания для понимания функции молекул. ^[2]^[3] Открытия, сделанные им и его коллегами, способствовали успешному секвенированию первого генома на основе ДНК. ^[4] Метод, использованный в этом исследовании, который называется «метод Сэнгера» или секвенирование по Сэнгеру , стал важной вехой в секвенировании длинноцепочечных молекул, таких как ДНК. Этот метод в конечном итоге был использован в проекте генома человека . ^[5] По словам Майкла Левитта , анализ последовательностей зародился в период с 1969 по 1977 год. ^[6] В 1969 году анализ последовательностей транспортных РНК использовался для вывода взаимодействий остатков из коррелированных изменений в последовательностях нуклеотидов, что привело к созданию модели вторичной структуры тРНК . ^[7] В 1970 году Сол Б. Нидлман и Кристиан Д. Вунш опубликовали первый компьютерный алгоритм для выравнивания двух последовательностей. ^[8] За это время разработки в области получения нуклеотидной последовательности значительно усовершенствовались, что привело к публикации первого полного генома бактериофага в 1977 году. ^[9] Роберт Холли и его команда в Корнеллском университете считались первыми, кто секвенировал молекулу РНК. ^[10]

Обзор анализа нуклеотидной последовательности (ДНК и РНК)

Анализы нуклеотидной последовательности идентифицируют функциональные элементы, такие как сайты связывания белков, раскрывают генетические вариации, такие как SNP, изучают паттерны экспрессии генов и понимают генетическую основу признаков. Это помогает понять механизмы, которые способствуют таким процессам, как репликация и транскрипция. Некоторые из задач, которые при этом выполняются, описаны ниже.

Контроль качества и предварительная обработка

Контроль качества оценивает качество прочтений секвенирования, полученных с помощью технологии секвенирования (например, Illumina ). Это первый шаг в анализе последовательностей, чтобы ограничить неправильные выводы из-за некачественных данных. Инструменты, используемые на этом этапе, зависят от платформы секвенирования. Например, FastQC проверяет качество коротких прочтений (включая последовательности РНК), Nanoplot или PycoQC используются для длинных последовательностей прочтений (например, прочтений последовательностей Nanopore), а MultiQC объединяет результат FastQC в формате веб-страницы. ^[11]^[12]^[13]

Контроль качества предоставляет такую информацию, как длина прочтений, содержание GC , наличие последовательностей адаптеров (для коротких прочтений) и оценка качества, которая часто выражается по шкале PHRED . ^[14] Если в прочтениях присутствуют адаптеры или другие артефакты от ПЦР-амплификации (особенно короткие прочтения), их удаляют с помощью программного обеспечения, такого как Trimmomatic ^[15] или Cutadapt. ^[16]

Прочитать выравнивание

На этом этапе прочтения секвенирования, качество которых было улучшено, сопоставляются с референтным геномом с помощью инструментов выравнивания, таких как BWA ^[17] для коротких прочтений последовательностей ДНК, minimap ^[18] для длинных прочтений последовательностей ДНК и STAR ^[19] для прочтений последовательностей РНК. Целью картирования является поиск источника любого данного прочтения на основе референтной последовательности. Это также важно для обнаружения вариаций или филогенетических исследований . Выходные данные этого этапа, то есть выровненные прочтения, сохраняются в совместимых форматах файлов, известных как SAM, которые содержат информацию об эталонном геноме, а также об отдельных прочтениях. В качестве альтернативы предпочтительны форматы файлов BAM , поскольку они занимают гораздо меньше места на столе или в хранилище. ^[14]

Примечание : Это отличается от выравнивания последовательностей, при котором сравниваются две или более целых последовательности (или участков последовательностей) для количественной оценки сходства или различий или для идентификации неизвестной последовательности (как обсуждается ниже).

Для последовательностей ДНК характерны следующие этапы анализа:

Вариант вызова

Идентификация вариантов является популярным аспектом анализа последовательностей, поскольку варианты часто содержат информацию биологического значения, например, объясняющую механизм лекарственной устойчивости при инфекционном заболевании. Эти варианты могут быть вариантами отдельных нуклеотидов (SNV), небольшими вставками/делециями (indels) и крупными структурными вариантами . Выравнивания прочтений сортируются с помощью SAMtools , после чего используются вызывающие варианты, такие как GATK ^[20], для выявления различий по сравнению с референтной последовательностью.

Выбор инструмента вызова вариантов во многом зависит от используемой технологии секвенирования, поэтому GATK часто используется при работе с короткими прочтениями, в то время как для длинных последовательностей прочтений требуются такие инструменты, как DeepVariant ^[21] и Sniffles. ^[22] Инструменты также могут различаться в зависимости от организма (прокариоты или эукариоты), источника данных о последовательности (рак или метагеномный ) и типа интересующего варианта (SNV или структурные варианты). Выходные данные вызова вариантов обычно находятся в формате vcf и могут быть отфильтрованы с использованием частот аллелей, показателей качества или других факторов в зависимости от рассматриваемого вопроса исследования. ^[14]

Вариант аннотации

Этот шаг добавляет контекст к данным вариантов, используя курируемую информацию из рецензируемых статей и общедоступных баз данных, таких как gnomAD и Ensembl . Варианты могут быть аннотированы информацией о геномных особенностях, функциональных последствиях, регуляторных элементах и частотах популяции, используя такие инструменты, как ANNOVAR или SnpEff, ^[23] или пользовательские скрипты и конвейер. Выходом этого шага является файл аннотации в формате bed или txt. ^[14]

Визуализация и интерпретация

Геномные данные, такие как выравнивания прочтений, графики покрытия и вызовы вариантов, можно визуализировать с помощью геномных браузеров, таких как IGV (Integrative Genomics Viewer) или UCSC Genome Browser. Интерпретация результатов выполняется в контексте биологического вопроса или исследуемой гипотезы. Выходными данными может быть графическое представление данных в виде графиков Circos, графиков вулкана и т. д. или других форм отчетов, описывающих наблюдения. ^[14]

Анализ последовательности ДНК может также включать статистическое моделирование для установления взаимосвязей и эпигенетический анализ, например, выявление дифференциальных областей метилирования с использованием такого инструмента, как DSS.

Для последовательностей РНК характерны следующие этапы:

Анализ экспрессии генов

Картированные последовательности РНК анализируются для оценки уровней экспрессии генов с использованием инструментов количественной оценки, таких как HTSeq, ^[24] и идентификации дифференциально экспрессируемых генов (DEG) между экспериментальными условиями с использованием статистических методов, таких как DESeq2 . ^[25] Это выполняется для сравнения уровней экспрессии генов или изоформ между или между различными образцами и выведения биологической значимости. ^[14] Выходные данные анализа экспрессии генов обычно представляют собой таблицу со значениями, представляющими уровни экспрессии идентификаторов или названий генов в строках и образцов в столбцах, а также стандартными ошибками и p-значениями. Результаты в таблице могут быть дополнительно визуализированы с использованием графиков вулканов и тепловых карт, где цвета представляют предполагаемый уровень экспрессии. Пакеты, такие как ggplot2 в R и Matplotlib в Python, часто используются для создания визуальных эффектов. Таблицу также можно аннотировать с помощью файла справочной аннотации, обычно в формате GTF или GFF, чтобы предоставить больше контекста о генах, например, имя хромосомы, цепь, начало и позиции, и помочь в интерпретации результатов. ^[14]^[12]^[13]^[26]

Анализ функционального обогащения

Анализ функционального обогащения выявляет биологические процессы, пути и функциональные воздействия, связанные с дифференциально экспрессируемыми генами, полученными на предыдущем этапе. Он использует такие инструменты, как GOSeq ^[27] и Pathview. ^[28] Это создает таблицу с информацией о том, какие пути и молекулярные процессы связаны с дифференциально экспрессируемыми генами, какие гены подавлены или повышены, и какие термины онтологии генов повторяются или перепредставлены. ^[14]^[12]^[13]^[26]

Анализ последовательности РНК исследует динамику экспрессии генов и регуляторные механизмы, лежащие в основе биологических процессов и заболеваний. Интерпретация изображений и таблиц осуществляется в контексте исследуемых гипотез.

См. также: Транскриптомные технологии .

Анализ белковых последовательностей

Анализ последовательности протеома изучает полный набор белков, экспрессируемых организмом или клеткой в определенных условиях. Он описывает структуру белка, функцию, посттрансляционные модификации и взаимодействия в биологических системах. Он часто начинается с необработанных данных масс-спектрометрии (МС) из экспериментов по протеомике, как правило, в форматах файлов mzML, mzXML или RAW. ^[14]

Помимо предварительной обработки сырых данных MS для удаления шума, нормализации интенсивностей и обнаружения пиков, а также преобразования собственных форматов файлов (например, RAW) в форматы с открытым исходным кодом (mzML, mzXML) для совместимости с инструментами анализа ниже по потоку, другие аналитические шаги включают идентификацию пептидов , количественную оценку пептидов, вывод и количественную оценку белков, создание отчета о контроле качества, а также нормализацию, импутацию и тестирование значимости. Выбор и порядок аналитических шагов зависят от используемого метода MS, который может быть либо зависимым от данных приобретением (DDA), либо независимым приобретением (DIA). ^[14]^[29]

Геномные браузеры в анализе последовательностей

Геномные браузеры предлагают некодовый, удобный интерфейс для визуализации геномов и геномных сегментов, определения геномных особенностей и анализа взаимосвязи между многочисленными геномными элементами. Три основных геномных браузера — геномный браузер Ensembl, геномный браузер UCSC и Национальный центр биотехнологической информации (NCBI) — поддерживают различные процедуры анализа последовательностей, включая сборку генома, аннотацию генома и сравнительную геномику, например, изучение дифференциальных паттернов экспрессии и идентификацию консервативных областей. Все браузеры поддерживают несколько форматов данных для загрузки и скачивания и предоставляют ссылки на внешние инструменты и ресурсы для анализа последовательностей, что способствует их универсальности. ^[30]^[31]

Выравнивание последовательности

Пример множественного выравнивания последовательностей

Известны миллионы последовательностей белков и нуклеотидов . Эти последовательности делятся на множество групп связанных последовательностей, известных как семейства белков или семейства генов. Отношения между этими последовательностями обычно обнаруживаются путем их выравнивания вместе и присвоения этому выравниванию оценки. Существует два основных типа выравнивания последовательностей. Парное выравнивание последовательностей сравнивает только две последовательности за раз, а множественное выравнивание последовательностей сравнивает много последовательностей. Два важных алгоритма для выравнивания пар последовательностей — это алгоритм Нидлмана-Вунша и алгоритм Смита-Уотермана . Популярные инструменты для выравнивания последовательностей включают:

Попарное выравнивание - BLAST , точечные диаграммы
Множественное выравнивание — ClustalW , PROBCONS , MUSCLE , MAFFT и T-Coffee .

Обычное использование парного выравнивания последовательностей заключается в том, чтобы взять интересующую последовательность и сравнить ее со всеми известными последовательностями в базе данных для выявления гомологичных последовательностей . В общем, совпадения в базе данных упорядочены так, чтобы сначала показать наиболее тесно связанные последовательности, а затем последовательности с уменьшающимся сходством. Эти совпадения обычно сообщаются с мерой статистической значимости, такой как значение ожидания .

Сравнение профилей

В 1987 году Майкл Грибсков, Эндрю Маклахлан и Дэвид Эйзенберг представили метод сравнения профилей для выявления отдаленных сходств между белками. ^[32] Вместо использования одной последовательности, методы профилей используют множественное выравнивание последовательностей для кодирования профиля, который содержит информацию об уровне консервативности каждого остатка. Затем эти профили можно использовать для поиска коллекций последовательностей, чтобы найти связанные последовательности. Профили также известны как матрицы оценки специфической позиции (PSSM). В 1993 году Андерс Крог и его коллеги представили вероятностную интерпретацию профилей с использованием скрытых марковских моделей . ^[33]^[34] Эти модели стали известны как профильные HMM.

В последние годы ^{[ когда? ]} были разработаны методы, позволяющие сравнивать профили напрямую друг с другом. Они известны как методы сравнения профиль-профиль. ^[35]

Последовательность сборки

Сборка последовательности относится к реконструкции последовательности ДНК путем выравнивания и слияния небольших фрагментов ДНК. Это неотъемлемая часть современного секвенирования ДНК . Поскольку имеющиеся в настоящее время технологии секвенирования ДНК плохо подходят для чтения длинных последовательностей, большие фрагменты ДНК (например, геномы) часто секвенируются путем (1) разрезания ДНК на небольшие фрагменты, (2) чтения небольших фрагментов и (3) восстановления исходной ДНК путем слияния информации на различных фрагментах.

В последнее время секвенирование нескольких видов одновременно является одной из главных исследовательских задач. Метагеномика — это изучение микробных сообществ, полученных непосредственно из окружающей среды. В отличие от культивируемых микроорганизмов из лаборатории, дикий образец обычно содержит десятки, иногда даже тысячи типов микроорганизмов из их исходной среды обитания. ^[36] Восстановление исходных геномов может оказаться очень сложной задачей.

Генное предсказание

Предсказание генов или поиск генов относится к процессу идентификации областей геномной ДНК, которые кодируют гены . Это включает гены , кодирующие белки , а также гены РНК , но может также включать предсказание других функциональных элементов, таких как регуляторные области . Geri является одним из первых и наиболее важных шагов в понимании генома вида после его секвенирования . В целом, предсказание бактериальных генов значительно проще и точнее, чем предсказание генов эукариотических видов, которые обычно имеют сложные интронно - экзонные паттерны. Идентификация генов в длинных последовательностях остается проблемой, особенно когда количество генов неизвестно. Скрытые марковские модели могут быть частью решения. ^[37] Машинное обучение сыграло значительную роль в предсказании последовательности факторов транскрипции. ^[38] Традиционный анализ секвенирования сосредоточен на статистических параметрах самой нуклеотидной последовательности (наиболее распространенные используемые программы перечислены в таблице 4.1). Другой метод заключается в идентификации гомологичных последовательностей на основе других известных последовательностей генов (инструменты см. в таблице 4.3). ^[39] Два метода, описанные здесь, сосредоточены на последовательности. Однако, особенность формы этих молекул, таких как ДНК и белок, также была изучена и, как предполагается, имеет эквивалентное, если не большее, влияние на поведение этих молекул. ^[40]

Прогнозирование структуры белка

3D-структуры молекул имеют большое значение для их функций в природе. Поскольку структурное предсказание больших молекул на атомном уровне является в значительной степени неразрешимой проблемой, некоторые биологи предложили способы предсказания 3D-структуры на уровне первичной последовательности. Это включает в себя биохимический или статистический анализ аминокислотных остатков в локальных областях и структурный вывод из гомологов (или других потенциально родственных белков) с известными 3D-структурами.

Было много различных подходов к решению проблемы прогнозирования структуры. Чтобы определить, какие методы наиболее эффективны, был основан конкурс по прогнозированию структуры под названием CASP (Critical Assessment of Structure Prediction). ^[41]

Вычислительные подходы и методы

Задачи анализа последовательностей часто нетривиальны для решения и требуют использования относительно сложных подходов, многие из которых являются основой многих существующих инструментов анализа последовательностей. Из множества методов, используемых на практике, наиболее популярными являются следующие:

Смотрите также

Ссылки

^ Дурбин, Ричард М .; Эдди, Шон Р.; Крог , Андерс ; Митчисон, Грэм (1998), Анализ биологических последовательностей: вероятностные модели белков и нуклеиновых кислот (1-е изд.), Кембридж, Нью-Йорк: Cambridge University Press , ISBN 0-521-62971-3, OCLC 593254083
^ Sanger F; Tuppy H (сентябрь 1951 г.). «Аминокислотная последовательность в фенилаланильной цепи инсулина. I. Идентификация низших пептидов из частичных гидролизатов». Biochem. J . 49 (4): 463–81. doi :10.1042/bj0490463. PMC 1197535 . PMID 14886310.
^ SANGER F; TUPPY H (сентябрь 1951 г.). «Аминокислотная последовательность в фенилаланильной цепи инсулина. 2. Исследование пептидов из ферментативных гидролизатов». Biochem. J . 49 (4): 481–90. doi :10.1042/bj0490481. PMC 1197536 . PMID 14886311.
^ Sanger, F; Nicklen, S; Coulson, AR (декабрь 1977 г.). «Секвенирование ДНК с ингибиторами прерывания цепи». Proc Natl Acad Sci USA . 74 (12): 441–448. Bibcode : 1977PNAS...74.5463S. doi : 10.1073/pnas.74.12.5463 . PMC 431765. PMID 271968 .
^ Sanger, F; Air, GM; Barrell, BG; Brown, NL; Coulson, AR; Fiddes, CA; Hutchison, CA; Slocombe, PM; Smith, M (февраль 1977 г.). "Нуклеотидная последовательность ДНК бактериофага phi X174". Nature . 265 (5596): 687–695. Bibcode :1977Natur.265..687S. doi :10.1038/265687a0. PMID 870828. S2CID 4206886.
^ Левитт М. (май 2001 г.). «Рождение вычислительной структурной биологии». Nature Structural & Molecular Biology . 8 (5): 392–3. doi :10.1038/87545. PMID 11323711. S2CID 6519868.
^ Левитт М. (ноябрь 1969 г.). «Подробная молекулярная модель для переноса рибонуклеиновой кислоты». Nature . 224 (5221): 759–63. Bibcode :1969Natur.224..759L. doi :10.1038/224759a0. PMID 5361649. S2CID 983981.
^ Needleman SB; Wunsch CD (март 1970). «Общий метод, применимый к поиску сходств в аминокислотной последовательности двух белков». J. Mol. Biol . 48 (3): 443–53. doi :10.1016/0022-2836(70)90057-4. PMID 5420325.
^ Sanger F, Air GM, Barrell BG, et al. (февраль 1977). "Нуклеотидная последовательность ДНК бактериофага phi X174". Nature . 265 (5596): 687–95. Bibcode :1977Natur.265..687S. doi :10.1038/265687a0. PMID 870828. S2CID 4206886.
^ Холли, Р. В.; Апгар, Дж.; Эверетт, ГА; Мэдисон, Дж. Т.; Маркизи, М.; Меррилл, Ш. Х.; Пенсвик, Дж. Р.; Замир, А. (май 1965 г.). «Структура рибонуклеиновой кислоты». Science . 147 (3664): 1462–1465. Bibcode :1965Sci...147.1462H. doi :10.1126/science.147.3664.1462. PMID 14263761. S2CID 40989800.
^ Батют, Беренис; Дойл, Мария; Кормье, Александр; Бретодо, Энтони; Леруа, Лаура; Корре, Эрван; Робин, Стефани; ноль, галантность; Хайд, Кэмерон (3 ноября 2023 г.). «Контроль качества (учебные материалы Galaxy)». Галактическая тренировка! . Проверено 26 апреля 2024 г.
^ abc Hiltemann, Saskia; Rasche, Helena; et al. (январь 2023 г.). «Galaxy Training: A Powerful Framework for Teaching!». PLOS Computational Biology . 19 (1): e1010752. Bibcode : 2023PLSCB..19E0752H. doi : 10.1371/journal.pcbi.1010752 . PMC 9829167. PMID 36622853 .
^ abc Батут, Беренис; и др. (2018). «Обучение анализу данных, управляемое сообществом, для биологии». Cell Systems . 6 (6): 752–758.e1. doi :10.1016/j.cels.2018.05.012. PMC 6296361. PMID 29953864 .
^ abcdefghij Прижибельский, Андрей Б.; Коробейников, Антон И.; Лапидус, Алла Л. (сентябрь 2018 г.). «Анализ последовательностей». Энциклопедия биоинформатики и вычислительной биологии . 3 : 292–322. doi :10.1016/B978-0-12-809633-8.20106-4. ISBN 978-0-12-811432-2.
^ Болджер, Энтони М.; Лозе, Марк; Усадель, Бьорн (апрель 2014 г.). «Trimmomatic: гибкий триммер для данных о последовательностях Illumina». Биоинформатика . 30 (15): 2114–2120. doi :10.1093/bioinformatics/btu170. PMC 4103590. PMID 24695404 .
^ Марсель, Мартин (2011). «Cutadapt удаляет последовательности адаптеров из высокопроизводительных прочтений секвенирования». EMBnet.journal . 17 : 10. doi :10.14806/ej.17.1.200.
^ Ли, Хэн; Дурбин, Ричард (июль 2009 г.). «Быстрое и точное выравнивание коротких прочтений с помощью преобразования Барроуза–Уиллера». Биоинформатика . 25 (14): 1754–1760. doi :10.1093/bioinformatics/btp324. PMID 19451168.
^ Ли, Хэн (март 2016 г.). «Минимап и миниасм: быстрое картирование и сборка de novo для длинных зашумленных последовательностей». Биоинформатика . 32 (14): 2103–2110. doi :10.1093/bioinformatics/btw152. PMC 4937194. PMID 27153593 .
^ Добин, Александр; Дэвис, Кэрри А.; и др. (октябрь 2012 г.). «STAR: сверхбыстрый универсальный РНК-секвенатор». Биоинформатика . 29 (1): 15–21. doi : 10.1093/bioinformatics/bts635. PMC 3530905. PMID 23104886.
^ Маккенна, Аарон; Ханна, Мэтью; и др. (июль 2010 г.). «Инструментарий анализа генома: структура MapReduce для анализа данных секвенирования ДНК следующего поколения». Genome Research . 20 (9): 1297–1303. doi :10.1101/gr.107524.110. PMC 2928508 . PMID 20644199.
^ Поплин, Р.; Чанг, П. К.; и др. (сентябрь 2018 г.). «Универсальный вызов вариантов SNP и small-indel с использованием глубоких нейронных сетей». Nature Biotechnology . 36 (10): 983–987. doi :10.1038/nbt.4235. PMID 30247488.
^ Sedlazeck, FJ; Rescheneder, P; et al. (апрель 2018 г.). «Точное обнаружение сложных структурных вариаций с использованием секвенирования одной молекулы». Nature Methods . 15 (6): 461–468. doi :10.1038/s41592-018-0001-7. PMC 5990442 . PMID 29713083.
^ Cingolani, P; Platts, A; et al. (апрель 2012 г.). «Программа для аннотирования и прогнозирования эффектов полиморфизмов отдельных нуклеотидов, SnpEff». Fly . 6 (2): 80–92. doi :10.4161/fly.19695. PMC 3679285 . PMID 22728672.
^ Андерс, Саймон; Пайл, Пол Теодор; Хубер, Вольфганг (январь 2015 г.). «HTSeq — фреймворк Python для работы с данными высокопроизводительного секвенирования». Биоинформатика . 31 (2): 166–169. doi :10.1093/bioinformatics/btu638. PMC 4287950. PMID 25260700 .
^ Love, MI; Huber, W.; Anders, S. (декабрь 2014 г.). "Умеренная оценка кратности изменения и дисперсии для данных РНК-секвенирования с DESeq2". Genome Biology . 15 (12): 550. doi : 10.1186/s13059-014-0550-8 . PMC 4302049 . PMID 25516281.
^ аб Батут, Беренис; Фриберг, Мэллори; и др. (17 марта 2024 г.). «Анализ данных RNA-Seq на основе эталонных данных (учебные материалы Galaxy)». Галактическая тренировка! . Проверено 26 апреля 2024 г.
^ Young, MD; Wakefield, MJ; et al. (февраль 2010 г.). «Анализ онтологии генов для РНК-секвенирования: учет смещения отбора». Genome Biology . 11 (2): R14. doi : 10.1186/gb-2010-11-2-r14 . hdl : 11343/56416 . PMID 20132535.
^ Луо, Вэйцзюнь; Брауэр, Кори (июнь 2013 г.). «Pathview: пакет R/Bioconductor для интеграции и визуализации данных на основе путей». Биоинформатика . 29 (14): 1830–1831. doi :10.1093/bioinformatics/btt285. PMC 3702256. PMID 23740750 .
^ "Рабочий процесс количественной масс-спектрометрии". nf-core .
^ Ван, Цзюнь; Конг, Лей; и др. (июль 2012 г.). «Краткое введение в веб-браузеры генома». Briefings in Bioinformatics . 14 (2): 131–143. doi :10.1093/bib/bbs029. PMID 22764121.
^ Певзнер, Дж. (февраль 2009 г.). «Анализ геномной ДНК с помощью браузера генома UCSC». Биоинформатика для анализа последовательностей ДНК . Методы молекулярной биологии. Том 537. Humana Press. стр. 277–301. doi :10.1007/978-1-59745-251-9_14. ISBN 978-1-59745-251-9. PMID 19378150.
^ Грибсков М.; Маклахлан А.Д.; Эйзенберг Д. (июль 1987 г.). «Анализ профиля: обнаружение отдаленно связанных белков». Proc. Natl. Acad. Sci. USA . 84 (13): 4355–8. Bibcode : 1987PNAS...84.4355G. doi : 10.1073 /pnas.84.13.4355 . PMC 305087. PMID 3474607.
^ Браун М.; Хьюи Р.; Крог А.; Миан ИС.; Шёландер К.; Хаусслер Д. (1993). «Использование смеси Дирихле для получения скрытых марковских моделей для семейств белков». Proc Int Conf Intell Syst Mol Biol . 1 : 47–55. PMID 7584370.
^ Krogh A; Brown M; Mian IS; Sjölander K; Haussler D (февраль 1994 г.). «Скрытые марковские модели в вычислительной биологии. Приложения к моделированию белков». J. Mol. Biol . 235 (5): 1501–31. doi :10.1006/jmbi.1994.1104. PMID 8107089. S2CID 2160404.
^ Ye X; Wang G; Altschul SF (декабрь 2011 г.). «Оценка оценок замещений для сравнения профилей белков». Биоинформатика . 27 (24): 3356–63. doi :10.1093/bioinformatics/btr565. PMC 3232366. PMID 21998158 .
^ Wooley, JC; Godzik, A; Friedberg, I (26 февраля 2010 г.). "A primer on metagenomics". PLOS Comput Biol . 6 (2): e1000667. Bibcode : 2010PLSCB...6E0667W. doi : 10.1371/journal.pcbi.1000667 . PMC 2829047. PMID 20195499 .
^ Станке, М.; Ваак, С. (19 октября 2003 г.). «Прогнозирование генов с использованием скрытой марковской модели и новой подмодели интронов». Биоинформатика . 19 Suppl 2 (2): 215–25. doi : 10.1093/bioinformatics/btg1080 . PMID 14534192.
^ Alipanahi, B; Delong, A; Weirauch, MT; Frey, BJ (август 2015 г.). «Предсказание специфичности последовательностей ДНК- и РНК-связывающих белков с помощью глубокого обучения». Nat Biotechnol . 33 (8): 831–8. doi : 10.1038/nbt.3300 . PMID 26213851.
^ Wooley, JC; Godzik, A; Friedberg, I (26 февраля 2010 г.). "A primer on metagenomics". PLOS Comput Biol . 6 (2): e1000667. Bibcode : 2010PLSCB...6E0667W. doi : 10.1371/journal.pcbi.1000667 . PMC 2829047. PMID 20195499 .
^ Abe, N; Dror, I; Yang, L; Slattery, M; Zhou, T; Bussemaker, HJ; Rohs R, R; Mann, RS (9 апреля 2015 г.). «Деконволюция распознавания формы ДНК из последовательности». Cell . 161 (2): 307–18. doi :10.1016/j.cell.2015.02.008. PMC 4422406 . PMID 25843630.
^ Moult J; Hubbard T; Bryant SH; Fidelis K; Pedersen JT (1997). "Критическая оценка методов предсказания структуры белка (CASP): раунд II". Proteins . Suppl 1 (S1): 2–6. doi :10.1002/(SICI)1097-0134(1997)1+<2::AID-PROT2>3.0.CO;2-T. PMID 9485489. S2CID 26823924.