РНК-Seq

RNA-Seq (названный как аббревиатура от РНК-секвенирования ) — это метод, который использует секвенирование следующего поколения для выявления наличия и количества молекул РНК в биологическом образце, предоставляя моментальный снимок экспрессии генов в образце, также известный как транскриптом . ^[2]^[3]

В частности, RNA-Seq облегчает возможность просмотра альтернативных генных сплайсированных транскриптов , посттранскрипционных модификаций , слияния генов , мутаций/ SNP и изменений в экспрессии генов с течением времени или различий в экспрессии генов в разных группах или при разных видах лечения. ^[4] В дополнение к транскриптам мРНК, RNA-Seq может просматривать различные популяции РНК, включая общую РНК, малые РНК, такие как miRNA , tRNA , и рибосомное профилирование . ^[5] RNA-Seq также можно использовать для определения границ экзонов / интронов и проверки или изменения ранее аннотированных 5' и 3' границ генов. Последние достижения в RNA-Seq включают секвенирование отдельных клеток , объемное секвенирование РНК , ^[6] 3'-секвенирование мРНК , секвенирование in situ фиксированной ткани и нативное секвенирование молекул РНК с помощью секвенирования отдельных молекул в реальном времени. ^[7] Другими примерами новых приложений РНК-Seq, появившихся благодаря развитию алгоритмов биоинформатики, являются изменение числа копий, микробное загрязнение, мобильные элементы, тип клеток (деконволюция) и наличие неоантигенов. ^[8]

До RNA-Seq исследования экспрессии генов проводились с использованием микрочипов на основе гибридизации . Проблемы с микрочипами включают артефакты кросс-гибридизации, плохую количественную оценку низко- и высокоэкспрессируемых генов и необходимость знать последовательность априори . ^[9] Из-за этих технических проблем транскриптомика перешла к методам, основанным на секвенировании. Они прогрессировали от секвенирования по Сэнгеру библиотек экспрессируемых последовательностей тегов до методов, основанных на химических тегах (например, серийный анализ экспрессии генов ), и, наконец, до современной технологии, следующего поколения секвенирования комплементарной ДНК (кДНК), в частности RNA-Seq.

Метод экспериментального секвенирования транскриптома (РНК-секвенирование).

Методы

Подготовка библиотеки

Типичный экспериментальный рабочий процесс RNA-Seq. РНК выделяется из нескольких образцов, преобразуется в библиотеки кДНК, секвенируется в компьютерно-читаемый формат, выравнивается по эталону и количественно определяется для последующих анализов, таких как дифференциальная экспрессия и альтернативный сплайсинг. Обзор типичного экспериментального рабочего процесса RNA-Seq. ^[10]

Общие шаги по подготовке библиотеки комплементарной ДНК (кДНК) для секвенирования описаны ниже, но они часто различаются в зависимости от платформы. ^[10]^[3]^[11]

Выделение РНК: РНК выделяется из ткани и смешивается с дезоксирибонуклеазой (ДНКазой). ДНКаза уменьшает количество геномной ДНК. Количество деградированной РНК проверяется с помощью гелевого и капиллярного электрофореза и используется для присвоения образцу номера целостности РНК . Это качество РНК и общее количество исходной РНК учитываются на последующих этапах подготовки библиотеки, секвенирования и анализа.
Отбор/истощение РНК: Для анализа интересующих сигналов изолированная РНК может быть либо сохранена как есть, либо обогащена РНК с 3'-полиаденилированными (поли(А)) хвостами, чтобы включить только эукариотическую мРНК , либо обеднена рибосомной РНК (рРНК) и/или отфильтрована для РНК, которая связывает определенные последовательности ( таблица методов отбора и истощения РНК ниже). Молекулы РНК с 3'-поли(А) хвостами у эукариот в основном состоят из зрелых, обработанных, кодирующих последовательностей. Отбор поли(А) выполняется путем смешивания РНК с олигомерами поли(Т), ковалентно прикрепленными к субстрату, обычно магнитным шарикам. ^[12]^[13] Отбор поли(А) имеет важные ограничения при обнаружении биотипа РНК. Многие биотипы РНК не полиаденилированы, включая многие некодирующие РНК и транскрипты белков ядра гистонов, или регулируются с помощью длины их поли(А)-хвоста (например, цитокины) и, таким образом, могут не быть обнаружены после отбора поли(А). ^[14] Кроме того, отбор поли(А) может демонстрировать повышенное смещение 3', особенно при низком качестве РНК. ^[15]^[16] Этих ограничений можно избежать с помощью рибосомного истощения, удаляя рРНК, которая обычно составляет более 90% РНК в клетке. Как этапы обогащения поли(А), так и этапы рибосомного истощения являются трудоемкими и могут вносить смещения, поэтому были разработаны более простые подходы, позволяющие исключить эти этапы. ^[17] Цели малых РНК, такие как miRNA , можно дополнительно выделить с помощью отбора по размеру с помощью гелей исключения, магнитных шариков или коммерческих наборов.
Синтез кДНК: РНК подвергается обратной транскрипции в кДНК, поскольку ДНК более стабильна, а также для амплификации (использующей ДНК-полимеразы ) и использования более зрелой технологии секвенирования ДНК. Амплификация после обратной транскрипции приводит к потере цепочечности , чего можно избежать с помощью химической маркировки или секвенирования отдельных молекул. Фрагментация и выбор размера выполняются для очистки последовательностей, имеющих подходящую длину для машины для секвенирования. РНК, кДНК или обе фрагментируются с помощью ферментов, обработки ультразвуком , двухвалентными ионами или распылителями. Фрагментация РНК снижает 5'-смещение случайной праймированной обратной транскрипции и влияние участков связывания праймера ^[13] , при этом 5'- и 3'-концы преобразуются в ДНК менее эффективно. За фрагментацией следует выбор размера, при котором либо удаляются небольшие последовательности, либо выбирается узкий диапазон длин последовательностей. Поскольку небольшие РНК, такие как miRNA, теряются, они анализируются независимо. кДНК для каждого эксперимента может быть проиндексирована с помощью гексамерного или октамерного штрихкода, так что эти эксперименты могут быть объединены в одну полосу для мультиплексного секвенирования.

Комплементарное секвенирование ДНК (cDNA-Seq)

Библиотека кДНК, полученная из биотипов РНК, затем секвенируется в компьютерно-читаемый формат. Существует множество высокопроизводительных технологий секвенирования для секвенирования кДНК, включая платформы, разработанные Illumina , Thermo Fisher , BGI/MGI , PacBio и Oxford Nanopore Technologies . ^[18] Для секвенирования с коротким считыванием Illumina, распространенной технологии секвенирования кДНК, адаптеры лигируются к кДНК, ДНК прикрепляется к проточной ячейке, кластеры генерируются посредством циклов амплификации мостика и денатурации, а последовательность-за-синтезом выполняется в циклах синтеза комплементарной цепи и лазерного возбуждения оснований с обратимыми терминаторами. Выбор и параметры платформы секвенирования определяются экспериментальным дизайном и стоимостью. Общие соображения по экспериментальному дизайну включают выбор длины секвенирования, глубины секвенирования, использование секвенирования с одним или двумя концами, количество репликаций, мультиплексирование, рандомизацию и вставки. ^[19]

Секвенирование малых РНК/некодирующих РНК

При секвенировании РНК, отличной от мРНК, подготовка библиотеки модифицируется. Клеточная РНК выбирается на основе желаемого диапазона размеров. Для небольших РНК-мишеней, таких как микроРНК , РНК выделяется путем выбора размера. Это можно сделать с помощью геля для исключения размера, с помощью магнитных шариков для выбора размера или с помощью коммерчески разработанного набора. После выделения линкеры добавляются к 3'- и 5'-концу, а затем очищаются. Последний шаг — генерация кДНК путем обратной транскрипции.

Прямое секвенирование РНК

Поскольку было показано, что преобразование РНК в кДНК , лигирование, амплификация и другие манипуляции с образцами вносят смещения и артефакты, которые могут помешать как правильной характеристике, так и количественной оценке транскриптов, ^[20] прямое секвенирование РНК отдельных молекул изучалось компаниями, включая Helicos (банкрот), Oxford Nanopore Technologies ^[21] и другими. Эта технология секвенирует молекулы РНК напрямую в массово-параллельном режиме.

Секвенирование РНК отдельных молекул в реальном времени

Массово-параллельный прямой РНК-Seq одиночной молекулы был исследован как альтернатива традиционному РНК-Seq, в котором преобразование РНК в кДНК , лигирование, амплификация и другие этапы манипуляции образцами могут вносить смещения и артефакты. ^[22] Технологические платформы, которые выполняют РНК-Seq в реальном времени одиночной молекулы, включают Oxford Nanopore Technologies (ONT) Nanopore sequencing , ^[21] PacBio IsoSeq и Helicos (банкрот). Секвенирование РНК в ее нативной форме сохраняет модификации, такие как метилирование, что позволяет исследовать их напрямую и одновременно. ^[21] Еще одним преимуществом РНК-Seq одиночной молекулы является то, что транскрипты могут быть охвачены по всей длине, что позволяет с большей уверенностью обнаруживать изоформы и количественно определять их по сравнению с секвенированием с коротким прочтением. Традиционно, методы РНК-Seq с одной молекулой имеют более высокий уровень ошибок по сравнению с секвенированием с коротким считыванием, но более новые методы, такие как ONT direct RNA-Seq, ограничивают ошибки, избегая фрагментации и преобразования кДНК. Недавнее использование ONT direct RNA-Seq для дифференциальной экспрессии в популяциях клеток человека продемонстрировало, что эта технология может преодолеть многие ограничения секвенирования короткой и длинной кДНК. ^[23]

Секвенирование РНК отдельных клеток (scRNA-Seq)

Стандартные методы, такие как микрочипы и стандартный анализ РНК-Seq, анализируют экспрессию РНК из больших популяций клеток. В смешанных популяциях клеток эти измерения могут скрывать критические различия между отдельными клетками в этих популяциях. ^[24]^[25]

Секвенирование РНК отдельных клеток (scRNA-Seq) обеспечивает профили экспрессии отдельных клеток. Хотя невозможно получить полную информацию о каждой РНК, экспрессируемой каждой клеткой, из-за небольшого количества доступного материала, паттерны экспрессии генов могут быть идентифицированы с помощью анализа кластеризации генов . Это может раскрыть существование редких типов клеток в популяции клеток, которые, возможно, никогда не были замечены ранее. Например, редкие специализированные клетки в легких, называемые легочными ионоцитами , которые экспрессируют регулятор трансмембранной проводимости кистозного фиброза, были идентифицированы в 2018 году двумя группами, проводившими scRNA-Seq на эпителии дыхательных путей легких. ^[26]^[27]

Экспериментальные процедуры

Текущие протоколы scRNA-Seq включают следующие этапы: выделение отдельной клетки и РНК, обратная транскрипция (RT), амплификация, создание библиотеки и секвенирование. Отдельные клетки либо механически разделяются в микролунки (например, BD Rhapsody, Takara ICELL8, Vycap Puncher Platform или CellMicrosystems CellRaft), либо инкапсулируются в капли (например, 10x Genomics Chromium, Illumina Bio-Rad ddSEQ, 1CellBio InDrop, Dolomite Bio Nadia). ^[28] Отдельные клетки маркируются путем добавления бусин со штрихкодированными олигонуклеотидами; и клетки, и бусины поставляются в ограниченных количествах, так что совместное занятие с несколькими клетками и бусинами является очень редким событием. После завершения обратной транскрипции кДНК из многих клеток можно смешивать для секвенирования; транскрипты из конкретной клетки идентифицируются по уникальному штрихкоду каждой клетки. ^[29]^[30] Уникальный молекулярный идентификатор (UMI) может быть присоединен к целевым последовательностям мРНК/кДНК, чтобы помочь идентифицировать артефакты во время подготовки библиотеки. ^[31]

Проблемы scRNA-Seq включают сохранение исходного относительного содержания мРНК в клетке и идентификацию редких транскриптов. ^[32] Этап обратной транскрипции имеет решающее значение, поскольку эффективность реакции ОТ определяет, какая часть популяции РНК клетки будет в конечном итоге проанализирована секвенатором. Процессивность обратных транскриптаз и используемые стратегии праймирования могут влиять на производство полноразмерной кДНК и создание библиотек, смещенных в сторону 3' или 5' конца генов.

На этапе амплификации в настоящее время для амплификации кДНК используется либо ПЦР, либо транскрипция in vitro (IVT). Одним из преимуществ методов на основе ПЦР является возможность генерировать полноразмерную кДНК. Однако различная эффективность ПЦР на определенных последовательностях (например, содержание GC и структура snapback) также может экспоненциально усиливаться, создавая библиотеки с неравномерным покрытием. С другой стороны, в то время как библиотеки, созданные с помощью IVT, могут избегать смещения последовательности, вызванного ПЦР, определенные последовательности могут транскрибироваться неэффективно, что приводит к выпадению последовательности или созданию неполных последовательностей. ^[33]^[24] Было опубликовано несколько протоколов scRNA-Seq: Tang et al., ^[34] STRT, ^[35] SMART-seq, ^[36] CEL-seq, ^[37] RAGE-seq, ^[38] Quartz-seq ^[39] и C1-CAGE. ^[40] Эти протоколы различаются по стратегиям обратной транскрипции, синтеза и амплификации кДНК, а также по возможности использования штрихкодов, специфичных для последовательности (т. е. UMI ), или по способности обрабатывать объединенные образцы. ^[41]

В 2017 году были представлены два подхода для одновременного измерения экспрессии мРНК и белка в отдельных клетках с помощью антител, меченых олигонуклеотидами, известных как REAP-seq ^{[42] и CITE-seq}^[43] .

Приложения

scRNA-Seq становится широко используемым в биологических дисциплинах, включая развитие, неврологию , ^[44] онкологию , ^[45]^[46]^[47] аутоиммунные заболевания , ^[48] и инфекционные заболевания . ^[49]

scRNA-Seq предоставил значительную информацию о развитии эмбрионов и организмов, включая червя Caenorhabditis elegans [ ^50] и регенеративную планарию Schmidtea mediterranea^[51]^[52] Первыми позвоночными животными, которые были картированы таким образом, были данио-рерио ^[53]^[54] и Xenopus laevis^[55] В каждом случае изучались множественные стадии эмбриона, что позволило картировать весь процесс развития на основе клетка за клеткой ^[10] Наука признала эти достижения Прорывом года 2018 ^[56 ]

Экспериментальные соображения

При планировании и проведении экспериментов РНК-Seq учитываются различные параметры :

Специфичность тканей: экспрессия генов варьируется внутри тканей и между ними, и РНК-Seq измеряет эту смесь типов клеток. Это может затруднить выделение интересующего биологического механизма. Секвенирование отдельных клеток может использоваться для изучения каждой клетки по отдельности, что смягчает эту проблему.
Зависимость от времени: Экспрессия генов меняется со временем, а РНК-Seq делает только моментальный снимок. Эксперименты с течением времени могут быть выполнены для наблюдения изменений в транскриптоме.
Охват (также известный как глубина): РНК содержит те же мутации, что и ДНК, и для обнаружения требуется более глубокий охват. При достаточно высоком охвате RNA-Seq можно использовать для оценки экспрессии каждого аллеля. Это может дать представление о таких явлениях, как импринтинг или цис-регуляторные эффекты . Глубина секвенирования, необходимая для конкретных приложений, может быть экстраполирована из пилотного эксперимента. ^[57]
Артефакты генерации данных (также известные как техническая дисперсия): Реагенты (например, набор для подготовки библиотеки), задействованный персонал и тип секвенатора (например, Illumina , Pacific Biosciences ) могут привести к техническим артефактам, которые могут быть неверно истолкованы как значимые результаты. Как и в случае с любым научным экспериментом, разумно проводить РНК-Seq в хорошо контролируемых условиях. Если это невозможно или исследование представляет собой метаанализ , другим решением является обнаружение технических артефактов путем выведения скрытых переменных (обычно анализ главных компонентов или факторный анализ ) и последующей корректировки этих переменных. ^[58]
Управление данными: один эксперимент RNA-Seq на людях обычно занимает 1-5 Гб (сжатый) или больше, если включить промежуточные файлы. ^[59] Такой большой объем данных может вызывать проблемы с хранением. Одним из решений является сжатие данных с использованием многоцелевых вычислительных схем (например, gzip ) или схем, специфичных для геномики. Последние могут быть основаны на референтных последовательностях или de novo. Другое решение — проводить эксперименты с микрочипами, что может быть достаточным для работы, основанной на гипотезах, или исследований репликации (в отличие от поисковых исследований).

Анализ

Сборка транскриптома

Для соотнесения необработанных прочтений последовательностей с геномными признаками (т.е. для сборки транскриптома) используются два метода:

De novo: Этот подход не требует референсного генома для реконструкции транскриптома и обычно используется, если геном неизвестен, неполон или существенно изменен по сравнению с референсом. ^[60] Проблемы при использовании коротких прочтений для сборки de novo включают 1) определение того, какие прочтения должны быть объединены в смежные последовательности ( контиги ), 2) устойчивость к ошибкам секвенирования и другим артефактам и 3) вычислительную эффективность. Основной алгоритм, используемый для сборки de novo, перешел от графов перекрытия, которые идентифицируют все попарные перекрытия между прочтениями, к графам де Брейна , которые разбивают прочтения на последовательности длиной k и сворачивают все k-меры в хэш-таблицу. ^[61] Графы перекрытия использовались с секвенированием по Сэнгеру, но плохо масштабируются для миллионов прочтений, генерируемых с помощью RNA-Seq. Примерами ассемблеров, использующих графы де Брейна, являются Trinity, ^[60] Oases ^[62] (происходит от геномного ассемблера Velvet ^[63] ), Bridger, ^[64] и rnaSPAdes. ^[65] Парноконцевое и длиннопрочточное секвенирование одного и того же образца может смягчить дефициты в короткопрочточном секвенировании, выступая в качестве шаблона или скелета. Метрики для оценки качества сборки de novo включают медианную длину контига, количество контигов и N50 . ^[66]

Выравнивание RNA-Seq с короткими прочтениями, разделенными интронами. Выравнивание коротких прочтений с последовательностью мРНК и референсным геномом. Программное обеспечение для выравнивания должно учитывать короткие прочтения, которые перекрывают экзон-экзонные соединения (красные) и, таким образом, пропускают интронные разделы пре-мРНК и референсного генома.

Геном-управляемый: этот подход основан на тех же методах, которые используются для выравнивания ДНК, с дополнительной сложностью выравнивания прочтений, которые охватывают ненепрерывные части референсного генома. ^[67] Эти ненепрерывные прочтения являются результатом секвенирования сплайсированных транскриптов (см. рисунок). Обычно алгоритмы выравнивания состоят из двух этапов: 1) выравнивание коротких частей прочтения (т. е. заполнение генома) и 2) использование динамического программирования для поиска оптимального выравнивания, иногда в сочетании с известными аннотациями. Программные инструменты, которые используют геном-управляемое выравнивание, включают Bowtie , ^[68] TopHat (который основывается на результатах BowTie для выравнивания соединений сплайсинга), ^[69]^[70] Subread, ^[71] STAR, ^[67] HISAT2, ^[72] и GMAP. ^[73] Выходные данные инструментов выравнивания (картирования) генома могут быть дополнительно использованы такими инструментами, как Cufflinks ^[70] или StringTie ^[74] для реконструкции смежных последовательностей транскриптов ( т. е . файла FASTA). Качество сборки генома может быть измерено как с помощью 1) метрик сборки de novo (например, N50), так и 2) сравнений с известными последовательностями транскрипта, сплайс-соединения, генома и белка с использованием точности, отзыва или их комбинации (например, оценки F1). ^[66] Кроме того, оценка in silico может быть выполнена с использованием имитированных прочтений. ^[75]^[76]

Примечание о качестве сборки: в настоящее время существует консенсус в том, что 1) качество сборки может варьироваться в зависимости от используемой метрики, 2) инструменты сборки, которые хорошо зарекомендовали себя в одном виде, не обязательно хорошо работают в другом виде, и 3) объединение различных подходов может быть наиболее надежным. ^[77]^[78]^[79]

Количественная оценка экспрессии генов

Экспрессия количественно определяется для изучения клеточных изменений в ответ на внешние стимулы, различий между здоровыми и больными состояниями и других исследовательских вопросов. Уровни транскриптов часто используются в качестве прокси для изобилия белка, но они часто не эквивалентны из-за посттранскрипционных событий, таких как интерференция РНК и бессмысленно-опосредованный распад . ^[80]

Экспрессия количественно определяется путем подсчета числа прочтений, сопоставленных с каждым локусом на этапе сборки транскриптома. Экспрессия может быть количественно определена для экзонов или генов с использованием контигов или аннотаций референтных транскриптов. ^[10] Эти наблюдаемые числа прочтений РНК-Seq были надежно проверены с использованием старых технологий, включая экспрессионные микрочипы и qPCR . ^[57]^[81] Инструментами для количественной оценки являются HTSeq, ^[82] FeatureCounts, ^[83] Rcount, ^[84] maxcounts, ^[85] FIXSEQ, ^[86] и Cuffquant. Эти инструменты определяют числа прочтений из выровненных данных РНК-Seq, но числа без выравнивания также можно получить с помощью Sailfish ^[87] и Kallisto. ^[88] Затем числа прочтений преобразуются в соответствующие метрики для проверки гипотез, регрессий и других анализов. Параметры для этого преобразования:

Глубина/охват секвенирования : хотя глубина заранее указана при проведении нескольких экспериментов RNA-Seq, она все равно будет сильно различаться между экспериментами.^[89] Таким образом, общее количество прочтений, сгенерированных в одном эксперименте, обычно нормализуется путем преобразования подсчетов во фрагменты, прочтения или подсчеты на миллион картированных прочтений (FPM, RPM или CPM). Разница между RPM и FPM исторически возникла в ходе эволюции от одноконцевого секвенирования фрагментов к парноконцевому секвенированию. При одноконцевом секвенировании на фрагмент приходится только одно прочтение ( т. е . RPM = FPM). При парноконцевом секвенировании на фрагмент приходится два прочтения ( т. е . RPM = 2 x FPM). Глубину секвенирования иногда называют размером библиотеки , числом промежуточных молекул кДНК в эксперименте.
Длина гена: более длинные гены будут иметь больше фрагментов/чтений/счетчиков, чем более короткие гены, если экспрессия транскрипта одинакова. Это корректируется путем деления FPM на длину признака (который может быть геном, транскриптом или экзоном), что приводит к метрике фрагментов на килобазу признака на миллион отображенных чтений (FPKM). ^[90] При рассмотрении групп признаков в образцах FPKM преобразуется в транскрипты на миллион (TPM) путем деления каждого FPKM на сумму FPKM в образце. ^[91]^[92]^[93]
Общий выход РНК образца: Поскольку из каждого образца извлекается одинаковое количество РНК, образцы с большим общим содержанием РНК будут иметь меньше РНК на ген. Эти гены, по-видимому, имеют пониженную экспрессию, что приводит к ложноположительным результатам в последующих анализах. ^[89] Стратегии нормализации, включая квантиль, DESeq2, TMM и медианное отношение, пытаются учесть эту разницу, сравнивая набор недифференцированно экспрессируемых генов между образцами и масштабируя соответствующим образом. ^[94]
Дисперсия для экспрессии каждого гена: моделируется для учета ошибки выборки (важно для генов с низким количеством прочтений), увеличения мощности и уменьшения ложных срабатываний. Дисперсия может быть оценена как нормальное , пуассоновское или отрицательное биномиальное распределение^[95]^[96]^[97] и часто разлагается на техническую и биологическую дисперсию.

Всплески для абсолютной количественной оценки и обнаружения эффектов на уровне всего генома

Всплески РНК — это образцы РНК в известных концентрациях, которые можно использовать в качестве золотых стандартов при разработке экспериментов и во время последующих анализов для абсолютной количественной оценки и обнаружения эффектов в масштабах всего генома.

Абсолютная количественная оценка: Абсолютная количественная оценка экспрессии генов невозможна в большинстве экспериментов RNA-Seq, которые количественно определяют экспрессию относительно всех транскриптов. Это возможно при выполнении RNA-Seq с spike-in, образцами РНК в известных концентрациях. После секвенирования подсчеты прочтений spike-in последовательностей используются для определения связи между подсчетами прочтений каждого гена и абсолютными количествами биологических фрагментов. ^[13]^[98] В одном примере эта техника была использована на эмбрионах Xenopus tropicalis для определения кинетики транскрипции. ^[99]
Выявление эффектов в масштабах всего генома: изменения в глобальных регуляторах, включая ремоделеры хроматина , факторы транскрипции (например, MYC ), комплексы ацетилтрансферазы и позиционирование нуклеосом, не соответствуют предположениям о нормализации, а контроль скачков может обеспечить точную интерпретацию. ^[100]^[101]

Дифференциальное выражение

Простейшим, но часто наиболее мощным применением RNA-Seq является поиск различий в экспрессии генов между двумя или более условиями ( например , обработанными и необработанными); этот процесс называется дифференциальной экспрессией. Выходные данные часто называют дифференциально экспрессируемыми генами (DEG), и эти гены могут быть либо повышены, либо понижены ( т. е . выше или ниже в интересующем состоянии). Существует множество инструментов, которые выполняют дифференциальную экспрессию . Большинство из них запускаются в R , Python или командной строке Unix . К часто используемым инструментам относятся DESeq, ^[96] edgeR, ^[97] и voom+limma, ^[95]^[102], все из которых доступны через R/ Bioconductor . ^[103]^[104] Вот общие соображения при выполнении дифференциальной экспрессии:

Входные данные: Входные данные дифференциальной экспрессии включают (1) матрицу экспрессии RNA-Seq (M генов x N образцов) и (2) матрицу дизайна, содержащую экспериментальные условия для N образцов. Простейшая матрица дизайна содержит один столбец, соответствующий меткам для тестируемого состояния. Другие ковариаты (также называемые факторами, признаками, метками или параметрами) могут включать пакетные эффекты , известные артефакты и любые метаданные, которые могут мешать или опосредовать экспрессию генов. В дополнение к известным ковариатам неизвестные ковариаты также могут быть оценены с помощью неконтролируемых подходов машинного обучения, включая анализы главных компонентов , суррогатных переменных ^[105] и PEER ^[58] . Анализы скрытых переменных часто используются для данных RNA-Seq тканей человека, которые обычно имеют дополнительные артефакты, не отраженные в метаданных ( например , ишемическое время, получение из нескольких учреждений, основные клинические признаки, сбор данных в течение многих лет с большим количеством персонала).
Методы: Большинство инструментов используют регрессию или непараметрическую статистику для идентификации дифференциально экспрессируемых генов и основаны либо на количестве прочтений, сопоставленных с референтным геномом (DESeq2, limma, edgeR), либо на количестве прочтений, полученных с помощью количественной оценки без выравнивания (sleuth, ^[106] Cuffdiff, ^[107] Ballgown ^[108] ). ^[109] После регрессии большинство инструментов используют либо семейную частоту ошибок (FWER), либо частоту ложных открытий (FDR) корректировки p-значения для учета множественных гипотез (в исследованиях на людях ~20 000 генов, кодирующих белки, или ~50 000 биотипов).
Выходные данные: Типичный выходной файл состоит из строк, соответствующих количеству генов, и не менее трех столбцов, логарифмического изменения каждого гена ( логарифмическое преобразование отношения в экспрессии между условиями, мера размера эффекта ), p-значения и p-значения, скорректированного для множественных сравнений . Гены определяются как биологически значимые, если они проходят пороговые значения для размера эффекта (логарифмического изменения) и статистической значимости . Эти пороговые значения в идеале должны быть указаны априори , но природа экспериментов RNA-Seq часто носит исследовательский характер, поэтому трудно заранее предсказать размеры эффекта и соответствующие пороговые значения.
Подводные камни: Смысл этих сложных методов в том, чтобы избежать множества подводных камней, которые могут привести к статистическим ошибкам и вводящим в заблуждение интерпретациям. Подводные камни включают повышенные показатели ложноположительных результатов (из-за множественных сравнений), артефакты подготовки образцов, неоднородность образцов (например, смешанный генетический фон), высококоррелированные образцы, неучтенные многоуровневые экспериментальные планы и плохой экспериментальный план . Одной из заметных подводных камней является просмотр результатов в Microsoft Excel без использования функции импорта, чтобы гарантировать, что названия генов остаются текстом. ^[110] Несмотря на удобство, Excel автоматически преобразует некоторые названия генов ( SEPT1 , DEC1 , MARCH2 ) в даты или числа с плавающей точкой.
Выбор инструментов и сравнительный анализ: Существует множество попыток сравнить результаты этих инструментов, при этом DESeq2 имеет тенденцию умеренно превосходить другие методы. ^[111]^[112]^[113]^[114]^[19]^[109]^[115]^[116] Как и в случае с другими методами, сравнительный анализ заключается в сравнении результатов инструментов друг с другом и с известными золотыми стандартами .

Анализы ниже по течению для списка дифференциально экспрессируемых генов бывают двух видов: проверка наблюдений и создание биологических выводов. Из-за подводных камней дифференциальной экспрессии и РНК-секвенирования важные наблюдения воспроизводятся с помощью (1) ортогонального метода в тех же образцах (например, ПЦР в реальном времени ) или (2) другого, иногда предварительно зарегистрированного , эксперимента в новой когорте. Последнее помогает обеспечить обобщаемость и, как правило, может сопровождаться метаанализом всех объединенных когорт. Наиболее распространенным методом получения более высокого уровня биологического понимания результатов является анализ обогащения набора генов , хотя иногда используются подходы с использованием генов-кандидатов. Обогащение набора генов определяет, является ли перекрытие между двумя наборами генов статистически значимым, в данном случае перекрытие между дифференциально экспрессируемыми генами и наборами генов из известных путей/баз данных ( например , Gene Ontology , KEGG , Human Phenotype Ontology ) или из дополнительных анализов в тех же данных (например, сетей коэкспрессии). Обычные инструменты для обогащения набора генов включают веб-интерфейсы ( например , ENRICHR, g:profiler, WEBGESTALT) ^[117] и программные пакеты. При оценке результатов обогащения одна эвристика заключается в том, чтобы сначала искать обогащение известной биологии в качестве проверки работоспособности, а затем расширять область для поиска новой биологии.

Альтернативный сплайсинг

Сплайсинг РНК является неотъемлемой частью эукариот и вносит значительный вклад в регуляцию и разнообразие белков, встречаясь в >90% человеческих генов. ^[118] Существует несколько альтернативных режимов сплайсинга : пропуск экзона (наиболее распространенный режим сплайсинга у людей и высших эукариот), взаимоисключающие экзоны, альтернативные донорные или акцепторные сайты, удержание интрона (наиболее распространенный режим сплайсинга у растений, грибов и простейших), альтернативный сайт начала транскрипции (промотор) и альтернативное полиаденилирование. ^[118] Одной из целей RNA-Seq является выявление альтернативных событий сплайсинга и проверка их различий в зависимости от условий. Длинносчитываемое секвенирование захватывает полный транскрипт и, таким образом, минимизирует многие проблемы при оценке распространенности изоформ, такие как неоднозначное картирование прочтений. Для короткосчитываемого RNA-Seq существует несколько методов обнаружения альтернативного сплайсинга, которые можно разделить на три основные группы: ^[119]^[91]^[120]

На основе подсчета (также на основе событий, дифференциальный сплайсинг): оценка сохранения экзона. Примерами являются DEXSeq, ^[121] MATS, ^[122] и SeqGSEA. ^[123]
На основе изоформ (также модули с множественным считыванием, дифференциальная экспрессия изоформ) : сначала оценивается распространенность изоформ, а затем относительная распространенность между условиями. Примерами являются Cufflinks 2 ^[124] и DiffSplice. ^[125]
Интронная эксцизия на основе: расчет альтернативного сплайсинга с использованием разделенных прочтений. Примерами являются MAJIQ ^[126] и Leafcutter. ^[120]

Инструменты дифференциальной экспрессии генов также могут быть использованы для дифференциальной экспрессии изоформ, если изоформы количественно определены заранее с помощью других инструментов, таких как RSEM. ^[127]

Сети коэкспрессии

Сети коэкспрессии представляют собой полученные из данных представления генов, ведущих себя схожим образом в тканях и экспериментальных условиях. ^[128] Их основная цель заключается в генерации гипотез и подходах «вина по ассоциации» для вывода функций ранее неизвестных генов. ^[128] Данные РНК-Seq использовались для вывода генов, участвующих в определенных путях, на основе корреляции Пирсона , как у растений ^[129], так и у млекопитающих. ^[130] Основным преимуществом данных РНК-Seq в этом виде анализа по сравнению с платформами микрочипов является возможность охватывать весь транскриптом, что позволяет раскрывать более полные представления сетей регуляции генов. Дифференциальная регуляция изоформ сплайсинга одного и того же гена может быть обнаружена и использована для прогнозирования их биологических функций. ^[131]^[132] Анализ сетей взвешенной коэкспрессии генов успешно использовался для идентификации модулей коэкспрессии и внутримодульных генов-концентраторов на основе данных РНК-Seq. Модули коэкспрессии могут соответствовать типам клеток или путям. Высокосвязанные внутримодульные хабы могут интерпретироваться как представители соответствующего им модуля. Собственный ген — это взвешенная сумма экспрессии всех генов в модуле. Собственные гены — полезные биомаркеры (признаки) для диагностики и прогнозирования. ^[133] Были предложены подходы дисперсионно-стабилизирующего преобразования для оценки коэффициентов корреляции на основе данных РНК-секвенирования. ^[129]

Открытие варианта

RNA-Seq фиксирует вариации ДНК, включая варианты отдельных нуклеотидов , небольшие вставки/делеции и структурные вариации . Вызов вариантов в RNA-Seq похож на вызов вариантов ДНК и часто использует те же инструменты (включая SAMtools mpileup ^[134] и GATK HaplotypeCaller ^[135] ) с корректировками для учета сплайсинга. Одним из уникальных измерений для вариантов РНК является аллель-специфическая экспрессия (ASE) : варианты только из одного гаплотипа могут быть предпочтительно выражены из-за регуляторных эффектов, включая импринтинг и экспрессию количественных признаков локусов , а также некодирующие редкие варианты . ^[136]^[137] Ограничения идентификации вариантов РНК включают в себя то, что она отражает только экспрессируемые области (у людей <5% генома), может быть подвержена смещениям, вносимым обработкой данных (например, сборки транскриптома de novo недооценивают гетерозиготность ^[138] ), и имеет более низкое качество по сравнению с прямым секвенированием ДНК.

Редактирование РНК (посттранскрипционные изменения)

Наличие соответствующих геномных и транскриптомных последовательностей индивидуума может помочь обнаружить посттранскрипционные изменения ( редактирование РНК ). ^[3] Событие посттранскрипционной модификации идентифицируется, если транскрипт гена имеет аллель/вариант, не наблюдаемый в геномных данных.

Событие слияния генов и поведение парных конечных прочтений, попадающих на обе стороны объединения генов. Слияния генов могут происходить в *Trans* , между генами на отдельных хромосомах, или в *Cis* , между двумя генами на одной хромосоме.

Обнаружение генов слияния

Вызванные различными структурными модификациями в геноме, гены слияния привлекли внимание из-за их связи с раком. ^[139] Способность РНК-секвенирования анализировать весь транскриптом образца беспристрастным образом делает его привлекательным инструментом для поиска подобных общих событий при раке. ^[4]

Идея вытекает из процесса выравнивания коротких транскриптомных прочтений с референтным геномом. Большинство коротких прочтений будут попадать в один полный экзон, и меньший, но все еще большой набор, как ожидается, будет сопоставлен с известными экзон-экзонными соединениями. Оставшиеся некартированные короткие прочтения затем будут дополнительно проанализированы, чтобы определить, соответствуют ли они экзон-экзонному соединению, где экзоны происходят из разных генов. Это будет свидетельством возможного события слияния, однако из-за длины прочтений это может оказаться очень шумным. Альтернативный подход заключается в использовании парных конечных прочтений, когда потенциально большое количество парных прочтений будет сопоставлено каждому концу с другим экзоном, что даст лучшее покрытие этих событий (см. рисунок). Тем не менее, конечный результат состоит из множественных и потенциально новых комбинаций генов, что обеспечивает идеальную отправную точку для дальнейшей проверки.

Изменение номера копии

Анализы изменения числа копий (CNA) обычно используются в исследованиях рака. Приобретение и потеря генов имеют последствия для сигнальных путей и являются ключевым биомаркером молекулярной дисфункции в онкологии. Вызов информации CNA из данных RNA-Seq не является простым из-за различий в экспрессии генов, которые приводят к дисперсии глубины считывания разной величины по генам. Из-за этих трудностей большинство этих анализов обычно проводятся с использованием секвенирования всего генома / секвенирования всего экзома (WGS/WES). Но передовые инструменты биоинформатики могут вызывать CNA из RNA-Seq. ^[140]

Другие новые виды анализа и применения

Применения RNA-Seq растут с каждым днем. Другие новые применения RNA-Seq включают обнаружение микробных загрязнений, ^[141] определение распространенности типов клеток (деконволюция типов клеток), ^[8] измерение экспрессии TE и прогнозирование неоантигенов и т. д. ^[8]

История

RNA-Seq был впервые разработан в середине 2000-х годов с появлением технологии секвенирования следующего поколения. ^[144] Первые рукописи, которые использовали RNA-Seq даже без использования термина, включают рукописи линий клеток рака простаты ^[145] (датированные 2006 годом), Medicago truncatula^[146] (2006), кукурузы ^[147] (2007) и Arabidopsis thaliana^[148] (2007), в то время как сам термин «RNA-Seq» был впервые упомянут в 2008 году. ^[13]^[149] Количество рукописей, ссылающихся на RNA-Seq в названии или аннотации (рисунок, синяя линия), постоянно увеличивается, и в 2018 году было опубликовано 6754 рукописи. Пересечение RNA-Seq и медицины (рисунок, золотая линия) имеет схожую быстроту. ^[150]

Применение в медицине

RNA-Seq имеет потенциал для выявления новой биологии заболеваний, профилирования биомаркеров для клинических показаний, выведения путей, поддающихся лечению, и постановки генетических диагнозов. ^[151]^[152] Эти результаты могут быть дополнительно персонализированы для подгрупп или даже отдельных пациентов, потенциально выделяя более эффективную профилактику, диагностику и терапию. Осуществимость этого подхода частично продиктована затратами денег и времени; связанным ограничением является требуемая команда специалистов (биоинформатики, врачи/клиницисты, основные исследователи, техники) для полной интерпретации огромного количества данных, полученных в результате этого анализа. ^[153]

Масштабные работы по секвенированию

Большое внимание было уделено данным RNA-Seq после того, как проекты Encyclopedia of DNA Elements (ENCODE) и The Cancer Genome Atlas (TCGA) использовали этот подход для характеристики десятков линий клеток ^[154] и тысяч образцов первичных опухолей ^[155] соответственно. ENCODE был направлен на выявление регуляторных областей генома в различных когортах линий клеток, а транскриптомные данные имеют первостепенное значение для понимания нисходящего эффекта этих эпигенетических и генетических регуляторных слоев. TCGA, напротив, был направлен на сбор и анализ тысяч образцов пациентов из 30 различных типов опухолей, чтобы понять основные механизмы злокачественной трансформации и прогрессирования. В этом контексте данные RNA-Seq предоставляют уникальный снимок транскриптомного статуса заболевания и рассматривают беспристрастную популяцию транскриптов, что позволяет идентифицировать новые транскрипты, транскрипты слияния и некодирующие РНК, которые могут быть не обнаружены с помощью различных технологий.

Смотрите также

Ссылки

Эта статья была отправлена в WikiJournal of Science для внешнего академического рецензирования в 2019 году (отчеты рецензентов). Обновленный контент был повторно интегрирован на страницу Википедии по лицензии CC-BY-SA-3.0 ( 2021 ). Версия записи, на которой она была проверена: Felix Richter, et al. (17 мая 2021 г.). "A broad introduction to RNA-Seq" (PDF) . WikiJournal of Science . 4 (2): 4. doi : 10.15347/WJS/2021.004 . ISSN 2470-6345. Wikidata Q100146647.

^ Lowe R, Shirley N, Bleackley M, Dolan S, Shafee T (май 2017 г.). «Транскриптомные технологии». PLOS Computational Biology . 13 (5): e1005457. Bibcode : 2017PLSCB..13E5457L. doi : 10.1371/journal.pcbi.1005457 . PMC 5436640. PMID 28545146 .
^ Chu Y, Corey DR (август 2012 г.). «Секвенирование РНК: выбор платформы, экспериментальный дизайн и интерпретация данных». Nucleic Acid Therapeutics . 22 (4): 271–4. doi :10.1089/nat.2012.0367. PMC 3426205 . PMID 22830413.
^ abc Wang Z, Gerstein M, Snyder M (январь 2009 г.). «RNA-Seq: революционный инструмент для транскриптомики». Nature Reviews. Genetics . 10 (1): 57–63. doi :10.1038/nrg2484. PMC 2949280. PMID 19015660 .
^ ab Maher CA, Kumar-Sinha C, Cao X, Kalyana-Sundaram S, Han B, Jing X и др. (март 2009 г.). «Секвенирование транскриптома для обнаружения слияний генов при раке». Nature . 458 (7234): 97–101. Bibcode :2009Natur.458...97M. doi :10.1038/nature07638. PMC 2725402 . PMID 19136943.
^ Ingolia NT, Brar GA, Rouskin S, McGeachy AM, Weissman JS (июль 2012 г.). «Стратегия профилирования рибосом для мониторинга трансляции in vivo путем глубокого секвенирования фрагментов мРНК, защищенных рибосомой». Nature Protocols . 7 (8): 1534–50. doi :10.1038/nprot.2012.086. PMC 3535016 . PMID 22836135.
^ Alpern D, Gardeux V, Russeil J, Mangeat B, Meireles-Filho AC, Breysse R и др. (апрель 2019 г.). "BRB-seq: сверхдоступная высокопроизводительная транскриптомика, обеспечиваемая объемным штрихкодированием РНК и секвенированием". Genome Biology . 20 (1): 71. doi : 10.1186/s13059-019-1671-x . PMC 6474054 . PMID 30999927.
^ Lee JH, Daugharthy ER, Scheiman J, Kalhor R, Yang JL, Ferrante TC и др. (март 2014 г.). «Высокомультиплексное субклеточное секвенирование РНК in situ». Science . 343 (6177): 1360–3. Bibcode :2014Sci...343.1360L. doi :10.1126/science.1250212. PMC 4140943 . PMID 24578530.
^ abc Thind AS, Monga I, Thakur PK, Kumari P, Dindhoria K, Krzak M и др. (ноябрь 2021 г.). «Демистификация новых приложений bulk RNA-Seq: применение и полезность биоинформатической методологии». Briefings in Bioinformatics . 22 (6). doi :10.1093/bib/bbab259. PMID 34329375.
^ Кукурба KR, Монтгомери SB (апрель 2015 г.). «Секвенирование и анализ РНК». Cold Spring Harbor Protocols . 2015 (11): 951–69. doi :10.1101/pdb.top084970. PMC 4863231. PMID 25870306 .
^ abcde Гриффит М., Уокер Дж. Р., Спайс НК, Эйнскоу Б. Дж., Гриффит ОЛ. (август 2015 г.). «Информатика для секвенирования РНК: веб-ресурс для анализа в облаке». PLOS Computational Biology . 11 (8): e1004393. Bibcode : 2015PLSCB..11E4393G. doi : 10.1371/journal.pcbi.1004393 . PMC 4527835. PMID 26248053 .
^ "РНК-секлопедия". rnaseq.uoregon.edu . Получено 8 февраля 2017 г. .
^ Morin R, Bainbridge M, Fejes A, Hirst M, Krzywinski M, Pugh T и др. (Июль 2008 г.). «Профилирование транскриптома HeLa S3 с использованием случайно праймированной кДНК и массивного параллельного секвенирования коротких прочтений». BioTechniques . 45 (1): 81–94. doi : 10.2144/000112900 . PMID 18611170.
^ abcd Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B (июль 2008 г.). «Картирование и количественная оценка транскриптомов млекопитающих с помощью РНК-Seq». Nature Methods . 5 (7): 621–8. doi :10.1038/nmeth.1226. PMID 18516045. S2CID 205418589.
^ Sun Q, Hao Q, Prasanth KV (февраль 2018 г.). «Длинные ядерные некодирующие РНК: ключевые регуляторы экспрессии генов». Trends in Genetics . 34 (2): 142–157. doi :10.1016/j.tig.2017.11.005. PMC 6002860. PMID 29249332 .
^ Sigurgeirsson B, Emanuelsson O, Lundeberg J (2014). "Секвенирование деградированной РНК с помощью подсчета 3'-тегов". PLOS ONE . 9 (3): e91851. Bibcode : 2014PLoSO...991851S. doi : 10.1371/journal.pone.0091851 . PMC 3954844. PMID 24632678 .
^ Chen EA, Souaiaia T, Herstein JS, Evgrafov OV, Spitsyna VN, Rebolini DF и др. (октябрь 2014 г.). "Влияние целостности РНК на уникально картированные прочтения в RNA-Seq". BMC Research Notes . 7 : 753. doi : 10.1186/1756-0500-7-753 . PMC 4213542. PMID 25339126 .
^ Moll P, Ante M, Seitz A, Reda T (декабрь 2014 г.). «QuantSeq 3′ мРНК секвенирование для РНК квантификации». Nature Methods . 11 (12): i–iii. doi :10.1038/nmeth.f.376. ISSN 1548-7105. S2CID 83424788.
^ Oikonomopoulos S, Bayega A, Fahiminiya S, Djambazian H, Berube P, Ragoussis J (2020). «Методологии профилирования транскриптов с использованием технологий длинных прочтений». Frontiers in Genetics . 11 : 606. doi : 10.3389/fgene.2020.00606 . PMC 7358353. PMID 32733532 .
^ ab Conesa A, Madrigal P, Tarazona S, Gomez-Cabrero D, Cervera A, McPherson A и др. (январь 2016 г.). «Обзор лучших практик для анализа данных РНК-секвенирования». Genome Biology . 17 (1): 13. doi : 10.1186/s13059-016-0881-8 . PMC 4728800 . PMID 26813401.
^ Liu D, Graber JH (февраль 2006 г.). «Количественное сравнение библиотек EST требует компенсации систематических смещений при генерации кДНК». BMC Bioinformatics . 7 : 77. doi : 10.1186/1471-2105-7-77 . PMC 1431573 . PMID 16503995.
^ abc Гаральд Д.Р., Снелл Э.А., Яхимович Д., Сипос Б., Ллойд Дж.Х., Брюс М. и др. (март 2018 г.). «Высокопараллельное прямое секвенирование РНК на массиве нанопор». Природные методы . 15 (3): 201–206. дои : 10.1038/nmeth.4577. PMID 29334379. S2CID 3589823.
^ Liu D, Graber JH (февраль 2006 г.). «Количественное сравнение библиотек EST требует компенсации систематических смещений при генерации кДНК». BMC Bioinformatics . 7 : 77. doi : 10.1186/1471-2105-7-77 . PMC 1431573 . PMID 16503995.
^ Gleeson J, Lane TA, Harrison PJ, Haerty W, Clark MB (3 августа 2020 г.). «Прямое секвенирование РНК с помощью нанопор обнаруживает дифференциальную экспрессию между популяциями клеток человека». bioRxiv : 2020.08.02.232785. doi : 10.1101/2020.08.02.232785 . S2CID 220975367.
^ ab " Шапиро Э., Биезунер Т., Линнарссон С. (сентябрь 2013 г.). "Технологии, основанные на секвенировании отдельных клеток, произведут революцию в науке о целых организмах". Nature Reviews. Genetics . 14 (9): 618–30. doi :10.1038/nrg3542. PMID 23897237. S2CID 500845."
^ Kolodziejczyk AA, Kim JK, Svensson V, Marioni JC, Teichmann SA (май 2015 г.). «Технология и биология секвенирования РНК отдельных клеток». Molecular Cell . 58 (4): 610–20. doi : 10.1016/j.molcel.2015.04.005 . PMID 26000846.
^ Монторо Д.Т., Хабер А.Л., Битон М., Винарский В., Лин Б., Биркет С.Е. и др. (август 2018 г.). «Пересмотренная иерархия эпителия дыхательных путей включает ионоциты, экспрессирующие CFTR». Природа . 560 (7718): 319–324. Бибкод : 2018Natur.560..319M. дои : 10.1038/s41586-018-0393-7. ПМК 6295155 . ПМИД 30069044.
^ Plasschaert LW, Žilionis R, Choo-Wing R, Savova V, Knehr J, Roma G и др. (август 2018 г.). «Атлас одноклеточного эпителия дыхательных путей выявляет богатые CFTR легочные ионоциты». Nature . 560 (7718): 377–381. Bibcode :2018Natur.560..377P. doi :10.1038/s41586-018-0394-6. PMC 6108322 . PMID 30069046.
^ Valihrach L, Androvic P, Kubista M (март 2018 г.). «Платформы для сбора и анализа отдельных клеток». International Journal of Molecular Sciences . 19 (3): 807. doi : 10.3390/ijms19030807 . PMC 5877668. PMID 29534489 .
^ Klein AM, Mazutis L, Akartuna I, Tallapragada N, Veres A, Li V и др. (Май 2015 г.). «Капля штрихкодирования для транскриптомики отдельных клеток, применяемая к эмбриональным стволовым клеткам». Cell . 161 (5): 1187–1201. doi :10.1016/j.cell.2015.04.044. PMC 4441768 . PMID 26000487.
^ Macosko EZ, Basu A, Satija R, Nemesh J, Shekhar K, Goldman M и др. (май 2015 г.). «Высокопараллельное профилирование экспрессии генома в отдельных клетках с использованием капель Nanoliter». Cell . 161 (5): 1202–1214. doi :10.1016/j.cell.2015.05.002. PMC 4481139 . PMID 26000488.
^ Ислам С., Цайсель А., Йост С., Ла Манно Г., Заяц П., Каспер М. и др. (февраль 2014 г.). «Количественное секвенирование РНК отдельных клеток с уникальными молекулярными идентификаторами». Nature Methods . 11 (2): 163–6. doi :10.1038/nmeth.2772. PMID 24363023. S2CID 6765530.
^ " Hebenstreit D (ноябрь 2012 г.). "Методы, проблемы и возможности секвенирования РНК отдельных клеток". Биология . 1 (3): 658–67. doi : 10.3390/biology1030658 . PMC 4009822 . PMID 24832513. "
^ Eberwine J, Sul JY, Bartfai T, Kim J (январь 2014 г.). «Перспективы секвенирования отдельных клеток». Nature Methods . 11 (1): 25–7. doi :10.1038/nmeth.2769. PMID 24524134. S2CID 11575439.
^ Tang F, Barbacioru C, Wang Y, Nordman E, Lee C, Xu N и др. (май 2009 г.). "mRNA-Seq анализ всего транскриптома отдельной клетки". Nature Methods . 6 (5): 377–82. doi :10.1038/NMETH.1315. PMID 19349980. S2CID 16570747.
^ Ислам С., Кьяллквист У., Молинер А., Заяц П., Фан Дж. Б., Лённерберг П. и др. (июль 2011 г.). «Характеристика транскрипционного ландшафта одиночной клетки с помощью высокомультиплексного РНК-секвенирования». Genome Research . 21 (7): 1160–7. doi :10.1101/gr.110882.110. PMC 3129258 . PMID 21543516.
^ Ramsköld D, Luo S, Wang YC, Li R, Deng Q, Faridani OR и др. (август 2012 г.). «Полноразмерное секвенирование мРНК из уровней РНК отдельных клеток и отдельных циркулирующих опухолевых клеток». Nature Biotechnology . 30 (8): 777–82. doi :10.1038/nbt.2282. PMC 3467340 . PMID 22820318.
^ Hashimshony T, Wagner F, Sher N, Yanai I (сентябрь 2012 г.). "CEL-Seq: одноклеточное РНК-Seq с помощью мультиплексной линейной амплификации". Cell Reports . 2 (3): 666–73. doi : 10.1016/j.celrep.2012.08.003 . PMID 22939981.
^ Сингх М., Аль-Эриани Г., Карсвелл С., Фергюсон Дж. М., Блэкберн Дж., Бартон К. и др. (2018). «Высокопроизводительное целевое секвенирование отдельных клеток с длинными считываниями выявляет клональный и транскрипционный ландшафт лимфоцитов». bioRxiv . 10 (1): 3120. doi : 10.1101/424945 . PMC 6635368 . PMID 31311926.
^ Sasagawa Y, Nikaido I, Hayashi T, Danno H, Uno KD, Imai T и др. (апрель 2013 г.). «Quartz-Seq: высоковоспроизводимый и чувствительный метод секвенирования РНК отдельных клеток, выявляет негенетическую гетерогенность экспрессии генов». Genome Biology . 14 (4): R31. doi : 10.1186/gb-2013-14-4-r31 . PMC 4054835 . PMID 23594475.
^ Kouno T, Moody J, Kwon AT, Shibayama Y, Kato S, Huang Y и др. (январь 2019 г.). «C1 CAGE обнаруживает сайты начала транскрипции и активность энхансера при разрешении одной клетки». Nature Communications . 10 (1): 360. Bibcode :2019NatCo..10..360K. doi :10.1038/s41467-018-08126-5. PMC 6341120 . PMID 30664627.
^ Dal Molin A, Di Camillo B (2019). «Как разработать эксперимент по секвенированию РНК в одной клетке: подводные камни, проблемы и перспективы». Briefings in Bioinformatics . 20 (4): 1384–1394. doi :10.1093/bib/bby007. PMID 29394315.
^ Peterson VM, Zhang KX, Kumar N, Wong J, Li L, Wilson DC и др. (октябрь 2017 г.). «Мультиплексная количественная оценка белков и транскриптов в отдельных клетках». Nature Biotechnology . 35 (10): 936–939. doi :10.1038/nbt.3973. PMID 28854175. S2CID 205285357.
^ Stoeckius M, Hafemeister C, Stephenson W, Houck-Loomis B, Chattopadhyay PK, Swerdlow H и др. (сентябрь 2017 г.). «Одновременное измерение эпитопа и транскриптома в отдельных клетках». Nature Methods . 14 (9): 865–868. doi :10.1038/nmeth.4380. PMC 5669064 . PMID 28759029.
^ Raj B, Wagner DE, McKenna A, Pandey S, Klein AM, Shendure J, et al. (Июнь 2018 г.). «Одновременное профилирование отдельных клеток линий и типов клеток в мозге позвоночных». Nature Biotechnology . 36 (5): 442–450. doi :10.1038/nbt.4103. PMC 5938111 . PMID 29608178.
^ Olmos D, Arkenau HT, Ang JE, Ledaki I, Attard G, Carden CP и др. (январь 2009 г.). «Циркулирующие опухолевые клетки (CTC) считаются промежуточными конечными точками при кастрационно-резистентном раке простаты (CRPC): опыт одного центра». Annals of Oncology . 20 (1): 27–33. doi : 10.1093/annonc/mdn544 . PMID 18695026.
^ Левитин HM, Юань J, Симс PA (апрель 2018 г.). «Транскриптомный анализ гетерогенности опухолей на основе одиночных клеток». Trends in Cancer . 4 (4): 264–268. doi :10.1016/j.trecan.2018.02.003. PMC 5993208. PMID 29606308 .
^ Jerby-Arnon L, Shah P, Cuoco MS, Rodman C, Su MJ, Melms JC и др. (ноябрь 2018 г.). «Программа раковых клеток способствует исключению Т-клеток и устойчивости к блокаде контрольных точек». Cell . 175 (4): 984–997.e24. doi :10.1016/j.cell.2018.09.006. PMC 6410377 . PMID 30388455.
^ Stephenson W, Donlin LT, Butler A, Rozo C, Bracken B, Rashidfarrokhi A и др. (февраль 2018 г.). «Одноклеточная РНК-секвенирование синовиальной ткани ревматоидного артрита с использованием недорогого микрофлюидного инструментария». Nature Communications . 9 (1): 791. Bibcode :2018NatCo...9..791S. doi :10.1038/s41467-017-02659-x. PMC 5824814 . PMID 29476078.
^ Авраам Р., Хасли Н., Браун Д., Пенаранда К., Джиджон Х.Б., Тромбетта Дж.Дж. и др. (сентябрь 2015 г.). «Изменчивость патогена от клетки к клетке обусловливает гетерогенность иммунных реакций хозяина». Cell . 162 (6): 1309–21. doi :10.1016/j.cell.2015.08.027. PMC 4578813 . PMID 26343579.
^ Cao J, Packer JS, Ramani V, Cusanovich DA, Huynh C, Daza R и др. (август 2017 г.). «Комплексное транскрипционное профилирование отдельных клеток многоклеточного организма». Science . 357 (6352): 661–667. Bibcode :2017Sci...357..661C. doi :10.1126/science.aam8940. PMC 5894354 . PMID 28818938.
^ Plass M, Solana J, Wolf FA, Ayoub S, Misios A, Glažar P и др. (май 2018 г.). «Атлас типов клеток и генеалогическое древо целого сложного животного с помощью транскриптомики отдельных клеток». Science . 360 (6391): eaaq1723. doi : 10.1126/science.aaq1723 . PMID 29674432.
^ Финчер CT, Вурцель О, де Хоог Т, Краварик К.М., Реддиен П.В. (май 2018 г.). «Шмидтея Средиземноморская». Наука . 360 (6391): eaaq1736. doi : 10.1126/science.aaq1736. ПМК 6563842 . ПМИД 29674431.
^ Wagner DE, Weinreb C, Collins ZM, Briggs JA, Megason SG, Klein AM (июнь 2018 г.). «Картирование ландшафтов экспрессии генов и родословной в эмбрионе данио-рерио на уровне отдельных клеток». Science . 360 (6392): 981–987. Bibcode :2018Sci...360..981W. doi :10.1126/science.aar4362. PMC 6083445 . PMID 29700229.
^ Farrell JA, Wang Y, Riesenfeld SJ, Shekhar K, Regev A, Schier AF (июнь 2018 г.). «Реконструкция траекторий развития отдельных клеток во время эмбриогенеза данио-рерио». Science . 360 (6392): eaar3131. doi :10.1126/science.aar3131. PMC 6247916 . PMID 29700225.
^ Briggs JA, Weinreb C, Wagner DE, Megason S, Peshkin L, Kirschner MW и др. (июнь 2018 г.). «Динамика экспрессии генов в эмбриогенезе позвоночных при разрешении одной клетки». Science . 360 (6392): eaar5780. doi :10.1126/science.aar5780. PMC 6038144 . PMID 29700227.
^ You J. «Прорыв года в науке 2018: отслеживание развития клетка за клеткой». Журнал Science . Американская ассоциация содействия развитию науки.
^ ab Li H, Lovci MT, Kwon YS, Rosenfeld MG, Fu XD, Yeo GW (декабрь 2008 г.). «Определение плотности тегов, требуемой для цифрового анализа транскриптома: применение к модели рака простаты, чувствительной к андрогенам». Труды Национальной академии наук Соединенных Штатов Америки . 105 (51): 20179–84. Bibcode : 2008PNAS..10520179L. doi : 10.1073/pnas.0807121105 . PMC 2603435. PMID 19088194 .
^ ab Stegle O, Parts L, Piipari M, Winn J, Durbin R (февраль 2012 г.). «Использование вероятностной оценки остатков экспрессии (PEER) для повышения мощности и интерпретируемости анализов экспрессии генов». Nature Protocols . 7 (3): 500–7. doi :10.1038/nprot.2011.457. PMC 3398141 . PMID 22343431.
^ Кингсфорд С, Патро Р (июнь 2015 г.). «Сжатие последовательностей коротких прочтений на основе ссылок с использованием кодирования путей». Биоинформатика . 31 (12): 1920–8. doi :10.1093/bioinformatics/btv071. PMC 4481695. PMID 25649622 .
^ ab Grabherr MG, Haas BJ, Yassour M, Levin JZ, Thompson DA, Amit I и др. (май 2011 г.). «Сборка полноразмерного транскриптома из данных RNA-Seq без референтного генома». Nature Biotechnology . 29 (7): 644–52. doi :10.1038/nbt.1883. PMC 3571712 . PMID 21572440.
^ "De Novo Assembly Using Illumina Reads" (PDF) . Получено 22 октября 2016 г.
^ Oases: транскриптомный ассемблер для очень коротких прочтений
^ Zerbino DR, Birney E (май 2008). «Velvet: алгоритмы для сборки коротких прочтений de novo с использованием графов де Брейна». Genome Research . 18 (5): 821–9. doi :10.1101/gr.074492.107. PMC 2336801. PMID 18349386 .
^ Chang Z, Li G, Liu J, Zhang Y, Ashby C, Liu D и др. (февраль 2015 г.). «Bridger: новая структура для сборки транскриптома de novo с использованием данных РНК-секвенирования». Genome Biology . 16 (1): 30. doi : 10.1186/s13059-015-0596-2 . PMC 4342890 . PMID 25723335.
^ Бушманова Е., Антипов Д., Лапидус А., Пржибельски АД. (сентябрь 2019 г.). "rnaSPAdes: ассемблер транскриптома de novo и его применение к данным РНК-Seq". GigaScience . 8 (9). doi :10.1093/gigascience/giz100. PMC 6736328 . PMID 31494669.
^ ab Li B, Fillmore N, Bai Y, Collins M, Thomson JA, Stewart R и др. (декабрь 2014 г.). «Оценка сборок транскриптома de novo на основе данных RNA-Seq». Genome Biology . 15 (12): 553. doi : 10.1186/s13059-014-0553-5 . PMC 4298084 . PMID 25608678.
^ ab Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, et al. (Январь 2013 г.). "STAR: сверхбыстрый универсальный РНК-seq aligner". Биоинформатика . 29 (1): 15–21. doi :10.1093/bioinformatics/bts635. PMC 3530905. PMID 23104886 .
^ Langmead B , Trapnell C, Pop M, Salzberg SL (2009). «Сверхбыстрое и эффективное с точки зрения памяти выравнивание коротких последовательностей ДНК с человеческим геномом». Genome Biology . 10 (3): R25. doi : 10.1186/gb-2009-10-3-r25 . PMC 2690996. PMID 19261174 .
^ Trapnell C, Pachter L , Salzberg SL (май 2009). "TopHat: обнаружение сплайс-соединений с помощью RNA-Seq". Биоинформатика . 25 (9): 1105–11. doi :10.1093/bioinformatics/btp120. PMC 2672628 . PMID 19289445.
^ ab Trapnell C, Roberts A, Goff L, Pertea G, Kim D, Kelley DR и др. (март 2012 г.). «Анализ дифференциальной экспрессии генов и транскриптов в экспериментах по секвенированию РНК с TopHat и Cufflinks». Nature Protocols . 7 (3): 562–78. doi :10.1038/nprot.2012.016. PMC 3334321 . PMID 22383036.
^ Liao Y, Smyth GK, Shi W (май 2013 г.). «Выравниватель субридов: быстрое, точное и масштабируемое картирование ридов методом seed-and-vote». Nucleic Acids Research . 41 (10): e108. doi :10.1093/nar/gkt214. PMC 3664803. PMID 23558742 .
^ Ким Д., Лэнгмид Б., Зальцберг С.Л. (апрель 2015 г.). «HISAT: быстрый сплайсированный выравниватель с низкими требованиями к памяти». Nature Methods . 12 (4): 357–60. doi :10.1038/nmeth.3317. PMC 4655817 . PMID 25751142.
^ Wu TD, Watanabe CK (май 2005 г.). «GMAP: программа геномного картирования и выравнивания последовательностей мРНК и EST». Биоинформатика . 21 (9): 1859–75. doi : 10.1093/bioinformatics/bti310 . PMID 15728110.
^ Pertea M, Pertea GM, Antonescu CM, Chang TC, Mendell JT, Salzberg SL (март 2015 г.). «StringTie позволяет улучшить реконструкцию транскриптома из прочтений РНК-секвенирования». Nature Biotechnology . 33 (3): 290–5. doi :10.1038/nbt.3122. PMC 4643835 . PMID 25690850.
^ Baruzzo G, Hayer KE, Kim EJ, Di Camillo B, FitzGerald GA, Grant GR (февраль 2017 г.). «Комплексный бенчмаркинг выравнивателей РНК-секвенирования на основе моделирования». Nature Methods . 14 (2): 135–139. doi :10.1038/nmeth.4106. PMC 5792058 . PMID 27941783.
^ Engström PG, Steijger T, Sipos B, Grant GR, Kahles A, Rätsch G и др. (декабрь 2013 г.). «Систематическая оценка программ сплайсированного выравнивания для данных РНК-секвенирования». Nature Methods . 10 (12): 1185–91. doi :10.1038/nmeth.2722. PMC 4018468 . PMID 24185836.
^ Lu B, Zeng Z, Shi T (февраль 2013 г.). «Сравнительное исследование de novo сборки и стратегий сборки под контролем генома для реконструкции транскриптома на основе РНК-Seq». Science China Life Sciences . 56 (2): 143–55. doi : 10.1007/s11427-013-4442-z . PMID 23393030.
^ Bradnam KR, Fass JN, Alexandrov A, Baranay P, Bechner M, Birol I, et al. (Июль 2013 г.). "Assemblathon 2: оценка методов de novo сборки генома у трех видов позвоночных". GigaScience . 2 (1): 10. arXiv : 1301.5406 . Bibcode :2013arXiv1301.5406B. doi : 10.1186/2047-217X-2-10 . PMC 3844414 . PMID 23870653.
^ Hölzer M, Marz M (май 2019). «Сборка транскриптома de novo: комплексное межвидовое сравнение сборщиков короткого считывания РНК-Seq». GigaScience . 8 (5). doi :10.1093/gigascience/giz039. PMC 6511074 . PMID 31077315.
^ Гринбаум Д., Колангело С., Уильямс К. , Герштейн М. (2003). «Сравнение уровня содержания белка и экспрессии мРНК в геномном масштабе». Genome Biology . 4 (9): 117. doi : 10.1186/gb-2003-4-9-117 . PMC 193646. PMID 12952525.
^ Zhang ZH, Jhaveri DJ, Marshall VM, Bauer DC, Edson J, Narayanan RK и др. (август 2014 г.). «Сравнительное исследование методов анализа дифференциальной экспрессии на основе данных RNA-Seq». PLOS ONE . 9 (8): e103207. Bibcode :2014PLoSO...9j3207Z. doi : 10.1371/journal.pone.0103207 . PMC 4132098 . PMID 25119138.
^ Андерс С., Пайл ПТ., Хубер В. (январь 2015 г.). «HTSeq — фреймворк Python для работы с данными высокопроизводительного секвенирования». Биоинформатика . 31 (2): 166–9. doi :10.1093/bioinformatics/btu638. PMC 4287950. PMID 25260700 .
^ Liao Y, Smyth GK, Shi W (апрель 2014 г.). "featureCounts: эффективная программа общего назначения для назначения прочтений последовательностей геномным признакам". Биоинформатика . 30 (7): 923–30. arXiv : 1305.3347 . doi :10.1093/bioinformatics/btt656. PMID 24227677.
^ Schmid MW, Grossniklaus U (февраль 2015 г.). «Rcount: простой и гибкий подсчет прочтений РНК-Seq». Биоинформатика . 31 (3): 436–7. doi : 10.1093/bioinformatics/btu680 . PMID 25322836.
^ Финотелло Ф., Лавеццо Э., Бьянко Л., Барзон Л., Маццон П., Фонтана П. и др. (2014). «Уменьшение систематической ошибки в данных секвенирования РНК: новый подход к подсчету количества». БМК Биоинформатика . 15 (Приложение 1): S7. дои : 10.1186/1471-2105-15-s1-s7 . ПМК 4016203 . ПМИД 24564404.
^ Хашимото ТБ, Эдвардс МД, Гиффорд ДК (март 2014). "Универсальная коррекция подсчета для высокопроизводительного секвенирования". PLOS Computational Biology . 10 (3): e1003494. Bibcode : 2014PLSCB..10E3494H. doi : 10.1371/journal.pcbi.1003494 . PMC 3945112. PMID 24603409 .
^ Patro R, Mount SM, Kingsford C (май 2014 г.). «Sailfish позволяет проводить количественную оценку изоформ без выравнивания из прочтений РНК-секвенирования с использованием легких алгоритмов». Nature Biotechnology . 32 (5): 462–4. arXiv : 1308.3700 . doi :10.1038/nbt.2862. PMC 4077321 . PMID 24752080.
^ Bray NL, Pimentel H, Melsted P, Pachter L (май 2016 г.). «Почти оптимальная вероятностная квантификация РНК-секвенирования». Nature Biotechnology . 34 (5): 525–7. doi :10.1038/nbt.3519. PMID 27043002. S2CID 205282743.
^ ab Robinson MD, Oshlack A (2010). "Метод нормализации масштабирования для анализа дифференциальной экспрессии данных РНК-секвенирования". Genome Biology . 11 (3): R25. doi : 10.1186/gb-2010-11-3-r25 . PMC 2864565 . PMID 20196867.
^ Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, van Baren MJ и др. (май 2010 г.). «Сборка и количественная оценка транскриптов с помощью РНК-Seq выявляет неаннотированные транскрипты и переключение изоформ во время дифференциации клеток». Nature Biotechnology . 28 (5): 511–5. doi :10.1038/nbt.1621. PMC 3146043 . PMID 20436464.
^ ab Pachter L (19 апреля 2011 г.). «Модели для количественной оценки транскриптов с помощью РНК-Seq». arXiv : 1104.3889 [q-bio.GN].
^ "Что за FPKM? Обзор единиц экспрессии RNA-Seq". The farrago . 8 мая 2014 г. Получено 28 марта 2018 г.
^ Wagner GP, Kin K, Lynch VJ (декабрь 2012 г.). «Измерение распространенности мРНК с использованием данных РНК-секвенирования: измерение RPKM несовместимо между образцами». Теория в биологических науках . 131 (4): 281–5. doi :10.1007/s12064-012-0162-3. PMID 22872506. S2CID 16752581.
^ Evans C, Hardin J, Stoebel DM (сентябрь 2018 г.). «Выбор методов нормализации РНК-Seq между образцами с точки зрения их предположений». Briefings in Bioinformatics . 19 (5): 776–792. doi :10.1093/bib/bbx008. PMC 6171491. PMID 28334202 .
^ ab Law CW, Chen Y, Shi W, Smyth GK (февраль 2014 г.). "voom: Точные веса открывают инструменты анализа линейной модели для подсчета прочтений РНК-секвенирования". Genome Biology . 15 (2): R29. doi : 10.1186/gb-2014-15-2-r29 . PMC 4053721 . PMID 24485249.
^ ab Anders S, Huber W (2010). "Анализ дифференциальной экспрессии для данных о количестве последовательностей". Genome Biology . 11 (10): R106. doi : 10.1186/gb-2010-11-10-r106 . PMC 3218662. PMID 20979621 .
^ ab Robinson MD, McCarthy DJ, Smyth GK (январь 2010 г.). "edgeR: пакет Bioconductor для анализа дифференциальной экспрессии цифровых данных по экспрессии генов". Биоинформатика . 26 (1): 139–40. doi :10.1093/bioinformatics/btp616. PMC 2796818. PMID 19910308 .
^ Marguerat S, Schmidt A, Codlin S, Chen W, Aebersold R, Bähler J (октябрь 2012 г.). «Количественный анализ транскриптомов и протеомов делящихся дрожжей в пролиферирующих и покоящихся клетках». Cell . 151 (3): 671–83. doi :10.1016/j.cell.2012.09.019. PMC 3482660 . PMID 23101633.
^ Owens ND, Blitz IL, Lane MA, Patrushev I, Overton JD, Gilchrist MJ и др. (январь 2016 г.). «Измерение абсолютного количества копий РНК с высоким временным разрешением выявляет кинетику транскриптома в процессе развития». Cell Reports . 14 (3): 632–647. doi :10.1016/j.celrep.2015.12.050. PMC 4731879 . PMID 26774488.
^ Chen K, Hu Z, Xia Z, Zhao D, Li W, Tyler JK (декабрь 2015 г.). «Упущенный факт: фундаментальная необходимость контроля всплесков для практически всех полногеномных анализов». Молекулярная и клеточная биология . 36 (5): 662–7. doi :10.1128/MCB.00970-14. PMC 4760223. PMID 26711261 .
^ Lovén J, Orlando DA, Sigova AA, Lin CY, Rahl PB, Burge CB и др. (октябрь 2012 г.). «Пересмотр глобального анализа экспрессии генов». Cell . 151 (3): 476–82. doi :10.1016/j.cell.2012.10.012. PMC 3505597 . PMID 23101621.
^ Ritchie ME, Phipson B, Wu D, Hu Y, Law CW, Shi W и др. (апрель 2015 г.). "limma обеспечивает дифференциальный анализ экспрессии для исследований РНК-секвенирования и микрочипов". Nucleic Acids Research . 43 (7): e47. doi :10.1093/nar/gkv007. PMC 4402510. PMID 25605792.
^ «Bioconductor — программное обеспечение с открытым исходным кодом для биоинформатики».
^ Huber W, Carey VJ, Gentleman R, Anders S, Carlson M, Carvalho BS и др. (февраль 2015 г.). «Организация высокопроизводительного геномного анализа с помощью Bioconductor». Nature Methods . 12 (2): 115–21. doi :10.1038/nmeth.3252. PMC 4509590 . PMID 25633503.
^ Leek JT, Storey JD (сентябрь 2007 г.). «Учет гетерогенности в исследованиях экспрессии генов с помощью анализа суррогатных переменных». PLOS Genetics . 3 (9): 1724–35. doi : 10.1371/journal.pgen.0030161 . PMC 1994707. PMID 17907809 .
^ Pimentel H, Bray NL, Puente S, Melsted P, Pachter L (июль 2017 г.). «Дифференциальный анализ РНК-секвенирования с учетом неопределенности количественной оценки». Nature Methods . 14 (7): 687–690. doi :10.1038/nmeth.4324. PMID 28581496. S2CID 15063247.
^ Trapnell C, Hendrickson DG, Sauvageau M, Goff L, Rinn JL, Pachter L (январь 2013 г.). «Дифференциальный анализ регуляции генов при разрешении транскриптов с помощью РНК-секвенирования». Nature Biotechnology . 31 (1): 46–53. doi :10.1038/nbt.2450. PMC 3869392 . PMID 23222703.
^ Frazee AC, Pertea G, Jaffe AE, Langmead B, Salzberg SL, Leek JT (март 2015 г.). «Ballgown устраняет разрыв между сборкой транскриптома и анализом экспрессии». Nature Biotechnology . 33 (3): 243–6. doi :10.1038/nbt.3172. PMC 4792117 . PMID 25748911.
^ ab Sahraeian SM, Mohiyuddin M, Sebra R, Tilgner H, Afshar PT, Au KF и др. (июль 2017 г.). «Получение комплексного биологического понимания транскриптома путем выполнения анализа секвенирования РНК широкого спектра». Nature Communications . 8 (1): 59. Bibcode :2017NatCo...8...59S. doi :10.1038/s41467-017-00050-4. PMC 5498581 . PMID 28680106.
^ Ziemann M, Eren Y, El-Osta A (август 2016 г.). «Ошибки в названии генов широко распространены в научной литературе». Genome Biology . 17 (1): 177. doi : 10.1186/s13059-016-1044-7 . PMC 4994289. PMID 27552985 .
^ Soneson C, Delorenzi M (март 2013 г.). "Сравнение методов анализа дифференциальной экспрессии данных РНК-секвенирования". BMC Bioinformatics . 14 : 91. doi : 10.1186/1471-2105-14-91 . PMC 3608160. PMID 23497356 .
^ Fonseca NA, Marioni J, Brazma A (30 сентября 2014 г.). "Профилирование генов RNA-Seq — систематическое эмпирическое сравнение". PLOS ONE . 9 (9): e107026. Bibcode :2014PLoSO...9j7026F. doi : 10.1371/journal.pone.0107026 . PMC 4182317 . PMID 25268973.
^ Seyednasrollah F, Laiho A, Elo LL (январь 2015 г.). «Сравнение пакетов программного обеспечения для обнаружения дифференциальной экспрессии в исследованиях РНК-секвенирования». Briefings in Bioinformatics . 16 (1): 59–70. doi :10.1093/bib/bbt086. PMC 4293378. PMID 24300110 .
^ Рапапорт Ф., Ханин Р., Лян Ю., Пирун М., Крек А., Зумбо П. и др. (2013). «Комплексная оценка методов анализа дифференциальной экспрессии генов для данных секвенирования РНК». Геномная биология . 14 (9): 95 рандов. дои : 10.1186/gb-2013-14-9-r95 . ПМК 4054597 . ПМИД 24020486.
^ Коста-Силва Дж., Домингес Д., Лопес Ф.М. (21 декабря 2017 г.). «Анализ дифференциальной экспрессии РНК-Seq: расширенный обзор и программный инструмент». PLOS ONE . 12 (12): e0190152. Bibcode :2017PLoSO..1290152C. doi : 10.1371/journal.pone.0190152 . PMC 5739479 . PMID 29267363.
↑ Корчете Лос-Анджелес, Рохас Э.А., Алонсо-Лопес Д., Де Лас Ривас Х., Гутьеррес Северная Каролина, Бургильо Ф.Дж. (12 ноября 2020 г.). «Систематическое сравнение и оценка процедур RNA-seq для количественного анализа экспрессии генов». Научные отчеты . 12 (10): 19737. Бибкод : 2020NatSR..1019737C. дои : 10.1038/s41598-020-76881-x . ПМЦ 7665074 . ПМИД 33184454.
^ Liao Y, Wang J, Jaehnig EJ, Shi Z, Zhang B (июль 2019 г.). «WebGestalt 2019: набор инструментов для анализа набора генов с обновленными пользовательскими интерфейсами и API». Nucleic Acids Research . 47 (W1): W199–W205. doi :10.1093/nar/gkz401. PMC 6602449. PMID 31114916 .
^ ab Keren H, Lev-Maor G, Ast G (май 2010 г.). «Альтернативный сплайсинг и эволюция: диверсификация, определение экзона и функция». Nature Reviews. Genetics . 11 (5): 345–55. doi :10.1038/nrg2776. PMID 20376054. S2CID 5184582.
^ Liu R, Loraine AE, Dickerson JA (декабрь 2014 г.). "Сравнение вычислительных методов для дифференциального обнаружения альтернативного сплайсинга с использованием РНК-секвенирования в растительных системах". BMC Bioinformatics . 15 (1): 364. doi : 10.1186/s12859-014-0364-4 . PMC 4271460 . PMID 25511303.
^ ab Li YI, Knowles DA, Humphrey J, Barbeira AN, Dickinson SP, Im HK и др. (январь 2018 г.). «Квантификация сплайсинга РНК без аннотаций с использованием LeafCutter». Nature Genetics . 50 (1): 151–158. doi :10.1038/s41588-017-0004-9. PMC 5742080 . PMID 29229983.
^ Андерс С., Рейес А., Хубер В. (октябрь 2012 г.). «Обнаружение дифференциального использования экзонов из данных РНК-секвенирования». Genome Research . 22 (10): 2008–17. doi :10.1101/gr.133744.111. PMC 3460195. PMID 22722343 .
^ Shen S, Park JW, Huang J, Dittmar KA, Lu ZX, Zhou Q и др. (апрель 2012 г.). "MATS: байесовская структура для гибкого обнаружения дифференциального альтернативного сплайсинга из данных RNA-Seq". Nucleic Acids Research . 40 (8): e61. doi :10.1093/nar/gkr1291. PMC 3333886. PMID 22266656 .
^ Wang X, Cairns MJ (июнь 2014 г.). «SeqGSEA: пакет Bioconductor для анализа обогащения набора генов данных РНК-Seq, интегрирующий дифференциальную экспрессию и сплайсинг». Биоинформатика . 30 (12): 1777–9. doi : 10.1093/bioinformatics/btu090 . PMID 24535097.
^ Trapnell C, Hendrickson DG, Sauvageau M, Goff L, Rinn JL, Pachter L (январь 2013 г.). «Дифференциальный анализ регуляции генов при разрешении транскриптов с помощью РНК-секвенирования». Nature Biotechnology . 31 (1): 46–53. doi :10.1038/nbt.2450. PMC 3869392 . PMID 23222703.
^ Hu Y, Huang Y, Du Y, Orellana CF, Singh D, Johnson AR и др. (январь 2013 г.). "DiffSplice: обнаружение событий дифференциального сплайсинга по всему геному с помощью РНК-секвенирования". Nucleic Acids Research . 41 (2): e39. doi :10.1093/nar/gks1026. PMC 3553996. PMID 23155066 .
^ Vaquero-Garcia J, Barrera A, Gazzara MR, González-Vallinas J, Lahens NF, Hogenesch JB и др. (февраль 2016 г.). «Новый взгляд на сложность транскриптома и регуляцию через призму локальных вариаций сплайсинга». eLife . 5 : e11752. doi : 10.7554/eLife.11752 . PMC 4801060 . PMID 26829591.
^ Merino GA, Conesa A, Fernández EA (март 2019 г.). «Сравнительный анализ рабочих процессов для обнаружения дифференциального сплайсинга и дифференциальной экспрессии на уровне изоформ в исследованиях секвенирования РНК человека». Briefings in Bioinformatics . 20 (2): 471–481. doi :10.1093/bib/bbx122. hdl : 11336/41247 . PMID 29040385. S2CID 22706028.
^ ab Marcotte EM, Pellegrini M, Thompson MJ, Yeates TO, Eisenberg D (ноябрь 1999 г.). "Комбинированный алгоритм для прогнозирования функции белка на уровне генома". Nature . 402 (6757): 83–6. Bibcode :1999Natur.402...83M. doi :10.1038/47048. PMID 10573421. S2CID 144447.
^ ab Giorgi FM, Del Fabbro C, Licausi F (март 2013 г.). «Сравнительное исследование сетей коэкспрессии, полученных с помощью РНК-секвенирования и микрочипов, в Arabidopsis thaliana». Биоинформатика . 29 (6): 717–24. doi : 10.1093/bioinformatics/btt053 . hdl : 11390/990155 . PMID 23376351.
^ Iancu OD, Kawane S, Bottomly D, Searles R, Hitzemann R, McWeeney S (июнь 2012 г.). «Использование данных RNA-Seq для вывода сетей коэкспрессии de novo». Биоинформатика . 28 (12): 1592–7. doi :10.1093/bioinformatics/bts245. PMC 3493127. PMID 22556371 .
^ Eksi R, Li HD, Menon R, Wen Y, Omenn GS, Kretzler M и др. (ноябрь 2013 г.). «Систематическое дифференцирование функций для альтернативно сплайсированных изоформ посредством интеграции данных РНК-секвенирования». PLOS Computational Biology . 9 (11): e1003314. Bibcode : 2013PLSCB...9E3314E. doi : 10.1371 /journal.pcbi.1003314 . PMC 3820534. PMID 24244129.
^ Li HD, Menon R, Omenn GS, Guan Y (август 2014 г.). «Начинающаяся эра интеграции геномных данных для анализа функции изоформ сплайсинга». Trends in Genetics . 30 (8): 340–7. doi :10.1016/j.tig.2014.05.005. PMC 4112133 . PMID 24951248.
^ Форушани А., Аграхари Р., Докинг Р., Чанг Л., Дунс Г., Худоба М. и др. (март 2017 г.). «Крупномасштабный анализ генной сети выявляет значимость пути внеклеточного матрикса и генов гомеобокса при остром миелоидном лейкозе: введение в пакет Pigengene и его применение». BMC Medical Genomics . 10 (1): 16. doi : 10.1186/s12920-017-0253-6 . PMC 5353782 . PMID 28298217.
^ Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N и др. (август 2009 г.). «Формат выравнивания последовательностей/карты и SAMtools». Биоинформатика . 25 (16): 2078–9. doi :10.1093/bioinformatics/btp352. PMC 2723002. PMID 19505943 .
^ ДеПристо М.А., Бэнкс Э., Поплин Р., Гаримелла К.В., Магуайр-младший, Хартл С. и др. (май 2011 г.). «Система обнаружения вариаций и генотипирования с использованием данных секвенирования ДНК следующего поколения». Природная генетика . 43 (5): 491–8. дои : 10.1038/ng.806. ПМК 3083463 . ПМИД 21478889.
^ Battle A, Brown CD, Engelhardt BE, Montgomery SB (октябрь 2017 г.). «Генетические эффекты на экспрессию генов в тканях человека». Nature . 550 (7675): 204–213. Bibcode :2017Natur.550..204A. doi :10.1038/nature24277. hdl : 10230/34202 . PMC 5776756 . PMID 29022597.
^ Richter F, Hoffman GE, Manheimer KB, Patel N, Sharp AJ, McKean D и др. (октябрь 2019 г.). «ORE выявляет экстремальные эффекты экспрессии, обогащенные редкими вариантами». Биоинформатика . 35 (20): 3906–3912. doi :10.1093/bioinformatics/btz202. PMC 6792115 . PMID 30903145.
^ Freedman AH, Clamp M, Sackton TB (январь 2021 г.). «Ошибка, шум и смещение в сборках транскриптома de novo». Ресурсы молекулярной экологии . 21 (1): 18–29. doi :10.1111/1755-0998.13156. PMID 32180366. S2CID 212739959.
^ Teixeira MR (декабрь 2006 г.). «Рецидивирующие слияние онкогенов в карциномах». Критические обзоры по онкогенезу . 12 (3–4): 257–71. doi :10.1615/critrevoncog.v12.i3-4.40. PMID 17425505. S2CID 40770452.
^ Thind AS, Monga I, Thakur PK, Kumari P, Dindhoria K, Krzak M и др. (Ноябрь 2021 г.). «Демистификация новых приложений bulk RNA-Seq: применение и полезность биоинформатической методологии». Briefings in Bioinformatics . 22 (6). doi :10.1093/bib/bbab259. PMID 34329375.
^ Sangiovanni M, Granata I, Thind AS, Guarracino MR (апрель 2019 г.). «От мусора к сокровищу: обнаружение неожиданного загрязнения в некартографированных данных NGS». BMC Bioinformatics . 20 (Suppl 4): 168. doi : 10.1186/s12859-019-2684-x . PMC 6472186. PMID 30999839 .
^ "Поиск PubMed: "RNA Seq" ИЛИ "RNA-Seq" ИЛИ "РНК-секвенирование" ИЛИ "RNASeq"". PubMed . Получено 20 июня 2021 г. .
^ "Поиск PubMed: ("RNA Seq" ИЛИ "RNA-Seq" ИЛИ "РНК-секвенирование" ИЛИ "RNASeq") И "Медицина"". PubMed . Получено 20 июня 2021 г. .
^ Вебер AP (ноябрь 2015 г.). «Открытие новой биологии посредством секвенирования РНК». Физиология растений . 169 (3): 1524–31. doi :10.1104/pp.15.01081. PMC 4634082. PMID 26353759 .
^ Bainbridge MN, Warren RL, Hirst M, Romanuik T, Zeng T, Go A и др. (сентябрь 2006 г.). «Анализ транскриптома линии клеток рака простаты LNCaP с использованием подхода секвенирования через синтез». BMC Genomics . 7 : 246. doi : 10.1186/1471-2164-7-246 . PMC 1592491 . PMID 17010196.
^ Cheung F, Haas BJ, Goldberg SM, May GD, Xiao Y, Town CD (октябрь 2006 г.). "Секвенирование экспрессированных секвенированных тегов Medicago truncatula с использованием технологии 454 Life Sciences". BMC Genomics . 7 : 272. doi : 10.1186/1471-2164-7-272 . PMC 1635983 . PMID 17062153.
^ Emrich SJ, Barbazuk WB, Li L, Schnable PS (январь 2007 г.). «Обнаружение и аннотация генов с использованием секвенирования транскриптома LCM-454». Genome Research . 17 (1): 69–73. doi :10.1101/gr.5145806. PMC 1716268. PMID 17095711 .
^ Вебер AP, Вебер KL, Карр K, Вилкерсон C, Ольрогге JB (май 2007 г.). «Отбор проб транскриптома Arabidopsis с помощью массивного параллельного пиросеквенирования». Физиология растений . 144 (1): 32–42. doi :10.1104/pp.107.096677. PMC 1913805. PMID 17351049 .
^ Nagalakshmi U, Wang Z, Waern K, Shou C, Raha D, Gerstein M и др. (июнь 2008 г.). «Транскрипционный ландшафт генома дрожжей, определенный с помощью секвенирования РНК». Science . 320 (5881): 1344–9. Bibcode :2008Sci...320.1344N. doi :10.1126/science.1158441. PMC 2951732 . PMID 18451266.
^ Рихтер Ф (2021). «Широкое введение в RNA-Seq». Викижурнал науки . 4 (1): 4. дои : 10.15347/WJS/2021.004 .
^ Cummings BB, Marshall JL, Tukiainen T, Lek M, Donkervoort S, Foley AR и др. (19 апреля 2017 г.). «Улучшение генетической диагностики менделевских заболеваний с помощью секвенирования транскриптома». Science Translational Medicine . 9 (386). doi :10.1126/scitranslmed.aal5209. hdl : 10230/35912 .
^ Kremer LS, Bader DM, Mertes C, Kopajtich R, Pichler G, Iuso A и др. (12 июня 2017 г.). «Генетическая диагностика менделевских расстройств с помощью секвенирования РНК». Nature Communications . 8 (1). doi :10.1038/ncomms15824.
^ Sandberg R (январь 2014 г.). «Вступление в эру транскриптомики отдельных клеток в биологии и медицине». Nature Methods . 11 (1): 22–4. doi :10.1038/nmeth.2764. PMID 24524133. S2CID 27632439.
^ "ENCODE Data Matrix" . Получено 28 июля 2013 г. .
^ "Атлас генома рака – Портал данных" . Получено 28 июля 2013 г.

Дальнейшее чтение

Тагучи Y (2019). «Сравнительный транскриптомный анализ». Энциклопедия биоинформатики и вычислительной биологии . С. 814–818. doi :10.1016/B978-0-12-809633-8.20163-5. ISBN 978-0-12-811432-2. S2CID 65302519.

Внешние ссылки

В Scholia есть тематический профиль по RNA-Seq .

Креско Б., Фёлькер Р., Смолл К. (2001). Бассам С., Кэтчен Дж. (ред.). «РНК-секлопедия». Университет Орегона.: общее руководство по разработке и реализации эксперимента РНК-Seq.