Транскриптомика отдельных клеток исследует уровень экспрессии генов отдельных клеток в данной популяции путем одновременного измерения концентрации РНК (обычно только матричной РНК (мРНК)) сотен или тысяч генов. [1] Транскриптомика отдельных клеток позволяет распутывать гетерогенные популяции клеток, реконструировать пути развития клеток и моделировать динамику транскрипции — все это ранее было замаскировано при секвенировании массовой РНК. [2]
Развитие высокопроизводительного секвенирования РНК (RNA-seq) и микрочипов сделало анализ экспрессии генов рутиной. Анализ РНК ранее ограничивался отслеживанием отдельных транскриптов с помощью нозерн-блоттинга или количественной ПЦР . Более высокая пропускная способность и скорость позволяют исследователям часто характеризовать профили экспрессии популяций тысяч клеток. Данные из массовых анализов привели к идентификации генов, дифференциально экспрессируемых в различных популяциях клеток, и открытию биомаркеров . [3]
Эти исследования ограничены, поскольку они предоставляют измерения для целых тканей и, как следствие, показывают средний профиль экспрессии для всех составляющих клеток. Это имеет несколько недостатков. Во-первых, разные типы клеток в одной и той же ткани могут иметь разные роли в многоклеточных организмах. Они часто образуют субпопуляции с уникальными транскрипционными профилями. Корреляции в экспрессии генов субпопуляций часто могут быть упущены из-за отсутствия идентификации субпопуляции. [1] Во-вторых, массовые анализы не могут распознать, вызвано ли изменение профиля экспрессии изменением регуляции или состава — например, если один тип клеток возникает, чтобы доминировать в популяции. Наконец, когда ваша цель состоит в том, чтобы изучить клеточную прогрессию через дифференциацию , средние профили экспрессии могут упорядочить клетки только по времени, а не по стадии развития. Следовательно, они не могут показать тенденции в уровнях экспрессии генов, специфичных для определенных стадий. [4]
Недавние достижения в области биотехнологии позволяют измерять экспрессию генов в сотнях и тысячах отдельных клеток одновременно. Хотя эти прорывы в технологиях транскриптомики позволили генерировать транскриптомные данные отдельных клеток, они также представили новые вычислительные и аналитические проблемы. Биоинформатики могут использовать методы из массового РНК-секвенирования для данных отдельных клеток. Тем не менее, для этого типа данных пришлось разработать много новых вычислительных подходов, чтобы облегчить полное и подробное изучение профилей экспрессии отдельных клеток. [5]
До сих пор не существует стандартизированной методики для получения данных по отдельным клеткам: все методы должны включать изоляцию клеток из популяции, формирование лизата , амплификацию посредством обратной транскрипции и количественную оценку уровней экспрессии. Распространенными методиками для измерения экспрессии являются количественная ПЦР или РНК-секвенирование. [6]
Существует несколько методов выделения и амплификации клеток для анализа отдельных клеток. Низкопроизводительные методы позволяют выделить сотни клеток, они медленные и позволяют проводить отбор. Эти методы включают:
Высокопроизводительные методы позволяют быстро изолировать сотни и десятки тысяч клеток. [7] Распространенные методы включают:
Объединение FACS с scRNA-seq привело к созданию оптимизированных протоколов, таких как SORT-seq. [8] Список исследований, в которых использовался SORT-seq, можно найти здесь. [9] Более того, объединение микрофлюидных устройств с scRNA-seq было оптимизировано в 10x Genomics протоколах. [10]
Для измерения уровня экспрессии каждого транскрипта можно применять кПЦР. Ген-специфичные праймеры используются для амплификации соответствующего гена, как и при обычной ПЦР , и в результате данные обычно получаются только для размеров выборки менее 100 генов. Включение генов домашнего хозяйства , экспрессия которых должна быть постоянной при данных условиях, используется для нормализации. Наиболее часто используемые гены домашнего хозяйства включают GAPDH и α- актин , хотя надежность нормализации с помощью этого процесса сомнительна, поскольку есть доказательства того, что уровень экспрессии может значительно варьироваться. [11] Флуоресцентные красители используются в качестве репортерных молекул для обнаружения продукта ПЦР и мониторинга хода амплификации - увеличение интенсивности флуоресценции пропорционально концентрации ампликона . Строится график зависимости флуоресценции от номера цикла, и пороговый уровень флуоресценции используется для нахождения номера цикла, при котором график достигает этого значения. Номер цикла в этой точке известен как пороговый цикл (C t ) и измеряется для каждого гена. [12]
Техника секвенирования РНК отдельных клеток преобразует популяцию РНК в библиотеку фрагментов кДНК . Эти фрагменты секвенируются с помощью высокопроизводительных методов секвенирования следующего поколения , а считывания сопоставляются с референтным геномом, обеспечивая подсчет количества считываний, связанных с каждым геном. [13]
Нормализация данных РНК-секвенирования учитывает вариации от клетки к клетке в эффективности формирования библиотеки кДНК и секвенирования. Один метод основан на использовании внешних РНК-всплесков (РНК-последовательности известной последовательности и количества), которые добавляются в равных количествах к каждому клеточному лизату и используются для нормализации количества прочтений по числу прочтений, сопоставленных с мРНК -всплеском . [14]
Другой контроль использует уникальные молекулярные идентификаторы (UMI) — короткие последовательности ДНК (6–10 нт), которые добавляются к каждой кДНК перед амплификацией и действуют как штрих-код для каждой молекулы кДНК. Нормализация достигается путем использования количества уникальных UMI, связанных с каждым геном, для учета различий в эффективности амплификации. [15]
Для более точной нормализации была использована комбинация входных сигналов, UMI и других подходов.
Проблема, связанная с данными по отдельным клеткам, возникает в виде нулевых завышенных распределений экспрессии генов, известных как технические выпадения, которые являются обычным явлением из-за низких концентраций мРНК менее экспрессируемых генов, которые не захватываются в процессе обратной транскрипции. Процент молекул мРНК в лизате клеток, которые обнаруживаются, часто составляет всего 10-20%. [16]
При использовании РНК-всплесков для нормализации предполагается, что эффективность амплификации и секвенирования для эндогенной и всплесков РНК одинакова. Данные свидетельствуют о том, что это не так, учитывая фундаментальные различия в размерах и характеристиках, таких как отсутствие полиаденилированного хвоста в всплесках и, следовательно, более короткая длина. [17] Кроме того, нормализация с использованием UMI предполагает, что библиотека кДНК секвенирована до насыщения, что не всегда так. [15]
Выводы, основанные на анализе данных отдельных клеток, предполагают, что входные данные представляют собой матрицу нормализованных показателей экспрессии генов, созданную с помощью описанных выше подходов, и могут предоставить возможности, которые невозможно получить при массовом анализе.
Представлены три основных идеи: [18]
Описанные методы были разработаны для визуализации и изучения закономерностей в данных с целью облегчения выявления этих трех особенностей.
Кластеризация позволяет формировать подгруппы в популяции клеток. Клетки могут быть сгруппированы по их транскриптомному профилю для анализа структуры субпопуляции и идентификации редких типов клеток или подтипов клеток. В качестве альтернативы гены могут быть сгруппированы по их состояниям экспрессии для идентификации ковариирующих генов. Сочетание обоих подходов к кластеризации, известное как бикластеризация , использовалось для одновременной кластеризации по генам и клеткам для поиска генов, которые ведут себя схожим образом в кластерах клеток. [19]
Применяемые методы кластеризации могут включать кластеризацию методом К-средних , формирующую непересекающиеся группы, или иерархическую кластеризацию , формирующую вложенные разделы.
Бикластеризация обеспечивает несколько преимуществ за счет улучшения разрешения кластеризации. Гены, которые информативны только для подмножества клеток и, следовательно, экспрессируются только там, могут быть идентифицированы с помощью бикластеризации. Более того, с помощью этого метода можно идентифицировать гены с похожим поведением, которые отличают один кластер клеток от другого. [20]
Алгоритмы снижения размерности, такие как анализ главных компонент (PCA) и t-SNE, могут использоваться для упрощения данных для визуализации и обнаружения закономерностей путем преобразования ячеек из высокоразмерного в низкоразмерное пространство . Результатом этого метода являются графики, в которых каждая ячейка является точкой в 2-D или 3-D пространстве. Снижение размерности часто используется перед кластеризацией, поскольку ячейки в высокоразмерных пространствах могут ошибочно казаться близкими из-за неинтуитивного поведения метрик расстояния. [21]
Наиболее часто используемым методом является PCA, который определяет направления главных компонентов наибольшей дисперсии и преобразует данные таким образом, что первый главный компонент имеет наибольшую возможную дисперсию, а последующие главные компоненты в свою очередь имеют наибольшую возможную дисперсию, оставаясь ортогональными к предыдущим компонентам. Вклад каждого гена в каждый компонент используется для вывода о том, какие гены вносят наибольший вклад в дисперсию в популяции и участвуют в дифференциации различных субпопуляций. [22]
Для обнаружения различий в уровне экспрессии генов между двумя популяциями используются как одноклеточные, так и объемные транскриптомные данные. Для одноклеточных данных были разработаны специальные методы, которые учитывают особенности отдельных клеток, такие как технические выпадения и форму распределения, например, бимодальное против унимодального . [23]
Термины онтологии генов описывают функции генов и отношения между этими функциями, разделяя их на три класса:
Обогащение терминов Gene Ontology (GO) — это метод, используемый для определения того, какие термины GO представлены в избыточном или недостаточном количестве в заданном наборе генов. В одноклеточном анализе входной список интересующих генов может быть выбран на основе дифференциально экспрессируемых генов или групп генов, полученных в результате бикластеризации. Количество генов, аннотированных к термину GO во входном списке, нормализуется по отношению к количеству генов, аннотированных к термину GO в фоновом наборе всех генов в геноме для определения статистической значимости. [24]
Псевдовременное упорядочение (или вывод траектории) — это метод, направленный на выведение динамики экспрессии генов из данных моментального снимка отдельных клеток. Метод пытается упорядочить клетки таким образом, чтобы похожие клетки были близко расположены друг к другу. Эта траектория клеток может быть линейной, но может также разветвляться или следовать более сложным графовым структурам. Таким образом, траектория позволяет выводить динамику экспрессии генов и упорядочивать клетки по их прогрессированию через дифференциацию или ответ на внешние стимулы. Метод основан на предположениях, что клетки следуют по одному и тому же пути через интересующий процесс и что их транскрипционное состояние коррелирует с их прогрессированием. Алгоритм может применяться как к смешанным популяциям, так и к временным образцам.
Было разработано более 50 методов псевдовременного упорядочения, и каждый из них имеет свои собственные требования к предварительной информации (такой как начальные ячейки или данные о ходе времени), обнаруживаемым топологиям и методологии. [25] Примером алгоритма является алгоритм Monocle [26], который выполняет уменьшение размерности данных, строит минимальное остовное дерево с использованием преобразованных данных, упорядочивает ячейки в псевдовремени, следуя самому длинному связанному пути дерева и, следовательно, маркирует ячейки по типу. Другим примером является алгоритм диффузионного псевдовремени (DPT) [24] , который использует карту диффузии и процесс диффузии. Другой класс методов, таких как MARGARET [27], использует разбиение графа для захвата сложных топологий траектории, таких как несвязные и многофуркационные траектории.
Генная регуляторная сеть вывода - это метод, который направлен на построение сети, показанной в виде графика, в котором узлы представляют гены, а ребра указывают на ко-регуляторные взаимодействия. Метод основан на предположении, что сильная статистическая связь между экспрессией генов является показателем потенциальной функциональной связи. [28] Наиболее часто используемый метод для измерения силы статистической связи - это корреляция . Однако корреляция не позволяет определить нелинейные связи, и в качестве альтернативы используется взаимная информация . Генные кластеры, связанные в сети, означают гены, которые претерпевают скоординированные изменения в экспрессии. [29]
Наличие или сила технических эффектов и типы наблюдаемых клеток часто различаются в наборах данных транскриптомики отдельных клеток, созданных с использованием различных экспериментальных протоколов и в различных условиях. Это различие приводит к сильным эффектам партии , которые могут исказить результаты статистических методов, применяемых к партиям, особенно при наличии вмешивающихся факторов . [30] В результате вышеупомянутых свойств транскриптомных данных отдельных клеток методы коррекции партии, разработанные для данных массового секвенирования, как было замечено, работают плохо. Следовательно, исследователи разработали статистические методы для коррекции эффектов партии, которые являются устойчивыми к свойствам транскриптомных данных отдельных клеток, чтобы интегрировать данные из различных источников или экспериментальных партий. Лалех Хагверди выполнила основополагающую работу по формулированию использования общих ближайших соседей между каждой партией для определения векторов коррекции партии. [31] С помощью этих векторов можно объединять наборы данных, каждый из которых включает по крайней мере один общий тип клеток. Ортогональный подход включает проекцию каждого набора данных на общее низкоразмерное пространство с использованием канонического корреляционного анализа . [32] Взаимные ближайшие соседи и канонический корреляционный анализ также были объединены для определения «якорей» интеграции, включающих опорные ячейки в одном наборе данных, к которым нормализуются ячейки запроса в другом наборе данных. [33] Другой класс методов (например, scDREAMER [34] ) использует глубокие генеративные модели, такие как вариационные автокодировщики, для обучения пакетно-инвариантных скрытых клеточных представлений, которые могут использоваться для последующих задач, таких как кластеризация типов клеток, шумоподавление векторов экспрессии генов отдельных клеток и вывод траектории. [27]