Функциональная геномика — это область молекулярной биологии , которая пытается описать функции и взаимодействия генов (и белков ). Функциональная геномика использует обширные данные, полученные в ходе геномных и транскриптомных проектов (таких как проекты по секвенированию генома и секвенирование РНК ). Функциональная геномика фокусируется на динамических аспектах, таких как транскрипция генов , трансляция , регуляция экспрессии генов и белок-белковые взаимодействия , в отличие от статических аспектов геномной информации, таких как последовательность ДНК или структуры. Ключевой характеристикой исследований функциональной геномики является их подход к этим вопросам на уровне всего генома, обычно включающий высокопроизводительные методы, а не более традиционный подход «ген-кандидат».
Чтобы понять функциональную геномику, важно сначала определить функцию. В своей статье [1] Граур и др. определяют функцию двумя возможными способами. Это «выбранный эффект» и «причинная роль». Функция «выбранного эффекта» относится к функции, для которой выбран признак (ДНК, РНК, белок и т. д.). Функция «причинной роли» относится к функции, для которой признак достаточен и необходим. Функциональная геномика обычно проверяет определение функции как «причинной роли».
Цель функциональной геномики — понять функцию генов или белков, в конечном итоге всех компонентов генома. Термин функциональная геномика часто используется для обозначения многих технических подходов к изучению генов и белков организма, включая «биохимические, клеточные и/или физиологические свойства каждого продукта гена» [2], в то время как некоторые авторы включают изучение негенных элементов в свое определение. [3] Функциональная геномика может также включать исследования естественной генетической изменчивости с течением времени (например, развитие организма) или пространства (например, его областей тела), а также функциональных нарушений, таких как мутации.
Функциональная геномика обещает генерировать и синтезировать геномные и протеомные знания в понимание динамических свойств организма. Это может потенциально обеспечить более полную картину того, как геном определяет функцию, по сравнению с исследованиями отдельных генов. Интеграция данных функциональной геномики часто является частью подходов системной биологии .
Функциональная геномика включает в себя аспекты, связанные с функциями самого генома, такие как мутация и полиморфизм (например, анализ полиморфизма одиночных нуклеотидов (SNP)), а также измерение молекулярной активности. Последнее включает в себя ряд «-омик » , таких как транскриптомика ( экспрессия генов ), протеомика ( производство белков ) и метаболомика . Функциональная геномика использует в основном мультиплексные методы для измерения распространенности многих или всех продуктов генов, таких как мРНК или белки в биологическом образце . Более целенаправленный подход функциональной геномики может проверить функцию всех вариантов одного гена и количественно оценить эффекты мутантов, используя секвенирование в качестве считывания активности. Вместе эти методы измерения стремятся количественно оценить различные биологические процессы и улучшить наше понимание функций и взаимодействий генов и белков.
Систематическое попарное удаление генов или подавление экспрессии генов может использоваться для идентификации генов с родственной функцией, даже если они не взаимодействуют физически. Эпистаз относится к тому факту, что эффекты двух различных генных нокаутов могут не быть аддитивными; то есть фенотип, который возникает при ингибировании двух генов, может отличаться от суммы эффектов отдельных нокаутов.
Белки, образованные путем трансляции мРНК (информационная РНК, закодированная информация из ДНК для синтеза белка), играют важную роль в регуляции экспрессии генов. Чтобы понять, как они регулируют экспрессию генов, необходимо идентифицировать последовательности ДНК, с которыми они взаимодействуют. Были разработаны методы для определения участков взаимодействия ДНК-белок. К ним относятся ChIP-секвенирование , CUT&RUN секвенирование и Calling Cards. [4]
Были разработаны анализы для определения доступных областей генома. Эти области доступного хроматина являются кандидатами на роль регуляторных областей. Эти анализы включают ATAC-seq , DNase-Seq и FAIRE-Seq .
Микрочипы измеряют количество мРНК в образце, которое соответствует заданной последовательности гена или зонда ДНК. Последовательности зондов иммобилизуются на твердой поверхности и гибридизуются с флуоресцентно меченой «целевой» мРНК. Интенсивность флуоресценции пятна пропорциональна количеству целевой последовательности, которая гибридизировалась с этим пятном, и, следовательно, распространенности этой последовательности мРНК в образце. Микрочипы позволяют идентифицировать гены-кандидаты, вовлеченные в заданный процесс, на основе различий между уровнями транскриптов для различных условий и общих паттернов экспрессии с генами известной функции.
Последовательный анализ экспрессии генов (SAGE) — это альтернативный метод анализа, основанный на секвенировании РНК, а не на гибридизации. SAGE полагается на секвенирование 10–17 пар оснований тегов, которые уникальны для каждого гена. Эти теги производятся из поли-А мРНК и лигируются конец в конец перед секвенированием. SAGE дает беспристрастное измерение количества транскриптов на клетку, поскольку он не зависит от предварительного знания того, какие транскрипты изучать (как это делают микрочипы).
Секвенирование РНК в последние годы взяло верх над микрочипами и технологией SAGE, как было отмечено в 2016 году, и стало наиболее эффективным способом изучения транскрипции и экспрессии генов. Обычно это делается с помощью секвенирования следующего поколения . [5]
Подмножество секвенированных РНК — это малые РНК, класс некодирующих молекул РНК, которые являются ключевыми регуляторами транскрипционного и посттранскрипционного подавления генов или подавления РНК . Секвенирование следующего поколения — это золотой стандартный инструмент для обнаружения, профилирования и анализа экспрессии некодирующих РНК .
Массовые параллельные репортерные анализы — это технология для проверки цис-регуляторной активности последовательностей ДНК. [6] [7] MPRA используют плазмиду с синтетическим цис-регуляторным элементом выше промотора, управляющего синтетическим геном, таким как зеленый флуоресцентный белок. Библиотека цис-регуляторных элементов обычно тестируется с помощью MPRA, библиотека может содержать от сотен до тысяч цис-регуляторных элементов. Цис-регуляторная активность элементов анализируется с помощью нисходящей репортерной активности. Активность всех членов библиотеки анализируется параллельно с использованием штрих-кодов для каждого цис-регуляторного элемента. Одним из ограничений MPRA является то, что активность анализируется на плазмиде и может не охватывать все аспекты регуляции генов, наблюдаемые в геноме.
STARR-seq — это метод, аналогичный MPRA, для анализа активности энхансеров случайно разрезанных геномных фрагментов. В оригинальной публикации [8] случайно разрезанные фрагменты генома Drosophila были помещены ниже минимального промотора. Кандидаты на энхансеры среди случайно разрезанных фрагментов будут транскрибировать себя с использованием минимального промотора. Используя секвенирование в качестве считывания и контролируя входные количества каждой последовательности, этот метод анализирует силу предполагаемых энхансеров.
Perturb-seq связывает опосредованные CRISPR нокдауны генов с экспрессией генов в одной клетке. Линейные модели используются для расчета эффекта нокдауна одного гена на экспрессию нескольких генов.
Двугибридный скрининг дрожжей (Y2H) тестирует белок-приманку против многих потенциально взаимодействующих белков («жертва») для идентификации физических белок-белковых взаимодействий. Эта система основана на факторе транскрипции, изначально GAL4, [9], чьи отдельные домены связывания ДНК и активации транскрипции необходимы для того, чтобы белок вызывал транскрипцию гена-репортера. В скрининге Y2H белок-приманка сливается с доменом связывания GAL4, а библиотека потенциальных белков-«жертв» (взаимодействующих) рекомбинантно экспрессируется в векторе с доменом активации. Взаимодействие белков-приманки и добычи in vivo в дрожжевой клетке сближает домены активации и связывания GAL4 достаточно близко, чтобы привести к экспрессии гена -репортера . Также возможно систематически тестировать библиотеку белков-приманок против библиотеки белков-жертв, чтобы выявить все возможные взаимодействия в клетке.
Масс-спектрометрия (МС) может идентифицировать белки и их относительные уровни, поэтому ее можно использовать для изучения экспрессии белков. При использовании в сочетании с аффинной очисткой масс-спектрометрию ( АП/МС) можно использовать для изучения белковых комплексов, то есть, какие белки взаимодействуют друг с другом в комплексах и в каких соотношениях. Для очистки белковых комплексов обычно белок-приманка помечается определенным белком или пептидом, который можно использовать для извлечения комплекса из сложной смеси. Очистка обычно выполняется с использованием антитела или соединения, которое связывается с частью слияния. Затем белки расщепляются на короткие пептидные фрагменты, и масс-спектрометрия используется для идентификации белков на основе соотношений массы к заряду этих фрагментов.
При глубоком мутационном сканировании сначала синтезируются все возможные аминокислотные изменения в данном белке. [10] Активность каждого из этих вариантов белка анализируется параллельно с использованием штрихкодов для каждого варианта. [11] Сравнивая активность с белком дикого типа, определяется эффект каждой мутации. Хотя возможно анализировать каждое возможное единичное аминокислотное изменение из-за комбинаторики, две или более одновременных мутации трудно проверить. Эксперименты по глубокому мутационному сканированию также использовались для определения структуры белка и белок-белковых взаимодействий. [12] Глубокое мутационное сканирование является примером мультиплексного анализа эффекта варианта (MAVE), семейства методов, которые включают мутагенез ДНК-кодируемого белка или регуляторного элемента с последующим мультиплексным анализом для некоторого аспекта функции. MAVE позволяют создавать «карты эффекта варианта», характеризующие аспекты функции каждого возможного единичного нуклеотидного изменения в гене или функциональном элементе, представляющем интерес. [13]
Важной функциональной особенностью генов является фенотип, вызванный мутациями. Мутанты могут быть получены случайными мутациями или направленным мутагенезом, включая сайт-направленный мутагенез, удаление целых генов или другие методы.
Функция гена может быть исследована путем систематического «выбивания» генов один за другим. Это делается либо путем делеции , либо путем нарушения функции (например, путем инсерционного мутагенеза ), а полученные организмы проверяются на наличие фенотипов, которые дают подсказки о функции нарушенного гена. Нокауты были получены для целых геномов, т. е. путем удаления всех генов в геноме. Для основных генов это невозможно, поэтому используются другие методы, например, удаление гена при экспрессии гена из плазмиды , с использованием индуцируемого промотора, так что уровень продукта гена может быть изменен по желанию (и, таким образом, достигается «функциональная» делеция).
Сайт-направленный мутагенез используется для мутации определенных оснований (и, следовательно, аминокислот ). Это имеет решающее значение для исследования функции определенных аминокислот в белке, например, в активном центре фермента .
Методы РНК-интерференции (РНКi) могут использоваться для временного подавления или снижения экспрессии генов с использованием двухцепочечной РНК длиной ~20 пар оснований, обычно доставляемой путем трансфекции синтетических молекул короткой интерферирующей РНК длиной ~20 мер (siRNA) или кодируемых вирусом коротких шпилечных РНК (shRNA). Скрининги РНКi, обычно проводимые в анализах на основе клеточных культур или экспериментальных организмов (таких как C. elegans ), могут использоваться для систематического нарушения практически каждого гена в геноме или подмножествах генов (субгеномах); возможные функции нарушенных генов могут быть назначены на основе наблюдаемых фенотипов .
CRISPR-Cas9 использовался для удаления генов мультиплексным образом в клеточных линиях. Количественная оценка количества направляющих РНК для каждого гена до и после эксперимента может указать на существенные гены. Если направляющая РНК нарушает существенный ген, это приведет к потере этой клетки и, следовательно, после скрининга произойдет истощение этой конкретной направляющей РНК. В недавнем эксперименте CRISPR-cas9 на клеточных линиях млекопитающих было обнаружено, что около 2000 генов являются существенными в нескольких клеточных линиях. [15] [16] Некоторые из этих генов были существенными только в одной клеточной линии. Большинство генов являются частью многобелковых комплексов. Этот подход можно использовать для определения синтетической летальности с использованием соответствующего генетического фона. CRISPRi и CRISPRa позволяют проводить скрининг потери и приобретения функции аналогичным образом. CRISPRi идентифицировал ~2100 существенных генов в клеточной линии K562. [17] [18] Скрининги делеции CRISPR также использовались для идентификации потенциальных регуляторных элементов гена. Например, была опубликована методика под названием ScanDel, которая пыталась использовать этот подход. Авторы удалили области за пределами интересующего гена (HPRT1, вовлеченного в менделевское расстройство) в попытке идентифицировать регуляторные элементы этого гена. [19] Гассперини и др. не идентифицировали никаких дистальных регуляторных элементов для HPRT1, используя этот подход, однако такие подходы можно распространить на другие интересующие гены.
Предполагаемые гены могут быть идентифицированы путем сканирования генома на предмет областей, которые, вероятно, кодируют белки, на основе таких характеристик, как длинные открытые рамки считывания , последовательности инициации транскрипции и сайты полиаденилирования . Последовательность, идентифицированная как предполагаемый ген, должна быть подтверждена дополнительными доказательствами, такими как сходство с последовательностями кДНК или EST из того же организма, сходство предсказанной последовательности белка с известными белками, связь с последовательностями промотора или доказательство того, что мутация последовательности приводит к наблюдаемому фенотипу.
Подход Rosetta Stone — это вычислительный метод для de-novo предсказания функции белка. Он основан на гипотезе, что некоторые белки, участвующие в данном физиологическом процессе, могут существовать в виде двух отдельных генов в одном организме и в виде одного гена в другом. Геномы сканируются на наличие последовательностей, которые независимы в одном организме и находятся в одной открытой рамке считывания в другом. Если два гена слились, предсказывается, что они имеют схожие биологические функции, что делает такую совместную регуляцию выгодной.
Из-за большого количества данных, полученных с помощью этих методов, и желания найти биологически значимые закономерности, биоинформатика имеет решающее значение для анализа данных функциональной геномики. Примерами методов в этом классе являются кластеризация данных или анализ главных компонентов для неконтролируемого машинного обучения (определение классов), а также искусственные нейронные сети или машины опорных векторов для контролируемого машинного обучения (предсказание классов, классификация ). Анализ функционального обогащения используется для определения степени избыточной или недостаточной экспрессии (положительные или отрицательные регуляторы в случае скрининга РНК-интерференции) функциональных категорий относительно фоновых наборов. Анализ обогащения на основе онтологии генов предоставляется DAVID , а анализ обогащения наборов генов (GSEA) [20] анализ на основе путей от Ingenuity [21] и Pathway studio [22] и анализ на основе белковых комплексов от COMPLEAT. [23]
Разработаны новые вычислительные методы для понимания результатов эксперимента по глубокому мутационному сканированию. «phydms» сравнивает результат эксперимента по глубокому мутационному сканированию с филогенетическим деревом. [24] Это позволяет пользователю сделать вывод, применяет ли процесс отбора в природе аналогичные ограничения к белку, как показывают результаты глубокого мутационного сканирования. Это может позволить экспериментатору выбирать между различными экспериментальными условиями на основе того, насколько хорошо они отражают природу. Глубокое мутационное сканирование также использовалось для вывода белок-белковых взаимодействий. [25] Авторы использовали термодинамическую модель для прогнозирования эффектов мутаций в различных частях димера. Глубокая мутационная структура также может использоваться для вывода структуры белка. Сильный положительный эпистаз между двумя мутациями в глубоком мутационном сканировании может указывать на две части белка, которые находятся близко друг к другу в трехмерном пространстве. Затем эта информация может быть использована для вывода структуры белка. Доказательство принципа этого подхода было продемонстрировано двумя группами с использованием белка GB1. [26] [27]
Результаты экспериментов MPRA потребовали подходов машинного обучения для интерпретации данных. Модель SVM с разрывами k-меров использовалась для выведения кмеров, которые обогащены в цис-регуляторных последовательностях с высокой активностью по сравнению с последовательностями с более низкой активностью. [28] Эти модели обеспечивают высокую предсказательную силу. Подходы глубокого обучения и случайного леса также использовались для интерпретации результатов этих многомерных экспериментов. [29] Эти модели начинают помогать развивать лучшее понимание функции некодирующей ДНК в отношении регуляции генов.
Проект ENCODE (Энциклопедия элементов ДНК) представляет собой углубленный анализ генома человека, целью которого является идентификация всех функциональных элементов геномной ДНК, как в кодирующих, так и в некодирующих областях. Важные результаты включают доказательства из геномных тайлинговых массивов, что большинство нуклеотидов транскрибируются как кодирующие транскрипты, некодирующие РНК или случайные транскрипты, открытие дополнительных транскрипционных регуляторных участков, дальнейшее выяснение механизмов модификации хроматина .
Проект GTEx — это проект по генетике человека, направленный на понимание роли генетической изменчивости в формировании изменчивости транскриптома в тканях. В рамках проекта были собраны различные образцы тканей (> 50 различных тканей) от более чем 700 посмертных доноров. В результате было собрано > 11 000 образцов. GTEx помог понять тканеразделение и тканеспецифичность eQTL . [30] Геномный ресурс был разработан для того, чтобы «обогатить наше понимание того, как различия в нашей последовательности ДНК способствуют здоровью и болезням». [31]
Альянс Atlas of Variant Effects Alliance (AVE), [32] основанный в 2020 году, является международным консорциумом, целью которого является каталогизация влияния всех возможных генетических вариантов на функциональную геномику, связанную с заболеваниями, путем создания карт эффектов вариантов, которые раскрывают функцию каждого возможного изменения одного нуклеотида в гене или регуляторном элементе. AVE частично финансируется Институтом Бротмана Бати при Вашингтонском университете и Национальным институтом исследований генома человека за счет финансирования из гранта Центра передового опыта в области геномной науки (NHGRI RM1HG010461). [33]