Анализ обогащения набора генов (GSEA) (также называемый анализом функционального обогащения или анализом обогащения путей ) — это метод идентификации классов генов или белков , которые чрезмерно представлены в большом наборе генов или белков и могут иметь связь с различными фенотипами (например, различными моделями роста организмов или заболеваниями). Метод использует статистические подходы для идентификации значительно обогащенных или обедненных групп генов. Технологии транскриптомики и результаты протеомики часто идентифицируют тысячи генов, которые используются для анализа. [1]
Исследователи, проводящие высокопроизводительные эксперименты , которые дают наборы генов (например, гены, которые по-разному экспрессируются в разных условиях), часто хотят получить функциональный профиль этого набора генов, чтобы лучше понять базовые биологические процессы. Это можно сделать, сравнив входной набор генов с каждым из бинов (терминов) в онтологии генов — статистический тест можно выполнить для каждого бина, чтобы увидеть, обогащен ли он для входных генов.
После завершения проекта «Геном человека » проблема его интерпретации и анализа осталась. Для поиска генов, связанных с заболеваниями, использовались микрочипы ДНК для измерения количества экспрессии генов в разных клетках. Были проведены микрочипы на тысячах разных генов и сравнения результатов двух разных категорий клеток, например, нормальных клеток и раковых клеток. Однако этот метод сравнения недостаточно чувствителен для обнаружения тонких различий между экспрессией отдельных генов, поскольку заболевания обычно затрагивают целые группы генов. [2] Несколько генов связаны с одним биологическим путем, и поэтому именно аддитивное изменение экспрессии в наборах генов приводит к различию в фенотипической экспрессии. Анализ обогащения набора генов был разработан [2], чтобы сосредоточиться на изменениях экспрессии в группах априори определенных наборов генов. Таким образом, этот метод решает проблему необнаруживаемых, небольших изменений в экспрессии отдельных генов. [3]
Анализ обогащения набора генов использует априорные наборы генов, которые были сгруппированы вместе по их участию в одном и том же биологическом пути или по проксимальному расположению на хромосоме. [1] Базу данных этих предопределенных наборов можно найти в базе данных молекулярных сигнатур (MSigDB). [4] [5] В GSEA ДНК-микрочипы, или теперь РНК-Seq , по-прежнему выполняются и сравниваются между двумя категориями клеток, но вместо того, чтобы сосредоточиться на отдельных генах в длинном списке, фокусируется на наборе генов. [1] Исследователи анализируют, попадают ли большинство генов в наборе в крайности этого списка: верх и низ списка соответствуют наибольшим различиям в экспрессии между двумя типами клеток. Если набор генов попадает либо в верхнюю часть (сверхэкспрессирован), либо в нижнюю часть (недостаточно экспрессирован), считается, что это связано с фенотипическими различиями.
В методе, который обычно называют стандартным GSEA, аналитический процесс состоит из трех этапов. [1] [2] Общие этапы суммированы ниже:
Это можно описать так:
Где - ранг гена, - мощность, обычно принимаемая равной 1 (если бы она была равна 0, это было бы эквивалентно тесту Колмогорова-Смирнова).
Когда GSEA был впервые предложен в 2003 году, возникли некоторые непосредственные опасения относительно его методологии. Эти критические замечания привели к использованию корреляционно-взвешенного теста Колмогорова-Смирнова , нормализованного ES и расчета частоты ложных открытий, все из которых являются факторами, которые в настоящее время определяют стандартный GSEA. [6] Однако GSEA теперь также подвергается критике за тот факт, что его нулевое распределение является избыточным и слишком сложным, чтобы его стоило рассчитывать, а также за тот факт, что его статистика, подобная статистике Колмогорова-Смирнова, не так чувствительна, как оригинал. [6] В качестве альтернативы был предложен метод, известный как Simpler Enrichment Analysis (SEA). Этот метод предполагает независимость генов и использует более простой подход для расчета t-критерия. Однако считается, что эти предположения на самом деле слишком упрощают, и корреляцию генов нельзя игнорировать. [6]
Еще одним ограничением анализа обогащения набора генов является то, что результаты сильно зависят от алгоритма, который кластеризует гены, и количества тестируемых кластеров. [7] Спектральное обогащение набора генов (SGSE) — это предлагаемый неконтролируемый тест. Основатели метода утверждают, что это лучший способ найти связи между наборами генов MSigDB и данными микрочипов. Общие шаги включают:
1. Расчет связи между главными компонентами и наборами генов. [7]
2. Использование взвешенного Z-метода для расчета связи между наборами генов и спектральной структурой данных. [7]
GSEA использует сложную статистику, поэтому для выполнения расчетов требуется компьютерная программа. GSEA стала стандартной практикой, и существует множество веб-сайтов и загружаемых программ, которые предоставят наборы данных и выполнят анализ.
Multi-Ontology Enrichment Tool (MOET) — это веб-инструмент анализа онтологий, который обеспечивает функциональность для нескольких онтологий, включая Disease, GO, Pathway, Phenotype и Chemical entitys (ChEBI) для нескольких видов, включая крысу, мышь, человека, бонобо, белку, собаку, свинью, шиншиллу, голого землекопа и верветку (зеленую мартышку). [8] Он выводит загружаемый график и список статистически перепредставленных терминов в списке генов пользователя с использованием гипергеометрического распределения. MOET также отображает соответствующую поправку Бонферрони и отношение шансов на странице результатов. Он прост в использовании, и результаты предоставляются несколькими щелчками мыши за секунды; не требуется установка программного обеспечения или навыки программирования. Кроме того, MOET обновляется еженедельно, предоставляя пользователю самые последние данные для анализа.
NASQAR (Nucleic Acid Sequence Analysis Resource) — это веб-платформа с открытым исходным кодом для высокопроизводительного анализа и визуализации данных секвенирования. [9] [10] GSEA можно запустить с помощью пакета clusterProfiler на основе R. [11] NASQAR в настоящее время поддерживает обогащение GO Term и KEGG Pathway всеми организмами, поддерживаемыми базой данных Org.Db. [12]
Доступна аннотация генной онтологии (GO) для 165 видов растений и анализ обогащения GO. [ 13 ]
База данных молекулярных сигнатур содержит обширную коллекцию аннотированных наборов генов, которые можно использовать с большинством программ GSEA. [14]
Веб -сайт Института Брода сотрудничает с MSigDB и содержит загружаемое программное обеспечение GSEA, а также общее руководство. [15]
WebGestalt [16] — это веб-инструментарий для анализа набора генов. Он поддерживает три хорошо зарекомендовавших себя и взаимодополняющих метода анализа обогащения, включая анализ избыточного представительства (ORA), анализ обогащения набора генов (GSEA) и анализ на основе топологии сети (NTA). Анализ может быть выполнен в отношении 12 организмов и 321 251 функциональной категории с использованием 354 идентификаторов генов из различных баз данных и технологических платформ.
Enrichr [17] [18] [19] — это инструмент анализа обогащения набора генов для наборов генов млекопитающих. Он содержит фоновые библиотеки для регуляции транскрипции, путей и взаимодействий белков, онтологии, включая GO и онтологии фенотипов человека и мыши, сигнатуры из клеток, обработанных лекарствами, наборы генов, связанные с заболеваниями человека, и экспрессию генов в различных клетках и тканях. Фоновые библиотеки взяты из более чем 200 ресурсов и содержат более 450 000 аннотированных наборов генов. Инструмент доступен через API и предоставляет различные способы визуализации результатов. [20]
GeneSCF — это функциональный инструмент обогащения в режиме реального времени с поддержкой нескольких организмов [21] , разработанный для преодоления проблем, связанных с использованием устаревших ресурсов и баз данных. [22] Преимущества использования GeneSCF: анализ в режиме реального времени, пользователям не нужно зависеть от инструментов обогащения для получения обновлений, вычислительным биологам легко интегрировать GeneSCF с их конвейером NGS, он поддерживает несколько организмов, анализ обогащения для списка нескольких генов с использованием нескольких исходных баз данных за один запуск, извлечение или загрузка полных терминов/путей/функций GO с соответствующими генами в виде простого табличного формата в текстовом файле. [23] [24]
DAVID — это база данных для аннотаций, визуализации и комплексного обнаружения, инструмент биоинформатики , который объединяет информацию из большинства основных биоинформатических источников с целью анализа больших списков генов с высокой пропускной способностью. [25] DAVID выходит за рамки стандартного GSEA с дополнительными функциями, такими как переключение между идентификаторами генов и белков в масштабе всего генома, [25] однако аннотации, используемые DAVID, не обновлялись с октября 2016 года по декабрь 2021 года, [26] что может оказать значительное влияние на практическую интерпретацию результатов. [27] Однако последнее обновление было выполнено в 2021 году [26]
Metascape — это портал анализа списков генов, ориентированный на биологов. [28] Metascape объединяет анализ обогащения путей, анализ белковых комплексов и метаанализ нескольких списков в один бесшовный рабочий процесс, доступный через значительно упрощенный пользовательский интерфейс. Metascape поддерживает точность анализа, ежемесячно обновляя свои 40 баз знаний. Metascape представляет результаты с помощью простых для интерпретации графиков, электронных таблиц и презентаций качества публикации и находится в свободном доступе. [29]
Консорциум Gene Ontology (GO) также разработал свой собственный онлайн-инструмент обогащения терминов GO, [30] позволяющий проводить анализ обогащения, специфичный для видов, по сравнению с полной базой данных, более грубыми слитками GO или пользовательскими ссылками. [31]
Инструмент для обогащения аннотаций геномных регионов (GREAT) — это программное обеспечение, которое использует преимущества регуляторных доменов для лучшей ассоциации терминов онтологии генов с генами. [32] [33] Его основная цель — идентифицировать пути и процессы, которые в значительной степени связаны с активностью регуляции факторов. Этот метод сопоставляет гены с регуляторными регионами с помощью гипергеометрического теста по генам, выводя проксимальные регуляторные домены генов. Он делает это, используя общую долю генома, связанную с данным термином онтологии, как ожидаемую долю входных регионов, связанных с термином случайно. Обогащение рассчитывается по всем регуляторным регионам, и было проведено несколько экспериментов для проверки GREAT, одним из которых был анализ обогащения, выполненный на 8 наборах данных ChIP-seq . [32]
Инструмент анализа функционального обогащения (FunRich) [34] в основном используется для функционального обогащения и сетевого анализа данных Omics . [35]
Инструмент FuncAssociate позволяет проводить онтологию генов и пользовательский анализ обогащения. [36] Он позволяет вводить упорядоченные наборы, а также файлы взвешенного пространства генов для фона. [37]
Экземпляры InterMine автоматически обеспечивают анализ обогащения [38] для загруженных наборов генов и других биологических объектов.
ToppGene — это универсальный портал для анализа обогащения списка генов и приоритизации генов-кандидатов на основе функциональных аннотаций и сети белковых взаимодействий. [39] Разработано и поддерживается Отделением биомедицинской информатики Медицинского центра Детской больницы Цинциннати .
Количественный анализ набора генов (Quantitative Set Analysis for Gene Expression (QuSAGE)) — это вычислительный метод для анализа обогащения набора генов. [40] QuSAGE повышает мощность, учитывая межгенные корреляции и количественно оценивает активность набора генов с помощью полной функции плотности вероятности (PDF). Из этой PDF можно легко извлечь значения P и доверительные интервалы . Сохранение PDF также позволяет проводить апостериорный анализ (например, попарные сравнения активности набора генов) при сохранении статистической прослеживаемости. Применимость QuSAGE была расширена до продольных исследований путем добавления функциональности для общих линейных смешанных моделей. [41] QuSAGE использовался NIH/NIAID для определения базовых транскрипционных сигнатур, которые были связаны с ответами на вакцинацию человека против гриппа . [42] QuSAGE доступен в виде пакета R/ Bioconductor . [43]
Blast2GO — это биоинформатическая платформа для функциональной аннотации и анализа геномных наборов данных. [44] Этот инструмент позволяет выполнять анализ обогащения генных наборов, [45] помимо других функций.
g:Profiler — это набор инструментов для поиска биологических категорий, обогащенных списками генов, преобразованиями между идентификаторами генов и сопоставлениями с их ортологами. [46] g:Profiler использует Ensembl в качестве основного источника данных и следует их квартальному циклу выпуска, одновременно обновляя другие источники данных. g:Profiler поддерживает около 500 видов и штаммов, включая позвоночных, растения, грибы, насекомых и паразитов.
Однонуклеотидные полиморфизмы , или SNP, представляют собой мутации одного основания, которые могут быть связаны с заболеваниями. Изменение одного основания может повлиять на белок, который является результатом экспрессии этого гена; однако оно также может не иметь никакого эффекта вообще. Исследования ассоциаций по всему геному (GWAS) представляют собой сравнения между здоровыми и больными генотипами, чтобы попытаться найти SNP, которые чрезмерно представлены в геномах заболеваний и могут быть связаны с этим состоянием. До GSEA точность исследований ассоциаций по всему геному была серьезно ограничена большим количеством ложноположительных результатов. [47] Теория о том, что SNP, способствующие заболеванию, как правило, группируются в набор генов, которые все участвуют в одном и том же биологическом пути, является тем, на чем основан метод GSEA-SNP. Такое применение GSEA не только помогает в обнаружении связанных с заболеванием SNP, но и помогает пролить свет на соответствующие пути и механизмы заболеваний. [47]
Методы обогащения набора генов привели к открытию новых подозреваемых генов и биологических путей, связанных со спонтанными преждевременными родами . [48] Последовательности экзомов от женщин, которые перенесли SPTB, сравнивались с последовательностями от женщин из проекта 1000 Genome Project с использованием инструмента, который подсчитывал возможные варианты, вызывающие заболевание. Гены с более высокими баллами затем пропускались через различные программы, чтобы сгруппировать их в наборы генов на основе путей и онтологических групп. Это исследование показало, что варианты были значительно сгруппированы в наборы, связанные с несколькими путями, все из которых являются подозреваемыми в SPTB. [48]
Анализ обогащения набора генов может быть использован для понимания изменений, которые претерпевают клетки во время канцерогенеза и метастазирования . В исследовании микрочипы были выполнены на метастазах почечно-клеточной карциномы , первичных почечных опухолях и нормальной почечной ткани, а данные были проанализированы с помощью GSEA. [49] Этот анализ показал значительные изменения экспрессии в генах, участвующих в путях, которые ранее не были связаны с прогрессированием рака почки. Из этого исследования GSEA предоставила потенциальные новые цели для терапии почечно-клеточной карциномы.
GSEA можно использовать для понимания молекулярных механизмов сложных расстройств. Шизофрения — это в значительной степени наследственное расстройство, но оно также очень сложное, и начало заболевания включает множество генов, взаимодействующих в рамках нескольких путей, а также взаимодействие этих генов с факторами окружающей среды. Например, эпигенетические изменения, такие как метилирование ДНК , зависят от окружающей среды, но также по своей сути зависят от самой ДНК. Метилирование ДНК является наиболее хорошо изученным эпигенетическим изменением и недавно было проанализировано с помощью GSEA в отношении промежуточных фенотипов, связанных с шизофренией. [50] Исследователи ранжировали гены по их корреляции между паттернами метилирования и каждым из фенотипов. Затем они использовали GSEA для поиска обогащения генов, которые, как прогнозируется, будут нацелены на микроРНК при прогрессировании заболевания. [50]
GSEA может помочь предоставить молекулярные доказательства связи биологических путей с заболеваниями. Предыдущие исследования показали, что долгосрочные симптомы депрессии коррелируют с изменениями в иммунном ответе и воспалительных путях. [51] Генетические и молекулярные доказательства были направлены на поддержку этого. Исследователи взяли образцы крови у страдающих депрессией и использовали данные по геномной экспрессии вместе с GSEA, чтобы найти различия в экспрессии в наборах генов, связанных с воспалительными путями. Это исследование показало, что те люди, которые были оценены с наиболее тяжелыми симптомами депрессии, также имели значительные различия в экспрессии в этих наборах генов, и этот результат подтверждает гипотезу ассоциации. [51]