В области молекулярной биологии профилирование экспрессии генов — это измерение активности ( экспрессии ) тысяч генов одновременно для создания глобальной картины клеточной функции. Такие профили могут, например, различать клетки, которые активно делятся, или показывать, как клетки реагируют на определенное лечение. Многие эксперименты такого рода измеряют весь геном одновременно, то есть каждый ген, присутствующий в определенной клетке.
Несколько технологий транскриптомики могут быть использованы для получения необходимых данных для анализа. ДНК-микрочипы [1] измеряют относительную активность ранее идентифицированных целевых генов. Методы, основанные на последовательностях, такие как РНК-Seq , предоставляют информацию о последовательностях генов в дополнение к уровню их экспрессии.
Профилирование экспрессии является логическим следующим шагом после секвенирования генома : последовательность говорит нам, что клетка могла бы делать, в то время как профиль экспрессии говорит нам, что она на самом деле делает в определенный момент времени. Гены содержат инструкции для создания информационной РНК ( мРНК ), но в любой момент каждая клетка создает мРНК только из части генов, которые она несет. Если ген используется для создания мРНК, он считается «включенным», в противном случае «выключенным». Многие факторы определяют, включен или выключен ген, например, время суток, активно ли делится клетка, ее локальное окружение и химические сигналы от других клеток. Например, клетки кожи , клетки печени и нервные клетки включают (экспрессируют) несколько разные гены, и это во многом делает их разными. Таким образом, профиль экспрессии позволяет вывести тип клетки, ее состояние, окружающую среду и так далее.
Эксперименты по профилированию экспрессии часто включают измерение относительного количества мРНК, экспрессируемой в двух или более экспериментальных условиях. Это происходит потому, что измененные уровни определенной последовательности мРНК предполагают измененную потребность в белке, кодируемом мРНК, что, возможно, указывает на гомеостатический ответ или патологическое состояние. Например, более высокие уровни мРНК, кодирующей алкогольдегидрогеназу, предполагают, что изучаемые клетки или ткани реагируют на повышенные уровни этанола в своей среде. Аналогично, если клетки рака молочной железы экспрессируют более высокие уровни мРНК, связанной с определенным трансмембранным рецептором, чем нормальные клетки, возможно, этот рецептор играет роль в раке молочной железы. Лекарство, которое взаимодействует с этим рецептором, может предотвратить или лечить рак молочной железы. При разработке препарата можно проводить эксперименты по профилированию экспрессии генов, чтобы помочь оценить токсичность препарата, возможно, путем поиска изменяющихся уровней экспрессии генов цитохрома P450 , которые могут быть биомаркером метаболизма препарата. [2] Профилирование экспрессии генов может стать важным диагностическим тестом. [3] [4]
Геном человека содержит порядка 20 000 генов, которые работают сообща, чтобы произвести примерно 1 000 000 различных белков. Это происходит из-за альтернативного сплайсинга , а также из-за того, что клетки вносят важные изменения в белки посредством посттрансляционной модификации после того, как они впервые их построили, поэтому данный ген служит основой для многих возможных версий конкретного белка. В любом случае, один эксперимент с масс-спектрометрией может идентифицировать около 2 000 белков [5] или 0,2% от общего числа. Хотя знание точных белков, которые производит клетка ( протеомика ), более важно, чем знание того, сколько информационной РНК производится из каждого гена, [ почему? ] профилирование экспрессии генов дает наиболее глобальную картину, возможную в одном эксперименте. Однако методология протеомики совершенствуется. У других видов, таких как дрожжи, можно идентифицировать более 4 000 белков всего за один час. [6]
Иногда ученый уже имеет представление о том, что происходит, гипотезу , и он или она проводит эксперимент по профилированию экспрессии с целью потенциального опровержения этой гипотезы. Другими словами, ученый делает определенное предсказание об уровнях экспрессии, которое может оказаться ложным.
Чаще всего профилирование экспрессии происходит до того, как становится достаточно известно о том, как гены взаимодействуют с экспериментальными условиями, чтобы существовала проверяемая гипотеза. Без гипотезы нечего опровергать, но профилирование экспрессии может помочь определить гипотезу-кандидата для будущих экспериментов. Большинство ранних экспериментов по профилированию экспрессии и многие современные имеют эту форму [7], которая известна как обнаружение класса. Популярный подход к обнаружению класса включает группировку похожих генов или образцов вместе с использованием одного из многих существующих методов кластеризации, таких как традиционные k-средние или иерархическая кластеризация , или более современный MCL . [8] Помимо выбора алгоритма кластеризации, пользователь обычно должен выбрать подходящую меру близости (расстояние или сходство) между объектами данных. [9] На рисунке выше представлен вывод двумерного кластера, в котором похожие образцы (строки, выше) и похожие зонды генов (столбцы) были организованы таким образом, чтобы они располагались близко друг к другу. Простейшей формой обнаружения класса было бы перечисление всех генов, которые изменились более чем на определенную величину между двумя экспериментальными условиями.
Предсказание класса сложнее, чем обнаружение класса, но оно позволяет ответить на вопросы, имеющие прямое клиническое значение, например, учитывая этот профиль, какова вероятность того, что этот пациент отреагирует на этот препарат? Для этого требуется много примеров профилей, которые отреагировали и не отреагировали, а также методы перекрестной проверки для их различения.
В целом, исследования по профилированию экспрессии сообщают о тех генах, которые показали статистически значимые различия в измененных экспериментальных условиях. Обычно это небольшая часть генома по нескольким причинам. Во-первых, разные клетки и ткани экспрессируют подмножество генов как прямое следствие клеточной дифференциации, поэтому многие гены выключены. Во-вторых, многие гены кодируют белки, которые необходимы для выживания в очень определенных количествах, поэтому многие гены не изменяются. В-третьих, клетки используют множество других механизмов для регуляции белков в дополнение к изменению количества мРНК , поэтому эти гены могут оставаться постоянно экспрессированными, даже когда концентрации белков растут и падают. В-четвертых, финансовые ограничения ограничивают эксперименты по профилированию экспрессии небольшим количеством наблюдений одного и того же гена в идентичных условиях, что снижает статистическую мощность эксперимента, делая невозможным для эксперимента выявление важных, но тонких изменений. Наконец, требуется много усилий, чтобы обсудить биологическое значение каждого регулируемого гена, поэтому ученые часто ограничивают свое обсуждение подмножеством. Новейшие методы анализа микрочипов автоматизируют некоторые аспекты придания биологического значения результатам профилирования экспрессии, но это остается очень сложной проблемой.
Относительно короткая длина списков генов, опубликованных в ходе экспериментов по профилированию экспрессии, ограничивает степень, в которой эксперименты, проведенные в разных лабораториях, кажутся согласованными. Размещение результатов профилирования экспрессии в общедоступной базе данных микрочипов позволяет исследователям оценивать паттерны экспрессии за пределами опубликованных результатов, возможно, выявляя сходство с их собственной работой.
Как ДНК-микрочипы , так и количественная ПЦР используют преимущественное связывание или « спаривание оснований » комплементарных последовательностей нуклеиновых кислот, и обе используются в профилировании экспрессии генов, часто серийным способом. Хотя высокопроизводительные ДНК-микрочипы не обладают количественной точностью кПЦР, для измерения экспрессии генов нескольких десятков генов с помощью кПЦР требуется примерно столько же времени, сколько для измерения всего генома с помощью ДНК-микрочипов. Поэтому часто имеет смысл проводить эксперименты по полуколичественному анализу ДНК-микрочипов для идентификации генов-кандидатов, а затем проводить кПЦР на некоторых наиболее интересных генах-кандидатах для проверки результатов микрочипов. Другие эксперименты, такие как вестерн-блот некоторых белковых продуктов дифференциально экспрессируемых генов, делают выводы, основанные на профиле экспрессии, более убедительными, поскольку уровни мРНК не обязательно коррелируют с количеством экспрессируемого белка.
Анализ данных микрочипов стал областью интенсивных исследований. [10] Простое утверждение, что группа генов регулировалась по крайней мере двукратно, когда-то бывшее обычной практикой, не имеет прочной статистической основы. При пяти или менее повторах в каждой группе, типичных для микрочипов, одно выпадающее наблюдение может создать кажущуюся разницу более чем в два раза. Кроме того, произвольное установление планки в два раза не является биологически обоснованным, поскольку исключает из рассмотрения многие гены с очевидной биологической значимостью.
Вместо того, чтобы идентифицировать дифференциально экспрессируемые гены с использованием порогового значения кратности изменения, можно использовать различные статистические тесты или омнибусные тесты , такие как ANOVA , все из которых учитывают как кратность изменения, так и изменчивость для создания p-значения , оценки того, как часто мы будем наблюдать данные только случайно. Применение p-значений к микрочипам осложняется большим количеством вовлеченных множественных сравнений (генов). Например, p-значение 0,05 обычно считается показателем значимости, поскольку оно оценивает 5%-ную вероятность наблюдения данных случайно. Но при 10 000 генов на микрочипе 500 генов будут идентифицированы как значимые при p < 0,05, даже если не будет никакой разницы между экспериментальными группами. Одним из очевидных решений является рассмотрение значимых только тех генов, которые соответствуют гораздо более строгому критерию p-значения, например, можно выполнить поправку Бонферрони для p-значений или использовать расчет частоты ложных открытий для корректировки p-значений пропорционально количеству задействованных параллельных тестов. К сожалению, эти подходы могут свести количество значимых генов к нулю, даже если гены фактически дифференциально экспрессируются. Текущая статистика, такая как продукты Rank, направлена на достижение баланса между ложным открытием генов из-за случайной вариации и необнаружением дифференциально экспрессируемых генов. Обычно цитируемые методы включают анализ значимости микрочипов (SAM) [11] , а широкий спектр методов доступен от Bioconductor и различные аналитические пакеты от биоинформатических компаний .
Выбор другого теста обычно определяет другой список значимых генов [12], поскольку каждый тест работает в рамках определенного набора предположений и делает разный акцент на определенных особенностях данных. Многие тесты начинаются с предположения о нормальном распределении данных, поскольку это кажется разумной отправной точкой и часто дает результаты, которые кажутся более значимыми. Некоторые тесты рассматривают совместное распределение всех наблюдений генов для оценки общей изменчивости измерений, [13] в то время как другие рассматривают каждый ген изолированно. Многие современные методы анализа микрочипов включают бутстреппинг (статистику) , машинное обучение или методы Монте-Карло . [14]
По мере увеличения числа повторных измерений в эксперименте с микрочипом различные статистические подходы дают все более схожие результаты, но отсутствие согласованности между различными статистическими методами делает результаты с использованием массива менее заслуживающими доверия. Проект MAQC [15] дает рекомендации, помогающие исследователям выбирать более стандартные методы (например, совместное использование p-значения и кратности изменения для выбора дифференциально экспрессируемых генов), чтобы эксперименты, проводимые в разных лабораториях, лучше согласовывались.
В отличие от анализа дифференциально экспрессируемых отдельных генов, другой тип анализа фокусируется на дифференциальной экспрессии или возмущении предопределенных наборов генов и называется анализом набора генов. [16] [17] Анализ набора генов продемонстрировал несколько основных преимуществ по сравнению с анализом дифференциальной экспрессии отдельных генов. [16] [17] Наборы генов представляют собой группы генов, которые функционально связаны в соответствии с текущими знаниями. Поэтому анализ набора генов считается подходом анализа, основанным на знаниях. [16] Обычно используемые наборы генов включают те, которые получены из путей KEGG , терминов Gene Ontology , групп генов, которые разделяют некоторые другие функциональные аннотации, такие как общие регуляторы транскрипции и т. д. Репрезентативные методы анализа набора генов включают анализ обогащения набора генов (GSEA), [16] который оценивает значимость наборов генов на основе перестановки меток образцов, и обогащение набора генов общего назначения (GAGE), [17] которое проверяет значимость наборов генов на основе перестановки меток генов или параметрического распределения.
В то время как статистика может определить, какие продукты генов изменяются в экспериментальных условиях, биологическое значение профилирования экспрессии основывается на знании того, какой белок производит каждый продукт гена и какую функцию выполняет этот белок. Аннотация генов предоставляет функциональную и другую информацию, например, местоположение каждого гена в определенной хромосоме. Некоторые функциональные аннотации более надежны, чем другие; некоторые отсутствуют. Базы данных аннотаций генов регулярно меняются, и различные базы данных ссылаются на один и тот же белок под разными названиями, что отражает меняющееся понимание функции белка. Использование стандартизированной номенклатуры генов помогает решить аспект наименования проблемы, но точное соответствие транскриптов генам [18] [19] остается важным соображением.
После идентификации некоторого набора регулируемых генов следующим шагом в профилировании экспрессии является поиск закономерностей в регулируемом наборе. Выполняют ли белки, полученные из этих генов, схожие функции? Похожи ли они химически? Находятся ли они в схожих частях клетки? Анализ онтологии генов предоставляет стандартный способ определения этих взаимоотношений. Онтологии генов начинаются с очень широких категорий, например, «метаболический процесс», и разбивают их на более мелкие категории, например, «процесс метаболизма углеводов», и, наконец, на довольно узкие категории, такие как «фосфорилирование инозитола и производных».
Гены имеют и другие атрибуты, помимо биологической функции, химических свойств и клеточного расположения. Можно составить наборы генов на основе близости к другим генам, ассоциации с болезнью и взаимосвязи с лекарствами или токсинами. База данных молекулярных сигнатур [20] и Сравнительная база данных токсикогеномики [21] являются примерами ресурсов для категоризации генов многочисленными способами.
Регулируемые гены классифицируются с точки зрения того, что они собой представляют и что они делают, могут возникнуть важные связи между генами. [23] Например, мы можем увидеть доказательства того, что определенный ген создает белок для создания фермента, который активирует белок для включения второго гена в нашем списке. Этот второй ген может быть фактором транскрипции , который регулирует еще один ген из нашего списка. Наблюдая эти связи, мы можем начать подозревать, что они представляют собой нечто большее, чем случайные ассоциации в результатах, и что все они находятся в нашем списке из-за лежащего в основе биологического процесса. С другой стороны, может быть так, что если выбрать гены наугад, можно найти много таких, которые, по-видимому, имеют что-то общее. В этом смысле нам нужны строгие статистические процедуры для проверки того, являются ли возникающие биологические темы значимыми или нет. Вот где вступает в дело анализ набора генов [16] [17] .
Довольно простая статистика дает оценки того, являются ли ассоциации между генами в списках более значимыми, чем те, которые можно было бы ожидать случайно. Эта статистика интересна, даже если она представляет собой существенное упрощение того, что происходит на самом деле. Вот пример. Предположим, что в эксперименте есть 10 000 генов, только 50 (0,5%) из которых играют известную роль в создании холестерина . Эксперимент идентифицирует 200 регулируемых генов. Из них 40 (20%) также оказываются в списке генов холестерина. Основываясь на общей распространенности генов холестерина (0,5%), можно ожидать в среднем 1 ген холестерина на каждые 200 регулируемых генов, то есть 0,005 умножить на 200. Это ожидание является средним, поэтому можно ожидать увидеть больше одного в какой-то момент времени. Вопрос в том, как часто мы увидим 40 вместо 1 из-за чистой случайности.
Согласно гипергеометрическому распределению , можно было бы ожидать около 10^57 попыток (10 с 56 нулями) перед тем, как выбрать 39 или более генов холестерина из пула в 10 000, вытягивая 200 генов случайным образом. Если бы мы обращали внимание на то, насколько бесконечно мала вероятность случайного наблюдения этого, можно было бы сделать вывод, что регулируемый список генов обогащен [24] генами с известной ассоциацией с холестерином.
Можно также выдвинуть гипотезу, что экспериментальное лечение регулирует холестерин, поскольку лечение, по-видимому, выборочно регулирует гены, связанные с холестерином. Хотя это может быть правдой, есть ряд причин, по которым делать такой твердый вывод, основанный только на обогащении, представляет собой неоправданный скачок веры. Одна из ранее упомянутых проблем связана с наблюдением, что регуляция генов может не иметь прямого влияния на регуляцию белков: даже если белки, кодируемые этими генами, не делают ничего, кроме как производят холестерин, демонстрация того, что их мРНК изменена, не говорит нам напрямую о том, что происходит на уровне белков. Вполне возможно, что количество этих связанных с холестерином белков остается постоянным в экспериментальных условиях. Во-вторых, даже если уровни белков действительно меняются, возможно, их всегда достаточно, чтобы производить холестерин так быстро, как это возможно, то есть другой белок, не входящий в наш список, является этапом, определяющим скорость в процессе производства холестерина. Наконец, белки обычно играют много ролей, поэтому эти гены могут регулироваться не из-за их общей связи с производством холестерина, а из-за общей роли в совершенно независимом процессе.
Учитывая вышеизложенные оговорки, хотя профили генов сами по себе не доказывают причинно-следственных связей между методами лечения и биологическими эффектами, они предлагают уникальные биологические идеи, которые зачастую было бы очень трудно получить другими способами.
Как описано выше, можно сначала идентифицировать существенно регулируемые гены, а затем найти закономерности, сравнивая список значимых генов с наборами генов, которые, как известно, разделяют определенные ассоциации. Можно также решить задачу в обратном порядке. Вот очень простой пример. Предположим, что есть 40 генов, связанных с известным процессом, например, предрасположенностью к диабету. Рассматривая две группы профилей экспрессии, одну для мышей, питающихся высокоуглеводной диетой, и одну для мышей, питающихся низкоуглеводной диетой, можно заметить, что все 40 генов диабета экспрессируются на более высоком уровне в группе с высоким содержанием углеводов, чем в группе с низким содержанием углеводов. Независимо от того, попал бы какой-либо из этих генов в список значительно измененных генов, наблюдение всех 40 вверх и ни одного вниз, по-видимому, вряд ли является результатом чистой случайности: подбрасывание 40 орлов подряд, как прогнозируется, произойдет примерно один раз из триллиона попыток с использованием честной монеты.
Для типа клеток группа генов, чей объединенный паттерн экспрессии является уникально характерным для данного состояния, составляет генную сигнатуру этого состояния. В идеале генную сигнатуру можно использовать для выбора группы пациентов на определенном этапе заболевания с точностью, которая облегчает выбор лечения. [25] [26] Анализ обогащения набора генов (GSEA) [16] и аналогичные методы [17] используют преимущества такого рода логики, но используют более сложную статистику, поскольку гены-компоненты в реальных процессах демонстрируют более сложное поведение, чем просто перемещение вверх или вниз как группа, и имеет значение величина перемещения генов вверх и вниз, а не только направление. В любом случае, эта статистика измеряет, насколько отличается поведение некоторого небольшого набора генов по сравнению с генами, не входящими в этот небольшой набор.
GSEA использует статистику в стиле Колмогорова-Смирнова, чтобы увидеть, демонстрировали ли ранее определенные наборы генов необычное поведение в текущем профиле экспрессии. Это приводит к проблеме множественной проверки гипотез, но существуют разумные методы для ее решения. [27]
Профилирование экспрессии предоставляет новую информацию о том, что делают гены в различных условиях. В целом, технология микрочипов позволяет получать надежные профили экспрессии. [28] На основе этой информации можно генерировать новые гипотезы о биологии или проверять существующие. Однако размер и сложность этих экспериментов часто приводят к широкому спектру возможных интерпретаций. Во многих случаях анализ результатов профилирования экспрессии требует гораздо больше усилий, чем проведение первоначальных экспериментов.
Большинство исследователей используют несколько статистических методов и разведывательный анализ данных перед публикацией результатов профилирования экспрессии, координируя свои усилия с биоинформатиком или другим экспертом в области ДНК-микрочипов . Хороший экспериментальный дизайн, адекватная биологическая репликация и последующие эксперименты играют ключевую роль в успешных экспериментах по профилированию экспрессии.