FANTOM (функциональная аннотация генома мыши/млекопитающего) — это международный исследовательский консорциум, впервые созданный в 2000 году как часть научно-исследовательского института RIKEN в Японии . [1] Первоначальная встреча собрала международных ученых с различным опытом, чтобы помочь аннотировать функцию клонов кДНК мыши , созданных группой Хаяшизаки. [2] С момента первоначальной работы FANTOM1 консорциум выпустил несколько проектов, направленных на понимание механизмов, управляющих регуляцией геномов млекопитающих . [1] Их работа привела к созданию большого количества общих данных и помогла продвинуть биохимические и биоинформатические методологии в геномных исследованиях.
В 1995 году исследователи института RIKEN начали создавать энциклопедию полноразмерных кДНК для генома мыши . Целью этого «Проекта энциклопедии мыши» было предоставление функциональной аннотации транскриптома мыши . Это картирование предоставило бы ценный ресурс для открытия генов , понимания генов, вызывающих заболевания , и гомологии между видами . Это обещало быть сложной задачей с самого начала. Текущие методологии были недостаточны для создания полноразмерных клонов кДНК в масштабе, и чтобы быть полезными в качестве ресурса, аннотации должны были быть согласованы экспертами из разных дисциплин. [1] [2]
Первой целью было разработать методы, которые позволили бы генерировать библиотеки кДНК полной длины. Протоколы обратной транскриптазы в то время имели трудности с вторичной структурой мРНК , что приводило к сокращенным кДНК, которые было трудно выровнять и которые вызывали дальнейшие осложнения в последующем анализе. Чтобы преодолеть это ограничение, был разработан метод, использующий трегалозу , чтобы позволить обратной транскриптазе функционировать при более высокой температуре, расслабляя вторичные структуры. [3] Были дополнительно разработаны другие методы, чтобы помочь в создании клональных библиотек кДНК. Они включают в себя систему захвата на основе биотина для выбора кДНК полной длины, новый вектор фага лямбда , который минимизировал смещения при доставке кДНК в плазмиду , и итеративную стратегию для обогащения кДНК, которая еще не была секвенирована . [1] [2] [4] [5] [6]
Секвенирование началось в 1998 году и быстро прогрессировало, создав 246 библиотек кДНК, которые охватывали 21 076 клонов кДНК из большого диапазона клеток и тканей мышей . Хотя этот этап был в значительной степени успешным, на биоинформатическом уровне возникли дополнительные ограничения. Секвенированные кДНК были аннотированы полуавтоматическим способом, который использовал доступные базы данных (такие как гомология видов и известные белковые мотивы) для назначения генов в рамках Gene Ontology (GO). Однако многие новые последовательности не имели значимых совпадений при BLAST против баз данных генов. [1] [2]
После консультации с Джерри Рубином , организатором первой работы по аннотации генома Drosophila melanogaster , стало очевидно, что для новых последовательностей требуется надежная система аннотации, включающая вычислительное предсказание и ручное курирование . Желая получить вклад от экспертов в области биоинформатики, генетики и других научных областей, группа RIKEN организовала первую встречу FANTOM.
Для облегчения аннотации клонов мышиной ДНК исследовательская группа RIKEN разработала веб-сервис под названием FANTOM+ до первой встречи. Пользователи могли искать мотивы , просматривать предварительно вычисленные оценки сходства последовательностей, а также запрашивать другие общедоступные базы данных и интегрировать соответствующие аннотации в базу данных FANTOM. Назначение и функциональная аннотация генов требовали нескольких биоинформатических инструментов и баз данных. Преобладающими инструментами были BLASTN/BLASTX, FASTA /FASTY, DECODER, EST-WISE и HMMER , в то время как использовались как базы данных нуклеиновых кислот , так и белков, такие как SwissProt , UniGene и NCBI-nr. Одновременно с этим сотрудничество с группой Mouse Genome Informatics (MGI) позволило исследователям RIKEN создать проверенный набор клонов, которые были идентичны в двух базах данных. [1] [2]
Вооружившись вычислительными методиками и более чем 20 000 последовательностями кДНК, группа RIKEN организовала первую встречу FANTOM в городе Цукуба с 28 августа по 8 сентября 2000 года. Была набрана разнообразная группа международных ученых для обсуждения стратегий и выполнения аннотации клонов RIKEN. Собранные вычислительные процедуры позволили провести сравнение последовательностей и анализ доменов для назначения предполагаемой функции с использованием терминов GO. Избыточность клонов кДНК представляла собой проблему, требующую стратегий кластеризации и обращения к набору проверки MGI для идентификации уникальных клонов. Набор клонов RIKEN в конечном итоге был сокращен до 15 295 генов, хотя это осторожно считалось завышенной оценкой. [1] [2]
Центральным элементом усилий по кураторству было создание определения RIKEN. Оно предоставило иерархические и систематические средства для назначения функций клонам на основе известных генов, отдавая приоритет ранее установленным или хорошо кураторским знаниям. Иерархическая природа классификации допускала согласованность, когда последовательность была очень похожа на несколько различных генов. Важно то, что если сходство последовательностей не было найдено, определение назначало предполагаемую функцию на основе предсказанных сигнатур мотивов белка, кодирующего потенциала и совпадений с базами данных тегов экспрессируемых последовательностей (EST). Только при отсутствии какого-либо предсказанного или репрезентативного сходства клон считался «неклассифицируемым». [1] [2]
Объединенные усилия RIKEN/FANTOM привели к публикации в Nature в 2001 году. [7] Результаты включали назначение 21 076 клонов кДНК 4 012 терминам GO, идентификацию новых генов мыши и белковых мотивов, обнаружение вероятных альтернативных форм сплайсинга и открытие генов мыши, ортологичных генам болезней человека. Кроме того, первый секвенированный геном человека был опубликован неделю спустя и включал результаты FANTOM для прогнозирования количества генов человека. [1] [2] [8]
Создав и улучшив протоколы для генерации библиотеки полноразмерной ДНК, группа RIKEN продолжила пополнять коллекцию FANTOM. Изменения в их методах позволили провести дальнейший отбор редких и длинных транскриптов, что позволило идентифицировать ДНК длиной более 4 кб. Вторая встреча FANTOM состоялась в мае 2002 года — к тому времени количество клонов ДНК увеличилось на 39 694 до 60 770. [1] [9]
Одно из открытий, полученных с помощью FANTOM1, заключалось в том, что альтернативное полиаденилирование было распространено в транскриптоме мыши, что означает, что кластеризация 3'-конца приводила к обширной избыточности. Для решения этой проблемы было проведено дополнительное секвенирование 5'-конца для идентификации уникальных клонов. Публикация FANTOM2 внесла существенный вклад в новые транскрипты, кодирующие белок. Возможно, наиболее заметным результатом FANTOM2 стало то, что усилия по отбору длинных и редких транскриптов выявили значительное количество некодирующей белок РНК . [1] [9]
И снова коллекция FANTOM оказалась плодотворным ресурсом. Некодирующие РНК были идентифицированы как антисмысловые РНК и длинные некодирующие РНК (lncRNA), плохо изученные классы регуляторных РНК. [10] [11] Первая опубликованная последовательность генома мыши использовала аннотации, установленные FANTOM. [10] Другие попытки смогли описать целые семейства белков, такие как рецепторы, сопряженные с G-белком . [1] [12] [13]
Конечной целью FANTOM является создание генных сетей , которые фиксируют регуляторные взаимодействия транскрипции, и дифференциация этих взаимодействий по типу или состоянию клеток. В этой степени было осознано, что полиморфная природа 5'-конца последовательностей потребует обширного картирования. Характеристика сайтов начала транскрипции (TSS) позволит идентифицировать промоторы и дифференцировать их использование между типами клеток. Это также означало необходимость дальнейшего развития методов секвенирования. В то время как полноразмерные мышиные кДНК продолжали генерироваться, исследователи под руководством RIKEN создали Cap Analysis of Gene Expression (CAGE), метод, который будет определять большую часть их будущей работы. [1]
CAGE был продолжением концепций, разработанных для FANTOM1, и широко использовался в последующих проектах для захвата 5'-мРНК-кэпов . В отличие от предыдущих попыток создания полноразмерной кДНК, CAGE исследует фрагменты или метки длиной 20–27. Это обеспечило экономичный и высокопроизводительный способ картирования TSS, включая структуру и активность промотора. [1]
Общие этапы следующие: кДНК подвергается обратной транскрипции с мРНК с использованием случайных или олиго dT праймеров . Затем используется метод захвата кэпа для обеспечения отбора полноразмерной кДНК. Это влечет за собой добавление биотина к 5'-кэпу и последующий захват с помощью стрептавидиновых шариков после этапа переваривания РНКазой для удаления одноцепочечной РНК, которая не гибридизировалась с кДНК. После захвата кэпа кДНК отделяется от гибрида РНК-кДНК. Двухцепочечный линкер CAGE, который также биотинилирован, лигируется к 5'-концу кДНК, и синтезируется вторая цепь кДНК. Полученная двухцепочечная ДНК переваривается эндонуклеазой Mme1 , разрезая линкер CAGE и производя метку CAGE длиной 20-27 п.н. Второй линкер добавляется к 3'-концу, и метка амплифицируется с помощью ПЦР . Наконец, метки CAGE высвобождаются из 5' и 3' линкеров. Затем метки можно секвенировать, конкатенировать или клонировать. [4] [14] [15] [16] В то время CAGE выполнялся с использованием капиллярного секвенатора RISA 384, который был ранее создан RIKEN. [1]
Развитие CAGE привело к ряду важных открытий. Важно то, что было обнаружено, что РНК гораздо более распространена в транскриптоме млекопитающих, чем считалось ранее, что сопровождалось осознанием того, что геном транскрибируется повсеместно. [1] Объединив методы CAGE, сигнатуры идентификации генов и клонирование сигнатуры генов, был составлен «транскрипционный ландшафт» генома млекопитающих, характеризующий паттерн сигналов контроля транскрипции и транскрипты, которые они генерируют. [17] Было обнаружено, что в геноме мыши существует гораздо больше транскриптов, чем предполагаемые 22 000 генов, и что многие из этих транскрипционных единиц имеют альтернативные промоторы и сайты полиаденилирования .
Кроме того, было обнаружено, что «транскрипционные леса», кластеры транскриптов, которые разделяют общие области экспрессии и регуляторные события, разделены «транскрипционными пустынями» и составляют ~63% генома. [17] Совместно выпущенная публикация обнаружила, что многие транскрипты в этих лесах демонстрируют антисмысловую транскрипцию, и что большинство пар смысл/антисмысл показывают согласованную регуляцию. [18] Другой примечательный результат показал, что многие некодирующие РНК динамически экспрессируются, причем многие инициируются в 3'- нетранслируемых областях , и что они позиционно консервативны у разных видов. [17]
Третья важная статья, вышедшая из FANTOM3, исследовала архитектуру и эволюцию промотора млекопитающих. [19] Она установила два класса промоутеров млекопитающих. Первый класс — это промоторы, обогащенные TATA-боксом , с четко определенными сайтами начала транскрипции. Эти промоторы эволюционно консервативны и чаще всего связаны с тканеспецифичными генами. Второй и более распространенный класс промоторов, широкие промоторы, богатые CpG, пластичны, эволюционируют и экспрессируются в широком диапазоне клеток и тканей. Это исследование также продемонстрировало, что промоторы, богатые CpG, могут быть двунаправленными (производить пары смысл-антисмысл) и в высокой степени подвержены эпигенетическому контролю и, таким образом, являются потенциальным компонентом адаптивной эволюции .
Встреча FANTOM3 состоялась в сентябре 2004 года. Коллекция сопутствующих публикаций, которые появились из FANTOM3, была опубликована в PLoS Genetics . Они включают дальнейшую работу по свойствам промотора, длине экзона и псевдо-мессенджерной РНК. [20] [21]
Рост секвенирования следующего поколения был значительно полезен для развития технологии CAGE. Используя секвенатор Roche-454 , группа FANTOM разработала deepCAGE, увеличив пропускную способность CAGE до более чем миллиона меток на образец. [22] На этой глубине исследователи теперь могли начать строить сети регуляторных взаимодействий генов . Встреча FANTOM4 состоялась в декабре 2006 года.
В то время как предыдущие проекты FANTOM изучали ряд типов клеток, целью FANTOM4 было глубокое исследование динамики, управляющей клеточной дифференциацией . Анализ был ограничен линией клеток человека THP-1 , что предоставило данные о ходе превращения монобласта в моноцит . DeepCage разрешил TSS с разрешением в один нуклеотид, указав, где связываются факторы транскрипции (TF). Отслеживая зависящие от времени изменения экспрессии генов по мере дифференциации клеток, был сделан вывод о том, какие регуляторные мотивы предсказывают изменения экспрессии, временную зависимость активности TF и целевые гены TF. [23] Эти усилия привели к созданию транскрипционной регуляторной сети, продемонстрировавшей, что процесс дифференциации является весьма сложным и обусловлен большим количеством TF, осуществляющих как положительные, так и отрицательные регуляторные взаимодействия.
FANTOM4 также расширил наше понимание ретротранспозонной транскрипции и транскрипционных инициирующих РНК (tiRNA). Ретротранспозоны вносят вклад в повторяющиеся элементы в геномах млекопитающих и могут влиять на множество биологических процессов, таких как геномная эволюция, а также на структуры, такие как альтернативные промоторы и экзоны. [24] [25] Было показано, что ретротранспозоны экспрессируются специфическим для клеток и тканей образом, и было идентифицировано около 250 000 ранее неизвестных TSS, управляемых ретротранспозонами. [26]
Было обнаружено, что ретротранспозоны могут влиять на транскрипцию млекопитающих и транскрипционную регуляцию как кодирующих, так и некодирующих РНК в различных тканях. [26] Дальнейшие усилия обнаружили новый широко распространенный в геномном и эволюционном плане класс РНК, называемый РНК инициации транскрипции (tiRNA). [27] Этот вид РНК относительно мал (~18 нуклеотидов в длину) и обычно находится ниже по течению от TSS промоторов, богатых CpG. tiRNA малочисленны и связаны с высокоэкспрессируемыми генами, а также связыванием РНК-полимеразы II и TSS. Более поздние исследования показали, что tiRN могут быть способны модулировать эпигенетические состояния и локальную архитектуру хроматина . [28] Однако возможно, что эти tiRNA не играют регуляторной роли и являются просто побочным продуктом транскрипции. [1] [27]
После этих первоначальных результатов исследователи RIKEN опубликовали атлас комбинаторной транскрипционной регуляции у мышей и людей. [29] Эта работа продемонстрировала, что транскрипционные комплексы могут взаимодействовать в рамках сети для контроля идентичности тканей/состояния клеток, и что эти сети часто управляются факторами транскрипции «фасилитатора», которые широко экспрессируются в тканях/клетках. Было обнаружено, что около половины измеренных регуляторных взаимодействий были сохранены между мышами и людьми. FANTOM4 привел к многочисленным сателлитным статьям, исследующим такие темы, как архитектура промотора, регуляция miRNA и геномные регуляторные блоки. [30] [31] [32]
Пятый раунд FANTOM был направлен на то, чтобы предоставить представление о регуляторном ландшафте транскриптома в максимально возможном количестве состояний клеток. [1] Он продолжает оставаться важным ресурсом общих данных. Проект состоял из двух фаз: первая была сосредоточена на клетках в устойчивом состоянии, а вторая — на временных данных. Достижения в области секвенирования следующего поколения были использованы для достижения большой широты FANTOM5, при этом секвенирование одной молекулы позволило разрешить одну пару оснований активности TSS всего из 100 нг РНК. [33] Образцы были собраны из каждого человеческого органа, а также более 200 линий рака , 30 временных отрезков клеточной дифференциации, временных отрезков развития мышей и более 200 первичных типов клеток. Всего было профилировано 1816 человеческих и 11016 мышиных образцов в обеих фазах. [33] [34]
FANTOM5 , хотя и похож на проект ENCODE , отличается двумя ключевыми моментами. Во-первых, ENCODE использовал бессмертные клеточные линии , в то время как FANTOM5 фокусировался на первичных клетках и тканях, которые в большей степени отражают фактические биологические процессы, ответственные за поддержание идентичности типа клеток. Во-вторых, ENCODE использовал множественные геномные анализы для захвата транскриптома и эпигенома . FANTOM5 фокусировался исключительно на транскриптоме, полагаясь на другие опубликованные работы для вывода таких характеристик, как тип клеток, определяемый статусом хроматина. [1] Встреча FANTOM5 состоялась в октябре 2011 года.
Первая фаза FANTOM5 включала в себя получение «моментальных снимков» широкого спектра типов клеток устойчивого состояния с использованием профилирования CAGE в 975 образцах человека и 399 образцах мышей. Эти первоначальные усилия привели к двум статьям Nature — одна из которых описывает ландшафт промоторов млекопитающих, а другая — активные энхансеры . [35] [36] Вместе они предоставляют атлас промоторов, энхансеров и TSS в различных типах клеток, выступая в качестве «базовой линии» для изучения сложного ландшафта регуляции транскрипции. В частности, профили CAGE для отдельных молекул были получены с использованием секвенатора HeliScope в 573 образцах первичных клеток человека, 128 образцах первичных клеток мыши, 250 линиях раковых клеток, 152 образцах тканей человека, умерших после смерти, и 271 образце тканей развития мыши. [33] [37]
Был разработан новый метод идентификации пиков CAGE, называемый анализом пиков разложения. Теги CAGE группируются по близости, за которыми следует независимый компонентный анализ для разложения пиков на неперекрывающиеся области. Шаг обогащения применяется для обеспечения соответствия пиков TSS, а внешние данные EST, метки триметилирования лизина 4 гистона H3 и сайты гиперчувствительности ДНКазы используются для подтверждения того, что пики являются подлинными TSS. [33]
Ключевое открытие показало, что типичный промотор млекопитающих содержит несколько TSS с различными паттернами экспрессии в разных образцах. [1] [35] Это означало, что эти TSS регулируются отдельно, несмотря на то, что находятся в непосредственной близости. Повсеместно экспрессируемые промоторы имели самую высокую консервативность в своих последовательностях, в то время как клеточно-специфические промоторы были менее консервативны. Еще один важный результат показал, что РНК, полученная из энхансера (eRNA), транскрибируется специфическим для клеток/тканей образом, что отражает активность этого энхансера. [37]
В то время как первая фаза была сосредоточена на устойчивом представлении состояний клеток, вторая фаза была направлена на изучение динамического процесса перехода состояний клеток с использованием данных о ходе времени. Снова использовался CAGE — на этот раз на протяжении 19 человеческих и 14 мышиных временных курсов, охватывающих ряд типов клеток и биологических стимулов, которые представляли 408 различных временных точек. Это включало дифференциацию стволовых клеток или комитированных клеток-предшественников в направлении их конечных судеб, а также полностью дифференцированные клетки, реагирующие на факторы роста или патогены . [1] [33] [38]
Неконтролируемая кластеризация была выполнена для идентификации набора отдельных классов ответов, изучая закономерности в изменениях кратности экспрессии по сравнению со временем 0. Таким образом, экспрессия энхансеров, промоторов TF и не-TF промоторов была обобщена во временной шкале первых 6 часов хода времени. Как правило, самая ранняя реакция клеток происходила на энхансерах, при этом концентрации эРНК достигали пика уже через 15 минут после времени 0. Даже в классах, которые представляют «более поздние» ответы, энхансеры имели тенденцию активироваться до проксимальных промоторов. Изменчивость была замечена в сохранении этой активации — некоторые энхансеры быстро возвращались к исходному уровню после всплеска через 15 минут, в то время как другие сохранялись после активации промотора. В совокупности это предполагает, что эРНК может играть дифференцированную роль в регуляции активности генов. [38]
Помимо типичного обмена данными в базе данных FANTOM, FANTOM5 также представил два биоинформатических инструмента для исследования данных. ZENBU — это браузер генома с дополнительной функциональностью: пользователи могут загружать BAM-файлы экспериментов CAGE, short-RNA и ChIP-seq и выполнять контроль качества, нормализацию, поиск пиков и аннотацию среди визуальных сравнений. [39] SSTAR (семантический каталог образцов, инициаций транскрипции и регуляций) тем временем позволяет исследовать и искать образцы FANTOM5 и их геномные особенности. [40]
Обилие данных, полученных FANTOM5, продолжает предоставлять ресурс для исследователей, стремящихся объяснить регуляторные механизмы, которые формируют такие процессы, как развитие. Часто данные CAGE в определенном типе клеток/тканей используются в сочетании с дальнейшими эпигеномными анализами - один из таких примеров описывает взаимодействие метилирования ДНК и регуляторных последовательностей, определенных CAGE, во время дифференциации гранулоцита . [ 41]
Через три года после представления атласов энхансеров и промоутеров группа FANTOM выпустила атласы для lncRNAs и microRNAs (miRNA), включив данные FANTOM5. [42] [43] Главной целью было предоставить более глубокое представление о более раннем наблюдении всепроникающей транскрипции генома млекопитающих. Работа lncRNA охарактеризовала 27 919 генов lncRNA человека в 1 829 образцах, чтобы стимулировать исследования функциональной значимости этого плохо изученного класса РНК. Результаты предполагают, что 69% идентифицированных lncRNA обладают потенциальной функциональностью, хотя требуются дополнительные доказательства, чтобы прокомментировать, являются ли оставшиеся 31% просто транскрипционным «шумом» от ложной инициации транскрипции. Атлас miRNA идентифицировал 1 357 человеческих и 804 мышиных промотора miRNA и продемонстрировал сильную консервативность последовательностей между двумя видами. Также было продемонстрировано, что первичная экспрессия miRNA может использоваться в качестве прокси для уровней зрелой miRNA.
В настоящее время FANTOM6 нацелен на систематическую характеристику роли lncRNA в геноме человека. Биологическая функция этих больших (более 200 нуклеотидов) и нетранслируемых РНК в значительной степени неизвестна. На основании нескольких работ, в которых изучались lncRNA, считается, что они участвуют в регуляции транскрипции, трансляции , посттрансляционных модификаций и эпигенетических меток. Однако текущие знания о степени и диапазоне этих предполагаемых регуляторных взаимодействий являются рудиментарными. [1] [44]
Существует множество проблем, которые необходимо решить для этой следующей версии FANTOM. В частности, lncRNAs плохо определены - они лишены консервации и сильно различаются по размеру, варьируясь от 200 до более миллиона нуклеотидов в длину. В отличие от кодирующих транскриптов, которые находятся в цитозоле для трансляции, lncRNAs находятся в основном в ядре - гораздо более сложном ландшафте РНК. В целом lncRNA имеют более низкие уровни экспрессии, чем кодирующие транскрипты, но существует большая изменчивость в этой экспрессии, которая может быть скрыта типом клетки или локализацией в ядре. Кроме того, функциональная классификация lncRNAs остается предметом горячих споров - неизвестно, можно ли сгруппировать lncRNAs на основе общей функции/механизмов действия или по активным доменам. [1]
FANTOM разработал трехстороннюю экспериментальную стратегию для изучения этих неизвестных. В качестве базовой линии для каждого типа клеток будет построен референтный транскриптомный и эпигеномный профиль различных типов клеток. Затем, используя lncRNA, идентифицированные в предыдущих публикациях, данные FANTOM5 и дальнейшее профилирование CAGE, будут проведены эксперименты по возмущению для оценки изменений в клеточном молекулярном фенотипе . Наконец, будет использоваться дополнительная технология для функциональной аннотации/классификации выбранного подмножества lncRNA. [44] Эти методы будут направлены на выяснение вторичной структуры lncRNA, их связь с белками и хроматином, а также картирование дальних взаимодействий lncRNA по всему геному. [1]