Энциклопедия элементов ДНК ( ENCODE ) — это общественный исследовательский проект, целью которого является «составление всеобъемлющего списка функциональных элементов генома человека ». [2]
ENCODE также поддерживает дальнейшие биомедицинские исследования путем «создания общественных ресурсов геномных данных, программного обеспечения, инструментов и методов для анализа геномных данных, а также продуктов, полученных в результате анализа и интерпретации данных». [3] [2]
Текущая фаза ENCODE (2016–2019) расширяет свои ресурсы за счет увеличения числа типов клеток, типов данных, анализов и теперь включает поддержку исследования генома мыши. [3]
ENCODE был запущен Национальным институтом исследований генома человека США (NHGRI) в сентябре 2003 года. [4] [5] [6] [7] [8] Проект ENCODE, задуманный как продолжение проекта «Геном человека» , направлен на выявление всех функциональных элементов в геноме человека . [9]
Проект включает в себя всемирный консорциум исследовательских групп, и данные, полученные в ходе этого проекта, могут быть доступны через публичные базы данных. Первоначальный выпуск ENCODE состоялся в 2013 году и с тех пор менялся в соответствии с рекомендациями членов консорциума и более широкого сообщества ученых, которые используют Портал для доступа к данным ENCODE. Двухкомпонентная цель ENCODE — служить общедоступной базой данных для «экспериментальных протоколов, аналитических процедур и самих данных», и «тот же интерфейс должен обслуживать тщательно отобранные метаданные, которые регистрируют происхождение данных и обосновывают их интерпретацию в биологических терминах». [10] Проект начал свою четвертую фазу (ENCODE 4) в феврале 2017 года. [11]
По оценкам, у людей имеется около 20 000 генов , кодирующих белки , что составляет около 1,5% ДНК в геноме человека. Основной целью проекта ENCODE является определение роли оставшегося компонента генома, большая часть которого традиционно считалась «мусорной». Активность и экспрессия генов, кодирующих белки, могут модулироваться регуломом — различными элементами ДНК , такими как промоторы , транскрипционные регуляторные последовательности и области структуры хроматина и модификации гистонов . Считается, что изменения в регуляции активности генов могут нарушать производство белков и клеточные процессы и приводить к заболеванию. Определение местоположения этих регуляторных элементов и того, как они влияют на транскрипцию генов, может выявить связи между вариациями в экспрессии определенных генов и развитием заболевания. [12]
ENCODE также задуман как всеобъемлющий ресурс, позволяющий научному сообществу лучше понять, как геном может влиять на здоровье человека, и «стимулировать разработку новых методов лечения для профилактики и лечения этих заболеваний» [5] .
Консорциум ENCODE в основном состоит из ученых, которые финансировались Национальным институтом исследований генома человека (NHGRI) США. Другие участники, вносящие вклад в проект, включаются в Консорциум или Рабочую группу по анализу.
Пилотная фаза состояла из восьми исследовательских групп и двенадцати групп, участвующих в фазе разработки технологии ENCODE. После 2007 года число участников увеличилось до 440 ученых, работающих в 32 лабораториях по всему миру, поскольку пилотная фаза была официально завершена. В настоящее время консорциум состоит из различных центров, которые выполняют различные задачи.
ENCODE является членом Международного консорциума по эпигеному человека (IHEC). [14]
Основное требование NHGRI к продуктам исследований, финансируемых ENCODE, заключается в том, чтобы они были предоставлены в свободном и высокодоступном виде всем исследователям для содействия геномным исследованиям. Исследования ENCODE обеспечивают воспроизводимость и, следовательно, прозрачность программного обеспечения, методов, данных и других инструментов, связанных с геномным анализом. [3]
В настоящее время ENCODE реализуется в четыре фазы: пилотная фаза и фаза разработки технологии, которые были начаты одновременно; [15] и производственная фаза. Четвертая фаза является продолжением третьей и включает функциональную характеристику и дальнейший интегративный анализ для энциклопедии.
Целью пилотной фазы было определение набора процедур, которые в сочетании могли бы применяться экономически эффективно и с высокой пропускной способностью для точной и всесторонней характеристики больших областей человеческого генома . Пилотная фаза должна была выявить пробелы в текущем наборе инструментов для обнаружения функциональных последовательностей, а также, как предполагалось, выявить, были ли некоторые методы, используемые к тому времени, неэффективными или непригодными для крупномасштабного использования. Некоторые из этих проблем должны были быть решены на этапе разработки технологии ENCODE, который был направлен на разработку новых лабораторных и вычислительных методов, которые улучшили бы нашу способность идентифицировать известные функциональные последовательности или обнаруживать новые функциональные геномные элементы. Результаты первых двух фаз определили наилучший путь вперед для анализа оставшихся 99% человеческого генома в экономически эффективной и всеобъемлющей производственной фазе. [5]
Пилотная фаза проверяла и сравнивала существующие методы для тщательного анализа определенной части последовательности генома человека. Она была организована как открытый консорциум и объединила исследователей с различным опытом и экспертизой для оценки относительных достоинств каждого из разнообразного набора методов, технологий и стратегий. Параллельная фаза разработки технологий проекта была направлена на разработку новых высокопроизводительных методов для идентификации функциональных элементов. Целью этих усилий было определение набора подходов, которые позволили бы комплексно идентифицировать все функциональные элементы в геноме человека. В рамках пилотного проекта ENCODE Национальный институт исследований генома человека (NHGRI) оценил возможности различных подходов для масштабирования для попытки проанализировать весь геном человека и найти пробелы в способности идентифицировать функциональные элементы в геномной последовательности.
Процесс пилотного проекта ENCODE включал тесное взаимодействие между вычислительными и экспериментальными учеными для оценки ряда методов аннотирования человеческого генома. Набор регионов, представляющих приблизительно 1% (30 Мб) человеческого генома, был выбран в качестве цели для пилотного проекта и был проанализирован всеми исследователями пилотного проекта ENCODE. Все данные, полученные участниками ENCODE по этим регионам, были быстро опубликованы в публичных базах данных. [7] [16]
Для использования в пилотном проекте ENCODE были выбраны определенные регионы человеческого генома, соответствующие 30 Мб, примерно 1% от общего генома человека. Эти регионы послужили основой для тестирования и оценки эффективности и результативности разнообразного набора методов и технологий для поиска различных функциональных элементов в ДНК человека.
Перед началом целевого выбора было решено, что 50% из 30 Мб последовательности будут выбраны вручную, а оставшаяся последовательность будет выбрана случайным образом. Двумя основными критериями для вручную выбранных регионов были: 1) наличие хорошо изученных генов или других известных элементов последовательности и 2) наличие значительного количества сравнительных данных о последовательностях. Всего было вручную выбрано 14,82 Мб последовательности с использованием этого подхода, состоящего из 14 целей размером от 500 кб до 2 Мб.
Оставшиеся 50% из 30 Мб последовательности состояли из тридцати регионов по 500 кб, выбранных в соответствии со стратегией стратифицированной случайной выборки на основе плотности генов и уровня неэкзонной консервации. Решение использовать эти конкретные критерии было принято для того, чтобы обеспечить хорошую выборку геномных регионов, сильно различающихся по содержанию генов и других функциональных элементов. Геном человека был разделен на три части — верхние 20%, средние 30% и нижние 50% — по каждой из двух осей: 1) плотность генов и 2) уровень неэкзонной консервации по отношению к ортологичной геномной последовательности мыши (см. ниже), всего девять страт. Из каждой страты были выбраны три случайных региона для пилотного проекта. Для тех страт, которые были недостаточно представлены ручным выбором, был выбран четвертый регион, в результате чего в общей сложности получилось 30 регионов. Для всех страт был назначен «резервный» регион для использования в случае непредвиденных технических проблем.
Более подробно критерии стратификации были следующими:
Вышеуказанные оценки были вычислены в пределах неперекрывающихся окон размером 500 кб готовой последовательности по всему геному и использовались для назначения каждого окна страте. [17]
Пилотная фаза была успешно завершена, и результаты были опубликованы в июне 2007 года в журнале Nature [7] и в специальном выпуске Genome Research ; [18] результаты, опубликованные в первой упомянутой статье, расширили коллективные знания о функционировании генома человека в нескольких основных областях, включая следующие основные моменты: [7]
В сентябре 2007 года Национальный институт исследований генома человека (NHGRI) начал финансировать производственную фазу проекта ENCODE. На этом этапе целью было проанализировать весь геном и провести «дополнительные пилотные исследования». [19]
Как и в пилотном проекте, производственные усилия организованы как открытый консорциум. В октябре 2007 года NHGRI выдал гранты на общую сумму более 80 миллионов долларов за четыре года. [20] Производственная фаза также включает Центр координации данных, Центр анализа данных и Технологический проект. [21] В то время проект превратился в действительно глобальное предприятие, в котором участвовали 440 ученых из 32 лабораторий по всему миру. После завершения пилотной фазы проект «масштабировался» в 2007 году, получив огромную выгоду от секвенирующих машин нового поколения. И данные были действительно большими: исследователи сгенерировали около 15 терабайт необработанных данных.
К 2010 году проект ENCODE создал более 1000 наборов данных по всему геному. В совокупности эти наборы данных показывают, какие регионы транскрибируются в РНК, какие регионы, скорее всего, контролируют гены, используемые в определенном типе клеток, и какие регионы связаны с широким спектром белков. Основными анализами, используемыми в ENCODE, являются ChIP-seq , DNase I Hypersensitivity, RNA-seq и анализы метилирования ДНК .
В сентябре 2012 года проект опубликовал гораздо более обширный набор результатов в 30 статьях, опубликованных одновременно в нескольких журналах, включая шесть в Nature , шесть в Genome Biology и специальный выпуск с 18 публикациями Genome Research . [22]
Авторы описали производство и начальный анализ 1640 наборов данных, предназначенных для аннотирования функциональных элементов во всем геноме человека, интегрируя результаты различных экспериментов в типах клеток, связанных экспериментов с участием 147 различных типов клеток и всех данных ENCODE с другими ресурсами, такими как регионы-кандидаты из исследований ассоциаций по всему геному ( GWAS ) и эволюционно ограниченных регионов. Вместе эти усилия выявили важные особенности организации и функции генома человека, которые были обобщены в обзорной статье следующим образом: [23]
Самым поразительным открытием стало то, что доля человеческой ДНК, которая является биологически активной, значительно выше, чем даже самые оптимистичные предыдущие оценки. В обзорной статье Консорциум ENCODE сообщил, что его члены смогли назначить биохимические функции более чем 80% генома. [23] Было обнаружено, что большая часть этого вовлечена в контроль уровней экспрессии кодирующей ДНК , которая составляет менее 1% генома.
Наиболее важными новыми элементами «энциклопедии» являются:
Сбор, хранение, интеграция и отображение разнообразных сгенерированных данных является сложной задачей. Центр координации данных ENCODE (DCC) организует и отображает данные, сгенерированные лабораториями в консорциуме, и гарантирует, что данные соответствуют определенным стандартам качества при их публикации для общественности. Перед тем, как лаборатория представит какие-либо данные, DCC и лаборатория составляют проект соглашения о данных, в котором определяются экспериментальные параметры и связанные метаданные. DCC проверяет входящие данные, чтобы гарантировать их соответствие соглашению. Он также гарантирует, что все данные аннотируются с использованием соответствующих онтологий . [28] Затем он загружает данные на тестовый сервер для предварительной проверки и координирует действия с лабораториями, чтобы организовать данные в согласованный набор треков. Когда треки готовы, группа обеспечения качества DCC выполняет ряд проверок целостности, проверяет, что данные представлены в соответствии с другими данными браузера, и, возможно, самое главное, проверяет, что метаданные и сопровождающий описательный текст представлены таким образом, который полезен для наших пользователей. Данные публикуются на общедоступном веб-сайте UCSC Genome Browser только после того, как все эти проверки будут выполнены. Параллельно данные анализируются Центром анализа данных ENCODE, консорциумом аналитических групп из различных производственных лабораторий и других исследователей. Эти группы разрабатывают стандартизированные протоколы для анализа данных из новых анализов, определяют наилучшие практики и производят последовательный набор аналитических методов, таких как стандартизированные пиковые вызовы и генерация сигнала из выравнивающих нагромождений . [29]
Национальный институт исследований генома человека (NHGRI) определил ENCODE как «проект ресурсов сообщества». Эта важная концепция была определена на международной встрече, состоявшейся в Форт-Лодердейле в январе 2003 года, как исследовательский проект, специально разработанный и реализованный для создания набора данных, реагентов или других материалов, чья основная полезность будет заключаться в качестве ресурса для широкого научного сообщества. Соответственно, политика публикации данных ENCODE предусматривает, что данные после проверки будут помещены в публичные базы данных и станут доступны для использования всеми без ограничений. [29]
С продолжением третьей фазы, Консорциум ENCODE стал заниматься дополнительными проектами, цели которых идут параллельно проекту ENCODE. Некоторые из этих проектов были частью второй фазы ENCODE.
Проект MODel organism ENCyclopedia Of DNA Elements (modENCODE) является продолжением оригинального проекта ENCODE, нацеленного на идентификацию функциональных элементов в геномах выбранных модельных организмов , в частности Drosophila melanogaster и Caenorhabditis elegans . [30] Расширение на модельные организмы позволяет проводить биологическую проверку вычислительных и экспериментальных результатов проекта ENCODE, что трудно или невозможно сделать на людях. [30] Финансирование проекта modENCODE было объявлено Национальными институтами здравоохранения (NIH) в 2007 году и включало несколько различных исследовательских институтов в США. [31] [32] Проект завершил свою работу в 2012 году.
В конце 2010 года консорциум modENCODE представил свой первый набор результатов в публикациях по аннотации и интегративному анализу геномов червей и мух в журнале Science . [33] [34] Данные из этих публикаций доступны на веб-сайте modENCODE. [35]
modENCODE был запущен как исследовательская сеть, а консорциум был сформирован 11 основными проектами, разделенными на червя и муху. Проекты охватывали следующее:
modERN, сокращение от model organism encyclopedia of regulator networks, ответвился от проекта modENCODE. Проект объединил группы C. elegans и Drosophila и фокусируется на идентификации дополнительных участков связывания факторов транскрипции соответствующих организмов. Проект начался в то же время, что и Фаза III ENCODE, и планируется завершить в 2017 году. [37] На сегодняшний день проект опубликовал 198 экспериментов, [38] и около 500 других экспериментов были представлены и в настоящее время обрабатываются DCC.
В начале 2015 года NIH запустил программу Genomics of Gene Regulation (GGR). [39] Целью программы, которая продлится три года, является изучение сетей генов и путей в различных системах организма, с надеждой на дальнейшее понимание механизмов, контролирующих экспрессию генов. Хотя проект ENCODE отделен от GGR, ENCODE DCC размещает данные GGR на портале ENCODE. [40]
В 2008 году NIH начал работу Консорциум по картированию эпигеномики дорожной карты, целью которого было создание «публичного ресурса человеческих эпигеномных данных для катализа фундаментальной биологии и исследований, ориентированных на болезни». [41] В феврале 2015 года консорциум опубликовал статью под названием «Интегративный анализ 111 референтных человеческих эпигеномов», которая выполнила цель консорциума. Консорциум интегрировал информацию и аннотировал регуляторные элементы по 127 референтным эпигеномам, 16 из которых были частью проекта ENCODE. [42] Данные для проекта Roadmap можно найти либо на портале Roadmap, либо на портале ENCODE.
FruitENCODE: энциклопедия элементов ДНК для созревания фруктов — это проект ENCODE для растений, целью которого является создание наборов данных по метилированию ДНК, модификациям гистонов, DHS, экспрессии генов, связыванию факторов транскрипции для всех видов мясистых фруктов на разных стадиях развития. Предварительные данные можно найти на портале fruitENCODE.
Хотя консорциум утверждает, что они далеки от завершения проекта ENCODE, многие реакции на опубликованные статьи и новостное освещение, сопровождавшее релиз, были благоприятными. Редакторы Nature и авторы ENCODE «... сотрудничали в течение многих месяцев, чтобы произвести как можно больший фурор и привлечь внимание не только исследовательского сообщества, но и широкой общественности». [44] Заявление проекта ENCODE о том, что 80% генома человека имеет биохимическую функцию [23], было быстро подхвачено популярной прессой, которая описала результаты проекта как ведущие к гибели мусорной ДНК . [45] [46]
Однако вывод о том, что большая часть генома является «функциональной», подвергся критике на том основании, что проект ENCODE использовал либеральное определение «функционального», а именно, все, что транскрибируется, должно быть функциональным. Этот вывод был сделан, несмотря на широко распространенное мнение, основанное на оценках геномной консервации из сравнительной геномики , что многие элементы ДНК, такие как псевдогены , которые транскрибируются, тем не менее нефункциональны. Кроме того, проект ENCODE подчеркнул чувствительность , а не специфичность , что, возможно, привело к обнаружению множества ложноположительных результатов . [47] [48] [49] Несколько произвольный выбор линий клеток и факторов транскрипции, а также отсутствие соответствующих контрольных экспериментов стали дополнительными серьезными критическими замечаниями в адрес ENCODE, поскольку случайная ДНК имитирует «функциональное» поведение, подобное ENCODE. [50]
В ответ на некоторые критические замечания другие ученые утверждали, что широко распространенная транскрипция и сплайсинг, которые наблюдаются в геноме человека непосредственно с помощью биохимического тестирования, являются более точным индикатором генетической функции, чем оценки геномной консервации, поскольку все оценки консервации относительны и их трудно сопоставить из-за невероятных вариаций в размерах генома даже близкородственных видов; это частично тавтологично, и эти оценки не основаны на прямом тестировании функциональности генома. [51] [52] Оценки консервации могут использоваться для предоставления подсказок для определения возможных функциональных элементов в геноме, но они не ограничивают и не ограничивают общее количество функциональных элементов, которые могут существовать в геноме. [52] Кроме того, большая часть генома, которая оспаривается критиками, по-видимому, участвует в эпигенетической регуляции, такой как экспрессия генов, и, по-видимому, необходима для развития сложных организмов. [51] [53] Результаты ENCODE не обязательно были неожиданными, поскольку увеличение приписывания функциональности было предопределено предыдущими десятилетиями исследований. [51] [53] Кроме того, другие отметили, что проект ENCODE с самого начала имел область действия, которая была основана на поиске биомедицинских функциональных элементов в геноме, а не эволюционных функциональных элементов, которые не обязательно являются одним и тем же, поскольку эволюционный отбор не является ни достаточным, ни необходимым для установления функции. Это очень полезный заместитель соответствующих функций, но несовершенный и не единственный. [54]
Недавно исследователи ENCODE повторили, что их главная цель — идентификация функциональных элементов в геноме человека. [55] В последующей статье в 2020 году ENCODE заявила, что функциональная аннотация идентифицированных элементов «все еще находится в зачаточном состоянии». [56]
В ответ на жалобы на определение слова «функция» некоторые отметили, что ENCODE действительно определил, что оно означает, и поскольку областью деятельности ENCODE был поиск биомедицински значимых функциональных элементов в геноме, то заключение проекта следует интерпретировать «как утверждение о том, что 80 % генома вовлечены в соответствующие биохимические действия, которые с большой вероятностью могут иметь причинные роли в явлениях, считающихся значимыми для биомедицинских исследований». [54] Эван Бирни , один из исследователей ENCODE, прокомментировал, что «функция» использовалась прагматично для обозначения «специфической биохимической активности», которая включала различные классы анализов: РНК, «широкие» модификации гистонов, «узкие» модификации гистонов, гиперчувствительные сайты ДНКазы I, пики транскрипционного фактора ChIP-seq, следы ДНКазы I, мотивы, связанные с транскрипционным фактором, и экзоны. [57]
В 2014 году исследователи ENCODE отметили, что в литературе функциональные части генома были идентифицированы по-разному в предыдущих исследованиях в зависимости от использованных подходов. Было три общих подхода, используемых для идентификации функциональных частей генома человека: генетические подходы (которые основаны на изменениях в фенотипе), эволюционные подходы (которые основаны на сохранении) и биохимические подходы (которые основаны на биохимическом тестировании и использовались ENCODE). Все три имеют ограничения: генетические подходы могут упускать функциональные элементы, которые физически не проявляются в организме, эволюционные подходы испытывают трудности с использованием точного выравнивания последовательностей нескольких видов, поскольку геномы даже близкородственных видов значительно различаются, а при биохимических подходах, хотя и имеющих высокую воспроизводимость, биохимические сигнатуры не всегда автоматически обозначают функцию. Они пришли к выводу, что в отличие от эволюционных и генетических доказательств, биохимические данные дают подсказки как о молекулярной функции, выполняемой базовыми элементами ДНК, так и о типах клеток, в которых они действуют, и в конечном итоге все три подхода могут использоваться взаимодополняющим образом для идентификации областей, которые могут быть функциональными в биологии и болезнях человека. Кроме того, они отметили, что биохимические карты, предоставленные ENCODE, являются наиболее ценными вещами из проекта, поскольку они обеспечивают отправную точку для проверки того, как эти сигнатуры соотносятся с молекулярными, клеточными и организменными функциями. [52]
Проект также критиковали за его высокую стоимость (~$400 миллионов в общей сложности) и предпочтение большой науки, которая отнимает деньги у высокопродуктивных исследований, инициированных исследователями. [58] Пилотный проект ENCODE стоил примерно $55 миллионов; масштабирование составило около $130 миллионов, а Национальный институт исследований генома человека США NHGRI мог бы выделить до $123 миллионов на следующую фазу. Некоторые исследователи утверждают, что солидный возврат этих инвестиций еще предстоит увидеть. Были попытки прочесать литературу в поисках статей, в которых ENCODE играет значительную роль, и с 2012 года было опубликовано 300 статей, 110 из которых поступили из лабораторий без финансирования ENCODE. Дополнительная проблема заключается в том, что ENCODE не является уникальным названием, посвященным исключительно проекту ENCODE, поэтому слово «encode» встречается во многих генетических и геномных литературных источниках. [59]
Еще одна важная критика заключается в том, что результаты не оправдывают количество времени, потраченного на проект, и что сам проект по сути не может быть завершен. Хотя его часто сравнивают с проектом «Геном человека» (HGP) и даже называют следующим шагом HGP, у HGP была четкая конечная точка, которой в настоящее время нет у ENCODE.
Авторы, похоже, симпатизируют научным проблемам и в то же время пытаются оправдать свои усилия, давая интервью и объясняя детали ENCODE не только научной общественности, но и средствам массовой информации. Они также утверждают, что прошло более полувека с момента осознания того, что ДНК является наследственным материалом жизни, до последовательности генома человека, так что их план на следующее столетие — действительно понять саму последовательность. [59]
Анализ данных о связывании факторов транскрипции, созданный проектом ENCODE, в настоящее время доступен в веб-репозитории FactorBook. [60] По сути, Factorbook.org — это вики-база данных о связывании факторов транскрипции, созданная консорциумом ENCODE. В первом выпуске Factorbook содержит:
Проект ENCODE направлен на точное и всестороннее определение сегментов геномов человека и мыши, которые кодируют функциональные элементы.
Важно отметить, что, хотя было определено очень большое количество некодирующих элементов, функциональная аннотация элементов, идентифицированных ENCODE, все еще находится в зачаточном состоянии.