КОДИРОВАНИЕ

Энциклопедия элементов ДНК ( ENCODE ) — это общественный исследовательский проект, целью которого является «составление всеобъемлющего списка функциональных элементов генома человека ». ^[2]

ENCODE также поддерживает дальнейшие биомедицинские исследования путем «создания общественных ресурсов геномных данных, программного обеспечения, инструментов и методов для анализа геномных данных, а также продуктов, полученных в результате анализа и интерпретации данных». ^[3]^[2]

Текущая фаза ENCODE (2016–2019) расширяет свои ресурсы за счет увеличения числа типов клеток, типов данных, анализов и теперь включает поддержку исследования генома мыши. ^[3]

История

ENCODE был запущен Национальным институтом исследований генома человека США (NHGRI) в сентябре 2003 года. ^[4]^[5]^[6]^[7]^[8] Проект ENCODE, задуманный как продолжение проекта «Геном человека» , направлен на выявление всех функциональных элементов в геноме человека . ^[9]

Проект включает в себя всемирный консорциум исследовательских групп, и данные, полученные в ходе этого проекта, могут быть доступны через публичные базы данных. Первоначальный выпуск ENCODE состоялся в 2013 году и с тех пор менялся в соответствии с рекомендациями членов консорциума и более широкого сообщества ученых, которые используют Портал для доступа к данным ENCODE. Двухкомпонентная цель ENCODE — служить общедоступной базой данных для «экспериментальных протоколов, аналитических процедур и самих данных», и «тот же интерфейс должен обслуживать тщательно отобранные метаданные, которые регистрируют происхождение данных и обосновывают их интерпретацию в биологических терминах». ^[10] Проект начал свою четвертую фазу (ENCODE 4) в феврале 2017 года. ^[11]

Мотивация и значимость

По оценкам, у людей имеется около 20 000 генов , кодирующих белки , что составляет около 1,5% ДНК в геноме человека. Основной целью проекта ENCODE является определение роли оставшегося компонента генома, большая часть которого традиционно считалась «мусорной». Активность и экспрессия генов, кодирующих белки, могут модулироваться регуломом — различными элементами ДНК , такими как промоторы , транскрипционные регуляторные последовательности и области структуры хроматина и модификации гистонов . Считается, что изменения в регуляции активности генов могут нарушать производство белков и клеточные процессы и приводить к заболеванию. Определение местоположения этих регуляторных элементов и того, как они влияют на транскрипцию генов, может выявить связи между вариациями в экспрессии определенных генов и развитием заболевания. ^[12]

ENCODE также задуман как всеобъемлющий ресурс, позволяющий научному сообществу лучше понять, как геном может влиять на здоровье человека, и «стимулировать разработку новых методов лечения для профилактики и лечения этих заболеваний» ^{[5] .}

Консорциум ENCODE

Консорциум ENCODE в основном состоит из ученых, которые финансировались Национальным институтом исследований генома человека (NHGRI) США. Другие участники, вносящие вклад в проект, включаются в Консорциум или Рабочую группу по анализу.

Пилотная фаза состояла из восьми исследовательских групп и двенадцати групп, участвующих в фазе разработки технологии ENCODE. После 2007 года число участников увеличилось до 440 ученых, работающих в 32 лабораториях по всему миру, поскольку пилотная фаза была официально завершена. В настоящее время консорциум состоит из различных центров, которые выполняют различные задачи.

ENCODE является членом Международного консорциума по эпигеному человека (IHEC). ^[14]

Основное требование NHGRI к продуктам исследований, финансируемых ENCODE, заключается в том, чтобы они были предоставлены в свободном и высокодоступном виде всем исследователям для содействия геномным исследованиям. Исследования ENCODE обеспечивают воспроизводимость и, следовательно, прозрачность программного обеспечения, методов, данных и других инструментов, связанных с геномным анализом. ^[3]

Проект ENCODE

В настоящее время ENCODE реализуется в четыре фазы: пилотная фаза и фаза разработки технологии, которые были начаты одновременно; ^[15] и производственная фаза. Четвертая фаза является продолжением третьей и включает функциональную характеристику и дальнейший интегративный анализ для энциклопедии.

Целью пилотной фазы было определение набора процедур, которые в сочетании могли бы применяться экономически эффективно и с высокой пропускной способностью для точной и всесторонней характеристики больших областей человеческого генома . Пилотная фаза должна была выявить пробелы в текущем наборе инструментов для обнаружения функциональных последовательностей, а также, как предполагалось, выявить, были ли некоторые методы, используемые к тому времени, неэффективными или непригодными для крупномасштабного использования. Некоторые из этих проблем должны были быть решены на этапе разработки технологии ENCODE, который был направлен на разработку новых лабораторных и вычислительных методов, которые улучшили бы нашу способность идентифицировать известные функциональные последовательности или обнаруживать новые функциональные геномные элементы. Результаты первых двух фаз определили наилучший путь вперед для анализа оставшихся 99% человеческого генома в экономически эффективной и всеобъемлющей производственной фазе. ^[5]

Проект ENCODE Phase I: Пилотный проект

Пилотная фаза проверяла и сравнивала существующие методы для тщательного анализа определенной части последовательности генома человека. Она была организована как открытый консорциум и объединила исследователей с различным опытом и экспертизой для оценки относительных достоинств каждого из разнообразного набора методов, технологий и стратегий. Параллельная фаза разработки технологий проекта была направлена на разработку новых высокопроизводительных методов для идентификации функциональных элементов. Целью этих усилий было определение набора подходов, которые позволили бы комплексно идентифицировать все функциональные элементы в геноме человека. В рамках пилотного проекта ENCODE Национальный институт исследований генома человека (NHGRI) оценил возможности различных подходов для масштабирования для попытки проанализировать весь геном человека и найти пробелы в способности идентифицировать функциональные элементы в геномной последовательности.

Процесс пилотного проекта ENCODE включал тесное взаимодействие между вычислительными и экспериментальными учеными для оценки ряда методов аннотирования человеческого генома. Набор регионов, представляющих приблизительно 1% (30 Мб) человеческого генома, был выбран в качестве цели для пилотного проекта и был проанализирован всеми исследователями пилотного проекта ENCODE. Все данные, полученные участниками ENCODE по этим регионам, были быстро опубликованы в публичных базах данных. ^[7]^[16]

Выбор цели

Для использования в пилотном проекте ENCODE были выбраны определенные регионы человеческого генома, соответствующие 30 Мб, примерно 1% от общего генома человека. Эти регионы послужили основой для тестирования и оценки эффективности и результативности разнообразного набора методов и технологий для поиска различных функциональных элементов в ДНК человека.

Перед началом целевого выбора было решено, что 50% из 30 Мб последовательности будут выбраны вручную, а оставшаяся последовательность будет выбрана случайным образом. Двумя основными критериями для вручную выбранных регионов были: 1) наличие хорошо изученных генов или других известных элементов последовательности и 2) наличие значительного количества сравнительных данных о последовательностях. Всего было вручную выбрано 14,82 Мб последовательности с использованием этого подхода, состоящего из 14 целей размером от 500 кб до 2 Мб.

Оставшиеся 50% из 30 Мб последовательности состояли из тридцати регионов по 500 кб, выбранных в соответствии со стратегией стратифицированной случайной выборки на основе плотности генов и уровня неэкзонной консервации. Решение использовать эти конкретные критерии было принято для того, чтобы обеспечить хорошую выборку геномных регионов, сильно различающихся по содержанию генов и других функциональных элементов. Геном человека был разделен на три части — верхние 20%, средние 30% и нижние 50% — по каждой из двух осей: 1) плотность генов и 2) уровень неэкзонной консервации по отношению к ортологичной геномной последовательности мыши (см. ниже), всего девять страт. Из каждой страты были выбраны три случайных региона для пилотного проекта. Для тех страт, которые были недостаточно представлены ручным выбором, был выбран четвертый регион, в результате чего в общей сложности получилось 30 регионов. Для всех страт был назначен «резервный» регион для использования в случае непредвиденных технических проблем.

Более подробно критерии стратификации были следующими:

Плотность генов : показатель плотности генов региона представлял собой процент оснований, охваченных либо генами в базе данных Ensembl , либо лучшими выравниваниями мРНК человека BLAT ( BLAST -подобный инструмент выравнивания) в базе данных браузера генома UCSC .
Неэкзонная консервация: регион был разделен на неперекрывающиеся подокна по 125 оснований. Подокна, которые показали менее 75% выравнивания оснований с последовательностью мыши, были отброшены. Для оставшихся подокнов процент с по крайней мере 80% идентичностью оснований мыши и которые не соответствовали генам Ensembl, выравниваниям мРНК GenBank BLASTZ, предсказаниям генов Fgenesh++, предсказаниям генов TwinScan, сплайсированным выравниваниям EST или повторяющимся последовательностям ( ДНК ), использовался в качестве оценки неэкзонной консервации.

Вышеуказанные оценки были вычислены в пределах неперекрывающихся окон размером 500 кб готовой последовательности по всему геному и использовались для назначения каждого окна страте. ^[17]

Результаты пилотной фазы

Пилотная фаза была успешно завершена, и результаты были опубликованы в июне 2007 года в журнале Nature^[7] и в специальном выпуске Genome Research ; ^[18] результаты, опубликованные в первой упомянутой статье, расширили коллективные знания о функционировании генома человека в нескольких основных областях, включая следующие основные моменты: ^[7]

Геном человека широко транскрибируется, так что большинство его оснований связано по крайней мере с одним первичным транскриптом , а многие транскрипты связывают дистальные области с установленными локусами , кодирующими белок .
Было идентифицировано много новых транскриптов, не кодирующих белки, причем многие из них перекрываются локусами , кодирующими белки , а другие расположены в областях генома, которые ранее считались транскрипционно немыми.
Были идентифицированы многочисленные ранее нераспознанные сайты начала транскрипции , многие из которых демонстрируют структуру хроматина и специфические для последовательности свойства связывания белков, аналогичные хорошо изученным промоторам .
Регуляторные последовательности, окружающие участки начала транскрипции, распределены симметрично, без смещения в сторону вышележащих областей.
Доступность хроматина и паттерны модификации гистонов позволяют с высокой степенью вероятности предсказать как наличие, так и активность участков начала транскрипции.
Дистальные гиперчувствительные к ДНКазе I участки имеют характерные паттерны модификации гистонов , которые надежно отличают их от промоторов ; некоторые из этих дистальных участков имеют отметки, соответствующие функции изолятора.
Время репликации ДНК коррелирует со структурой хроматина.
В общей сложности 5% оснований в геноме можно с уверенностью идентифицировать как находящиеся под эволюционными ограничениями у млекопитающих; для приблизительно 60% этих ограниченных оснований имеются доказательства функционирования на основе результатов экспериментальных анализов, проведенных на сегодняшний день.
Хотя существует общее совпадение между геномными областями, идентифицированными как функциональные с помощью экспериментальных анализов, и теми, которые находятся под эволюционными ограничениями, не все основания в этих экспериментально определенных областях демонстрируют доказательства ограничений.
Различные функциональные элементы значительно различаются по изменчивости своей последовательности в популяции людей и по вероятности их нахождения в структурно изменчивой области генома .
Удивительно, но многие функциональные элементы, по-видимому, не ограничены в ходе эволюции млекопитающих. Это предполагает возможность большого пула нейтральных элементов, которые биохимически активны, но не приносят организму никакой конкретной пользы. Этот пул может служить «складом» для естественного отбора, потенциально выступая в качестве источника элементов, специфичных для линии, и функционально консервативных, но неортологичных элементов между видами.

Проект ENCODE Фаза II: Проект Производственной Фазы

Изображение данных ENCODE в браузере генома UCSC . Здесь показано несколько дорожек, содержащих информацию о регуляции генов . Ген слева ( ATP2B4 ) транскрибируется в самых разных клетках (см. также данные H3K4me1 ). Ген справа транскрибируется только в нескольких типах клеток, включая эмбриональные стволовые клетки.

В сентябре 2007 года Национальный институт исследований генома человека (NHGRI) начал финансировать производственную фазу проекта ENCODE. На этом этапе целью было проанализировать весь геном и провести «дополнительные пилотные исследования». ^[19]

Как и в пилотном проекте, производственные усилия организованы как открытый консорциум. В октябре 2007 года NHGRI выдал гранты на общую сумму более 80 миллионов долларов за четыре года. ^[20] Производственная фаза также включает Центр координации данных, Центр анализа данных и Технологический проект. ^[21] В то время проект превратился в действительно глобальное предприятие, в котором участвовали 440 ученых из 32 лабораторий по всему миру. После завершения пилотной фазы проект «масштабировался» в 2007 году, получив огромную выгоду от секвенирующих машин нового поколения. И данные были действительно большими: исследователи сгенерировали около 15 терабайт необработанных данных.

К 2010 году проект ENCODE создал более 1000 наборов данных по всему геному. В совокупности эти наборы данных показывают, какие регионы транскрибируются в РНК, какие регионы, скорее всего, контролируют гены, используемые в определенном типе клеток, и какие регионы связаны с широким спектром белков. Основными анализами, используемыми в ENCODE, являются ChIP-seq , DNase I Hypersensitivity, RNA-seq и анализы метилирования ДНК .

Результаты этапа производства

В сентябре 2012 года проект опубликовал гораздо более обширный набор результатов в 30 статьях, опубликованных одновременно в нескольких журналах, включая шесть в Nature , шесть в Genome Biology и специальный выпуск с 18 публикациями Genome Research . ^[22]

Авторы описали производство и начальный анализ 1640 наборов данных, предназначенных для аннотирования функциональных элементов во всем геноме человека, интегрируя результаты различных экспериментов в типах клеток, связанных экспериментов с участием 147 различных типов клеток и всех данных ENCODE с другими ресурсами, такими как регионы-кандидаты из исследований ассоциаций по всему геному ( GWAS ) и эволюционно ограниченных регионов. Вместе эти усилия выявили важные особенности организации и функции генома человека, которые были обобщены в обзорной статье следующим образом: ^[23]

Подавляющее большинство (80,4%) генома человека участвует по крайней мере в одном биохимическом событии, связанном с РНК и/или хроматином, по крайней мере в одном типе клеток. Большая часть генома лежит близко к регуляторному событию: 95% генома находится в пределах 8kb от взаимодействия ДНК - белок (как было проанализировано с помощью связанных мотивов ChIP-seq или следов ДНКазы I ), а 99% находится в пределах 1,7kb по крайней мере от одного из биохимических событий, измеренных ENCODE.
Элементы, специфичные для приматов, а также элементы без обнаруживаемых ограничений, присущих млекопитающим, в совокупности демонстрируют свидетельства отрицательного отбора; таким образом, ожидается, что некоторые из них будут функциональными.
Классификация генома по семи состояниям хроматина предполагает начальный набор из 399 124 регионов с энхансерными -подобными характеристиками и 70 292 регионов с промоторными -подобными характеристиками, а также сотни тысяч покоящихся регионов. Анализы с высоким разрешением далее подразделяют геном на тысячи узких состояний с различными функциональными свойствами.
Можно количественно коррелировать производство и обработку последовательности РНК как с хроматиновыми метками, так и со связыванием факторов транскрипции (TF) на промоторах , что указывает на то, что функциональность промоторов может объяснить большую часть вариаций экспрессии РНК.
Многие некодирующие варианты в отдельных последовательностях генома лежат в функциональных областях, аннотированных ENCODE; их число по крайней мере столь же велико, как и число вариантов в генах, кодирующих белки.
SNP, связанные с заболеванием по GWAS, обогащены в некодирующих функциональных элементах, большинство из которых находится в определенных ENCODE областях или около них, которые находятся за пределами генов, кодирующих белок . Во многих случаях фенотипы заболеваний могут быть связаны с определенным типом клеток или ТФ .

Самым поразительным открытием стало то, что доля человеческой ДНК, которая является биологически активной, значительно выше, чем даже самые оптимистичные предыдущие оценки. В обзорной статье Консорциум ENCODE сообщил, что его члены смогли назначить биохимические функции более чем 80% генома. ^[23] Было обнаружено, что большая часть этого вовлечена в контроль уровней экспрессии кодирующей ДНК , которая составляет менее 1% генома.

Наиболее важными новыми элементами «энциклопедии» являются:

Полная карта гиперчувствительных участков ДНКазы 1, которые являются маркерами регуляторной ДНК, которая обычно расположена рядом с генами и позволяет химическим факторам влиять на их экспрессию. Карта идентифицировала около 3 миллионов участков этого типа, включая почти все, что было известно ранее, и многие новые. ^[24]
Лексикон коротких последовательностей ДНК, которые формируют мотивы распознавания для ДНК-связывающих белков. Было обнаружено около 8,4 миллионов таких последовательностей, составляющих часть общей ДНК, примерно в два раза превышающую размер экзома . Было обнаружено, что тысячи транскрипционных промоутеров используют один стереотипный отпечаток из 50 пар оснований. ^[25]
Предварительный набросок архитектуры сети факторов транскрипции человека, то есть факторов, которые связываются с ДНК, чтобы способствовать или подавлять экспрессию генов. Сеть оказалась довольно сложной, с факторами, которые действуют на разных уровнях, а также с многочисленными обратными связями разных типов. ^[26]
Измерение доли генома человека, которая может быть транскрибирована в РНК. По оценкам, эта доля составляет более 75% от общей ДНК, что намного выше предыдущих оценок. Проект также начал характеризовать типы транскриптов РНК, которые генерируются в различных местах. ^[27]

Управление данными и анализ

Сбор, хранение, интеграция и отображение разнообразных сгенерированных данных является сложной задачей. Центр координации данных ENCODE (DCC) организует и отображает данные, сгенерированные лабораториями в консорциуме, и гарантирует, что данные соответствуют определенным стандартам качества при их публикации для общественности. Перед тем, как лаборатория представит какие-либо данные, DCC и лаборатория составляют проект соглашения о данных, в котором определяются экспериментальные параметры и связанные метаданные. DCC проверяет входящие данные, чтобы гарантировать их соответствие соглашению. Он также гарантирует, что все данные аннотируются с использованием соответствующих онтологий . ^[28] Затем он загружает данные на тестовый сервер для предварительной проверки и координирует действия с лабораториями, чтобы организовать данные в согласованный набор треков. Когда треки готовы, группа обеспечения качества DCC выполняет ряд проверок целостности, проверяет, что данные представлены в соответствии с другими данными браузера, и, возможно, самое главное, проверяет, что метаданные и сопровождающий описательный текст представлены таким образом, который полезен для наших пользователей. Данные публикуются на общедоступном веб-сайте UCSC Genome Browser только после того, как все эти проверки будут выполнены. Параллельно данные анализируются Центром анализа данных ENCODE, консорциумом аналитических групп из различных производственных лабораторий и других исследователей. Эти группы разрабатывают стандартизированные протоколы для анализа данных из новых анализов, определяют наилучшие практики и производят последовательный набор аналитических методов, таких как стандартизированные пиковые вызовы и генерация сигнала из выравнивающих нагромождений . ^[29]

Национальный институт исследований генома человека (NHGRI) определил ENCODE как «проект ресурсов сообщества». Эта важная концепция была определена на международной встрече, состоявшейся в Форт-Лодердейле в январе 2003 года, как исследовательский проект, специально разработанный и реализованный для создания набора данных, реагентов или других материалов, чья основная полезность будет заключаться в качестве ресурса для широкого научного сообщества. Соответственно, политика публикации данных ENCODE предусматривает, что данные после проверки будут помещены в публичные базы данных и станут доступны для использования всеми без ограничений. ^[29]

Другие проекты

С продолжением третьей фазы, Консорциум ENCODE стал заниматься дополнительными проектами, цели которых идут параллельно проекту ENCODE. Некоторые из этих проектов были частью второй фазы ENCODE.

проект modENCODE

Проект MODel organism ENCyclopedia Of DNA Elements (modENCODE) является продолжением оригинального проекта ENCODE, нацеленного на идентификацию функциональных элементов в геномах выбранных модельных организмов , в частности Drosophila melanogaster и Caenorhabditis elegans . ^[30] Расширение на модельные организмы позволяет проводить биологическую проверку вычислительных и экспериментальных результатов проекта ENCODE, что трудно или невозможно сделать на людях. ^[30] Финансирование проекта modENCODE было объявлено Национальными институтами здравоохранения (NIH) в 2007 году и включало несколько различных исследовательских институтов в США. ^[31]^[32] Проект завершил свою работу в 2012 году.

В конце 2010 года консорциум modENCODE представил свой первый набор результатов в публикациях по аннотации и интегративному анализу геномов червей и мух в журнале Science . ^[33]^[34] Данные из этих публикаций доступны на веб-сайте modENCODE. ^[35]

modENCODE был запущен как исследовательская сеть, а консорциум был сформирован 11 основными проектами, разделенными на червя и муху. Проекты охватывали следующее:

Структура гена
Профилирование экспрессии мРНК и некодируемых РНК
Сайты связывания факторов транскрипции
Модификации и замены гистонов
Структура хроматина
Инициация и время репликации ДНК
Изменение числа копий. ^[36]

современный

modERN, сокращение от model organism encyclopedia of regulator networks, ответвился от проекта modENCODE. Проект объединил группы C. elegans и Drosophila и фокусируется на идентификации дополнительных участков связывания факторов транскрипции соответствующих организмов. Проект начался в то же время, что и Фаза III ENCODE, и планируется завершить в 2017 году. ^[37] На сегодняшний день проект опубликовал 198 экспериментов, ^[38] и около 500 других экспериментов были представлены и в настоящее время обрабатываются DCC.

Геномика регуляции генов

В начале 2015 года NIH запустил программу Genomics of Gene Regulation (GGR). ^[39] Целью программы, которая продлится три года, является изучение сетей генов и путей в различных системах организма, с надеждой на дальнейшее понимание механизмов, контролирующих экспрессию генов. Хотя проект ENCODE отделен от GGR, ENCODE DCC размещает данные GGR на портале ENCODE. ^[40]

Дорожная карта

В 2008 году NIH начал работу Консорциум по картированию эпигеномики дорожной карты, целью которого было создание «публичного ресурса человеческих эпигеномных данных для катализа фундаментальной биологии и исследований, ориентированных на болезни». ^[41] В феврале 2015 года консорциум опубликовал статью под названием «Интегративный анализ 111 референтных человеческих эпигеномов», которая выполнила цель консорциума. Консорциум интегрировал информацию и аннотировал регуляторные элементы по 127 референтным эпигеномам, 16 из которых были частью проекта ENCODE. ^[42] Данные для проекта Roadmap можно найти либо на портале Roadmap, либо на портале ENCODE.

проект fruitENCODE

FruitENCODE: энциклопедия элементов ДНК для созревания фруктов — это проект ENCODE для растений, целью которого является создание наборов данных по метилированию ДНК, модификациям гистонов, DHS, экспрессии генов, связыванию факторов транскрипции для всех видов мясистых фруктов на разных стадиях развития. Предварительные данные можно найти на портале fruitENCODE.

Критика проекта

Хотя консорциум утверждает, что они далеки от завершения проекта ENCODE, многие реакции на опубликованные статьи и новостное освещение, сопровождавшее релиз, были благоприятными. Редакторы Nature и авторы ENCODE «... сотрудничали в течение многих месяцев, чтобы произвести как можно больший фурор и привлечь внимание не только исследовательского сообщества, но и широкой общественности». ^[44] Заявление проекта ENCODE о том, что 80% генома человека имеет биохимическую функцию ^[23], было быстро подхвачено популярной прессой, которая описала результаты проекта как ведущие к гибели мусорной ДНК . ^[45]^[46]

Однако вывод о том, что большая часть генома является «функциональной», подвергся критике на том основании, что проект ENCODE использовал либеральное определение «функционального», а именно, все, что транскрибируется, должно быть функциональным. Этот вывод был сделан, несмотря на широко распространенное мнение, основанное на оценках геномной консервации из сравнительной геномики , что многие элементы ДНК, такие как псевдогены , которые транскрибируются, тем не менее нефункциональны. Кроме того, проект ENCODE подчеркнул чувствительность , а не специфичность , что, возможно, привело к обнаружению множества ложноположительных результатов . ^[47]^[48]^[49] Несколько произвольный выбор линий клеток и факторов транскрипции, а также отсутствие соответствующих контрольных экспериментов стали дополнительными серьезными критическими замечаниями в адрес ENCODE, поскольку случайная ДНК имитирует «функциональное» поведение, подобное ENCODE. ^[50]

В ответ на некоторые критические замечания другие ученые утверждали, что широко распространенная транскрипция и сплайсинг, которые наблюдаются в геноме человека непосредственно с помощью биохимического тестирования, являются более точным индикатором генетической функции, чем оценки геномной консервации, поскольку все оценки консервации относительны и их трудно сопоставить из-за невероятных вариаций в размерах генома даже близкородственных видов; это частично тавтологично, и эти оценки не основаны на прямом тестировании функциональности генома. ^[51]^[52] Оценки консервации могут использоваться для предоставления подсказок для определения возможных функциональных элементов в геноме, но они не ограничивают и не ограничивают общее количество функциональных элементов, которые могут существовать в геноме. ^[52] Кроме того, большая часть генома, которая оспаривается критиками, по-видимому, участвует в эпигенетической регуляции, такой как экспрессия генов, и, по-видимому, необходима для развития сложных организмов. ^[51]^[53] Результаты ENCODE не обязательно были неожиданными, поскольку увеличение приписывания функциональности было предопределено предыдущими десятилетиями исследований. ^[51]^[53] Кроме того, другие отметили, что проект ENCODE с самого начала имел область действия, которая была основана на поиске биомедицинских функциональных элементов в геноме, а не эволюционных функциональных элементов, которые не обязательно являются одним и тем же, поскольку эволюционный отбор не является ни достаточным, ни необходимым для установления функции. Это очень полезный заместитель соответствующих функций, но несовершенный и не единственный. ^[54]

Недавно исследователи ENCODE повторили, что их главная цель — идентификация функциональных элементов в геноме человека. ^[55] В последующей статье в 2020 году ENCODE заявила, что функциональная аннотация идентифицированных элементов «все еще находится в зачаточном состоянии». ^[56]

В ответ на жалобы на определение слова «функция» некоторые отметили, что ENCODE действительно определил, что оно означает, и поскольку областью деятельности ENCODE был поиск биомедицински значимых функциональных элементов в геноме, то заключение проекта следует интерпретировать «как утверждение о том, что 80 % генома вовлечены в соответствующие биохимические действия, которые с большой вероятностью могут иметь причинные роли в явлениях, считающихся значимыми для биомедицинских исследований». ^[54] Эван Бирни , один из исследователей ENCODE, прокомментировал, что «функция» использовалась прагматично для обозначения «специфической биохимической активности», которая включала различные классы анализов: РНК, «широкие» модификации гистонов, «узкие» модификации гистонов, гиперчувствительные сайты ДНКазы I, пики транскрипционного фактора ChIP-seq, следы ДНКазы I, мотивы, связанные с транскрипционным фактором, и экзоны. ^[57]

В 2014 году исследователи ENCODE отметили, что в литературе функциональные части генома были идентифицированы по-разному в предыдущих исследованиях в зависимости от использованных подходов. Было три общих подхода, используемых для идентификации функциональных частей генома человека: генетические подходы (которые основаны на изменениях в фенотипе), эволюционные подходы (которые основаны на сохранении) и биохимические подходы (которые основаны на биохимическом тестировании и использовались ENCODE). Все три имеют ограничения: генетические подходы могут упускать функциональные элементы, которые физически не проявляются в организме, эволюционные подходы испытывают трудности с использованием точного выравнивания последовательностей нескольких видов, поскольку геномы даже близкородственных видов значительно различаются, а при биохимических подходах, хотя и имеющих высокую воспроизводимость, биохимические сигнатуры не всегда автоматически обозначают функцию. Они пришли к выводу, что в отличие от эволюционных и генетических доказательств, биохимические данные дают подсказки как о молекулярной функции, выполняемой базовыми элементами ДНК, так и о типах клеток, в которых они действуют, и в конечном итоге все три подхода могут использоваться взаимодополняющим образом для идентификации областей, которые могут быть функциональными в биологии и болезнях человека. Кроме того, они отметили, что биохимические карты, предоставленные ENCODE, являются наиболее ценными вещами из проекта, поскольку они обеспечивают отправную точку для проверки того, как эти сигнатуры соотносятся с молекулярными, клеточными и организменными функциями. ^[52]

Проект также критиковали за его высокую стоимость (~$400 миллионов в общей сложности) и предпочтение большой науки, которая отнимает деньги у высокопродуктивных исследований, инициированных исследователями. ^[58] Пилотный проект ENCODE стоил примерно $55 миллионов; масштабирование составило около $130 миллионов, а Национальный институт исследований генома человека США NHGRI мог бы выделить до $123 миллионов на следующую фазу. Некоторые исследователи утверждают, что солидный возврат этих инвестиций еще предстоит увидеть. Были попытки прочесать литературу в поисках статей, в которых ENCODE играет значительную роль, и с 2012 года было опубликовано 300 статей, 110 из которых поступили из лабораторий без финансирования ENCODE. Дополнительная проблема заключается в том, что ENCODE не является уникальным названием, посвященным исключительно проекту ENCODE, поэтому слово «encode» встречается во многих генетических и геномных литературных источниках. ^[59]

Еще одна важная критика заключается в том, что результаты не оправдывают количество времени, потраченного на проект, и что сам проект по сути не может быть завершен. Хотя его часто сравнивают с проектом «Геном человека» (HGP) и даже называют следующим шагом HGP, у HGP была четкая конечная точка, которой в настоящее время нет у ENCODE.

Авторы, похоже, симпатизируют научным проблемам и в то же время пытаются оправдать свои усилия, давая интервью и объясняя детали ENCODE не только научной общественности, но и средствам массовой информации. Они также утверждают, что прошло более полувека с момента осознания того, что ДНК является наследственным материалом жизни, до последовательности генома человека, так что их план на следующее столетие — действительно понять саму последовательность. ^[59]

ФакторБук

Анализ данных о связывании факторов транскрипции, созданный проектом ENCODE, в настоящее время доступен в веб-репозитории FactorBook. ^[60] По сути, Factorbook.org — это вики-база данных о связывании факторов транскрипции, созданная консорциумом ENCODE. В первом выпуске Factorbook содержит:

457 наборов данных ChIP-seq по 119 ТФ в ряде линий клеток человека
Средние профили модификаций гистонов и позиционирования нуклеосом вокруг областей связывания ТФ
Последовательность мотивов обогащена в регионах, а также расстояния и предпочтения ориентации между участками мотивов. ^[61]

Смотрите также

Ссылки

^ Hong EL, Sloan CA, Chan ET, Davidson JM, Malladi VS, Strattan JS, Hitz BC, Gabdank I, Narayanan AK, Ho M, Lee BT, Rowe LD, Dreszer TR, Roe GR, Podduturi NR, Tanaka F, Hilton JA, Cherry JM (январь 2016 г.). "Принципы организации метаданных в координационном центре данных ENCODE. (обновление 2016 г.)". База данных . 2016 : baw001. doi :10.1093/database/baw001. PMC 4792520 . PMID 26980513.
^ ab "Проект ENCODE: Обзор проекта". www.endodeproject.org . Получено 2023-02-23 .
^ abc "Политики использования данных, программного обеспечения и анализа выпуска – ENCODE". www.encodeproject.org . Получено 2021-12-18 .
^ Raney BJ, Cline MS, Rosenbloom KR, Dreszer TR, Learned K, Barber GP, Meyer LR, Sloan CA, Malladi VS, Roskin KM, Suh BB, Hinrichs AS, Clawson H, Zweig AS, Kirkup V, Fujita PA, Rhead B, Smith KE, Pohl A, Kuhn RM, Karolchik D, Haussler D, Kent WJ (январь 2011 г.). "ENCODE whole-genome data in the UCSC genome browser (обновление 2011 г.)". Nucleic Acids Res. 39 (выпуск базы данных): D871–5. doi :10.1093/nar/gkq1017. PMC 3013645 . PMID 21037257.
^ abc Консорциум проекта ENCODE (2004). "Проект ENCODE (ENCyclopedia Of DNA Elements)". Science . 306 (5696): 636–640. Bibcode :2004Sci...306..636E. doi :10.1126/science.1105136. PMID 15499007. S2CID 22837649.
^ ENCODE Project Consortium (2011). Becker PB (ред.). «Руководство пользователя по энциклопедии элементов ДНК (ENCODE)». PLOS Biology . 9 (4): e1001046. doi : 10.1371/journal.pbio.1001046 . PMC 3079585. PMID 21526222 .
^ abcd ENCODE Project Consortium, Birney E , Stamatoyannopoulos JA , Dutta A , Guigó R, Gingeras TR, Margulies EH, Weng Z, Snyder M, Dermitzakis ET и др. (2007). «Идентификация и анализ функциональных элементов в 1% генома человека с помощью пилотного проекта ENCODE». Nature . 447 (7146): 799–816. Bibcode : 2007Natur.447..799B. doi : 10.1038/nature05874. PMC 2212820. PMID 17571346 .
^ Гиго Р., Фличек П., Абриль Дж. Ф., Реймонд А., Лагард Дж., Дено Ф, Антонаракис С., Эшбернер М., Бажич В. Б., Бирни Э., Кастело Р., Эйрас Е., Укла С., Гингерас Т. Р., Харроу Дж., Хаббард Т., Льюис С.Э., Риз М.Г. (2006). «EGASP: Проект оценки аннотаций генома человека ENCODE». Геномная биология . 7 (Приложение 1): С2.1–31. дои : 10.1186/gb-2006-7-s1-s2 . ПМК 1810551 . ПМИД 16925836.
^ "Проект ENCODE: Обзор проекта". www.endodeproject.org . Получено 2023-02-23 .
^ Дэвис, Кэрри А.; Хитц, Бенджамин К.; Слоан, Крикет А.; Чан, Эстер Т.; Дэвидсон, Джин М.; Габданк, Идан; Хилтон, Джейсон А.; Джайн, Крити; Баймурадов, Улугбек К.; Нараянан, Адити К.; Онате, Катрина К. (4 января 2018 г.). «Энциклопедия элементов ДНК (ENCODE): обновление портала данных». Исследования нуклеиновых кислот . 46 (Д1): Д794–Д801. дои : 10.1093/nar/gkx1081. ISSN 1362-4962. ПМЦ 5753278 . ПМИД 29126249.
^ "Проект ENCODE: ENCyclopedia Of DNA Elements". www.genome.gov . Получено 13 мая 2016 г.
^ Saey, Tina Hesman (6 октября 2012 г.). «Команда выпускает сиквел к геному человека». Society for Science & the Public. Архивировано из оригинала 23 октября 2012 г. Получено 18 октября 2012 г.
^ "Рис. 3: Публикации с использованием данных ENCODE. | Nature". Natureevents Directory . ISSN 1476-4687.
^ GmbH, Eurice. "Соединенные Штаты Америки · IHEC". ihec-epigenomes.org . Получено 18 июля 2017 г. .
^ "ENCODE Project". www.genome.gov . Архивировано из оригинала 2016-05-17 . Получено 2016-05-16 .
^ Сотрудники программы ENCODE (18.10.2012). "ENCODE: Пилотный проект: обзор". Национальный институт исследований генома человека.
^ Сотрудники программы ENCODE (2012-02-19). "ENCODE: Пилотный проект: Выбор цели". Национальный институт исследований генома человека.
^ Weinstock GM (2007). «ENCODE: Больше геномных возможностей». Genome Research . 17 (6): 667–668. doi : 10.1101/gr.6534207 . PMID 17567987.
^ "Genome.gov | Проекты ENCODE и modENCODE". Проект ENCODE: ENCyclopedia Of DNA Elements . Национальный институт исследований генома человека США. 2011-08-01 . Получено 2011-08-05 .
^ "Национальный институт исследований генома человека - Организация". Альманах NIH . Национальные институты здравоохранения США . Получено 2011-08-05 .
^ "Genome.gov | Участники и проекты ENCODE". Проект ENCODE: ENCyclopedia Of DNA Elements . Национальный институт исследований генома человека США. 2011-08-01 . Получено 2011-08-05 .
^ Ecker JR, Bickmore WA, Barroso I, Pritchard JK, Gilad Y, Segal E (сентябрь 2012 г.). «Genomics: ENCODE explained». Nature . 489 (7414): 52–5. Bibcode : 2012Natur.489...52E. doi : 10.1038/489052a . PMID 22955614. S2CID 5366257.
^ abc Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M (сентябрь 2012 г.). «Интегрированная энциклопедия элементов ДНК в геноме человека». Nature . 489 (7414): 57–74. Bibcode :2012Natur.489...57T. doi :10.1038/nature11247. PMC 3439153 . PMID 22955616.
^ Thurman RE, Rynes E, Humbert R, Vierstra J, Maurano MT, Haugen E, Sheffield NC, Stergachis AB, Wang H и др. (сентябрь 2012 г.). «Доступный ландшафт хроматина генома человека». Nature . 489 (7414): 75–82. Bibcode :2012Natur.489...75T. doi :10.1038/nature11232. PMC 3721348 . PMID 22955617.
^ Neph S, Vierstra J, Stergachis AB, Reynolds AP, Haugen E, Vernot B, Thurman RE, John S, Sandstrom R и др. (сентябрь 2012 г.). «Обширный регуляторный лексикон человека, закодированный в следах факторов транскрипции». Nature . 489 (7414): 83–90. Bibcode :2012Natur.489...83N. doi :10.1038/nature11212. PMC 3736582 . PMID 22955618.
^ Gerstein MB, Kundaje A, Hariharan M, Landt SG, Yan KK, Cheng C, Mu XJ, Khurana E, Rozowsky J, et al. (сентябрь 2012 г.). «Архитектура регуляторной сети человека, полученная из данных ENCODE». Nature . 489 (7414): 91–100. Bibcode :2012Natur.489...91G. doi :10.1038/nature11245. PMC 4154057 . PMID 22955619.
^ Djebali S, Davis CA, Merkel A, Dobin A, Lassmann T, Mortazavi A, Tanzer A, Lagarde J, Lin W и др. (сентябрь 2012 г.). «Ландшафт транскрипции в клетках человека». Nature . 489 (7414): 101–8. Bibcode :2012Natur.489..101D. doi :10.1038/nature11233. PMC 3684276 . PMID 22955620.
^ Malladi VS, Erickson DT, Podduturi NR, Rowe LD, Chan ET, Davidson JM, Hitz BC, Ho M, Lee BT, Miyasato S, Roe GR, Simison M, Sloan CA, Strattan JS, Tanaka F, Kent WJ, Cherry JM, Hong EL (2015). "Применение и использование онтологий в ENCODE DCC". База данных (Оксфорд) . 2015. doi :10.1093/database/bav010 . PMC 4360730. PMID 25776021 .
^ ab Брайан Дж. Рэйни и др. (2010-10-30). "ENCODE whole-genome data in the UCSC genome browser (обновление 2011 г.)". Nucleic Acids Res . 39 (выпуск базы данных). Nucleic Acids Research: D871–5. doi :10.1093/nar/gkq1017. PMC 3013645. PMID 21037257 .
^ ab "Проект modENCODE: ENCyclopedia Of DNA Elements (modENCODE)" . Веб-сайт NHGRI . Получено 13.11.2008 .
^ "Участники и проекты modENCODE". Веб-сайт NHGRI . Получено 13 ноября 2008 г.
^ "Berkeley Lab Life Sciences Awarded NIH Grants for Fruit Fly, Nematode Studies". Веб-сайт Национальной лаборатории Лоуренса в Беркли . 2007-05-14. Архивировано из оригинала 2008-09-21 . Получено 2008-11-13 .
^ Герштейн М.Б., Лу З.Дж., Ван Ностранд Э.Л., Ченг С., Аршинофф Б.И., Лю Т., Ип К.Ю., Робилотто Р., Рехтштайнер А. и др. (2010). «Интегративный анализ генома Caenorhabditis elegans в рамках проекта modENCODE». Наука . 330 (6012): 1775–1787. Бибкод : 2010Sci...330.1775G. дои : 10.1126/science.1196914. ПМЦ 3142569 . ПМИД 21177976.
^ Консорциум modENCODE, Рой С., Эрнст Дж., Харченко П.В., Херадпур П., Негре Н., Итон М.Л., Ландолин Дж.М., Бристоу К.А., Ма Л. и др. (2010). «Идентификация функциональных элементов и регуляторных цепей с помощью modENCODE у дрозофилы». Science . 330 (6012): 1787–1797. Bibcode :2010Sci...330.1787R. doi :10.1126/science.1198374. PMC 3192495 . PMID 21177974.
^ "modENCODE". Национальный институт исследований генома человека.
^ Celniker S (2009-06-11). «Раскрытие секретов генома». Nature . 459 (7249): 927–930. Bibcode :2009Natur.459..927C. doi :10.1038/459927a. PMC 2843545 . PMID 19536255.
^ "ОТЧЕТ ⟩ РЕПОРТЕР".
^ «Поиск – КОДИРОВАНИЕ».
^ "Выпуск 2015 г.: гранты NIH направлены на расшифровку языка регуляции генов". www.genome.gov . Архивировано из оригинала 2016-04-06.
^ «Поиск – КОДИРОВАНИЕ».
^ "Roadmap Epigenomics Project - Home". Архивировано из оригинала 2021-04-08 . Получено 2014-01-10 .
^ Кундадже, Аншул; Меулеман, Воутер; Эрнст, Джейсон; Биленький, Миша; Йен, Анджела; Херави-Мусави, Алиреза; Херадпур, Пуя; Чжан, Чжичжоу; Ван, Цзяньжун; Зиллер, Майкл Дж.; Амин, Вирен; Уитакер, Джон В.; Шульц, Мэтью Д.; Уорд, Лукас Д.; Саркар, Абхишек; Куон, Джеральд; Сэндстром, Ричард С.; Итон, Мэтью Л.; Ву, И-Че; Пфеннинг, Андреас Р.; Ван, Синьчэнь; Клаусниццер, Мелина; Лю, Япин; Коарфа, Кристиан; Харрис, Р. Алан; Шореш, Ноам; Эпштейн, Чарльз Б.; Гьонеска, Элизабета; Люнг, Дэнни; и др. (2015). «Интегральный анализ 111 референтных человеческих эпигеномов». Nature . 518 (7539): 317–330. Bibcode :2015Natur.518..317.. doi :10.1038/nature14248. PMC 4530010 . PMID 25693563.
^ Чо, Ён-Дан; Ким, У-Джин; Рю, Хён-Мо; Ким, Хон-Ги; Ким, Кён-Хва; Ку, Ён; Соль, Ян-Джо (2021-04-26). «Современные достижения эпигенетики в пародонтологии из проекта ENCODE: обзор и будущие перспективы». Клиническая эпигенетика . 13 (1): 92. doi : 10.1186/s13148-021-01074-w . ISSN 1868-7083. PMC 8077755. PMID 33902683. S2CID 233402899 .
^ Maher B (2012-09-06). "Сражаемся по поводу ENCODE и мусора". Блог новостей . Nature Publishing Group. Архивировано из оригинала 2013-08-06 . Получено 2013-08-17 .
^ Колата Г (2012-09-05). «Далеко не мусор, темная материя ДНК доказывает свою решающую роль для здоровья». The New York Times .
^ Gregory TR (2012-09-06). "Машина медиахайпа ENCODE". Genomicron. Архивировано из оригинала 2015-04-06 . Получено 2013-08-17 .
^ Graur D ; Zheng Y; Price N; Azevedo RB; Zufall RA; Elhaik E (2013). «О бессмертии телевизоров: «функция» в геноме человека согласно свободному от эволюции евангелию ENCODE». Genome Biol Evol . 5 (3): 578–90. doi :10.1093/gbe/evt028. PMC 3622293 . PMID 23431001.
^ Моран ЛА (2013-03-15). «Песчаная прогулка: о значении слова «функция»». Песчаная прогулка.
^ Грегори ТР (2013-04-11). «Критика ENCODE в рецензируемых журналах. « Genomicron». Genomicron. Архивировано из оригинала 21 апреля 2013 г.
^ White MA, Myers CA, Corbo JC, Cohen BA (июль 2013 г.). «Массовый параллельный анализ усилителей in vivo показывает, что высоколокальные особенности определяют цис-регуляторную функцию пиков ChIP-seq». Proc. Natl. Acad. Sci. USA . 110 (29): 11952–7. Bibcode :2013PNAS..11011952W. doi : 10.1073/pnas.1307449110 . PMC 3718143 . PMID 23818646.
- Майк Уайт (17 июля 2013 г.). «Поиск функции в геноме с нулевой гипотезой». The Finch & Pea .
^ abc Mattick JS, Dinger ME (2013). "Степень функциональности в геноме человека". Журнал HUGO . 7 (1): 2. doi : 10.1186/1877-6566-7-2 . PMC 4685169 .
^ abc Kellis M, et al. (2014). «Определение функциональных элементов ДНК в геноме человека». Proc. Natl. Acad. Sci. USA . 111 (17): 6131–8. Bibcode : 2014PNAS..111.6131K. doi : 10.1073/pnas.1318948111 . PMC 4035993. PMID 24753594 .
^ ab Carey, Nessa (2015). Junk DNA: A Journey Through the Dark Matter of the Genome . Columbia University Press. ISBN 9780231170840.
^ аб Жермен, Пьер-Люк; Ратти, Эмануэле; Боэм, Федерико (ноябрь 2014 г.). «Мусорная или функциональная ДНК? КОДИРОВАНИЕ и спор о функциях». Биология и философия . 29 (6): 807–831. дои : 10.1007/s10539-014-9441-3. S2CID 84480632.
^ Abascal F, Acosta R, Addleman NJ, Adrian J, et al. (30 июля 2020 г.). «Расширенные энциклопедии элементов ДНК в геномах человека и мыши». Nature . 583 (7818): 699–710. Bibcode :2020Natur.583..699E. doi :10.1038/s41586-020-2493-4. PMC 7410828 . PMID 32728249. Проект ENCODE направлен на точное и всестороннее определение сегментов геномов человека и мыши, которые кодируют функциональные элементы.
^ Snyder MP, Gingeras MB, Ren B, Hardison RC и др. (2020). «Perspectives on ENCODE». Nature . 583 : 583–698. Важно отметить, что, хотя было определено очень большое количество некодирующих элементов, функциональная аннотация элементов, идентифицированных ENCODE, все еще находится в зачаточном состоянии.
^ Бирни, Эван (5 сентября 2012 г.). «ENCODE: Мои собственные мысли». Блог Эвана: Биоинформатик в целом .
^ Timpson T (2013-03-05). "Debating ENCODE: Dan Graur, Michael Eisen". Mendelspod. Архивировано из оригинала 2015-04-11 . Получено 2013-08-15 .
^ ab Maher B (сентябрь 2012 г.). "ENCODE: The human encyclopaedia". Nature . 489 (7414): 46–8. doi : 10.1038/489046a . PMID 22962707.
^ ФакторБук
^ Wang J (29.11.2012). "Factorbook.org: база данных на основе Wiki для данных о связывании факторов транскрипции, созданная консорциумом ENCODE". Nucleic Acids Research . 41 (выпуск базы данных): D171-6. doi :10.1093/nar/gks1221. PMC 3531197. PMID 23203885 .

Внешние ссылки

Официальный сайт
Официальный список публикаций проекта ENCODE
Проект ENCODE в Национальном институте исследований генома человека
Энциклопедия элементов ДНК в Геномном браузере Калифорнийского университета в Санта-Крузе
Проект ENCODE/GENCODE в Институте Сенгера Wellcome Trust
Вводный курс, спонсируемый ENCODE
ФакторБук
модENCODE
ENCODE темы Explorer в Nature (журнал)