stringtranslate.com

Генная онтология

Gene Ontology ( GO ) — крупная биоинформатическая инициатива по унификации представления атрибутов генов и генных продуктов для всех видов . [1] Более конкретно, проект направлен на: 1) поддержание и развитие своего контролируемого словаря атрибутов генов и генных продуктов; 2) аннотирование генов и генных продуктов, а также ассимиляцию и распространение данных аннотаций; и 3) предоставление инструментов для легкого доступа ко всем аспектам данных, предоставляемых проектом, и обеспечение функциональной интерпретации экспериментальных данных с использованием GO, например, посредством анализа обогащения. [2] [3] GO является частью более масштабной работы по классификации, Open Biomedical Ontologies , являясь одним из первоначальных кандидатов в члены OBO Foundry . [4]

В то время как номенклатура генов фокусируется на генах и продуктах генов, онтология генов фокусируется на функции генов и продуктов генов. GO также расширяет усилия, используя язык разметки, чтобы сделать данные (не только генов и их продуктов, но и курируемых атрибутов) машиночитаемыми , и сделать это таким образом, чтобы они были унифицированы для всех видов (тогда как соглашения о номенклатуре генов различаются в зависимости от биологического таксона ).

История

Gene Ontology была первоначально создана в 1998 году консорциумом исследователей, изучающих геномы трех модельных организмов : Drosophila melanogaster (плодовая мушка), Mus musculus (мышь) и Saccharomyces cerevisiae (пивные или пекарские дрожжи). [5] Многие другие базы данных модельных организмов присоединились к Консорциуму Gene Ontology, внося вклад не только в данные аннотаций, но и в разработку онтологий и инструментов для просмотра и применения данных. Многие основные базы данных растений, животных и микроорганизмов вносят вклад в этот проект. [6] По состоянию на июль 2019 года GO содержит 44 945 терминов; имеется 6 408 283 аннотаций к 4 467 различным биологическим организмам. [6] Существует значительный объем литературы по разработке и использованию GO, и он стал стандартным инструментом в арсенале биоинформатики . Их цели имеют три аспекта: построение онтологии генов, назначение онтологии генам/генным продуктам и разработка программного обеспечения и баз данных для первых двух объектов.

Также начинают появляться несколько анализов онтологии гена, использующих формальные, независимые от домена свойства классов (метасвойства). Например, сейчас существует онтологический анализ биологических онтологий. [7]

Термины и онтология

С практической точки зрения онтология — это представление чего-то, о чем мы знаем. «Онтологии» состоят из представлений вещей, которые можно обнаружить или непосредственно наблюдать, и отношений между этими вещами. В биологии и смежных областях не существует универсальной стандартной терминологии, и использование терминов может быть специфичным для вида, области исследований или даже конкретной исследовательской группы. Это затрудняет коммуникацию и обмен данными. Проект Gene Ontology предоставляет онтологию определенных терминов, представляющих свойства генных продуктов . Онтология охватывает три области:

Каждый термин GO в онтологии имеет имя термина, которое может быть словом или строкой слов; уникальный буквенно-цифровой идентификатор; определение с цитируемыми источниками; и онтологию, указывающую домен, к которому он принадлежит. Термины также могут иметь синонимы, которые классифицируются как точно эквивалентные имени термина, более широкие, более узкие или связанные; ссылки на эквивалентные концепции в других базах данных; и комментарии о значении или использовании термина. Онтология GO структурирована как направленный ациклический граф , и каждый термин имеет определенные отношения с одним или несколькими другими терминами в том же домене, а иногда и с другими доменами. Словарь GO разработан так, чтобы быть нейтральным по отношению к видам и включает термины, применимые к прокариотам и эукариотам , одноклеточным и многоклеточным организмам .

GO не статичен, и дополнения, исправления и изменения предлагаются и запрашиваются членами исследовательских и аннотационных сообществ, а также теми, кто непосредственно участвует в проекте GO. [8] Например, аннотатор может запросить определенный термин для представления метаболического пути, или раздел онтологии может быть пересмотрен с помощью экспертов сообщества (например, [9] ). Предложенные правки проверяются редакторами онтологии и внедряются при необходимости.

Файлы онтологии и аннотации GO свободно доступны на веб-сайте GO в различных форматах или могут быть доступны онлайн с помощью браузера GO AmiGO. [6] Проект Gene Ontology также предоставляет загружаемые сопоставления своих терминов с другими системами классификации.

Пример термина

идентификатор: GO:0000016
название: активность лактазы
онтология: молекулярная_функция
def: "Катализ реакции: лактоза + H2O=D-глюкоза + D-галактоза." [EC:3.2.1.108]
синоним: «лактазо-флоризин гидролазная активность» ШИРОКИЙ [EC:3.2.1.108]
синоним: «активность лактозогалактогидролазы» ТОЧНО [EC:3.2.1.108]
ссылка: EC:3.2.1.108
xref: MetaCyc:LACTASE-RXN
xref: Реактом:20536
is_a: GO:0004553 ! активность гидролазы, гидролизующей О-гликозильные соединения

Источник данных: [10]

Аннотация

Геномная аннотация охватывает практику сбора данных о генном продукте, и аннотации GO используют для этого термины из GO. Аннотации от кураторов GO интегрированы и распространяются на веб-сайте GO, где их можно загрузить напрямую или просмотреть онлайн с помощью AmiGO. [11] Помимо идентификатора генного продукта и соответствующего термина GO, аннотации GO содержат как минимум следующие данные: Ссылка , использованная для создания аннотации (например, журнальная статья); Код доказательства, обозначающий тип доказательства, на котором основана аннотация; Дата и создатель аннотации.

Вспомогательная информация, в зависимости от термина GO и используемых доказательств, а также дополнительная информация, такая как условия, при которых наблюдается функция, также могут быть включены в аннотацию GO.

Код доказательства поступает из контролируемого словаря кодов, Evidence Code Ontology, охватывающего как ручные, так и автоматизированные методы аннотирования. [12] Например, Traceable Author Statement (TAS) означает, что куратор прочитал опубликованную научную статью, и метаданные для этой аннотации содержат ссылку на эту статью; Inferred from Sequence Similarity (ISS) означает, что куратор-человек просмотрел выходные данные поиска сходства последовательностей и подтвердил, что они биологически значимы. Аннотации из автоматизированных процессов (например, переназначение аннотаций, созданных с использованием другого словаря аннотаций) получают код Inferred from Electronic Annotation (IEA). В 2010 году более 98% всех аннотаций GO были выведены вычислительным путем, а не кураторами, но по состоянию на 2 июля 2019 года только около 30% всех аннотаций GO были выведены вычислительным путем. [13] [14] Поскольку эти аннотации не проверяются человеком, Консорциум GO считает их немного менее надежными и обычно они относятся к более высокому уровню, менее подробным терминам. Полные наборы данных аннотаций можно загрузить с веб-сайта GO. Для поддержки разработки аннотаций Консорциум GO проводит семинары и наставляет новые группы кураторов и разработчиков.

Было разработано и реализовано множество алгоритмов машинного обучения для прогнозирования аннотаций Gene Ontology. [15] [16]

Пример аннотации

Продукт гена: Актин, альфа-сердечная мышца 1, UniProtKB:P68032
Термин GO: сокращение сердца; GO:0060047 (биологический процесс)
Код доказательства: выведен из мутантного фенотипа (IMP)
Ссылка: PMID  17611253
Назначено: UniProtKB, 6 июня 2008 г.

Источник данных: [17]

Инструменты

Существует большое количество инструментов, доступных как онлайн, так и для скачивания, которые используют данные, предоставленные проектом GO. [18] Подавляющее большинство из них предоставлено третьими лицами; Консорциум GO разрабатывает и поддерживает два инструмента: AmiGO и OBO-Edit.

AmiGO [19] [11] — это веб-приложение, которое позволяет пользователям запрашивать, просматривать и визуализировать онтологии и данные аннотаций генных продуктов. Оно также имеет инструмент BLAST , [20] инструменты, позволяющие анализировать большие наборы данных, [21] [22] и интерфейс для прямого запроса базы данных GO. [23] AmiGO можно использовать онлайн на веб-сайте GO для доступа к данным, предоставленным Консорциумом GO, или загрузить и установить для локального использования в любой базе данных, использующей схему базы данных GO (например, [24] ). Это бесплатное программное обеспечение с открытым исходным кодом , доступное как часть дистрибутива программного обеспечения go-dev. [25]

OBO-Edit — это открытый исходный код, независимый от платформы редактор онтологий, разработанный и поддерживаемый Gene Ontology Consortium. [26] Он реализован на Java и использует графоориентированный подход для отображения и редактирования онтологий. OBO-Edit включает в себя комплексный интерфейс поиска и фильтрации с возможностью визуализации подмножеств терминов, чтобы сделать их визуально различимыми; пользовательский интерфейс также может быть настроен в соответствии с предпочтениями пользователя. OBO-Edit также имеет резонер , который может выводить связи, которые не были явно указаны, на основе существующих отношений и их свойств. Хотя он был разработан для биомедицинских онтологий, OBO-Edit можно использовать для просмотра, поиска и редактирования любой онтологии. Он доступен для бесплатной загрузки. [25]

Консорциум

Консорциум генной онтологии представляет собой совокупность биологических баз данных и исследовательских групп, активно участвующих в проекте генной онтологии. [14] Сюда входит ряд баз данных модельных организмов и многовидовых баз данных белков , группы разработки программного обеспечения и специализированная редакция.

Смотрите также

Ссылки

  1. ^ Консорциум по онтологии генов (январь 2008 г.). «Проект по онтологии генов в 2008 г.». Nucleic Acids Research . 36 (выпуск базы данных): D440–4. doi :10.1093/nar/gkm883. PMC 2238979. PMID  17984083 . 
  2. ^ Dessimoz, Christophe ; Škunca, Nives, ред. (2017). Справочник по онтологии генов . Методы в молекулярной биологии. Том 1446. doi :10.1007/978-1-4939-3743-1. ISBN 9781493937431. ISSN  1064-3745. S2CID  3708801. Значок открытого доступа
  3. ^ Годе, Паскаль; Шкунца, Нивес; Ху, Джеймс С.; Дессимо, Кристоф (2017). «Учебник по онтологии генов». Справочник по онтологии генов . Методы в молекулярной биологии. Том 1446. С. 25–37. doi :10.1007/978-1-4939-3743-1_3. ISBN 978-1-4939-3741-7. ISSN  1064-3745. PMC  6377150 . PMID  27812933.
  4. ^ Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, Leontis N, Rocca-Serra P, Ruttenberg A, Sansone SA, Scheuermann RH, Shah N, Whetzel PL, Lewis S (ноябрь 2007 г.). «OBO Foundry: скоординированная эволюция онтологий для поддержки интеграции биомедицинских данных». Nature Biotechnology . 25 (11): 1251–5. doi :10.1038/nbt1346. PMC 2814061. PMID  17989687 . 
  5. ^ Ashburner M, Ball CA, Blake JA , Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (май 2000 г.). «Онтология генов: инструмент для объединения биологии. Консорциум по онтологии генов». Nature Genetics . 25 (1): 25–9. doi :10.1038/75556. PMC 3037419. PMID  10802651 . 
  6. ^ abc "Ресурс генной онтологии". Консорциум генной онтологии.
  7. ^ Деб, Б. (2012). «Онтологический анализ некоторых биологических онтологий». Frontiers in Genetics . 3 : 269. doi : 10.3389/fgene.2012.00269 . PMC 3509948. PMID  23226158 . 
  8. ^ Lovering, Ruth C. (2017). «Как научное сообщество вносит вклад в онтологию генов?». В Dessimoz, C; Skunca, N (ред.). Справочник по онтологии генов . Методы в молекулярной биологии. Т. 1446. Springer (Нью-Йорк). С. 85–93. doi :10.1007/978-1-4939-3743-1_7. ISBN 978-1-4939-3741-7. ISSN  1064-3745. PMID  27812937. S2CID  4924457.
  9. ^ Diehl AD, Lee JA, Scheuermann RH, Blake JA (апрель 2007 г.). «Разработка онтологии для биологических систем: иммунология». Биоинформатика . 23 (7): 913–5. doi : 10.1093/bioinformatics/btm029 . PMID  17267433.
  10. ^ "Руководство AmiGO 2: Страница терминов". Wiki Консорциума онтологии генов . 2013-07-10.
  11. ^ ab AmiGO — текущий официальный веб-набор инструментов для поиска и просмотра базы данных Gene Ontology
  12. ^ "Онтология кода доказательства". Онтология кода доказательства.
  13. ^ du Plessis L, Skunca N, Dessimoz C (ноябрь 2011 г.). «Что, где, как и почему в онтологии генов — учебник для биоинформатиков». Briefings in Bioinformatics . 12 (6): 723–35. doi :10.1093/bib/bbr002. PMC 3220872. PMID  21330331 . 
  14. ^ ab "The GO Consortium". Архивировано из оригинала 2014-07-02 . Получено 2009-03-16 .
  15. ^ Пиноли П., Чикко Д., Массероли М. (июнь 2013 г.). «Вычислительные алгоритмы для прогнозирования аннотации онтологии генов». BMC Bioinformatics . 16 (6): S4. doi : 10.1186/1471-2105-16-S6-S4 . PMC 4416163. PMID  25916950 . 
  16. ^ Cozzetto, Domenico; Jones, David T. (2017). «Вычислительные методы переноса аннотаций из последовательности». В Dessimoz, C; Skunca, N (ред.). Справочник по онтологии генов . Методы в молекулярной биологии. Т. 1446. Springer (Нью-Йорк). С. 55–67. doi :10.1007/978-1-4939-3743-1_5. ISBN 978-1-4939-3741-7. ISSN  1064-3745. PMID  27812935.
  17. ^ Консорциум GO (2009-03-16). "AmiGO: Ассоциации P68032".
  18. ^ Mosquera JL, Sánchez-Pla A (июль 2008 г.). «SerbGO: в поисках лучшего инструмента GO». Nucleic Acids Research . 36 (выпуск веб-сервера): W368–71. doi :10.1093/nar/gkn256. PMC 2447766. PMID  18480123 . 
  19. ^ Carbon S, Ireland A, Mungall CJ, Shu S, Marshall B, Lewis S (январь 2009 г.). «AmiGO: онлайн-доступ к данным онтологии и аннотации». Биоинформатика . 25 (2). AmiGO Hub; Рабочая группа Web Presence: 288–9. doi : 10.1093/bioinformatics/btn615. PMC 2639003. PMID  19033274. 
  20. ^ "AmiGO BLAST tool". Архивировано из оригинала 2011-08-20 . Получено 13-03-2009 .
  21. ^ Инструмент для обогащения терминов AmiGO Архивировано 07.04.2008 на Wayback Machine ; находит значимые общие термины GO в наборе аннотаций
  22. ^ AmiGO Slimmer Архивировано 29.09.2011 на Wayback Machine ; сопоставляет детальные аннотации с терминами высокого уровня
  23. ^ GOOSE Архивировано 01.03.2009 на Wayback Machine , GO Online SQL Environment; позволяет выполнять прямые SQL-запросы к базе данных GO
  24. ^ Консорциум онтологии растений (2009-03-16). "Консорциум онтологии растений" . Получено 2009-03-16 .
  25. ^ ab "Загрузки Gene Ontology на SourceForge" . Получено 2009-03-16 .
  26. ^ Day-Richter J, Harris MA, Haendel M, Lewis S (август 2007 г.). «OBO-Edit — редактор онтологий для биологов». Биоинформатика . 23 (16): 2198–200. doi : 10.1093/bioinformatics/btm112 . PMID  17545183.

Внешние ссылки