Gene Ontology ( GO ) — крупная биоинформатическая инициатива по унификации представления атрибутов генов и генных продуктов для всех видов . [1] Более конкретно, проект направлен на: 1) поддержание и развитие своего контролируемого словаря атрибутов генов и генных продуктов; 2) аннотирование генов и генных продуктов, а также ассимиляцию и распространение данных аннотаций; и 3) предоставление инструментов для легкого доступа ко всем аспектам данных, предоставляемых проектом, и обеспечение функциональной интерпретации экспериментальных данных с использованием GO, например, посредством анализа обогащения. [2] [3] GO является частью более масштабной работы по классификации, Open Biomedical Ontologies , являясь одним из первоначальных кандидатов в члены OBO Foundry . [4]
В то время как номенклатура генов фокусируется на генах и продуктах генов, онтология генов фокусируется на функции генов и продуктов генов. GO также расширяет усилия, используя язык разметки, чтобы сделать данные (не только генов и их продуктов, но и курируемых атрибутов) машиночитаемыми , и сделать это таким образом, чтобы они были унифицированы для всех видов (тогда как соглашения о номенклатуре генов различаются в зависимости от биологического таксона ).
Gene Ontology была первоначально создана в 1998 году консорциумом исследователей, изучающих геномы трех модельных организмов : Drosophila melanogaster (плодовая мушка), Mus musculus (мышь) и Saccharomyces cerevisiae (пивные или пекарские дрожжи). [5] Многие другие базы данных модельных организмов присоединились к Консорциуму Gene Ontology, внося вклад не только в данные аннотаций, но и в разработку онтологий и инструментов для просмотра и применения данных. Многие основные базы данных растений, животных и микроорганизмов вносят вклад в этот проект. [6] По состоянию на июль 2019 года GO содержит 44 945 терминов; имеется 6 408 283 аннотаций к 4 467 различным биологическим организмам. [6] Существует значительный объем литературы по разработке и использованию GO, и он стал стандартным инструментом в арсенале биоинформатики . Их цели имеют три аспекта: построение онтологии генов, назначение онтологии генам/генным продуктам и разработка программного обеспечения и баз данных для первых двух объектов.
Также начинают появляться несколько анализов онтологии гена, использующих формальные, независимые от домена свойства классов (метасвойства). Например, сейчас существует онтологический анализ биологических онтологий. [7]
С практической точки зрения онтология — это представление чего-то, о чем мы знаем. «Онтологии» состоят из представлений вещей, которые можно обнаружить или непосредственно наблюдать, и отношений между этими вещами. В биологии и смежных областях не существует универсальной стандартной терминологии, и использование терминов может быть специфичным для вида, области исследований или даже конкретной исследовательской группы. Это затрудняет коммуникацию и обмен данными. Проект Gene Ontology предоставляет онтологию определенных терминов, представляющих свойства генных продуктов . Онтология охватывает три области:
Каждый термин GO в онтологии имеет имя термина, которое может быть словом или строкой слов; уникальный буквенно-цифровой идентификатор; определение с цитируемыми источниками; и онтологию, указывающую домен, к которому он принадлежит. Термины также могут иметь синонимы, которые классифицируются как точно эквивалентные имени термина, более широкие, более узкие или связанные; ссылки на эквивалентные концепции в других базах данных; и комментарии о значении или использовании термина. Онтология GO структурирована как направленный ациклический граф , и каждый термин имеет определенные отношения с одним или несколькими другими терминами в том же домене, а иногда и с другими доменами. Словарь GO разработан так, чтобы быть нейтральным по отношению к видам и включает термины, применимые к прокариотам и эукариотам , одноклеточным и многоклеточным организмам .
GO не статичен, и дополнения, исправления и изменения предлагаются и запрашиваются членами исследовательских и аннотационных сообществ, а также теми, кто непосредственно участвует в проекте GO. [8] Например, аннотатор может запросить определенный термин для представления метаболического пути, или раздел онтологии может быть пересмотрен с помощью экспертов сообщества (например, [9] ). Предложенные правки проверяются редакторами онтологии и внедряются при необходимости.
Файлы онтологии и аннотации GO свободно доступны на веб-сайте GO в различных форматах или могут быть доступны онлайн с помощью браузера GO AmiGO. [6] Проект Gene Ontology также предоставляет загружаемые сопоставления своих терминов с другими системами классификации.
Источник данных: [10]
Геномная аннотация охватывает практику сбора данных о генном продукте, и аннотации GO используют для этого термины из GO. Аннотации от кураторов GO интегрированы и распространяются на веб-сайте GO, где их можно загрузить напрямую или просмотреть онлайн с помощью AmiGO. [11] Помимо идентификатора генного продукта и соответствующего термина GO, аннотации GO содержат как минимум следующие данные: Ссылка , использованная для создания аннотации (например, журнальная статья); Код доказательства, обозначающий тип доказательства, на котором основана аннотация; Дата и создатель аннотации.
Вспомогательная информация, в зависимости от термина GO и используемых доказательств, а также дополнительная информация, такая как условия, при которых наблюдается функция, также могут быть включены в аннотацию GO.
Код доказательства поступает из контролируемого словаря кодов, Evidence Code Ontology, охватывающего как ручные, так и автоматизированные методы аннотирования. [12] Например, Traceable Author Statement (TAS) означает, что куратор прочитал опубликованную научную статью, и метаданные для этой аннотации содержат ссылку на эту статью; Inferred from Sequence Similarity (ISS) означает, что куратор-человек просмотрел выходные данные поиска сходства последовательностей и подтвердил, что они биологически значимы. Аннотации из автоматизированных процессов (например, переназначение аннотаций, созданных с использованием другого словаря аннотаций) получают код Inferred from Electronic Annotation (IEA). В 2010 году более 98% всех аннотаций GO были выведены вычислительным путем, а не кураторами, но по состоянию на 2 июля 2019 года только около 30% всех аннотаций GO были выведены вычислительным путем. [13] [14] Поскольку эти аннотации не проверяются человеком, Консорциум GO считает их немного менее надежными и обычно они относятся к более высокому уровню, менее подробным терминам. Полные наборы данных аннотаций можно загрузить с веб-сайта GO. Для поддержки разработки аннотаций Консорциум GO проводит семинары и наставляет новые группы кураторов и разработчиков.
Было разработано и реализовано множество алгоритмов машинного обучения для прогнозирования аннотаций Gene Ontology. [15] [16]
Источник данных: [17]
Существует большое количество инструментов, доступных как онлайн, так и для скачивания, которые используют данные, предоставленные проектом GO. [18] Подавляющее большинство из них предоставлено третьими лицами; Консорциум GO разрабатывает и поддерживает два инструмента: AmiGO и OBO-Edit.
AmiGO [19] [11] — это веб-приложение, которое позволяет пользователям запрашивать, просматривать и визуализировать онтологии и данные аннотаций генных продуктов. Оно также имеет инструмент BLAST , [20] инструменты, позволяющие анализировать большие наборы данных, [21] [22] и интерфейс для прямого запроса базы данных GO. [23] AmiGO можно использовать онлайн на веб-сайте GO для доступа к данным, предоставленным Консорциумом GO, или загрузить и установить для локального использования в любой базе данных, использующей схему базы данных GO (например, [24] ). Это бесплатное программное обеспечение с открытым исходным кодом , доступное как часть дистрибутива программного обеспечения go-dev. [25]
OBO-Edit — это открытый исходный код, независимый от платформы редактор онтологий, разработанный и поддерживаемый Gene Ontology Consortium. [26] Он реализован на Java и использует графоориентированный подход для отображения и редактирования онтологий. OBO-Edit включает в себя комплексный интерфейс поиска и фильтрации с возможностью визуализации подмножеств терминов, чтобы сделать их визуально различимыми; пользовательский интерфейс также может быть настроен в соответствии с предпочтениями пользователя. OBO-Edit также имеет резонер , который может выводить связи, которые не были явно указаны, на основе существующих отношений и их свойств. Хотя он был разработан для биомедицинских онтологий, OBO-Edit можно использовать для просмотра, поиска и редактирования любой онтологии. Он доступен для бесплатной загрузки. [25]
Консорциум генной онтологии представляет собой совокупность биологических баз данных и исследовательских групп, активно участвующих в проекте генной онтологии. [14] Сюда входит ряд баз данных модельных организмов и многовидовых баз данных белков , группы разработки программного обеспечения и специализированная редакция.