ДНК-аннотация

В молекулярной биологии и генетике аннотация ДНК или аннотация генома представляет собой процесс описания структуры и функции компонентов генома [ ^2] путем их анализа и интерпретации с целью извлечения их биологического значения и понимания биологических процессов, в которых они участвуют. ^[3] Помимо прочего, она определяет местоположение генов и всех кодирующих областей в геноме и определяет, что делают эти гены. ^[4]

Аннотация выполняется после того, как геном секвенирован и собран , и является необходимым шагом в анализе генома до того, как последовательность будет помещена в базу данных и описана в опубликованной статье. Хотя описание отдельных генов и их продуктов или функций достаточно, чтобы считать это описание аннотацией, глубина анализа, представленная в литературе для разных геномов, сильно различается, при этом некоторые отчеты включают дополнительную информацию, выходящую за рамки простой аннотации. ^[5] Кроме того, из-за размера и сложности секвенированных геномов аннотация ДНК не выполняется вручную, а вместо этого автоматизирована с помощью вычислительных средств. Однако выводы, сделанные на основе полученных результатов, требуют ручного экспертного анализа. ^[6]

Аннотация ДНК подразделяется на две категории: структурная аннотация , которая идентифицирует и разграничивает элементы в геноме, и функциональная аннотация , которая назначает функции этим элементам. ^[7] Это не единственный способ ее классификации, поскольку было предложено несколько альтернатив, таких как классификации на основе измерений ^[8] и на основе уровней ^{[3] .}

История

Первое поколение геномных аннотаторов использовало локальные методы ab initio , которые основаны исключительно на информации, которая может быть извлечена из последовательности ДНК в локальном масштабе, то есть по одной открытой рамке считывания (ORF) за раз. ^[9]^[10] Они появились как необходимость для обработки огромного количества данных, полученных с помощью методов секвенирования ДНК Максама-Гилберта и Сэнгера , разработанных в конце 1970-х годов. Первым программным обеспечением, использованным для анализа прочтений секвенирования, был пакет Staden , созданный Роджером Стаденом в 1977 году. ^[11] Он выполнял несколько задач, связанных с аннотацией, таких как подсчет оснований и кодонов . Фактически, использование кодонов было основной стратегией, используемой несколькими ранними методами предсказания последовательности кодирования белка (CDS), ^[12]^[13]^[14] основанными на предположении, что наиболее транслируемые регионы в геноме содержат кодоны с наиболее распространенными соответствующими тРНК (молекулами, ответственными за перенос аминокислот в рибосому во время синтеза белка), что позволяет осуществлять более эффективную трансляцию. ^[15] Также было известно, что это относится к синонимичным кодонам , которые часто присутствуют в белках, экспрессируемых на более низком уровне. ^[13]^[16]

Появление полных геномов в 1990-х годах (первым был геном Haemophilus influenzae, секвенированный в 1995 году) представило второе поколение аннотаторов. Как и в предыдущем поколении, они выполняли аннотацию с помощью методов ab initio , но теперь применяли в масштабе всего генома. ^[9]^[10] Марковские модели являются движущей силой многих алгоритмов, используемых в аннотаторах этого поколения; ^[17]^[18] эти модели можно рассматривать как направленные графы , где узлы представляют различные геномные сигналы (такие как стартовые сайты транскрипции и трансляции ), соединенные стрелками, представляющими сканирование последовательности. Чтобы гарантировать, что марковская модель обнаруживает геномный сигнал, ее сначала необходимо обучить на серии известных геномных сигналов. ^[19] Выходные данные моделей Маркова в контексте аннотации включают вероятности каждого вида геномного элемента в каждой отдельной части генома, а точная модель Маркова будет назначать высокие вероятности правильным аннотациям и низкие вероятности неправильным. ^[20]

По мере того, как в начале и середине 2000-х годов стало доступно больше секвенированных геномов, в сочетании с многочисленными последовательностями белков, полученными экспериментальным путем, аннотаторы геномов начали использовать методы, основанные на гомологии, запустив третье поколение аннотации геномов. Эти новые методы позволили аннотаторам не только выводить геномные элементы с помощью статистических средств (как в предыдущих поколениях), но и могли выполнять свою задачу, сравнивая аннотируемую последовательность с другими уже существующими и проверенными последовательностями. Эти так называемые аннотаторы-комбинаторы, которые выполняют как аннотацию ab initio , так и аннотацию на основе гомологии, требуют быстрых алгоритмов выравнивания для определения областей гомологии . ^[2]^[9]^[10]

В конце 2000-х годов аннотация генома переключила свое внимание на идентификацию некодирующих областей в ДНК, что было достигнуто благодаря появлению методов анализа сайтов связывания факторов транскрипции , сайтов метилирования ДНК , структуры хроматина и других методов анализа РНК и регуляторных областей . Другие аннотаторы генома также начали фокусироваться на исследованиях на уровне популяции, представленных пангеномом ; таким образом, например, конвейеры аннотации гарантируют, что основные гены клады также будут найдены в новых геномах той же клады. Обе стратегии аннотации составляют четвертое поколение аннотаторов генома. ^[9]^[10]

К 2010-м годам стали доступны последовательности геномов более тысячи человек (через проект 1000 геномов ) и нескольких модельных организмов . Таким образом, аннотация генома остается серьезной проблемой для ученых, изучающих геномы человека и других животных. ^[21]^[22]

Структурная аннотация

Структурная аннотация описывает точное расположение различных элементов в геноме, таких как открытые рамки считывания (ORF), кодирующие последовательности (CDS), экзоны , интроны , повторы , сайты сплайсинга , регуляторные мотивы , стартовые и стоп -кодоны и промоторы . ^[6]^[23] Основные этапы структурной аннотации:

Повторная идентификация и маскировка.
Согласование доказательств (необязательно).
Идентификация сплайсинга (только у эукариот).
Прогнозирование признаков (кодирующие и некодирующие последовательности).

Повторная идентификация и маскировка

Первый шаг структурной аннотации состоит в идентификации и маскировке повторов , которые включают в себя последовательности низкой сложности (такие как AGAGAGAG или монополимерные сегменты, такие как TTTTTTTTT), и транспозоны (которые являются более крупными элементами с несколькими копиями по всему геному). ^[2]^[24] Повторы являются основным компонентом как прокариотических, так и эукариотических геномов; например, от 0% до более 42% прокариотических геномов состоят из повторов ^[25] , а три четверти человеческого генома состоят из повторяющихся элементов. ^[26]

Идентификация повторов затруднена по двум основным причинам: они плохо сохраняются, и их границы нечетко определены. Из-за этого необходимо построить библиотеки повторов для интересующего генома, что можно сделать одним из следующих методов: ^[24]^[27]

Методы de novo . Повторы идентифицируются путем обнаружения и группировки пар последовательностей в разных местах, чье сходство превышает минимальный порог сохранения последовательностей при сравнении собственного генома, таким образом, не требуя предварительной информации о структуре повторов или последовательностях. Недостатком этих методов является то, что они могут идентифицировать любую повторяющуюся последовательность, а не только транспозоны, и могут включать консервативные кодирующие последовательности (CDS), что делает тщательную постобработку обязательным шагом для удаления этих последовательностей. Это также может исключить связанные области, которые деградировали с течением времени, и может сгруппировать элементы, которые не имеют связи в своей эволюционной истории.^[28]
Методы, основанные на гомологии . Повторы идентифицируются по сходству ( гомологии ) известных повторов, хранящихся в курируемой базе данных. Эти методы с большей вероятностью найдут настоящие транспозоны, даже в меньших количествах, по сравнению с методами de novo , но смещены в сторону ранее идентифицированных семейств.
Методы, основанные на структуре . Повторы идентифицируются на основе моделей их структуры, а не повторения или сходства. Они способны идентифицировать реальные транспозоны (как и основанные на гомологии), но не смещены известными элементами. Однако они высокоспецифичны для каждого класса повторов и, как таковые, менее универсально применимы.
Сравнительные геномные методы . Повторы определяются как нарушения одной или нескольких последовательностей в множественном выравнивании последовательностей, производимом большими областями вставки . Хотя эта стратегия позволяет избежать проблемы плохо определенных границ, которая существует в других методах, она сильно зависит от качества сборки и уровня активности транспозонов в рассматриваемых геномах.

После того, как повторяющиеся регионы в геноме были идентифицированы, они маскируются. Маскирование означает замену букв нуклеотидов ( A, C, G или T) другими буквами. При этом эти регионы будут помечены как повторяющиеся, и последующие анализы будут обрабатывать их соответствующим образом. Повторяющиеся регионы могут вызывать проблемы с производительностью, если они не замаскированы, и могут даже давать ложные доказательства для аннотации гена (например, обработка открытой рамки считывания (ORF) в транспозоне как экзона ) ^[24] В зависимости от букв, используемых для замены, маскирование можно классифицировать как мягкое или жесткое: при мягком маскировании повторяющиеся регионы обозначаются строчными буквами (a, c, g или t), тогда как при жестком маскировании буквы этих регионов заменяются на N. Таким образом, например, мягкое маскирование может использоваться для исключения совпадений слов и предотвращения инициирования выравнивания в этих регионах, а жесткое маскирование, помимо всего этого, может также исключать замаскированные регионы из оценок выравнивания. ^[29]^[30]

Согласование доказательств

Следующий шаг после маскировки генома обычно включает в себя выравнивание всех доступных транскриптов и белковых доказательств с анализируемым геномом, то есть выравнивание всех известных экспрессируемых тегов последовательности (EST), РНК и белков организма, аннотируемого с геномом. ^[31] Хотя это необязательно, это может улучшить выяснение последовательности генов, поскольку РНК и белки являются прямыми продуктами кодирующих последовательностей. ^[19]

Если доступны данные РНК-Seq , их можно использовать для аннотации и количественной оценки всех генов и их изоформ, расположенных в соответствующем геноме, предоставляя не только их местоположение, но и их скорости экспрессии. ^[32] Однако транскрипты предоставляют недостаточно информации для предсказания генов, поскольку их можно не получить из некоторых генов, они могут кодировать опероны более чем одного гена, а их стартовые и стоп-кодоны невозможно определить из-за сдвигов рамки считывания и факторов инициации трансляции . ^[19] Для решения этой проблемы применяются подходы, основанные на протеогеномике , которые используют информацию из экспрессированных белков, часто получаемую с помощью масс-спектрометрии . ^[33]

Идентификация сращивания

Аннотация эукариотических геномов имеет дополнительный уровень сложности из-за сплайсинга РНК , посттранскрипционного процесса , в котором интроны (некодирующие области) удаляются, а экзоны (кодирующие области) соединяются. ^[23] Таким образом, эукариотические кодирующие последовательности (CDS) являются прерывистыми, и для обеспечения их правильной идентификации интронные области должны быть отфильтрованы. Для этого конвейеры аннотации должны находить границы экзон-интрон, и для этой цели было разработано несколько методологий. Одним из решений является использование известных границ экзонов для выравнивания; например, многие интроны начинаются с GT и заканчиваются на AG. ^[31] Однако этот подход не может обнаружить новые границы, поэтому существуют альтернативы, такие как алгоритмы машинного обучения , которые обучаются на известных границах экзонов и качественной информации для прогнозирования новых. ^[34] Предсказатели границ новых экзонов обычно требуют эффективных алгоритмов сжатия и выравнивания данных, но они склонны к сбоям в границах, расположенных в регионах с низким покрытием последовательностей или высоким уровнем ошибок, возникающих во время секвенирования. ^[35]^[36]

Прогнозирование характеристик

Геном делится на кодирующие и некодирующие области, и последний шаг структурной аннотации состоит в идентификации этих особенностей в геноме. Фактически, основной задачей в аннотации генома является предсказание генов , поэтому для этой цели были разработаны многочисленные методы. ^[19] Предсказание генов — это вводящий в заблуждение термин, поскольку большинство предсказателей генов идентифицируют только кодирующие последовательности (CDS) и не сообщают о нетранслируемых областях (UTR); по этой причине предсказание CDS было предложено как более точный термин. ^[24] Предсказатели CDS обнаруживают особенности генома с помощью методов, называемых сенсорами , которые включают сенсоры сигналов , которые идентифицируют сигналы функциональных сайтов, таких как промоторы и сайты полиА , и сенсоры содержимого , которые классифицируют последовательности ДНК на кодирующее и некодирующее содержимое. ^[37] В то время как прокариотические предикторы CDS в основном имеют дело с открытыми рамками считывания (ORF), которые представляют собой сегменты ДНК между стартовым и стоп -кодонами , эукариотические предикторы CDS сталкиваются с более сложной проблемой из-за сложной организации эукариотических генов. ^[3] Методы прогнозирования CDS можно разделить на три широкие категории: ^[2]^[31]

Методы ab initio (также называемые статистическими, внутренними или de novo). Прогнозирование CDS основано исключительно на информации, которую можно извлечь из последовательности ДНК. Они опираются на статистические методы, такие как скрытая марковская модель (HMM). Некоторые методы используют два или более генома для выведения локальных скоростей мутаций и моделей вдоль генома.^[38]
Методы, основанные на гомологии (также называемые эмпирическими, основанными на доказательствах или внешними). Прогнозирование CDS основано на сходстве с известными последовательностями. В частности, он выполняет выравнивание анализируемой последовательности с экспрессированными тегами последовательностей (EST), комплементарной ДНК (cDNA) или белковыми последовательностями.
Комбинаторы . Прогнозирование CDS выполняется путем комбинации обоих методов, упомянутых выше.

Функциональная аннотация

Функциональная аннотация назначает функции геномным элементам, найденным с помощью структурной аннотации, ^[7] связывая их с биологическими процессами, такими как клеточный цикл , гибель клеток , развитие , метаболизм и т. д. ^[3] Она также может использоваться в качестве дополнительной проверки качества путем выявления элементов, которые могли быть аннотированы по ошибке. ^[2]

Прогнозирование функции кодирующей последовательности

Функциональная аннотация генов требует контролируемого словаря (или онтологии) для наименования прогнозируемых функциональных признаков. Однако, поскольку существует множество способов определения функций генов, процесс аннотации может быть затруднен, когда он выполняется разными исследовательскими группами. Таким образом, необходимо использовать стандартизированный контролируемый словарь, наиболее полной из которых является Gene Ontology (GO). Он классифицирует функциональные свойства по одной из трех категорий (молекулярная функция, биологический процесс и клеточный компонент) и организует их в направленный ациклический граф , в котором каждый узел является определенной функцией, а каждое ребро (или стрелка) между двумя узлами указывает на родительско-дочерние или подкатегория-категория отношения. ^[40]^[41] По состоянию на 2020 год GO является наиболее широко используемым контролируемым словарем для функциональной аннотации генов, за ним следует MIPS Functional Catalog (FunCat). ^[42]

Некоторые традиционные методы функциональной аннотации основаны на гомологии , которая опирается на локальные инструменты поиска выравнивания . ^[40] Его предпосылка заключается в том, что высокая консервативность последовательностей между двумя геномными элементами подразумевает, что их функция также сохраняется. Пары гомологичных последовательностей, которые появились через паралогию , ортологию или ксенологию, обычно выполняют схожую функцию. Однако к ортологичным последовательностям следует относиться с осторожностью по двум причинам: (1) они могут иметь разные названия в зависимости от того, когда они были изначально аннотированы, и (2) они могут не выполнять одну и ту же функциональную роль в двух разных организмах. Аннотаторы часто ссылаются на аналогичную последовательность, когда не было найдено ни паралогии, ни ортологии, ни ксенологии. ^[19] Методы, основанные на гомологии, имеют несколько недостатков, таких как ошибки в базе данных, низкая чувствительность/специфичность, невозможность различать паралогию и гомологию, ^[43] искусственно высокие баллы из-за наличия областей низкой сложности и значительные вариации внутри семейства белков. ^[44]

Функциональная аннотация может быть выполнена с помощью вероятностных методов. Распределение гидрофильных и гидрофобных аминокислот указывает, находится ли белок в растворе или мембране. Конкретные мотивы последовательности предоставляют информацию о посттрансляционных модификациях и конечном местоположении любого данного белка. ^[19] Вероятностные методы могут быть сопряжены с контролируемым словарем, таким как GO; например, сети белок-белкового взаимодействия (PPI) обычно размещают белки со схожими функциями близко друг к другу. ^[45]

Методы машинного обучения также используются для создания функциональных аннотаций для новых белков на основе терминов GO. Как правило, они состоят в построении бинарного классификатора для каждого термина GO, которые затем объединяются для создания прогнозов по отдельным терминам GO (формируя многоклассовый классификатор ), для которых позже получаются оценки уверенности. Машина опорных векторов (SVM) является наиболее широко используемым бинарным классификатором в функциональной аннотации; однако, другие алгоритмы, такие как k-ближайших соседей (kNN) и сверточная нейронная сеть (CNN), также использовались. ^[40]

Методы бинарной или многоклассовой классификации для функциональной аннотации обычно дают менее точные результаты, поскольку они не учитывают взаимосвязи между терминами GO. Более продвинутые методы, которые учитывают эти взаимосвязи, делают это либо с помощью плоского, либо иерархического подхода, которые отличаются тем, что первый не учитывает структуру онтологии, а второй учитывает. Некоторые из этих методов сжимают термины GO с помощью матричной факторизации или хеширования , тем самым повышая их производительность. ^[42]

Прогнозирование функции некодирующей последовательности

Некодирующие последовательности (ncDNA) — это те, которые не кодируют белки. Они включают такие элементы, как псевдогены, сегментные дупликации, сайты связывания и гены РНК. ^[28]

Псевдогены — это мутировавшие копии генов, кодирующих белки, которые утратили свою кодирующую функцию из-за нарушения в их открытой рамке считывания (ORF), что делает их нетранслируемыми . ^[28] Их можно идентифицировать с помощью одного из следующих двух методов: ^[46]

Метод, основанный на гомологии . Псевдогены идентифицируются путем поиска последовательностей, которые похожи на функциональные гены, но содержат мутации, которые вызывают нарушение их ORF. Этот метод не может определить эволюционную связь между псевдогеном и его родительским геном, а также время, прошедшее с момента события.
Метод на основе филогении . Псевдогены идентифицируются с помощью филогенетического анализа. Сначала строится дерево видов интересующего вида и филогенетическое дерево гена (или семейства генов). Затем они сравниваются для идентификации вида, который утратил ген. Затем в геноме вида, где ген не был найден, ищется последовательность, ортологичная гену, идентифицированному в ближайшем виде. Наконец, если эта ортологичная последовательность имеет нарушение в своей ORF (и она соответствует другим критериям, таким как анализ данных RNA-Seq , соотношение dN/dS и т. д.), это означает, что последовательность действительно является псевдогеном.

Сегментные дупликации — это сегменты ДНК из более чем 1000 пар оснований, которые повторяются в геноме с более чем 90% идентичностью последовательности. Для их идентификации используются две стратегии: WGAC и WSSD: ^[47]

Сравнение сборки всего генома (WGAC). Он выравнивает весь геном с самим собой, чтобы идентифицировать повторяющиеся последовательности после фильтрации общих повторов; он не требует наличия исходных прочтений, используемых для сборки.
Детектирование последовательности Shotgun в целом геноме (WSSD). Он выравнивает исходные считывания с собранным геномом и ищет регионы с более высокой глубиной считывания, чем в среднем, что обычно является сигналами дупликации. Сегментные дупликации, идентифицированные этим методом, но не WGAC, вероятно, являются свернутыми дупликациями, что означает, что они были ошибочно выровнены с тем же регионом. ^[48]

Сайты связывания ДНК — это области в последовательности генома, которые связываются и взаимодействуют с определенными белками. Они играют важную роль в репликации и репарации ДНК , регуляции транскрипции и вирусной инфекции . Прогнозирование сайта связывания включает использование одного из следующих двух методов: ^[49]

Методы, основанные на сходстве последовательностей . Они заключаются в идентификации гомологичных последовательностей с известными сайтами связывания ДНК или путем их выравнивания с белками запроса. Их производительность обычно низкая, поскольку последовательности связывания ДНК менее консервативны .
Методы, основанные на структуре . Они используют трехмерную структурную информацию белков для прогнозирования местоположений участков связывания ДНК.

Некодирующая РНК (нкРНК), продуцируемая генами РНК, представляет собой тип РНК, который не транслируется в белок. Она включает в себя такие молекулы, как тРНК , рРНК , мякРНК и микроРНК , а также некодирующие мРНК- подобные транскрипты. Ab initio предсказание генов РНК в одном геноме часто дает неточные результаты (за исключением микроРНК), поэтому вместо этого используются методы сравнения нескольких геномов. Эти методы специально посвящены вторичным структурам нкРНК, поскольку они сохраняются у родственных видов, даже если их последовательность не сохраняется. Поэтому, выполняя множественное выравнивание последовательностей, можно получить больше полезной информации для их предсказания. Поиск гомологии также может быть использован для идентификации генов РНК, но эта процедура сложна, особенно у эукариот, из-за наличия большого количества повторов и псевдогенов. ^[50]

Визуализация

Форматы файлов

Визуализация аннотаций в браузере генома требует описательного выходного файла, который должен описывать интронно - экзонные структуры каждой аннотации, их стартовые и стоп- кодоны , UTR и альтернативные транскрипты, и в идеале должен включать информацию о выравниваниях последовательностей и предсказаниях генов , которые поддерживают каждую модель гена. Некоторые часто используемые форматы для описания аннотаций — GenBank, GFF3 , GTF, BED и EMBL. ^[24] Некоторые из этих форматов используют контролируемые словари и онтологии для определения своих описательных терминологий и гарантируют совместимость между инструментами анализа и визуализации. ^[2]

Браузеры генома

Геномные браузеры — это программные продукты, которые упрощают анализ и визуализацию больших геномных последовательностей и аннотированных данных для получения биологической информации с помощью графического интерфейса. ^[52]^[31]^[53]

Геномные браузеры можно разделить на веб-геномные браузеры и автономные геномные браузеры . Первые используют информацию из баз данных и могут быть классифицированы как многовидовые (интегрируют последовательности и аннотации нескольких организмов и способствуют межвидовому сравнительному анализу) и видоспецифичные (фокусируются на одном организме и аннотациях для определенных видов). Последние не обязательно связаны с конкретной базой данных генома, но являются браузерами общего назначения, которые можно загрузить и установить как приложение на локальном компьютере. ^[54]^[19]

Сравнительная визуализация геномов

Линейная сравнительная визуализация генома нескольких типовых видов филогенетически родственных вирусных семейств и родов . Функциональные аннотации белков отображаются в различных цветах, а гомологии — в различных тонах.

Сравнительная геномика направлена на выявление сходств и различий в геномных характеристиках, а также на изучение эволюционных связей между организмами. ^[55] Инструменты визуализации, способные иллюстрировать сравнительное поведение двух или более геномов, необходимы для этого подхода и могут быть разделены на три категории на основе представления связей между сравниваемыми геномами: ^[19]

Точечные диаграммы: эта схема позволяет отображать только выравнивание двух геномов, один геном представлен вдоль горизонтальной оси, а другой — вдоль вертикальной оси, а точки на диаграмме представляют собой геномные элементы, которые схожи между этими двумя аннотациями.
Линейное представление: это представление использует несколько линейных треков для представления нескольких геномов и их особенностей, где «трек» — это концепция, которая относится к определенному типу геномной особенности в геномном месте.
Круговое представление: Это представление облегчает сравнение целых микробных или вирусных геномов. В этом режиме визуализации концентрические круги и дуги используются для представления геномных секций.

Контроль качества

Качество сборки последовательности влияет на качество аннотации, поэтому важно оценить качество сборки перед выполнением последующих шагов аннотации. ^[31] Для количественной оценки качества аннотации генома использовались три метрики: полнота , точность и достоверность ; хотя эти меры явно не используются в проектах аннотации, а скорее в обсуждениях точности предсказания. ^[56]

Подходы к аннотации сообщества являются отличными методами контроля качества и стандартизации в аннотации генома. Слет аннотаций, который состоялся в 2002 году, привел к созданию стандартов аннотаций, используемых в проекте по анализу человека и позвоночных Института Сэнгера (HAVANA). ^[57]^[20]

Повторная аннотация

Проекты аннотаций часто опираются на предыдущие аннотации генома организма; однако эти старые аннотации могут содержать ошибки, которые могут распространяться на новые аннотации. По мере разработки новых технологий анализа генома и появления более богатых баз данных аннотации некоторых старых геномов могут обновляться. Этот процесс, известный как реаннотация, может предоставить пользователям новую информацию о геноме, включая сведения о генах и функциях белков. Поэтому реаннотация является полезным подходом в контроле качества. ^[56]^[58]

Аннотация сообщества

Комьюнити-аннотация заключается в вовлечении сообщества (как научного, так и ненаучного) в проекты по аннотации генома. Его можно разделить на следующие шесть категорий: ^[59]^[3]

Фабричная модель: аннотирование выполняется полностью автоматизированным конвейером.
Музейная модель: для интерпретации результатов проекта аннотирования используется ручное курирование экспертами.
Модель кустарного производства: аннотации децентрализованы и являются результатом усилий разных кураторов, работающих неполный рабочий день.
Модель вечеринки или джамбори: состоит из короткого интенсивного семинара с ведущими кураторами сообщества. Впервые была использована в проекте аннотации генома Drosophila melanogaster . ^[60]
Благословенный аннотатор: разновидность музейной модели, применяемая в проекте Knockout Mouse (KOMP), в которой кураторы проходят период обучения перед аннотированием, а затем получают доступ к инструментам аннотирования для продолжения своей работы.
Подход Gatekeeper: это комбинация моделей jamboree и cottage industry. Он начинается с семинара по аннотациям, за которым следует децентрализованное сотрудничество для расширения и уточнения первоначальной аннотации. Он использовался для данных о нескольких видах.

Говорят, что аннотация сообщества контролируется, когда есть координатор, который управляет проектом, запрашивая аннотацию определенных элементов у выбранного числа экспертов. С другой стороны, когда любой может войти в проект, а координация осуществляется децентрализованным образом, это называется неконтролируемой аннотацией сообщества. Контролируемая аннотация сообщества недолговечна и ограничена продолжительностью события, тогда как неконтролируемый аналог не имеет этого ограничения. Однако последняя была менее успешной, чем первая, предположительно из-за нехватки времени, мотивации, стимула и/или коммуникации. ^[61]

В Википедии есть несколько WikiProjects, направленных на улучшение аннотации. Например, Gene WikiProject управляет ботом , который собирает данные о генах из исследовательских баз данных и создает на этой основе генные заглушки . ^[62] RNA WikiProject стремится писать статьи, которые описывают отдельные РНК и семейства РНК доступным способом. ^[63]

Приложения

Диагностика заболеваний

Gene Ontology используется исследователями для установления связи между генами и болезнью, поскольку GO помогает в идентификации новых генов, изменений в их экспрессии, распределении и функционировании при различных наборах условий, таких как больные и здоровые. ^[41] Были созданы базы данных этих связей между генами и болезнью различных организмов, такие как Plant-Pathogen Ontology, ^[64] Plant-Associated Microbe Gene Ontology ^[65] или DisGeNET. ^[66] А некоторые другие были реализованы в уже существующих базах данных, таких как Rat Disease Ontology в базе данных Rat Genome. ^[67]

Биоремедиация

Большое разнообразие катаболических ферментов, участвующих в деградации углеводородов некоторыми бактериальными штаммами, кодируется генами, расположенными в их мобильных генетических элементах (МГЭ). Изучение этих элементов имеет большое значение в области биоремедиации, поскольку в последнее время предпринимаются попытки инокуляции диких или генетически модифицированных штаммов этими МГЭ с целью приобретения этих возможностей деградации углеводородов. ^[68] В 2013 году Фейл и др. ^[69] опубликовали аннотацию генома штамма Pseudomonas putida (CSV86), бактерии, известной своим предпочтением нафталина и других ароматических соединений вместо глюкозы в качестве источника углерода и энергии. Чтобы найти МГЭ этой бактерии, ее геном был аннотирован с использованием RAST и NCBI Prokaryotic Genome Annotation Pipeline (PGAP), а идентификация девяти мобильных элементов стала возможной с помощью базы данных Insertion Sequence (IS) Finder. Этот анализ привел к локализации генов верхнего пути деградации нафталина ^[70] прямо рядом с генами, кодирующими тРНК-Гли и интегразу, а также к идентификации генов, кодирующих ферменты, участвующие в деградации салицилата , бензоата , 4-гидроксибензоата , фенилуксусной кислоты , гидроксифенилуксусной кислоты, и распознаванию оперона , участвующего в транспорте глюкозы в штамме.

Анализ генной онтологии имеет большое значение в функциональной аннотации, и, в частности, в биоремедиации его можно применять для изучения взаимосвязей между генами некоторых микроорганизмов с их функциями и их ролью в ремедиации определенных загрязнителей. Такой подход был использован при исследовании и идентификации штамма Halomonas zincidurans B6(T), бактерии с тридцатью одним геном, кодирующим устойчивость к тяжелым металлам , особенно цинку ^[71] и Stenotrophomonas sp. DDT-1, штамма, способного использовать ДДТ в качестве единственного источника углерода и энергии ^[72] , чтобы упомянуть несколько примеров.

Программное обеспечение

Гены в эукариотическом геноме могут быть аннотированы с помощью различных инструментов аннотации ^[73], таких как FINDER. ^[74] Современный конвейер аннотации может поддерживать удобный веб-интерфейс и программную контейнеризацию, такую как MOSGA. ^[75]^[76] Современные конвейеры аннотации для прокариотических геномов — это Bakta, ^[77] Prokka ^[51] и PGAP. ^[78]

Национальный центр биомедицинской онтологии разрабатывает инструменты для автоматизированного аннотирования ^[79] записей базы данных на основе текстовых описаний этих записей.

В качестве общего метода dcGO ^[80] имеет автоматизированную процедуру статистического вывода ассоциаций между терминами онтологии и доменами белков или комбинациями доменов из существующих аннотаций на уровне генов/белков.

Разработано множество программных инструментов, позволяющих ученым просматривать и обмениваться аннотациями генома, например, MAKER.

Аннотация генома является активной областью исследований и включает ряд различных организаций в сообществе естественных наук, которые публикуют результаты своих усилий в общедоступных биологических базах данных, доступных через Интернет и другие электронные средства. Ниже приведен алфавитный список текущих проектов, относящихся к аннотации генома:

Ссылки

^ Zheng S, Poczai P, Hyvönen J, Tang J, Amiryousefi A (2020). «Chloroplot: онлайн- программа для универсального построения графиков геномов органелл». Frontiers in Genetics . 11 (576124): 576124. doi : 10.3389/fgene.2020.576124 . PMC 7545089. PMID 33101394.
^ abcdef Домингес Дель Анхель В, Хьерде Э, Стерк Л, Капелла-Гутьеррес С, Нотредаме К, Виннере Петтерссон О и др. (5 февраля 2018 г.). «Десять шагов для начала работы по сборке и аннотации генома». F1000Research . 7 (148): 148. doi : 10.12688/f1000research.13598.1 . PMC 5850084 . PMID 29568489.
^ abcde Stein L (июль 2001 г.). «Аннотация генома: от последовательности к биологии». Nature Reviews. Genetics . 2 (7): 493–503. doi :10.1038/35080529. PMID 11433356. S2CID 12044602.
^ Davis CP (29 марта 2021 г.). «Медицинское определение аннотации генома». MedicineNet . Архивировано из оригинала 9 февраля 2023 г. Получено 17 апреля 2023 г.
^ Koonin E, Galperin MY (2003). "Genome Annotation and Analysis". Последовательность — Эволюция — Функция (1-е изд.). Springer US. стр. 193–226. doi :10.1007/978-1-4757-3783-7_6. ISBN 978-1-4757-3783-7.
^ ab Mishra P, Maurya R, Avashthi H, Mittal S, Chandra M, Ramteke PW (2021). «Сборка генома и аннотация». В Singh DB, Pathak RK (ред.). Биоинформатика: методы и приложения (1-е изд.). Elsevier Science. стр. 49–66. doi :10.1016/B978-0-323-89775-4.00013-4. ISBN 9780323897754.
^ ab Bright LA, Burgess SC, Chowdhary B, Swiderski CE, McCarthy FM (октябрь 2009 г.). "Структурная и функциональная аннотация олигомассива всего генома лошади". BMC Bioinformatics . 10 (Suppl 11): S8. doi : 10.1186/1471-2105-10-S11-S8 . PMC 3226197 . PMID 19811692.
^ Reed JL, Famili I, Thiele I, Palsson BO (февраль 2006 г.). «На пути к многомерной аннотации генома». Nature Reviews. Genetics . 7 (2): 130–141. doi :10.1038/nrg1769. PMID 16418748. S2CID 13107786.
^ abcd Abril JF, Castellano S (2019). «Аннотация генома». В Ranganathan S, Nakai K, Schonbach C, Gribskov M (ред.). Энциклопедия биоинформатики и вычислительной биологии (1-е изд.). Elsevier Science. стр. 195–209. doi :10.1016/B978-0-12-809633-8.20226-4. ISBN 978-0-12-811432-2. S2CID 226248103.
^ abcd Татусова Т, ДиКуччио М, Бадретдин А, Четвернин В, Навроцкий Е.П., Заславский Л и др. (август 2016 г.). "NCBI prokaryotic genome annotation pipeline". Nucleic Acids Research . 44 (14): 6614–6624. doi :10.1093/nar/gkw569. PMC 5001611. PMID 27342282 .
^ Staden R (ноябрь 1977 г.). «Обработка данных о последовательностях с помощью компьютера». Nucleic Acids Research . 4 (11): 4037–4051. doi :10.1093/nar/4.11.4037. PMC 343220. PMID 593900 .
^ Staden R, McLachlan AD (январь 1982). «Предпочтение кодонов и его использование при идентификации областей кодирования белков в длинных последовательностях ДНК». Nucleic Acids Research . 10 (1): 141–156. doi :10.1093/nar/10.1.141. PMC 326122. PMID 7063399 .
^ ab Gribskov M, Devereux J, Burgess RR (январь 1984). «График предпочтения кодонов: графический анализ последовательностей кодирования белков и предсказание экспрессии генов». Nucleic Acids Research . 12 (1 Pt 2): 539–549. doi :10.1093/nar/12.1part2.539. PMC 321069. PMID 6694906.
^ Fickett JW (август 1996). «Поиск генов с помощью компьютера: современное состояние». Trends in Genetics . 12 (8): 316–320. doi :10.1016/0168-9525(96)10038-X. PMID 8783942.
^ Grosjean H, Fiers W (июнь 1982). «Предпочтительное использование кодонов в прокариотических генах: оптимальная энергия взаимодействия кодона и антикодона и селективное использование кодонов в эффективно экспрессируемых генах». Gene . 18 (3): 199–209. doi :10.1016/0378-1119(82)90157-3. PMID 6751939.
^ Grantham R, Gautier C, Gouy M, Mercier R, Pavé A (январь 1980 г.). «Использование каталога кодонов и гипотеза генома». Nucleic Acids Research . 8 (1): r49–r62. doi :10.1093/nar/8.1.197-c. PMC 327256. PMID 6986610 .
^ Лукашин АВ, Бородовский М (февраль 1998). "GeneMark.hmm: новые решения для поиска генов". Nucleic Acids Research . 26 (4): 1107–1115. doi :10.1093/nar/26.4.1107. PMC 147337. PMID 9461475 .
^ Salzberg SL, Delcher AL, Kasif S, White O (январь 1998). «Идентификация микробных генов с использованием интерполированных марковских моделей». Nucleic Acids Research . 26 (2): 544–548. doi : 10.1093/nar/26.2.544. PMC 147303. PMID 9421513.
^ abcdefgh Soh J, Gordon PM, Sensen CW (4 сентября 2012 г.). Аннотация генома. Нью-Йорк: Chapman and Hall/CRC. doi :10.1201/b12682. ISBN 9780429064012. Архивировано из оригинала 18 апреля 2023 г. . Получено 18 апреля 2023 г. .
^ ab Brent MR (декабрь 2005 г.). «Прошлое, настоящее и будущее аннотации генома: как определить ORF в каждом локусе». Genome Research . 15 (12): 1777–1786. doi : 10.1101/gr.3866105 . PMID 16339376.
^ ENCODE Project Consortium (апрель 2011 г.). Becker PB (ред.). "Руководство пользователя по энциклопедии элементов ДНК (ENCODE)". PLOS Biology . 9 (4): e1001046. doi : 10.1371/journal.pbio.1001046 . PMC 3079585. PMID 21526222 .
^ Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE и др. (ноябрь 2012 г.). «Интегрированная карта генетической изменчивости 1092 человеческих геномов». Nature . 491 (7422): 56–65. Bibcode :2012Natur.491...56T. doi :10.1038/nature11632. PMC 3498066 . PMID 23128226.
^ ab Kahl G (2015). Словарь геномики, транскриптомики и протеомики (Пятое издание). Weinheim: Wiley. doi :10.1002/9783527678679. ISBN 9783527678679. Архивировано из оригинала 4 августа 2022 . Получено 24 апреля 2023 .
^ abcde Янделл М., Энс Д. (апрель 2012 г.). «Руководство для начинающих по аннотации эукариотических геномов». Nature Reviews. Genetics . 13 (5): 329–342. doi :10.1038/nrg3174. PMID 22510764. S2CID 3352427.
^ Treangen TJ, Abraham AL, Touchon M, Rocha EP (май 2009). «Генезис, эффекты и судьбы повторов в прокариотических геномах». FEMS Microbiology Reviews . 33 (3): 539–571. doi : 10.1111/j.1574-6976.2009.00169.x . PMID 19396957.
^ Liehr T (февраль 2021 г.). «Повторяющиеся элементы у людей». Международный журнал молекулярных наук . 22 (4): 2072. doi : 10.3390/ijms22042072 . PMC 7922087. PMID 33669810.
^ Bergman CM, Quesneville H (ноябрь 2007 г.). «Обнаружение и обнаружение мобильных элементов в последовательностях генома». Briefings in Bioinformatics . 8 (6): 382–392. doi : 10.1093/bib/bbm048 . PMID 17932080.
^ abc Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (август 2010 г.). «Аннотирование некодирующих регионов генома». Nature Reviews. Genetics . 11 (8): 559–571. doi :10.1038/nrg2814. PMID 20628352. S2CID 6617359.
^ Эдгар RC (октябрь 2010 г.). «Поиск и кластеризация на порядок быстрее, чем BLAST». Биоинформатика . 26 (19): 2460–2461. doi : 10.1093/bioinformatics/btq461 . PMID 20709691.
^ Эдгар Р. "Маскировка последовательности". drive5.com . Архивировано из оригинала 3 февраля 2020 г. . Получено 25 апреля 2023 г. .
^ abcde Ejigu GF, Jung J (сентябрь 2020 г.). «Обзор вычислительной геномной аннотации последовательностей, полученных с помощью секвенирования следующего поколения». Биология . 9 (9): 295. doi : 10.3390/biology9090295 . PMC 7565776. PMID 32962098 .
^ Garber M, Grabherr MG, Guttman M, Trapnell C (июнь 2011 г.). «Вычислительные методы аннотации и количественной оценки транскриптома с использованием РНК-секвенирования». Nature Methods . 8 (6): 469–477. doi :10.1038/nmeth.1613. PMID 21623353. S2CID 205419756.
^ Gupta N, Tanner S, Jaitly N, Adkins JN, Lipton M, Edwards R и др. (сентябрь 2007 г.). «Полноценный протеомный анализ посттрансляционных модификаций: применение масс-спектрометрии для протеогеномной аннотации». Genome Research . 17 (9): 1362–1377. doi :10.1101/gr.6427907. PMC 1950905 . PMID 17690205.
^ De Bona F, Ossowski S, Schneeberger K, Rätsch G (август 2008 г.). «Оптимальные сплайсированные выравнивания коротких последовательностей прочтений». Биоинформатика . 24 (16): i174–i180. doi : 10.1093/bioinformatics/btn300 . PMID 18689821.
^ Trapnell C, Pachter L, Salzberg SL (май 2009 г.). «TopHat: обнаружение сплайс-соединений с помощью RNA-Seq». Биоинформатика . 25 (9): 1105–1111. doi :10.1093/bioinformatics/btp120. PMC 2672628. PMID 19289445 .
^ Крижанович К, Эччики А, Ру Дж, Шикич М (март 2018 г.). «Оценка инструментов для выравнивания с учетом сплайсинга длинных прочтений РНК-секвенирования». Биоинформатика . 34 (5): 748–754. doi :10.1093/bioinformatics/btx668. PMC 6192213 . PMID 29069314.
^ McHardy AC, Kloetgen A (2017). «Поиск генов в последовательности генома». В Keith JM (ред.). Биоинформатика . Методы в молекулярной биологии. Т. 1525 (второе изд.). Нью-Йорк: Springer. стр. 271–291. doi :10.1007/978-1-4939-6622-6_11. ISBN 978-1-4939-6622-6. PMID 27896725.
^ Brent MR, Guigó R (июнь 2004 г.). «Последние достижения в предсказании структуры гена». Current Opinion in Structural Biology . 14 (3): 264–272. doi :10.1016/j.sbi.2004.05.007. PMID 15193305.
^ Binns D, Dimmer E, Huntley R, Barrell D, O'Donovan C, Apweiler R (ноябрь 2009 г.). «QuickGO: веб-инструмент для поиска в области онтологии генов». Биоинформатика . 25 (22): 3045–3046. doi :10.1093/bioinformatics/btp536. PMC 2773257. PMID 19744993 .
^ abc Vu TT, Jung J (2021). «Прогнозирование функции белка с помощью онтологии генов: от традиционных моделей к моделям глубокого обучения». PeerJ . 9 : e12019. doi : 10.7717/peerj.12019 . PMC 8395570 . PMID 34513334.
^ ab Saxena R, Bishnoi R, Singla D (2021). «Онтология генов: применение и важность в функциональной аннотации геномных данных». В Singh B, Pathak RK (ред.). Биоинформатика: методы и приложения . Лондон: Academic Press. стр. 145–157. doi :10.1016/B978-0-323-89775-4.00015-8. ISBN 978-0-323-89775-4.
^ ab Zhao Y, Wang J, Chen J, Zhang X, Guo M, Yu G (2020). «Обзор литературы по предсказанию функций генов с помощью моделирования онтологии генов». Frontiers in Genetics . 11 : 400. doi : 10.3389/fgene.2020.00400 . PMC 7193026. PMID 32391061 .
^ Sasson O, Kaplan N, Linial M (июнь 2006 г.). «Предсказание функциональной аннотации: все за одного и один за всех». Protein Science . 15 (6): 1557–1562. doi :10.1110/ps.062185706. PMC 2242553 . PMID 16672244.
^ Синха С., Линн А. М., Десаи Д. К. (октябрь 2020 г.). «Реализация вычислительных методов на основе гомологии и негомологии для идентификации и аннотации ферментов-сирот: использование Mycobacterium tuberculosis H37Rv в качестве примера». BMC Bioinformatics . 21 (1): 466. doi : 10.1186/s12859-020-03794-x . PMC 574302 . PMID 33076816.
^ Летовски С., Касиф С. (2003). «Предсказание функции белка по данным взаимодействия белок/белок: вероятностный подход». Биоинформатика . 19 (Приложение 1): i197–i204. doi : 10.1093/bioinformatics/btg1026 . PMID 12855458.
^ Dainat J, Pontarotti P (2021). «Методы идентификации и изучения эволюции псевдогенов с использованием филогенетического подхода» (PDF) . В Poliseno L (ред.). Псевдогены . Методы в молекулярной биологии. Т. 2324 (второе изд.). Нью-Йорк: Springer. стр. 21–34. doi :10.1007/978-1-0716-1503-4_2. ISBN 978-1-0716-1503-4. PMID 34165706. S2CID 235625288.
^ Numanagic I, Gökkaya AS, Zhang L, Berger B, Alkan C, Hach F (сентябрь 2018 г.). «Быстрая характеристика сегментных дупликаций в геномных сборках». Биоинформатика . 34 (17): i706–i714. doi :10.1093/bioinformatics/bty586. PMC 6129265. PMID 30423092 .
^ Hartasánchez DA, Brasó-Vives M, Heredia-Genestar JM, Pybus M, Navarro A (ноябрь 2018 г.). «Влияние разрушенных дупликаций на оценки разнообразия: чего ожидать». Genome Biology and Evolution . 10 (11): 2899–2905. doi :10.1093/gbe/evy223. PMC 6239678. PMID 30364947 .
^ Si J, Zhao R, Wu R (март 2015 г.). «Обзор прогнозирования участков связывания белковой ДНК». International Journal of Molecular Sciences . 16 (3): 5194–5215. doi : 10.3390/ijms16035194 . PMC 4394471. PMID 25756377 .
^ Гриффитс-Джонс С. (2007). «Аннотирование некодирующих РНК-генов». Annual Review of Genomics and Human Genetics . 8 : 279–298. doi :10.1146/annurev.genom.8.080706.092419. PMID 17506659.
^ ab Seemann T (июль 2014 г.). «Prokka: быстрая аннотация прокариотического генома». Биоинформатика . 30 (14): 2068–2069. doi :10.1093/bioinformatics/btu153. PMID 24642063.
^ Валеев Т, Евшин И, Колпаков Ф (2013). "BioUML Genome Browser". Виртуальная биология . 1 (1): 15. doi : 10.12704/vb/e8 .
^ Szot PS, Yang A, Wang X, Parsania C, Röhm U, Wong KH, Ho JW (май 2017 г.). "PBrowse: веб-платформа для совместного исследования геномных данных в реальном времени". Nucleic Acids Research . 45 (9): e67. doi :10.1093/nar/gkw1358. PMC 5605237. PMID 28100700 .
^ Wang J, Kong L, Gao G, Luo J (март 2013 г.). «Краткое введение в веб-браузеры генома». Briefings in Bioinformatics . 14 (2): 131–143. doi : 10.1093/bib/bbs029 . PMID 22764121.
^ Jung J, Kim JI, Yi G (декабрь 2019 г.). «geneCo: визуализированный сравнительный геномный метод анализа множественных структур генома». Биоинформатика . 35 (24): 5303–5305. doi :10.1093/bioinformatics/btz596. PMC 6954651. PMID 31350879 .
^ ab Ouzounis CA, Karp PD (2002). «Прошлое, настоящее и будущее полногеномной реаннотации». Genome Biology . 3 (2): COMMENT2001. doi : 10.1186/gb-2002-3-2-comment2001 . PMC 139008. PMID 11864365 .
^ "Manual Annotation - Wellcome Sanger Institute". www.sanger.ac.uk . Архивировано из оригинала 2 февраля 2023 г. . Получено 28 марта 2023 г. .
^ Siezen RJ, van Hijum SA (июль 2010 г.). «Геномная (ре)аннотация и конвейеры аннотации с открытым исходным кодом». Microbial Biotechnology . 3 (4): 362–369. doi :10.1111/j.1751-7915.2010.00191.x. PMC 3815804 . PMID 21255336.
^ Loveland JE, Gilbert JG, Griffiths E, Harrow JL (2012). «Аннотация генов сообщества на практике». База данных . 2012 (2012): bas009. doi :10.1093/database/bas009. PMC 3308165. PMID 22434843 .
^ Hartl DL (апрель 2000 г.). «Муха встречает дробовик: дробовик побеждает». Nature Genetics . 24 (4): 327–328. doi :10.1038/74125. PMID 10742085. S2CID 5354139.
^ Mazumder R, Natale DA, Julio JA, Yeh LS, Wu CH (февраль 2010 г.). «Коммьюнити-аннотации в биологии». Biology Direct . 5 (1): 12. doi : 10.1186/1745-6150-5-12 . PMC 2834641. PMID 20167071 .
^ Huss JW, Orozco C, Goodale J, Wu C, Batalov S, Vickers TJ и др. (июль 2008 г.). «Вики-сайт генов для аннотации функций генов сообществом». PLOS Biology . 6 (7): e175. doi : 10.1371/journal.pbio.0060175 . PMC 2443188. PMID 18613750 .
^ Daub J, Gardner PP, Tate J, Ramsköld D, Manske M, Scott WG и др. (декабрь 2008 г.). «The RNA WikiProject: аннотация сообщества семейств РНК». RNA . 14 (12): 2462–2464. doi :10.1261/rna.1200508. PMC 2590952 . PMID 18945806.
^ Купер Л., Джайсвал П. (2016). «Онтология растений: инструмент для геномики растений». В Эдвардс Д. (ред.). Биоинформатика растений . Методы в молекулярной биологии. Т. 1374 (2-е изд.). Тотова, Нью-Джерси: Humana Press. стр. 89–114. doi :10.1007/978-1-4939-3167-5_5. ISBN 978-1-4939-3167-5. PMID 26519402.
^ Torto-Alalibo T, Collmer CW, Gwinn-Giglio M (февраль 2009 г.). "Консорциум по генной онтологии микробов, ассоциированных с растениями (PAMGO): разработка сообществом новых терминов генной онтологии, описывающих биологические процессы, вовлеченные во взаимодействия микроба и хозяина". BMC Microbiology . 9 (Suppl 1): S1. doi : 10.1186/1471-2180-9-S1-S1 . PMC 2654661 . PMID 19278549.
^ Piñero J, Ramírez-Anguita JM, Saüch-Pitarch J, Ronzano F, Centeno E, Sanz F, Furlong LI (январь 2020 г.). «Платформа знаний DisGeNET для геномики заболеваний: обновление 2019 г.». Nucleic Acids Research . 48 (D1): D845–D855. doi :10.1093/nar/gkz1021. PMC 7145631. PMID 31680165 .
^ Hayman GT, Laulederkind SJ, Smith JR, Wang SJ, Petri V, Nigam R и др. (2016). «Порталы болезней, аннотация генов болезней и онтология болезней RGD в базе данных генома крысы». База данных . 2016 : baw034. doi :10.1093/database/baw034. PMC 4805243 . PMID 27009807.
^ Top EM, Springael D, Boon N (ноябрь 2002 г.). «Катаболические мобильные генетические элементы и их потенциальное использование в биоаугментации загрязненных почв и вод». FEMS Microbiology Ecology . 42 (2): 199–208. doi : 10.1111/j.1574-6941.2002.tb01009.x . hdl : 1854/LU-348539 . PMID 19709279. S2CID 15173391.
^ Phale PS, Paliwal V, Raju SC, Modak A, Purohit HJ (январь 2013 г.). «Геномная последовательность почвенной бактерии Pseudomonas putida CSV86, разрушающей нафталин». Genome Announcements . 1 (1): 234–235. doi :10.1128/genomeA.00234-12. PMC 3587945 . PMID 23469351.
^ Trivedi VD, Jangir PK, Sharma R, Phale PS (декабрь 2016 г.). "Взгляд на функциональный и эволюционный анализ метаболического пути карбарила из штамма Pseudomonas sp. C5pp". Scientific Reports . 6 (1): 38430. Bibcode :2016NatSR...638430T. doi :10.1038/srep38430. PMC 5141477 . PMID 27924916.
^ Huo YY, Li ZY, Cheng H, Wang CS, Xu XW (2014). "Высококачественная черновая последовательность генома устойчивой к тяжелым металлам бактерии Halomonas zincidurans типа штамма B6(T)". Стандарты в геномных науках . 9 (30): 30. doi : 10.1186/1944-3277-9-30 . PMC 4286145. PMID 25945155 .
^ Pan X, Lin D, Zheng Y, Zhang Q, Yin Y, Cai L и др. (февраль 2016 г.). «Биодеградация ДДТ штаммом Stenotrophomonas sp. DDT-1: характеристика и функциональный анализ генома». Scientific Reports . 6 (1): 21332. Bibcode :2016NatSR...621332P. doi :10.1038/srep21332. PMC 4758049 . PMID 26888254.
^ GAAS, NBIS — Национальная инфраструктура биоинформатики Швеции, 13 апреля 2022 г. , получено 25 апреля 2022 г.
^ Банерджи С., Бхандари П., Вудхаус М., Сен Т.З., Уайз Р.П., Андорф К.М. (апрель 2021 г.). «FINDER: автоматизированный программный пакет для аннотации эукариотических генов из данных РНК-Seq и связанных с ними последовательностей белков». BMC Bioinformatics . 22 (1): 205. doi : 10.1186/s12859-021-04120-9 . PMC 8056616. PMID 33879057 .
^ Мартин Р., Хакл Т., Хаттаб Г., Фишер М.Г., Хайдер Д. (апрель 2021 г.). Бирол I (ред.). «МОСГА: Модульный аннотатор генома с открытым исходным кодом». Биоинформатика . 36 (22–23): 5514–5515. doi : 10.1093/биоинформатика/btaa1003. hdl : 21.11116/0000-0006-FED4-D . ПМИД 33258916.
^ Мартин Р. "MOSGA". mosga.mathematik.uni-marburg.de . Получено 25 апреля 2022 г. .
^ Schwengers O, Jelonek L, Dieckmann MA, Beyvers S, Blom J, Goesmann A (ноябрь 2021 г.). «Bakta: быстрая и стандартизированная аннотация бактериальных геномов с помощью идентификации последовательностей без выравнивания». Microbial Genomics . 7 (11). doi : 10.1099/mgen.0.000685 . PMC 8743544 . PMID 34739369.
^ Li W, O'Neill KR, Haft DH, DiCuccio M, Chetvernin V, Badretdin A и др. (январь 2021 г.). «RefSeq: расширение охвата конвейера аннотации прокариотического генома с помощью курирования модели семейства белков». Nucleic Acids Research . 49 (D1): D1020–D1028. doi :10.1093/nar/gkaa1105. PMC 7779008. PMID 33270901 .
^ "NCBO Annotator". ncbo.bioontology.org . Получено 8 февраля 2023 г. .
^ Fang H, Gough J (январь 2013 г.). «DcGO: база данных доменно-ориентированных онтологий по функциям, фенотипам, заболеваниям и т. д.». Nucleic Acids Research . 41 (выпуск базы данных): D536–D544. doi :10.1093/nar/gks1080. PMC 3531119. PMID 23161684 .