stringtranslate.com

ДНК-аннотация

Визуализация аннотации генома хлоропласта Porphyra umbilicalis (регистрационный номер GenBank : MF385003.1), сделанная с помощью Chloroplot. [1] Количество генов, длина генома и содержание GC размещены в среднем черном круге. Внешний серый круг показывает содержание GC в каждой части генома. Все отдельные гены размещены на самом внешнем круге в соответствии с их положением в геноме, направлением транскрипции и длиной; они имеют цветовую кодировку в зависимости от клеточной функции или компонента, частью которого они являются. Направления транскрипции для внутренних и внешних генов, представленные стрелками, перечислены по часовой стрелке и против часовой стрелки соответственно.

В молекулярной биологии и генетике аннотация ДНК или аннотация генома представляет собой процесс описания структуры и функции компонентов генома [ 2] путем их анализа и интерпретации с целью извлечения их биологического значения и понимания биологических процессов, в которых они участвуют. [3] Помимо прочего, она определяет местоположение генов и всех кодирующих областей в геноме и определяет, что делают эти гены. [4]

Аннотация выполняется после того, как геном секвенирован и собран , и является необходимым шагом в анализе генома до того, как последовательность будет помещена в базу данных и описана в опубликованной статье. Хотя описание отдельных генов и их продуктов или функций достаточно, чтобы считать это описание аннотацией, глубина анализа, представленная в литературе для разных геномов, сильно различается, при этом некоторые отчеты включают дополнительную информацию, выходящую за рамки простой аннотации. [5] Кроме того, из-за размера и сложности секвенированных геномов аннотация ДНК не выполняется вручную, а вместо этого автоматизирована с помощью вычислительных средств. Однако выводы, сделанные на основе полученных результатов, требуют ручного экспертного анализа. [6]

Аннотация ДНК подразделяется на две категории: структурная аннотация , которая идентифицирует и разграничивает элементы в геноме, и функциональная аннотация , которая назначает функции этим элементам. [7] Это не единственный способ ее классификации, поскольку было предложено несколько альтернатив, таких как классификации на основе измерений [8] и на основе уровней [3] .

История

Первое поколение геномных аннотаторов использовало локальные методы ab initio , которые основаны исключительно на информации, которая может быть извлечена из последовательности ДНК в локальном масштабе, то есть по одной открытой рамке считывания (ORF) за раз. [9] [10] Они появились как необходимость для обработки огромного количества данных, полученных с помощью методов секвенирования ДНК Максама-Гилберта и Сэнгера , разработанных в конце 1970-х годов. Первым программным обеспечением, использованным для анализа прочтений секвенирования, был пакет Staden , созданный Роджером Стаденом в 1977 году. [11] Он выполнял несколько задач, связанных с аннотацией, таких как подсчет оснований и кодонов . Фактически, использование кодонов было основной стратегией, используемой несколькими ранними методами предсказания последовательности кодирования белка (CDS), [12] [13] [14] основанными на предположении, что наиболее транслируемые регионы в геноме содержат кодоны с наиболее распространенными соответствующими тРНК (молекулами, ответственными за перенос аминокислот в рибосому во время синтеза белка), что позволяет осуществлять более эффективную трансляцию. [15] Также было известно, что это относится к синонимичным кодонам , которые часто присутствуют в белках, экспрессируемых на более низком уровне. [13] [16]

Появление полных геномов в 1990-х годах (первым был геном Haemophilus influenzae, секвенированный в 1995 году) представило второе поколение аннотаторов. Как и в предыдущем поколении, они выполняли аннотацию с помощью методов ab initio , но теперь применяли в масштабе всего генома. [9] [10] Марковские модели являются движущей силой многих алгоритмов, используемых в аннотаторах этого поколения; [17] [18] эти модели можно рассматривать как направленные графы , где узлы представляют различные геномные сигналы (такие как стартовые сайты транскрипции и трансляции ), соединенные стрелками, представляющими сканирование последовательности. Чтобы гарантировать, что марковская модель обнаруживает геномный сигнал, ее сначала необходимо обучить на серии известных геномных сигналов. [19] Выходные данные моделей Маркова в контексте аннотации включают вероятности каждого вида геномного элемента в каждой отдельной части генома, а точная модель Маркова будет назначать высокие вероятности правильным аннотациям и низкие вероятности неправильным. [20]

Хронология выпуска геномных аннотаторов. Пунктирные поля обозначают четыре различных поколения геномных аннотаторов и их наиболее репрезентативные характеристики. Первое поколение (синее), где аннотаторы использовали методы ab initio в локальном масштабе, второе поколение (красное) с методами ab initio для всего генома, третье поколение (зеленое), характеризующееся сочетанием методов ab initio и аннотаций на основе гомологии, и четвертое поколение (оранжевое), в котором начался подход к идентификации некодирующих областей ДНК и изучению на уровне популяции, представленной пангеномом.

По мере того, как в начале и середине 2000-х годов стало доступно больше секвенированных геномов, в сочетании с многочисленными белковыми последовательностями, полученными экспериментальным путем, аннотаторы геномов начали использовать методы, основанные на гомологии, запустив третье поколение аннотации геномов. Эти новые методы позволили аннотаторам не только выводить геномные элементы с помощью статистических средств (как в предыдущих поколениях), но и могли выполнять свою задачу, сравнивая аннотируемую последовательность с другими уже существующими и проверенными последовательностями. Эти так называемые аннотаторы-комбинаторы, которые выполняют как аннотацию ab initio , так и аннотацию на основе гомологии, требуют быстрых алгоритмов выравнивания для определения областей гомологии . [2] [9] [10]

В конце 2000-х годов аннотация генома переключила свое внимание на идентификацию некодирующих областей в ДНК, что было достигнуто благодаря появлению методов анализа сайтов связывания факторов транскрипции , сайтов метилирования ДНК , структуры хроматина и других методов анализа РНК и регуляторных областей . Другие аннотаторы генома также начали фокусироваться на исследованиях на уровне популяции, представленных пангеномом ; таким образом, например, конвейеры аннотации гарантируют, что основные гены клады также будут найдены в новых геномах той же клады. Обе стратегии аннотации составляют четвертое поколение аннотаторов генома. [9] [10]

К 2010-м годам стали доступны последовательности геномов более тысячи человек (через проект 1000 геномов ) и нескольких модельных организмов . Таким образом, аннотация генома остается серьезной проблемой для ученых, изучающих геномы человека и других животных. [21] [22]

Структурная аннотация

Обобщенная блок-схема конвейера структурной аннотации генома. Во-первых, повторяющиеся области собранного генома маскируются с помощью библиотеки повторов. Затем, по желанию, маскированная последовательность выравнивается со всеми доступными доказательствами ( EST , РНК и белки ) аннотируемого организма. В эукариотических геномах должны быть идентифицированы сайты сплайсинга . Наконец, кодирующие и некодирующие последовательности, содержащиеся в геноме, предсказываются с помощью баз данных известных последовательностей ДНК, РНК и белков, а также другой вспомогательной информации.

Структурная аннотация описывает точное расположение различных элементов в геноме, таких как открытые рамки считывания (ORF), кодирующие последовательности (CDS), экзоны , интроны , повторы , сайты сплайсинга , регуляторные мотивы , стартовые и стоп -кодоны и промоторы . [6] [23] Основные этапы структурной аннотации:

  1. Повторная идентификация и маскировка.
  2. Согласование доказательств (необязательно).
  3. Идентификация сплайсинга (только у эукариот).
  4. Прогнозирование признаков (кодирующие и некодирующие последовательности).

Повторная идентификация и маскировка

Первый шаг структурной аннотации состоит в идентификации и маскировке повторов , которые включают в себя последовательности низкой сложности (такие как AGAGAGAG или монополимерные сегменты, такие как TTTTTTTTT), и транспозоны (которые являются более крупными элементами с несколькими копиями по всему геному). [2] [24] Повторы являются основным компонентом как прокариотических, так и эукариотических геномов; например, от 0% до более 42% прокариотических геномов состоят из повторов [25] , а три четверти человеческого генома состоят из повторяющихся элементов. [26]

Идентификация повторов затруднена по двум основным причинам: они плохо сохраняются, и их границы нечетко определены. Из-за этого необходимо построить библиотеки повторов для интересующего генома, что можно сделать одним из следующих методов: [24] [27]

После того, как повторяющиеся регионы в геноме были идентифицированы, они маскируются. Маскирование означает замену букв нуклеотидов ( A, C, G или T) другими буквами. При этом эти регионы будут помечены как повторяющиеся, и последующие анализы будут обрабатывать их соответствующим образом. Повторяющиеся регионы могут вызывать проблемы с производительностью, если они не замаскированы, и могут даже давать ложные доказательства для аннотации гена (например, обработка открытой рамки считывания (ORF) в транспозоне как экзона ) [24] В зависимости от букв, используемых для замены, маскирование можно классифицировать как мягкое или жесткое: при мягком маскировании повторяющиеся регионы обозначаются строчными буквами (a, c, g или t), тогда как при жестком маскировании буквы этих регионов заменяются на N. Таким образом, например, мягкое маскирование может использоваться для исключения совпадений слов и предотвращения инициирования выравнивания в этих регионах, а жесткое маскирование, помимо всего этого, может также исключать замаскированные регионы из оценок выравнивания. [29] [30]

Согласование доказательств

Следующий шаг после маскировки генома обычно включает в себя выравнивание всех доступных транскриптов и белковых доказательств с анализируемым геномом, то есть выравнивание всех известных экспрессируемых тегов последовательности (EST), РНК и белков организма, аннотируемого с геномом. [31] Хотя это необязательно, это может улучшить выяснение последовательности генов, поскольку РНК и белки являются прямыми продуктами кодирующих последовательностей. [19]

Если доступны данные РНК-Seq , их можно использовать для аннотации и количественной оценки всех генов и их изоформ, расположенных в соответствующем геноме, предоставляя не только их местоположение, но и их скорости экспрессии. [32] Однако транскрипты предоставляют недостаточно информации для предсказания генов, поскольку их можно не получить из некоторых генов, они могут кодировать опероны более чем одного гена, а их стартовые и стоп-кодоны невозможно определить из-за сдвигов рамки считывания и факторов инициации трансляции . [19] Для решения этой проблемы применяются подходы, основанные на протеогеномике , которые используют информацию из экспрессированных белков, часто получаемую с помощью масс-спектрометрии . [33]

Идентификация сращивания

Аннотация эукариотических геномов имеет дополнительный уровень сложности из-за сплайсинга РНК , посттранскрипционного процесса , в котором интроны (некодирующие области) удаляются, а экзоны (кодирующие области) соединяются. [23] Таким образом, эукариотические кодирующие последовательности (CDS) являются прерывистыми, и для обеспечения их правильной идентификации интронные области должны быть отфильтрованы. Для этого конвейеры аннотации должны находить границы экзон-интрон, и для этой цели было разработано несколько методологий. Одним из решений является использование известных границ экзонов для выравнивания; например, многие интроны начинаются с GT и заканчиваются на AG. [31] Однако этот подход не может обнаружить новые границы, поэтому существуют альтернативы, такие как алгоритмы машинного обучения , которые обучаются на известных границах экзонов и качественной информации для прогнозирования новых. [34] Предсказатели границ новых экзонов обычно требуют эффективных алгоритмов сжатия и выравнивания данных, но они склонны к сбоям в границах, расположенных в регионах с низким покрытием последовательностей или высоким уровнем ошибок, возникающих во время секвенирования. [35] [36]

Прогнозирование характеристик

Геном делится на кодирующие и некодирующие области, и последний шаг структурной аннотации состоит в идентификации этих особенностей в геноме. Фактически, основной задачей в аннотации генома является предсказание генов , поэтому для этой цели были разработаны многочисленные методы. [19] Предсказание генов — это вводящий в заблуждение термин, поскольку большинство предсказателей генов идентифицируют только кодирующие последовательности (CDS) и не сообщают о нетранслируемых областях (UTR); по этой причине предсказание CDS было предложено как более точный термин. [24] Предсказатели CDS обнаруживают особенности генома с помощью методов, называемых сенсорами , которые включают сенсоры сигналов , которые идентифицируют сигналы функциональных сайтов, таких как промоторы и сайты полиА , и сенсоры содержимого , которые классифицируют последовательности ДНК на кодирующее и некодирующее содержимое. [37] В то время как прокариотические предикторы CDS в основном имеют дело с открытыми рамками считывания (ORF), которые представляют собой сегменты ДНК между стартовым и стоп -кодонами , эукариотические предикторы CDS сталкиваются с более сложной проблемой из-за сложной организации эукариотических генов. [3] Методы прогнозирования CDS можно разделить на три широкие категории: [2] [31]

Функциональная аннотация

Функциональная аннотация назначает функции геномным элементам, найденным с помощью структурной аннотации, [7] связывая их с биологическими процессами, такими как клеточный цикл , клеточная смерть , развитие , метаболизм и т. д. [3] Она также может использоваться в качестве дополнительной проверки качества путем выявления элементов, которые могли быть аннотированы по ошибке. [2]

Прогнозирование функции кодирующей последовательности

Пример диаграммы предков Gene Ontology (GO), организованной как направленный ациклический граф, взятый из QuickGO. [39] Он показывает молекулярные функции, биологические процессы и клеточные компоненты, в которых участвует комплекс матрилина , компонент внеклеточного матрикса . Каждый блок представляет собой термин онтологии, который попадает в одну из трех категорий GO и имеет соответствующую цветовую кодировку. Термины онтологии связаны друг с другом посредством определенных квалификаторов (таких как «является», «частью» и т. д.), которые представлены различными видами стрелок.

Функциональная аннотация генов требует контролируемого словаря (или онтологии) для наименования прогнозируемых функциональных признаков. Однако, поскольку существует множество способов определения функций генов, процесс аннотации может быть затруднен, когда он выполняется разными исследовательскими группами. Таким образом, необходимо использовать стандартизированный контролируемый словарь, наиболее полной из которых является Gene Ontology (GO). Он классифицирует функциональные свойства по одной из трех категорий (молекулярная функция, биологический процесс и клеточный компонент) и организует их в направленный ациклический граф , в котором каждый узел является определенной функцией, а каждое ребро (или стрелка) между двумя узлами указывает на родительско-дочерние или подкатегория-категория отношения. [40] [41] По состоянию на 2020 год GO является наиболее широко используемым контролируемым словарем для функциональной аннотации генов, за ним следует MIPS Functional Catalog (FunCat). [42]

Некоторые традиционные методы функциональной аннотации основаны на гомологии , которая опирается на локальные инструменты поиска выравнивания . [40] Его предпосылка заключается в том, что высокая консервативность последовательностей между двумя геномными элементами подразумевает, что их функция также сохраняется. Пары гомологичных последовательностей, которые появились через паралогию , ортологию или ксенологию, обычно выполняют схожую функцию. Однако к ортологичным последовательностям следует относиться с осторожностью по двум причинам: (1) они могут иметь разные названия в зависимости от того, когда они были изначально аннотированы, и (2) они могут не выполнять одну и ту же функциональную роль в двух разных организмах. Аннотаторы часто ссылаются на аналогичную последовательность, когда не было найдено ни паралогии, ни ортологии, ни ксенологии. [19] Методы, основанные на гомологии, имеют несколько недостатков, таких как ошибки в базе данных, низкая чувствительность/специфичность, невозможность различать паралогию и гомологию, [43] искусственно высокие баллы из-за наличия областей низкой сложности и значительные вариации внутри семейства белков. [44]

Функциональная аннотация может быть выполнена с помощью вероятностных методов. Распределение гидрофильных и гидрофобных аминокислот указывает, находится ли белок в растворе или мембране. Конкретные мотивы последовательности предоставляют информацию о посттрансляционных модификациях и конечном местоположении любого данного белка. [19] Вероятностные методы могут быть сопряжены с контролируемым словарем, таким как GO; например, сети белок-белкового взаимодействия (PPI) обычно размещают белки со схожими функциями близко друг к другу. [45]

Методы машинного обучения также используются для создания функциональных аннотаций для новых белков на основе терминов GO. Как правило, они состоят в построении бинарного классификатора для каждого термина GO, которые затем объединяются для создания прогнозов по отдельным терминам GO (формируя многоклассовый классификатор ), для которых позже получаются оценки уверенности. Машина опорных векторов (SVM) является наиболее широко используемым бинарным классификатором в функциональной аннотации; однако, другие алгоритмы, такие как k-ближайших соседей (kNN) и сверточная нейронная сеть (CNN), также использовались. [40]

Методы бинарной или многоклассовой классификации для функциональной аннотации обычно дают менее точные результаты, поскольку они не учитывают взаимосвязи между терминами GO. Более продвинутые методы, которые учитывают эти взаимосвязи, делают это либо с помощью плоского, либо иерархического подхода, которые отличаются тем, что первый не учитывает структуру онтологии, а второй учитывает. Некоторые из этих методов сжимают термины GO с помощью матричной факторизации или хеширования , тем самым повышая их производительность. [42]

Прогнозирование функции некодирующей последовательности

Некодирующие последовательности (ncDNA) — это те, которые не кодируют белки. Они включают такие элементы, как псевдогены, сегментные дупликации, сайты связывания и гены РНК. [28]

Псевдогены — это мутировавшие копии генов, кодирующих белки, которые утратили свою кодирующую функцию из-за нарушения в их открытой рамке считывания (ORF), что делает их нетранслируемыми . [28] Их можно идентифицировать с помощью одного из следующих двух методов: [46]

Сегментные дупликации — это сегменты ДНК из более чем 1000 пар оснований, которые повторяются в геноме с более чем 90% идентичностью последовательности. Для их идентификации используются две стратегии: WGAC и WSSD: [47]

Сайты связывания ДНК — это области в последовательности генома, которые связываются и взаимодействуют с определенными белками. Они играют важную роль в репликации и восстановлении ДНК , регуляции транскрипции и вирусной инфекции . Прогнозирование сайта связывания включает использование одного из следующих двух методов: [49]

Некодирующая РНК (нкРНК), продуцируемая генами РНК, представляет собой тип РНК, который не транслируется в белок. Она включает в себя такие молекулы, как тРНК , рРНК , мякРНК и микроРНК , а также некодирующие мРНК- подобные транскрипты. Ab initio предсказание генов РНК в одном геноме часто дает неточные результаты (за исключением микроРНК), поэтому вместо этого используются методы сравнения нескольких геномов. Эти методы специально посвящены вторичным структурам нкРНК, поскольку они сохраняются у родственных видов, даже если их последовательность не сохраняется. Поэтому, выполняя множественное выравнивание последовательностей, можно получить больше полезной информации для их предсказания. Поиск гомологии также может быть использован для идентификации генов РНК, но эта процедура сложна, особенно у эукариот, из-за наличия большого количества повторов и псевдогенов. [50]

Визуализация

Снимок аннотированного файла GBK, созданного с помощью Prokka. [51] Он показывает компоненты (признаки) небольшой части генома Candidatus Carsonella ruddii , включая их позиции (структурная аннотация) и предполагаемые функции (функциональная аннотация).

Форматы файлов

Визуализация аннотаций в браузере генома требует описательного выходного файла, который должен описывать интронно - экзонные структуры каждой аннотации, их стартовые и стоп- кодоны , UTR и альтернативные транскрипты, и в идеале должен включать информацию о выравниваниях последовательностей и предсказаниях генов , которые поддерживают каждую модель гена. Некоторые часто используемые форматы для описания аннотаций — GenBank, GFF3 , GTF, BED и EMBL. [24] Некоторые из этих форматов используют контролируемые словари и онтологии для определения своих описательных терминологий и гарантируют взаимодействие между инструментами анализа и визуализации. [2]

Браузеры генома

Геномные браузеры — это программные продукты, которые упрощают анализ и визуализацию больших геномных последовательностей и аннотированных данных для получения биологической информации с помощью графического интерфейса. [52] [31] [53]

Геномные браузеры можно разделить на веб-браузеры и автономные геномные браузеры . Первые используют информацию из баз данных и могут быть классифицированы как многовидовые (интегрируют последовательности и аннотации нескольких организмов и способствуют межвидовому сравнительному анализу) и видоспецифичные (фокусируются на одном организме и аннотациях для определенных видов). Последние не обязательно связаны с конкретной базой данных генома, но являются браузерами общего назначения, которые можно загрузить и установить как приложение на локальном компьютере. [54] [19]

Сравнительная визуализация геномов

Линейная сравнительная визуализация генома нескольких типовых видов филогенетически родственных вирусных семейств и родов . Функциональные аннотации белков отображаются в различных цветах, а гомологии — в различных тонах.

Сравнительная геномика направлена ​​на выявление сходств и различий в геномных характеристиках, а также на изучение эволюционных связей между организмами. [55] Инструменты визуализации, способные иллюстрировать сравнительное поведение двух или более геномов, необходимы для этого подхода и могут быть разделены на три категории на основе представления связей между сравниваемыми геномами: [19]

Контроль качества

Качество сборки последовательности влияет на качество аннотации, поэтому важно оценить качество сборки перед выполнением последующих шагов аннотации. [31] Для количественной оценки качества аннотации генома использовались три метрики: полнота , точность и достоверность ; хотя эти меры явно не используются в проектах аннотации, а скорее в обсуждениях точности предсказания. [56]

Подходы к аннотации сообщества являются отличными методами контроля качества и стандартизации в аннотации генома. Слет аннотаций, который состоялся в 2002 году, привел к созданию стандартов аннотаций, используемых в проекте по анализу человека и позвоночных Института Сэнгера (HAVANA). [57] [20]

Повторная аннотация

Проекты аннотаций часто опираются на предыдущие аннотации генома организма; однако эти старые аннотации могут содержать ошибки, которые могут распространяться на новые аннотации. По мере разработки новых технологий анализа генома и появления более богатых баз данных аннотации некоторых старых геномов могут обновляться. Этот процесс, известный как реаннотация, может предоставить пользователям новую информацию о геноме, включая сведения о генах и функциях белков. Поэтому реаннотация является полезным подходом в контроле качества. [56] [58]

Аннотация сообщества

Комьюнити-аннотация заключается в вовлечении сообщества (как научного, так и ненаучного) в проекты по геномной аннотации. Его можно разделить на следующие шесть категорий: [59] [3]

Говорят, что аннотация сообщества контролируется, когда есть координатор, который управляет проектом, запрашивая аннотацию определенных элементов у выбранного числа экспертов. С другой стороны, когда любой может войти в проект, а координация осуществляется децентрализованным образом, это называется неконтролируемой аннотацией сообщества. Контролируемая аннотация сообщества недолговечна и ограничена продолжительностью события, тогда как неконтролируемый аналог не имеет этого ограничения. Однако последняя была менее успешной, чем первая, предположительно из-за нехватки времени, мотивации, стимула и/или коммуникации. [61]

В Википедии есть несколько WikiProjects, направленных на улучшение аннотации. Например, Gene WikiProject управляет ботом , который собирает данные о генах из исследовательских баз данных и создает на этой основе генные заглушки . [62] RNA WikiProject стремится писать статьи, которые описывают отдельные РНК и семейства РНК доступным способом. [63]

Приложения

Диагностика заболеваний

Gene Ontology используется исследователями для установления связи между генами и заболеваниями, поскольку GO помогает идентифицировать новые гены, изменения в их экспрессии, распределении и функционировании при различных наборах условий, таких как больные и здоровые. [41] Были созданы базы данных этих связей между генами и заболеваниями различных организмов, такие как Plant-Pathogen Ontology, [64] Plant-Associated Microbe Gene Ontology [65] или DisGeNET. [66] А некоторые другие были реализованы в уже существующих базах данных, таких как Rat Disease Ontology в базе данных Rat Genome. [67]

Биоремедиация

Большое разнообразие катаболических ферментов, участвующих в деградации углеводородов некоторыми бактериальными штаммами, кодируется генами, расположенными в их мобильных генетических элементах (МГЭ). Изучение этих элементов имеет большое значение в области биоремедиации, поскольку в последнее время предпринимаются попытки инокуляции диких или генетически модифицированных штаммов этими МГЭ с целью приобретения этих возможностей деградации углеводородов. [68] В 2013 году Фейл и др. [69] опубликовали аннотацию генома штамма Pseudomonas putida (CSV86), бактерии, известной своим предпочтением нафталина и других ароматических соединений вместо глюкозы в качестве источника углерода и энергии. Чтобы найти МГЭ этой бактерии, ее геном был аннотирован с использованием RAST и NCBI Prokaryotic Genome Annotation Pipeline (PGAP), а идентификация девяти мобильных элементов стала возможной с помощью базы данных Insertion Sequence (IS) Finder. Этот анализ привел к локализации генов верхнего пути деградации нафталина [70] прямо рядом с генами, кодирующими тРНК-Гли и интегразу, а также к идентификации генов, кодирующих ферменты, участвующие в деградации салицилата , бензоата , 4-гидроксибензоата , фенилуксусной кислоты , гидроксифенилуксусной кислоты, и распознаванию оперона , участвующего в транспорте глюкозы в штамме.

Анализ генной онтологии имеет большое значение в функциональной аннотации, и, в частности, в биоремедиации его можно применять для изучения взаимосвязей между генами некоторых микроорганизмов с их функциями и их ролью в ремедиации определенных загрязнителей. Такой подход был использован при исследовании и идентификации штамма Halomonas zincidurans B6(T), бактерии с тридцатью одним геном, кодирующим устойчивость к тяжелым металлам , особенно цинку [71] и Stenotrophomonas sp. DDT-1, штамма, способного использовать ДДТ в качестве единственного источника углерода и энергии [72] , чтобы упомянуть несколько примеров.

Программное обеспечение

Гены в эукариотическом геноме могут быть аннотированы с помощью различных инструментов аннотации [73], таких как FINDER. [74] Современный конвейер аннотации может поддерживать удобный веб-интерфейс и программную контейнеризацию, такую ​​как MOSGA. [75] [76] Современные конвейеры аннотации для прокариотических геномов — это Bakta, [77] Prokka [51] и PGAP. [78]

Национальный центр биомедицинской онтологии разрабатывает инструменты для автоматизированного аннотирования [79] записей базы данных на основе текстовых описаний этих записей.

В качестве общего метода dcGO [80] имеет автоматизированную процедуру статистического вывода ассоциаций между терминами онтологии и доменами белков или комбинациями доменов из существующих аннотаций на уровне генов/белков.

Разработано множество программных инструментов, позволяющих ученым просматривать и обмениваться аннотациями генома, например, MAKER.

Аннотация генома является активной областью исследований и включает ряд различных организаций в сообществе естественных наук, которые публикуют результаты своих усилий в общедоступных биологических базах данных, доступных через Интернет и другие электронные средства. Ниже приведен алфавитный список текущих проектов, относящихся к аннотации генома:

Ссылки

  1. ^ Zheng S, Poczai P, Hyvönen J, Tang J, Amiryousefi A (2020). «Chloroplot: онлайн- программа для универсального построения графиков геномов органелл». Frontiers in Genetics . 11 (576124): 576124. doi : 10.3389/fgene.2020.576124 . PMC  7545089. PMID  33101394.
  2. ^ abcdef Домингес Дель Анхель В., Хьерде Э., Стерк Л., Капелла-Гутьеррес С., Нотредам С., Виннер Петтерссон О. и др. (5 февраля 2018 г.). «Десять шагов, чтобы начать сборку и аннотацию генома». F1000Исследования . 7 (148): 148. дои : 10.12688/f1000research.13598.1 . ПМК 5850084 . ПМИД  29568489. 
  3. ^ abcde Stein L (июль 2001 г.). «Аннотация генома: от последовательности к биологии». Nature Reviews. Genetics . 2 (7): 493–503. doi :10.1038/35080529. PMID  11433356. S2CID  12044602.
  4. ^ Davis CP (29 марта 2021 г.). «Медицинское определение аннотации генома». MedicineNet . Архивировано из оригинала 9 февраля 2023 г. Получено 17 апреля 2023 г.
  5. ^ Koonin E, Galperin MY (2003). "Genome Annotation and Analysis". Последовательность — Эволюция — Функция (1-е изд.). Springer US. стр. 193–226. doi :10.1007/978-1-4757-3783-7_6. ISBN 978-1-4757-3783-7.
  6. ^ ab Mishra P, Maurya R, Avashthi H, Mittal S, Chandra M, Ramteke PW (2021). «Сборка генома и аннотация». В Singh DB, Pathak RK (ред.). Биоинформатика: методы и приложения (1-е изд.). Elsevier Science. стр. 49–66. doi :10.1016/B978-0-323-89775-4.00013-4. ISBN 9780323897754.
  7. ^ ab Bright LA, Burgess SC, Chowdhary B, Swiderski CE, McCarthy FM (октябрь 2009 г.). "Структурная и функциональная аннотация олигомассива всего генома лошади". BMC Bioinformatics . 10 (Suppl 11): S8. doi : 10.1186/1471-2105-10-S11-S8 . PMC 3226197. PMID  19811692 . 
  8. ^ Reed JL, Famili I, Thiele I, Palsson BO (февраль 2006 г.). «На пути к многомерной аннотации генома». Nature Reviews. Genetics . 7 (2): 130–141. doi :10.1038/nrg1769. PMID  16418748. S2CID  13107786.
  9. ^ abcd Abril JF, Castellano S (2019). «Аннотация генома». В Ranganathan S, Nakai K, Schonbach C, Gribskov M (ред.). Энциклопедия биоинформатики и вычислительной биологии (1-е изд.). Elsevier Science. стр. 195–209. doi :10.1016/B978-0-12-809633-8.20226-4. ISBN 978-0-12-811432-2. S2CID  226248103.
  10. ^ abcd Татусова Т, ДиКуччио М, Бадретдин А, Четвернин В, Навроцкий Е.П., Заславский Л и др. (август 2016 г.). "NCBI prokaryotic genome annotation pipeline". Nucleic Acids Research . 44 (14): 6614–6624. doi :10.1093/nar/gkw569. PMC 5001611. PMID 27342282  . 
  11. ^ Staden R (ноябрь 1977 г.). «Обработка данных о последовательностях с помощью компьютера». Nucleic Acids Research . 4 (11): 4037–4051. doi :10.1093/nar/4.11.4037. PMC 343220. PMID  593900 . 
  12. ^ Staden R, McLachlan AD (январь 1982). «Предпочтение кодонов и его использование при идентификации областей кодирования белков в длинных последовательностях ДНК». Nucleic Acids Research . 10 (1): 141–156. doi :10.1093/nar/10.1.141. PMC 326122. PMID  7063399 . 
  13. ^ ab Gribskov M, Devereux J, Burgess RR (январь 1984). «График предпочтения кодонов: графический анализ последовательностей кодирования белков и предсказание экспрессии генов». Nucleic Acids Research . 12 (1 Pt 2): 539–549. doi :10.1093/nar/12.1part2.539. PMC 321069. PMID  6694906. 
  14. ^ Fickett JW (август 1996). «Поиск генов с помощью компьютера: современное состояние». Trends in Genetics . 12 (8): 316–320. doi :10.1016/0168-9525(96)10038-X. PMID  8783942.
  15. ^ Grosjean H, Fiers W (июнь 1982). «Предпочтительное использование кодонов в прокариотических генах: оптимальная энергия взаимодействия кодона и антикодона и селективное использование кодонов в эффективно экспрессируемых генах». Gene . 18 (3): 199–209. doi :10.1016/0378-1119(82)90157-3. PMID  6751939.
  16. ^ Grantham R, Gautier C, Gouy M, Mercier R, Pavé A (январь 1980 г.). «Использование каталога кодонов и гипотеза генома». Nucleic Acids Research . 8 (1): r49–r62. doi :10.1093/nar/8.1.197-c. PMC 327256. PMID 6986610  . 
  17. ^ Лукашин АВ, Бородовский М (февраль 1998). "GeneMark.hmm: новые решения для поиска генов". Nucleic Acids Research . 26 (4): 1107–1115. doi :10.1093/nar/26.4.1107. PMC 147337. PMID 9461475  . 
  18. ^ Salzberg SL, Delcher AL, Kasif S, White O (январь 1998). «Идентификация микробных генов с использованием интерполированных марковских моделей». Nucleic Acids Research . 26 (2): 544–548. doi : 10.1093/nar/26.2.544. PMC 147303. PMID  9421513. 
  19. ^ abcdefgh Soh J, Gordon PM, Sensen CW (4 сентября 2012 г.). Аннотация генома. Нью-Йорк: Chapman and Hall/CRC. doi :10.1201/b12682. ISBN 9780429064012. Архивировано из оригинала 18 апреля 2023 г. . Получено 18 апреля 2023 г. .
  20. ^ ab Brent MR (декабрь 2005 г.). «Прошлое, настоящее и будущее аннотации генома: как определить ORF в каждом локусе». Genome Research . 15 (12): 1777–1786. doi : 10.1101/gr.3866105 . PMID  16339376.
  21. ^ Консорциум проекта ENCODE (апрель 2011 г.). Becker PB (ред.). «Руководство пользователя по энциклопедии элементов ДНК (ENCODE)». PLOS Biology . 9 (4): e1001046. doi : 10.1371/journal.pbio.1001046 . PMC 3079585. PMID  21526222 .  Значок открытого доступа
  22. ^ Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE и др. (ноябрь 2012 г.). «Интегрированная карта генетической изменчивости 1092 человеческих геномов». Nature . 491 (7422): 56–65. Bibcode :2012Natur.491...56T. doi :10.1038/nature11632. PMC 3498066 . PMID  23128226. 
  23. ^ ab Kahl G (2015). Словарь геномики, транскриптомики и протеомики (Пятое издание). Weinheim: Wiley. doi :10.1002/9783527678679. ISBN 9783527678679. Архивировано из оригинала 4 августа 2022 . Получено 24 апреля 2023 .
  24. ^ abcde Янделл М., Энс Д. (апрель 2012 г.). «Руководство для начинающих по аннотации эукариотических геномов». Nature Reviews. Genetics . 13 (5): 329–342. doi :10.1038/nrg3174. PMID  22510764. S2CID  3352427.
  25. ^ Treangen TJ, Abraham AL, Touchon M, Rocha EP (май 2009 г.). «Происхождение, эффекты и судьбы повторов в прокариотических геномах». FEMS Microbiology Reviews . 33 (3): 539–571. doi : 10.1111/j.1574-6976.2009.00169.x . PMID  19396957.
  26. ^ Liehr T (февраль 2021 г.). «Повторяющиеся элементы у людей». International Journal of Molecular Sciences . 22 (4): 2072. doi : 10.3390 /ijms22042072 . PMC 7922087. PMID  33669810. 
  27. ^ Bergman CM, Quesneville H (ноябрь 2007 г.). «Обнаружение и обнаружение мобильных элементов в последовательностях генома». Briefings in Bioinformatics . 8 (6): 382–392. doi : 10.1093/bib/bbm048 . PMID  17932080.
  28. ^ abc Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (август 2010 г.). «Аннотирование некодирующих регионов генома». Nature Reviews. Genetics . 11 (8): 559–571. doi :10.1038/nrg2814. PMID  20628352. S2CID  6617359.
  29. ^ Эдгар RC (октябрь 2010 г.). «Поиск и кластеризация на порядок быстрее, чем BLAST». Биоинформатика . 26 (19): 2460–2461. doi : 10.1093/bioinformatics/btq461 . PMID  20709691.
  30. ^ Эдгар Р. "Маскировка последовательности". drive5.com . Архивировано из оригинала 3 февраля 2020 г. . Получено 25 апреля 2023 г. .
  31. ^ abcde Ejigu GF, Jung J (сентябрь 2020 г.). «Обзор вычислительной геномной аннотации последовательностей, полученных с помощью секвенирования следующего поколения». Биология . 9 (9): 295. doi : 10.3390/biology9090295 . PMC 7565776. PMID  32962098 . 
  32. ^ Garber M, Grabherr MG, Guttman M, Trapnell C (июнь 2011 г.). «Вычислительные методы аннотации и количественной оценки транскриптома с использованием РНК-секвенирования». Nature Methods . 8 (6): 469–477. doi :10.1038/nmeth.1613. PMID  21623353. S2CID  205419756.
  33. ^ Gupta N, Tanner S, Jaitly N, Adkins JN, Lipton M, Edwards R и др. (сентябрь 2007 г.). «Полноценный протеомный анализ посттрансляционных модификаций: применение масс-спектрометрии для протеогеномной аннотации». Genome Research . 17 (9): 1362–1377. doi :10.1101/gr.6427907. PMC 1950905 . PMID  17690205. 
  34. ^ De Bona F, Ossowski S, Schneeberger K, Rätsch G (август 2008 г.). «Оптимальные сплайсированные выравнивания коротких последовательностей прочтений». Биоинформатика . 24 (16): i174–i180. doi : 10.1093/bioinformatics/btn300 . PMID  18689821.
  35. ^ Trapnell C, Pachter L, Salzberg SL (май 2009 г.). «TopHat: обнаружение сплайс-соединений с помощью RNA-Seq». Биоинформатика . 25 (9): 1105–1111. doi :10.1093/bioinformatics/btp120. PMC 2672628. PMID  19289445 . 
  36. ^ Крижанович К, Эччики А, Ру Дж, Шикич М (март 2018 г.). «Оценка инструментов для выравнивания с учетом сплайсинга длинных прочтений РНК-секвенирования». Биоинформатика . 34 (5): 748–754. doi :10.1093/bioinformatics/btx668. PMC 6192213 . PMID  29069314. 
  37. ^ McHardy AC, Kloetgen A (2017). «Поиск генов в последовательности генома». В Keith JM (ред.). Биоинформатика . Методы в молекулярной биологии. Т. 1525 (второе изд.). Нью-Йорк: Springer. стр. 271–291. doi :10.1007/978-1-4939-6622-6_11. ISBN 978-1-4939-6622-6. PMID  27896725.
  38. ^ Brent MR, Guigó R (июнь 2004 г.). «Последние достижения в предсказании структуры гена». Current Opinion in Structural Biology . 14 (3): 264–272. doi :10.1016/j.sbi.2004.05.007. PMID  15193305.
  39. ^ Binns D, Dimmer E, Huntley R, Barrell D, O'Donovan C, Apweiler R (ноябрь 2009 г.). «QuickGO: веб-инструмент для поиска в области генной онтологии». Bioinformatics . 25 (22): 3045–3046. doi :10.1093/bioinformatics/btp536. PMC 2773257 . PMID  19744993. 
  40. ^ abc Vu TT, Jung J (2021). «Прогнозирование функции белка с помощью онтологии генов: от традиционных моделей к моделям глубокого обучения». PeerJ . 9 : e12019. doi : 10.7717/peerj.12019 . PMC 8395570 . PMID  34513334. 
  41. ^ ab Saxena R, Bishnoi R, Singla D (2021). «Онтология генов: применение и важность в функциональной аннотации геномных данных». В Singh B, Pathak RK (ред.). Биоинформатика: методы и приложения . Лондон: Academic Press. стр. 145–157. doi :10.1016/B978-0-323-89775-4.00015-8. ISBN 978-0-323-89775-4.
  42. ^ ab Zhao Y, Wang J, Chen J, Zhang X, Guo M, Yu G (2020). «Обзор литературы по предсказанию функций генов с помощью моделирования онтологии генов». Frontiers in Genetics . 11 : 400. doi : 10.3389/fgene.2020.00400 . PMC 7193026. PMID  32391061 . 
  43. ^ Sasson O, Kaplan N, Linial M (июнь 2006 г.). «Предсказание функциональной аннотации: все за одного и один за всех». Protein Science . 15 (6): 1557–1562. doi :10.1110/ps.062185706. PMC 2242553 . PMID  16672244. 
  44. ^ Синха С., Линн А. М., Десаи Д. К. (октябрь 2020 г.). «Реализация вычислительных методов на основе гомологии и негомологии для идентификации и аннотации ферментов-сирот: использование Mycobacterium tuberculosis H37Rv в качестве примера». BMC Bioinformatics . 21 (1): 466. doi : 10.1186/s12859-020-03794-x . PMC 574302 . PMID  33076816. 
  45. ^ Летовски С., Касиф С. (2003). «Предсказание функции белка по данным взаимодействия белок/белок: вероятностный подход». Биоинформатика . 19 (Приложение 1): i197–i204. doi : 10.1093/bioinformatics/btg1026 . PMID  12855458.
  46. ^ Dainat J, Pontarotti P (2021). «Методы идентификации и изучения эволюции псевдогенов с использованием филогенетического подхода» (PDF) . В Poliseno L (ред.). Псевдогены . Методы в молекулярной биологии. Т. 2324 (второе изд.). Нью-Йорк: Springer. стр. 21–34. doi :10.1007/978-1-0716-1503-4_2. ISBN 978-1-0716-1503-4. PMID  34165706. S2CID  235625288.
  47. ^ Numanagic I, Gökkaya AS, Zhang L, Berger B, Alkan C, Hach F (сентябрь 2018 г.). «Быстрая характеристика сегментных дупликаций в геномных сборках». Биоинформатика . 34 (17): i706–i714. doi :10.1093/bioinformatics/bty586. PMC 6129265. PMID  30423092 . 
  48. ^ Hartasánchez DA, Brasó-Vives M, Heredia-Genestar JM, Pybus M, Navarro A (ноябрь 2018 г.). «Влияние разрушенных дупликаций на оценки разнообразия: чего ожидать». Genome Biology and Evolution . 10 (11): 2899–2905. doi :10.1093/gbe/evy223. PMC 6239678. PMID 30364947  . 
  49. ^ Si J, Zhao R, Wu R (март 2015 г.). «Обзор прогнозирования участков связывания белковой ДНК». International Journal of Molecular Sciences . 16 (3): 5194–5215. doi : 10.3390/ijms16035194 . PMC 4394471. PMID  25756377 . 
  50. ^ Гриффитс-Джонс С. (2007). «Аннотирование некодирующих РНК-генов». Annual Review of Genomics and Human Genetics . 8 : 279–298. doi :10.1146/annurev.genom.8.080706.092419. PMID  17506659.
  51. ^ ab Seemann T (июль 2014 г.). «Prokka: быстрая аннотация прокариотического генома». Биоинформатика . 30 (14): 2068–2069. doi :10.1093/bioinformatics/btu153. PMID  24642063.
  52. ^ Валеев Т, Евшин И, Колпаков Ф (2013). "BioUML Genome Browser". Виртуальная биология . 1 (1): 15. doi : 10.12704/vb/e8 .
  53. ^ Szot PS, Yang A, Wang X, Parsania C, Röhm U, Wong KH, Ho JW (май 2017 г.). "PBrowse: веб-платформа для совместного исследования геномных данных в реальном времени". Nucleic Acids Research . 45 (9): e67. doi :10.1093/nar/gkw1358. PMC 5605237. PMID  28100700 . 
  54. ^ Wang J, Kong L, Gao G, Luo J (март 2013 г.). «Краткое введение в веб-браузеры генома». Briefings in Bioinformatics . 14 (2): 131–143. doi : 10.1093/bib/bbs029 . PMID  22764121.
  55. ^ Jung J, Kim JI, Yi G (декабрь 2019 г.). «geneCo: визуализированный сравнительный геномный метод анализа множественных структур генома». Биоинформатика . 35 (24): 5303–5305. doi :10.1093/bioinformatics/btz596. PMC 6954651. PMID  31350879 . 
  56. ^ ab Ouzounis CA, Karp PD (2002). "Прошлое, настоящее и будущее полногеномной реаннотации". Genome Biology . 3 (2): COMMENT2001. doi : 10.1186/gb-2002-3-2-comment2001 . PMC 139008. PMID  11864365 . 
  57. ^ "Manual Annotation - Wellcome Sanger Institute". www.sanger.ac.uk . Архивировано из оригинала 2 февраля 2023 г. . Получено 28 марта 2023 г. .
  58. ^ Siezen RJ, van Hijum SA (июль 2010 г.). «Геномная (ре)аннотация и конвейеры аннотации с открытым исходным кодом». Microbial Biotechnology . 3 (4): 362–369. doi :10.1111/j.1751-7915.2010.00191.x. PMC 3815804 . PMID  21255336. 
  59. ^ Loveland JE, Gilbert JG, Griffiths E, Harrow JL (2012). «Аннотация генов сообщества на практике». База данных . 2012 (2012): bas009. doi :10.1093/database/bas009. PMC 3308165. PMID  22434843 . 
  60. ^ Hartl DL (апрель 2000 г.). «Муха встречает дробовик: дробовик побеждает». Nature Genetics . 24 (4): 327–328. doi :10.1038/74125. PMID  10742085. S2CID  5354139.
  61. ^ Mazumder R, Natale DA, Julio JA, Yeh LS, Wu CH (февраль 2010 г.). «Аннотация сообщества в биологии». Biology Direct . 5 (1): 12. doi : 10.1186/1745-6150-5-12 . PMC 2834641. PMID  20167071 . 
  62. ^ Huss JW, Orozco C, Goodale J, Wu C, Batalov S, Vickers TJ и др. (июль 2008 г.). «Вики-сайт генов для аннотации функций генов сообществом». PLOS Biology . 6 (7): e175. doi : 10.1371/journal.pbio.0060175 . PMC 2443188. PMID  18613750 . 
  63. ^ Дауб Дж., Гарднер П.П., Тейт Дж., Рамшельд Д., Манске М., Скотт В.Г. и др. (декабрь 2008 г.). «Википроект РНК: аннотации сообщества семейств РНК». РНК . 14 (12): 2462–2464. дои : 10.1261/rna.1200508. ПМК 2590952 . ПМИД  18945806. 
  64. ^ Купер Л., Джайсвал П. (2016). «Онтология растений: инструмент для геномики растений». В Эдвардс Д. (ред.). Биоинформатика растений . Методы в молекулярной биологии. Т. 1374 (2-е изд.). Тотова, Нью-Джерси: Humana Press. стр. 89–114. doi :10.1007/978-1-4939-3167-5_5. ISBN 978-1-4939-3167-5. PMID  26519402.
  65. ^ Torto-Alalibo T, Collmer CW, Gwinn-Giglio M (февраль 2009 г.). "Консорциум по онтологии генов, связанных с растениями (PAMGO): разработка сообществом новых терминов онтологии генов, описывающих биологические процессы, вовлеченные во взаимодействия микроба и хозяина". BMC Microbiology . 9 (Suppl 1): S1. doi : 10.1186/1471-2180-9-S1-S1 . PMC 2654661 . PMID  19278549. 
  66. ^ Пиньеро Дж., Рамирес-Ангита Х.М., Сауч-Питарх Дж., Ронсано Ф., Сентено Э., Санс Ф., Ферлонг Л.И. (январь 2020 г.). «Платформа знаний DisGeNET для геномики заболеваний: обновление 2019 года». Исследования нуклеиновых кислот . 48 (Д1): Д845–Д855. дои : 10.1093/nar/gkz1021. ПМЦ 7145631 . ПМИД  31680165. 
  67. ^ Hayman GT, Laulederkind SJ, Smith JR, Wang SJ, Petri V, Nigam R и др. (2016). «Порталы болезней, аннотация генов болезней и онтология болезней RGD в базе данных генома крысы». База данных . 2016 : baw034. doi :10.1093/database/baw034. PMC 4805243 . PMID  27009807. 
  68. ^ Top EM, Springael D, Boon N (ноябрь 2002 г.). «Катаболические мобильные генетические элементы и их потенциальное использование в биоаугментации загрязненных почв и вод». FEMS Microbiology Ecology . 42 (2): 199–208. doi : 10.1111/j.1574-6941.2002.tb01009.x . hdl : 1854/LU-348539 . PMID  19709279. S2CID  15173391.
  69. ^ Phale PS, Paliwal V, Raju SC, Modak A, Purohit HJ (январь 2013 г.). «Геномная последовательность почвенной бактерии Pseudomonas putida CSV86, разрушающей нафталин». Genome Announcements . 1 (1): 234–235. doi :10.1128/genomeA.00234-12. PMC 3587945 . PMID  23469351. 
  70. ^ Trivedi VD, Jangir PK, Sharma R, Phale PS (декабрь 2016 г.). "Взгляд на функциональный и эволюционный анализ пути метаболизма карбарила из штамма Pseudomonas sp. C5pp". Scientific Reports . 6 (1): 38430. Bibcode :2016NatSR...638430T. doi :10.1038/srep38430. PMC 5141477 . PMID  27924916. 
  71. ^ Huo YY, Li ZY, Cheng H, Wang CS, Xu XW (2014). "Высококачественная черновая последовательность генома устойчивой к тяжелым металлам бактерии Halomonas zincidurans типа штамма B6(T)". Стандарты в геномных науках . 9 (30): 30. doi : 10.1186/1944-3277-9-30 . PMC 4286145. PMID  25945155 . 
  72. ^ Pan X, Lin D, Zheng Y, Zhang Q, Yin Y, Cai L и др. (февраль 2016 г.). «Биодеградация ДДТ штаммом Stenotrophomonas sp. DDT-1: характеристика и функциональный анализ генома». Scientific Reports . 6 (1): 21332. Bibcode :2016NatSR...621332P. doi :10.1038/srep21332. PMC 4758049 . PMID  26888254. 
  73. ^ GAAS, NBIS — Национальная инфраструктура биоинформатики Швеции, 13 апреля 2022 г. , получено 25 апреля 2022 г.
  74. ^ Банерджи С., Бхандари П., Вудхаус М., Сен Т.З., Уайз Р.П., Андорф К.М. (апрель 2021 г.). «FINDER: автоматизированный программный пакет для аннотации эукариотических генов из данных РНК-Seq и связанных с ними последовательностей белков». BMC Bioinformatics . 22 (1): 205. doi : 10.1186/s12859-021-04120-9 . PMC 8056616. PMID  33879057 . 
  75. ^ Мартин Р., Хакл Т., Хаттаб Г., Фишер М.Г., Хайдер Д. (апрель 2021 г.). Бирол I (ред.). «МОСГА: Модульный аннотатор генома с открытым исходным кодом». Биоинформатика . 36 (22–23): 5514–5515. doi : 10.1093/биоинформатика/btaa1003. hdl : 21.11116/0000-0006-FED4-D . ПМИД  33258916.
  76. ^ Мартин Р. "MOSGA". mosga.mathematik.uni-marburg.de . Получено 25 апреля 2022 г. .
  77. ^ Schwengers O, Jelonek L, Dieckmann MA, Beyvers S, Blom J, Goesmann A (ноябрь 2021 г.). «Bakta: быстрая и стандартизированная аннотация бактериальных геномов с помощью идентификации последовательностей без выравнивания». Microbial Genomics . 7 (11). doi : 10.1099/mgen.0.000685 . PMC 8743544 . PMID  34739369. 
  78. ^ Li W, O'Neill KR, Haft DH, DiCuccio M, Chetvernin V, Badretdin A и др. (январь 2021 г.). «RefSeq: расширение охвата конвейера аннотации прокариотического генома с помощью курирования модели семейства белков». Nucleic Acids Research . 49 (D1): D1020–D1028. doi :10.1093/nar/gkaa1105. PMC 7779008. PMID 33270901  . 
  79. ^ "NCBO Annotator". ncbo.bioontology.org . Получено 8 февраля 2023 г. .
  80. ^ Fang H, Gough J (январь 2013 г.). «DcGO: база данных доменно-ориентированных онтологий по функциям, фенотипам, заболеваниям и т. д.». Nucleic Acids Research . 41 (выпуск базы данных): D536–D544. doi :10.1093/nar/gks1080. PMC 3531119. PMID  23161684 .