stringtranslate.com

ДжинМарк

GeneMark — это общее название семейства алгоритмов и программ для предсказания генов ab initio , разработанных в Технологическом институте Джорджии в Атланте . Разработанный в 1993 году оригинальный GeneMark использовался в 1995 году в качестве первичного инструмента прогнозирования генов для аннотирования первого полностью секвенированного бактериального генома Haemophilus influenzae , а в 1996 году — для первого архейного генома Methanococcus jannaschii . Алгоритм представил неоднородные трехпериодические модели цепей Маркова последовательности ДНК , кодирующей белок , которые стали стандартными в предсказании генов, а также байесовский подход к предсказанию генов в двух цепях ДНК одновременно. Видоспецифичные параметры моделей оценивались по обучающим наборам последовательностей известного типа (белкокодирующие и некодирующие). Основной этап алгоритма вычисляет для данного фрагмента ДНК апостериорные вероятности того, что он либо «кодирует белок» (несет генетический код ) в каждой из шести возможных рамок считывания (включая три кадра в комплементарной цепи ДНК ), либо «некодирует». ". Оригинальный GeneMark (разработанный до появления приложений HMM в биоинформатике) представлял собой алгоритм, подобный HMM; его можно рассматривать как приближение к известному в теории HMM алгоритму апостериорного декодирования для соответствующим образом определенной модели HMM последовательности ДНК.

Дальнейшее совершенствование алгоритмов предсказания генов в геномах прокариот.

Алгоритм GeneMark.hmm (1998) был разработан для повышения точности предсказания коротких генов и стартов генов. Идея заключалась в том, чтобы использовать модели неоднородных цепей Маркова, представленные в GeneMark, для вычисления правдоподобия последовательностей, испускаемых состояниями скрытой модели Маркова , а точнее полумарковской HMM, или обобщенной HMM, описывающей геномную последовательность. Границы между кодирующими и некодирующими областями формально интерпретировались как переходы между скрытыми состояниями. Кроме того, к модели GHMM была добавлена ​​модель сайта связывания рибосомы для повышения точности прогнозирования начала гена. Следующим важным шагом в разработке алгоритма стало внедрение самообучения или неконтролируемого обучения параметров модели в новом инструменте прогнозирования генов GeneMarkS (2001). Быстрое накопление геномов прокариот в последующие годы показало, что структура паттернов последовательностей, связанных с сигналами регуляции экспрессии генов вблизи стартов генов, может варьироваться. Также было замечено, что геном прокариот может проявлять вариабельность содержания GC из-за латерального переноса генов. Новый алгоритм GeneMarkS-2 был разработан для автоматической корректировки типов паттернов экспрессии генов и изменений содержания GC вдоль геномной последовательности. GeneMarkS, а затем GeneMarkS-2 использовались в конвейере NCBI для аннотации геномов прокариот (PGAP). ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).

Эвристические модели и предсказание генов в метагеномах и метатранскриптомах

Точная идентификация видоспецифичных параметров алгоритма поиска генов является необходимым условием для точного предсказания генов. Однако при исследовании вирусных геномов необходимо оценивать параметры по достаточно короткой последовательности, не имеющей большого геномного контекста. Важно отметить, что начиная с 2004 года тот же вопрос пришлось решать для предсказания генов в коротких метагеномных последовательностях. Удивительно точный ответ был найден путем введения функций генерации параметров, зависящих от одной переменной - содержания последовательности G+C («эврисический метод», 1999). Впоследствии анализ нескольких сотен геномов прокариот привел к разработке в 2010 году более совершенного эвристического метода (реализованного в MetaGeneMark). В дальнейшем необходимость прогнозирования генов в транскриптах РНК привела к разработке GeneMarkST-T (2015), инструмента, который идентифицирует безинтронные гены в длинных последовательностях транскриптов, собранных из считываний RNA-Seq.

Предсказание эукариотических генов

В геномах эукариот моделирование границ экзонов с интронами и межгенными областями представляет собой серьезную проблему. Архитектура GHMM эукариотического GeneMark.hmm включает скрытые состояния для начальных, внутренних и терминальных экзонов, интронов , межгенных областей и генов с одним экзоном, расположенных в обеих цепях ДНК. Первоначальная версия эукариотического GeneMark.hmm требовала ручной компиляции обучающих наборов последовательностей, кодирующих белки, для оценки параметров алгоритма. Однако в 2005 году был разработан первый самообучающийся прибор для поиска эукариотических генов GeneMark-ES. Грибковая версия GeneMark-ES, разработанная в 2008 году, отличается более сложной моделью интронов и иерархической стратегией самообучения. В 2014 году в GeneMark-ET самообучению параметров способствовали внешние подсказки, генерируемые путем сопоставления с короткими чтениями генома RNA-Seq. Внешние доказательства не ограничиваются «нативными» последовательностями РНК. Межвидовые белки, собранные в обширных базах данных белков, могут стать источником внешних подсказок, если будут установлены гомологичные отношения между уже известными белками и белками, кодируемыми еще неизвестными генами в новом геноме. Эта задача была решена при разработке нового алгоритма GeneMark-EP+ (2020). Интеграцию источников РНК и белков внутренних подсказок проводили в GeneMark-ETP (2023). Универсальность и точность средств поиска эукариотических генов семейства GeneMark привели к их включению в ряд конвейеров аннотации генома. Также с 2016 года были разработаны конвейеры BRAKER1, BRAKER2, BRAKER3, объединяющие самые сильные возможности GeneMark и AUGUSTUS.

Примечательно, что предсказание генов в транскриптах эукариот можно выполнить с помощью нового алгоритма GeneMarkST-T (2015).

Семейство программ генного прогнозирования GeneMark

Бактерии, Археи

Метагеномы и метатранскриптомы

Эукариоты

Вирусы, фаги и плазмиды

Транскрипты, собранные из RNA-Seq, читаются.

Смотрите также

Рекомендации

  1. ^ "GeneMark.HMM эукариот" .
  2. ^ "ГенеМарк-ES".
  3. ^ «GeneMark-ET - алгоритм поиска генов в геномах эукариот | Блог RNA-Seq» . 9 июля 2014 г.

Внешние ссылки