В вычислительной биологии предсказание генов или поиск генов относится к процессу идентификации областей геномной ДНК, которые кодируют гены . Это включает в себя гены , кодирующие белки , а также гены РНК , но может также включать предсказание других функциональных элементов, таких как регуляторные области . Обнаружение генов является одним из первых и наиболее важных шагов в понимании генома вида после его секвенирования .
На заре своего существования «поиск генов» основывался на кропотливых экспериментах над живыми клетками и организмами. Статистический анализ скорости гомологичной рекомбинации нескольких различных генов мог бы определить их порядок на определенной хромосоме , а информацию из многих таких экспериментов можно было бы объединить для создания генетической карты , определяющей приблизительное расположение известных генов относительно друг друга. Сегодня, когда в распоряжении исследовательского сообщества имеется комплексная последовательность генома и мощные вычислительные ресурсы, поиск генов был переопределен как преимущественно вычислительная задача.
Определение функциональности последовательности следует отличать от определения функции гена или его продукта. Прогнозирование функции гена и подтверждение того, что предсказание гена является точным, по-прежнему требует экспериментов in vivo [1] с помощью нокаута гена и других анализов, хотя границы биоинформатических исследований [2] делают все более возможным прогнозирование функции гена на основе только на его последовательности.
Прогнозирование гена — один из ключевых этапов аннотации генома , следующий за сборкой последовательности , фильтрацией некодирующих областей и маскированием повторов. [3]
Прогнозирование генов тесно связано с так называемой «проблемой поиска цели», изучающей, как ДНК-связывающие белки ( факторы транскрипции ) находят специфические сайты связывания в геноме . [4] [5] Многие аспекты предсказания структуры генов основаны на современном понимании основных биохимических процессов в клетке , таких как транскрипция генов , трансляция , белок-белковые взаимодействия и процессы регуляции , которые являются предметом активных исследований в различных областях омики. такие как транскриптомика , протеомика , метаболомика и, в более общем смысле, структурная и функциональная геномика .
В эмпирических (сходстве, гомологии или научно обоснованных) системах поиска генов целевой геном ищет последовательности, сходные с внешними данными, в форме известных экспрессируемых меток последовательностей , информационной РНК (мРНК), белковых продуктов и гомологичных или ортологичные последовательности. Имея последовательность мРНК, легко получить уникальную последовательность геномной ДНК, из которой она должна была быть транскрибирована . Учитывая последовательность белка, семейство возможных кодирующих последовательностей ДНК может быть получено путем обратной трансляции генетического кода . После того, как последовательности ДНК-кандидаты определены, становится относительно простой алгоритмической задачей эффективный поиск совпадений в целевом геноме, полных или частичных, точных или неточных. Учитывая последовательность, алгоритмы локального выравнивания, такие как BLAST , FASTA и Smith-Waterman, ищут области сходства между целевой последовательностью и возможными совпадениями-кандидатами. Совпадения могут быть полными или частичными, точными или неточными. Успех этого подхода ограничен содержанием и точностью базы данных последовательностей.
Высокая степень сходства с известной информационной РНК или белковым продуктом является убедительным доказательством того, что участок целевого генома является геном, кодирующим белок. Однако системное применение этого подхода требует обширного секвенирования мРНК и белковых продуктов. Это не только дорого, но и в сложных организмах в любой момент времени экспрессируется только часть всех генов в геноме организма, а это означает, что внешние доказательства существования многих генов трудно доступны в какой-либо отдельной клеточной культуре. Таким образом, для сбора внешних доказательств существования большинства или всех генов в сложном организме требуется изучение многих сотен или тысяч типов клеток , что представляет дополнительные трудности. Например, некоторые человеческие гены могут экспрессироваться только во время развития эмбриона или плода, что может быть трудно изучить по этическим причинам.
Несмотря на эти трудности, были созданы обширные базы данных транскриптов и последовательностей белков для человека, а также для других важных модельных организмов в биологии, таких как мыши и дрожжи. Например, база данных RefSeq содержит транскрипты и последовательности белков многих различных видов, а система Ensembl всесторонне сопоставляет эти данные с геномами человека и некоторых других видов. Однако вполне вероятно, что эти базы данных неполны и содержат небольшое, но значительное количество ошибочных данных.
Новые высокопроизводительные технологии секвенирования транскриптома , такие как RNA-Seq и ChIP-секвенирование, открывают возможности для включения дополнительных внешних данных в прогнозирование и проверку генов, а также обеспечивают структурно богатую и более точную альтернативу предыдущим методам измерения экспрессии генов , таким как метка экспрессируемой последовательности или ДНК-микрочип .
Основные проблемы, связанные с предсказанием генов, связаны с ошибками секвенирования необработанных данных ДНК, зависимостью от качества сборки последовательности , обработкой коротких чтений, мутациями сдвига рамки считывания , перекрывающимися генами и неполными генами.
У прокариот при поиске гомологии последовательностей генов важно учитывать горизонтальный перенос генов . Дополнительным важным фактором, недостаточно используемым в современных инструментах обнаружения генов, является существование кластеров генов — оперонов (которые представляют собой функциональные единицы ДНК , содержащие кластер генов под контролем одного промотора ) как у прокариот, так и у эукариот. Большинство популярных детекторов генов рассматривают каждый ген изолированно, независимо от других, что не является биологически точным.
Прогнозирование генов Ab Initio — это внутренний метод, основанный на содержании генов и обнаружении сигналов. Из-за неизбежных затрат и трудностей в получении внешних доказательств для многих генов также необходимо прибегнуть к поиску генов ab initio , при котором только последовательность геномной ДНК систематически ищет определенные контрольные признаки генов, кодирующих белок. Эти признаки можно в общих чертах разделить на либо сигналы , специфические последовательности, которые указывают на присутствие поблизости гена, либо содержание , статистические свойства самой последовательности, кодирующей белок. Обнаружение генов ab initio можно было бы более точно охарактеризовать как предсказание генов , поскольку для окончательного установления того, что предполагаемый ген функционален, обычно требуются внешние доказательства.
В геномах прокариот гены имеют специфические и относительно хорошо изученные промоторные последовательности (сигналы), такие как бокс Прибнова и сайты связывания транскрипционных факторов , которые легко систематически идентифицировать. Кроме того, последовательность, кодирующая белок, представляет собой одну непрерывную открытую рамку считывания (ORF), длина которой обычно составляет многие сотни или тысячи пар оснований . Статистика стоп-кодонов такова, что даже обнаружение открытой рамки считывания такой длины является достаточно информативным признаком. (Поскольку 3 из 64 возможных кодонов в генетическом коде являются стоп-кодонами, можно было бы ожидать, что стоп-кодон будет появляться примерно через каждые 20–25 кодонов, или 60–75 пар оснований, в случайной последовательности .) Более того, ДНК, кодирующая белок, имеет определенные периодичности и другие статистические свойства, которые легко обнаружить в последовательности такой длины. Эти характеристики делают поиск генов прокариот относительно простым, а хорошо спроектированные системы способны достичь высокого уровня точности.
Обнаружение генов ab initio у эукариот , особенно у таких сложных организмов, как человек, значительно сложнее по нескольким причинам. Во-первых, промотор и другие регуляторные сигналы в этих геномах более сложны и менее понятны, чем у прокариот, что затрудняет их надежное распознавание. Двумя классическими примерами сигналов, идентифицированных с помощью средств поиска эукариотических генов, являются CpG-островки и сайты связывания поли(А)-хвоста .
Во-вторых, механизмы сплайсинга , используемые эукариотическими клетками, означают, что определенная кодирующая белок последовательность в геноме делится на несколько частей ( экзонов ), разделенных некодирующими последовательностями ( интронами ). (Сайты сплайсинга сами по себе являются еще одним сигналом, который часто предназначены для идентификации эукариотических генов.) Типичный ген, кодирующий белок у человека, может быть разделен на дюжину экзонов, каждый из которых имеет длину менее двухсот пар оснований, а некоторые даже короче двадцати. до тридцати. Поэтому гораздо труднее обнаружить периодичности и другие известные свойства содержания белок-кодирующей ДНК у эукариот.
Усовершенствованные специалисты по поиску генов как для прокариотических, так и для эукариотических геномов обычно используют сложные вероятностные модели , такие как скрытые модели Маркова (HMM), для объединения информации из множества различных измерений сигналов и содержания. Система GLIMMER — это широко используемый и высокоточный инструмент для поиска генов прокариот. GeneMark — еще один популярный подход. Для сравнения: эукариотические исследователи генов ab initio добились лишь ограниченного успеха; Яркими примерами являются программы GENSCAN и Geneid. Генеоискатели GeneMark-ES и SNAP основаны на GHMM, как и GENSCAN. Они пытаются решить проблемы, связанные с использованием устройства для поиска генов в последовательности генома, против которой он не был обучен. [7] [8] Некоторые недавние подходы, такие как mSplicer, [9] CONTRAST, [10] или mGene [11] , также используют методы машинного обучения , такие как машины опорных векторов , для успешного предсказания генов. Они строят дискриминационную модель, используя скрытые машины опорных векторов Маркова или условные случайные поля, чтобы изучить точную оценочную функцию предсказания генов.
Методы Ab Initio были протестированы, чувствительность некоторых из них приближается к 100%, [3] однако по мере увеличения чувствительности точность снижается из-за увеличения количества ложных срабатываний .
Среди производных сигналов, используемых для прогнозирования, есть статистика, полученная на основе статистики подпоследовательностей, такая как статистика k-меров , изохора (генетика) или состав/равномерность/энтропия композиционного домена GC, длина последовательности и кадра, интрон/экзон/донор/акцептор/промотор. словарь сайтов связывания рибосом , фрактальная размерность , преобразование Фурье псевдоцифровой ДНК, параметры Z-кривой и некоторые особенности анализа. [12]
Было высказано предположение, что сигналы, отличные от тех, которые непосредственно обнаруживаются в последовательностях, могут улучшить предсказание генов. Например, сообщалось о роли вторичной структуры в идентификации регуляторных мотивов. [13] Кроме того, было высказано предположение, что предсказание вторичной структуры РНК помогает предсказать сайт сплайсинга. [14] [15] [16] [17]
Искусственные нейронные сети — это вычислительные модели, которые превосходно справляются с машинным обучением и распознаванием образов . Нейронные сети должны быть обучены на примерах данных, прежде чем они смогут обобщать экспериментальные данные и тестироваться на основе эталонных данных. Нейронные сети способны находить приблизительные решения проблем, которые трудно решить алгоритмически, при условии достаточного количества обучающих данных. Применительно к предсказанию генов нейронные сети можно использовать наряду с другими методами ab initio для прогнозирования или идентификации биологических особенностей, таких как сайты сплайсинга. [18] Один из подходов [19] предполагает использование скользящего окна, которое перемещает данные последовательности перекрывающимся образом. Выходные данные в каждой позиции представляют собой оценку, основанную на том, считает ли сеть, что окно содержит донорный сайт сплайсинга или акцепторный сайт сплайсинга. Окна большего размера обеспечивают большую точность, но также требуют большей вычислительной мощности. Нейронная сеть является примером датчика сигнала, поскольку ее цель — идентифицировать функциональный участок в геноме.
Такие программы, как Maker, сочетают в себе внешние подходы и подходы ab initio , сопоставляя данные о белках и EST с геномом для проверки предсказаний ab initio . Augustus, который можно использовать как часть конвейера Maker, также может включать подсказки в виде выравниваний EST или профилей белков для повышения точности предсказания генов.
Поскольку полные геномы многих различных видов секвенированы, многообещающим направлением в текущих исследованиях по поиску генов является подход сравнительной геномики .
Это основано на том принципе, что силы естественного отбора заставляют гены и другие функциональные элементы подвергаться мутациям с более медленной скоростью, чем остальная часть генома, поскольку мутации в функциональных элементах с большей вероятностью окажут негативное влияние на организм, чем мутации в других местах. Таким образом, гены можно обнаружить путем сравнения геномов родственных видов, чтобы обнаружить это эволюционное давление, направленное на сохранение. Этот подход был впервые применен к геномам мыши и человека с использованием таких программ, как SLAM, SGP и TWINSCAN/N-SCAN и CONTRAST. [20]
TWINSCAN исследовал только синтению человека и мыши в поисках ортологичных генов. Такие программы, как N-SCAN и CONTRAST, позволяли включать сопоставления нескольких организмов или, в случае N-SCAN, одного альтернативного организма из цели. Использование нескольких информаторов может привести к значительному повышению точности. [20]
КОНТРАСТ состоит из двух элементов. Первый представляет собой классификатор меньшего размера, идентифицирующий донорные сайты сплайсинга и акцепторные сайты сплайсинга, а также стартовые и стоп-кодоны. Второй элемент предполагает построение полной модели с использованием машинного обучения. Разбиение проблемы на две означает, что для обучения классификаторов можно использовать меньшие целевые наборы данных, и этот классификатор может работать независимо и обучаться с меньшими окнами. Полная модель может использовать независимый классификатор, и вам не придется тратить вычислительное время или усложнять модель на повторную классификацию границ интрон-экзон. В статье, в которой представлен КОНТРАСТ, предлагается классифицировать их метод (а также методы TWINSCAN и т. д.) как сборку генов de novo с использованием альтернативных геномов и отличать ее от метода ab initio , который использует целевые геномы-информаторы. [20]
Сравнительный поиск генов также можно использовать для переноса высококачественных аннотаций из одного генома в другой. Яркие примеры включают Projector, GeneWise, GeneMapper и GeMoMa. Такие методы теперь играют центральную роль в аннотации всех геномов.
Псевдогены являются близкими родственниками генов, имеют очень высокую гомологию последовательностей, но не могут кодировать один и тот же белковый продукт. Хотя когда-то их считали побочными продуктами секвенирования генов , но по мере того, как раскрывается их регуляторная роль, они все чаще становятся прогностическими мишенями сами по себе. [21] Прогнозирование псевдогенов использует существующие методы сходства последовательностей и методы ab initio, добавляя при этом дополнительную фильтрацию и методы идентификации характеристик псевдогенов.
Методы сходства последовательностей можно настроить для прогнозирования псевдогенов с использованием дополнительной фильтрации для поиска псевдогенов-кандидатов. Для этого можно использовать обнаружение отключений, которое ищет бессмысленные мутации или мутации сдвига кадра, которые могли бы усечь или свернуть последовательность кодирования, которая в противном случае была бы функциональной. [22] Кроме того, трансляция ДНК в белковые последовательности может быть более эффективной, чем просто прямая гомология ДНК. [21]
Датчики содержания можно фильтровать в соответствии с различиями в статистических свойствах между псевдогенами и генами, такими как уменьшенное количество CpG-островков в псевдогенах или различия в содержании GC между псевдогенами и их соседями. Датчики сигналов также можно настроить на псевдогены, проверяя отсутствие интронов или полиадениновых хвостов. [23]
Метагеномика — это исследование генетического материала, извлеченного из окружающей среды, в результате чего получается информация о последовательностях из пула организмов. Прогнозирование генов полезно для сравнительной метагеномики .
Инструменты метагеномики также попадают в основные категории использования подходов сходства последовательностей (MEGAN4) и методов ab initio (GLIMMER-MG).
Glimmer-MG [24] является расширением GLIMMER , которое в основном основано на ab initio подходе к поиску генов и использовании обучающих наборов родственных организмов. Стратегия прогнозирования дополняется классификацией и кластеризацией наборов данных о генах перед применением методов прогнозирования генов ab initio. Данные сгруппированы по видам. Этот метод классификации использует методы метагеномной филогенетической классификации. Примером программного обеспечения для этой цели является Phymm, который использует интерполированные марковские модели, и PhymmBL, который интегрирует BLAST в процедуры классификации.
MEGAN4 [25] использует подход сходства последовательностей, используя локальное выравнивание по базам данных известных последовательностей, но также пытается классифицировать, используя дополнительную информацию о функциональных ролях, биологических путях и ферментах. Как и при прогнозировании генов одного организма, подходы на основе сходства последовательностей ограничены размером базы данных.
FragGeneScan и MetaGeneAnnotator — популярные программы прогнозирования генов, основанные на скрытой модели Маркова . Эти предикторы учитывают ошибки секвенирования, частичные гены и работают для коротких чтений.
Еще один быстрый и точный инструмент для прогнозирования генов в метагеномах — MetaGeneMark. [26] Этот инструмент используется Объединенным институтом генома Министерства энергетики США для аннотирования IMG/M, крупнейшей на сегодняшний день коллекции метагеномов.