В молекулярной биологии открытые рамки считывания ( ORF ) определяются как участки последовательности ДНК между стартовыми и стоп- кодонами . Обычно это рассматривают в пределах изучаемого участка последовательности ДНК прокариот , где только одна из шести возможных рамок считывания будет «открытой» («чтение», однако, относится к РНК, образующейся в результате транскрипции ДНК и ее последующей взаимодействие с рибосомой при трансляции ). Такая ORF может [1] содержать стартовый кодон (обычно AUG в терминах РНК ) и по определению не может выходить за пределы стоп-кодона (обычно UAA, UAG или UGA в РНК). [2] Этот стартовый кодон (не обязательно первый) указывает, где может начаться трансляция. Сайт терминации транскрипции расположен после ORF, за стоп-кодоном трансляции. Если бы транскрипция прекратилась до появления стоп-кодона, во время трансляции образовался бы неполный белок . [3]
В эукариотических генах с несколькими экзонами интроны удаляются , а экзоны затем соединяются вместе после транскрипции, образуя окончательную мРНК для трансляции белка. Таким образом, в контексте поиска генов определение старт-стоп ORF применимо только к сплайсированным мРНК , а не к геномной ДНК, поскольку интроны могут содержать стоп-кодоны и/или вызывать сдвиги между рамками считывания. Альтернативное определение гласит, что ORF — это последовательность, длина которой делится на три и ограничена стоп-кодонами. [1] [4] Это более общее определение может быть полезно в контексте транскриптомики и метагеномики , где стартовый или стоп-кодон может отсутствовать в полученных последовательностях. Такая ORF соответствует частям гена, а не целому гену.
Открытые рамки считывания (ORF) часто используются в качестве доказательства, помогающего прогнозировать гены . Длинные ORF часто используются наряду с другими данными для первоначальной идентификации областей -кандидатов , кодирующих белок , или функциональных областей, кодирующих РНК, в последовательности ДНК . [5] Наличие ORF не обязательно означает, что регион всегда транслируется . Например, в случайно сгенерированной последовательности ДНК с равным процентом каждого нуклеотида стоп -кодон можно ожидать один раз на каждый 21 кодон . [5] Простой алгоритм прогнозирования генов прокариот может искать стартовый кодон, за которым следует открытая рамка считывания, достаточно длинная для кодирования типичного белка, где использование кодонов в этой области соответствует частотной характеристике кодирующих областей данного организма. [5] Поэтому некоторые авторы говорят, что ORF должна иметь минимальную длину, например, 100 кодонов [6] или 150 кодонов. [5] Сама по себе даже длинная открытая рамка считывания не является убедительным доказательством присутствия гена . [5]
Некоторые короткие ORF (sORF), также называемые малыми открытыми рамками считывания , [7] обычно длиной менее 100 кодонов, [8] которые лишены классических признаков белок-кодирующих генов (как из нкРНК, так и из мРНК), могут продуцировать функциональные пептиды. [9] Известно, что 5'-UTR около 50% мРНК млекопитающих содержит одну или несколько кОРС, [10] также называемых восходящими ORF или uORF . Однако менее 10% мРНК позвоночных, исследованных в более старом исследовании, содержали кодоны AUG перед основной ORF. Интересно, что uORF были обнаружены в двух третях протоонкогенов и родственных им белков. [11] 64–75% экспериментально обнаруженных сайтов инициации трансляции кОРС консервативны в геномах человека и мыши и могут указывать на наличие у этих элементов функции. [12] Однако кОРС часто можно обнаружить только в минорных формах мРНК и избежать отбора; Высокая консервативность сайтов инициации может быть связана с их расположением внутри промоторов соответствующих генов. Это характерно , например, для гена SLAMF1 . [13]
Поскольку ДНК интерпретируется группами по три нуклеотида (кодона), цепь ДНК имеет три отдельные рамки считывания. [14] Двойная спираль молекулы ДНК имеет две антипараллельные цепи; поскольку две нити имеют по три рамки считывания каждая, существует шесть возможных трансляций кадров. [14]
ORF Finder (Поиск открытых рамок считывания) [15] представляет собой инструмент графического анализа, который находит все открытые рамки считывания выбранного минимального размера в последовательности пользователя или в последовательности, уже имеющейся в базе данных. Этот инструмент идентифицирует все открытые рамки считывания, используя стандартные или альтернативные генетические коды. Выведенная аминокислотная последовательность может быть сохранена в различных форматах и найдена в базе данных последовательностей с использованием сервера базового инструмента поиска локального выравнивания (BLAST). ORF Finder должен быть полезен при подготовке полных и точных заявок на последовательность. Он также поставляется с программным обеспечением для отправки последовательностей Sequin (анализатор последовательностей).
ORF Investigator [16] представляет собой программу, которая не только дает информацию о кодирующих и некодирующих последовательностях, но также может выполнять попарное глобальное выравнивание последовательностей различных генов/участков ДНК. Инструмент эффективно находит ORF для соответствующих аминокислотных последовательностей, преобразует их в однобуквенный аминокислотный код и указывает их расположение в последовательности. Попарное глобальное выравнивание между последовательностями позволяет удобно обнаруживать различные мутации, включая полиморфизм одиночных нуклеотидов . Для выравнивания генов используются алгоритмы Нидлмана-Вунша . ORF Investigator написан на портативном языке программирования Perl и поэтому доступен пользователям всех распространенных операционных систем.
OrfPredictor [17] представляет собой веб-сервер, предназначенный для идентификации областей, кодирующих белок, в последовательностях, полученных с помощью экспрессируемых меток последовательностей (EST). Для последовательностей запросов с попаданием в BLASTX программа прогнозирует области кодирования на основе кадров считывания перевода, идентифицированных в выравниваниях BLASTX, в противном случае она прогнозирует наиболее вероятную область кодирования на основе внутренних сигналов последовательностей запроса. Выходными данными являются предсказанные пептидные последовательности в формате FASTA и строка определения, включающая идентификатор запроса, рамку считывания трансляции и положения нуклеотидов, где начинается и заканчивается кодирующая область. OrfPredictor облегчает аннотирование последовательностей, полученных из EST, особенно для крупномасштабных проектов EST.
ORF Predictor использует комбинацию двух разных определений ORF, упомянутых выше. Он ищет участки, начинающиеся со стартового кодона и заканчивающиеся стоп-кодоном. В качестве дополнительного критерия он ищет стоп-кодон в 5'- нетранслируемой области (UTR или NTR, нетранслируемая область [18] ).
ORFik — это R-пакет в Bioconductor для поиска открытых рамок считывания и использования технологий секвенирования нового поколения для обоснования ORF. [19] [20]
orfipy — это инструмент, написанный на Python / Cython для чрезвычайно быстрого и гибкого извлечения ORF. [21] orfipy может работать с простыми или сжатыми в gzip последовательностями FASTA и FASTQ и предоставляет несколько опций для тонкой настройки поиска ORF; к ним относятся указание стартовых и стоп-кодонов, сообщение о частичных ORF и использование пользовательских таблиц перевода. Результаты можно сохранить в нескольких форматах, включая компактный формат BED. orfipy особенно быстрее работает с данными, содержащими несколько более мелких последовательностей FASTA, таких как сборки транскриптома de novo. [22]