Последовательность нуклеиновой кислоты представляет собой последовательность оснований в нуклеотидах, образующих аллели в молекуле ДНК (используя GACT) или РНК (GACU). Эта последовательность обозначается серией из пяти различных букв, которые указывают порядок нуклеотидов. По соглашению последовательности обычно представляются от 5'-конца к 3'-концу . Для ДНК с ее двойной спиралью существует два возможных направления для обозначенной последовательности; из этих двух используется смысловая цепь . Поскольку нуклеиновые кислоты обычно являются линейными (неразветвленными) полимерами , указание последовательности эквивалентно определению ковалентной структуры всей молекулы. По этой причине последовательность нуклеиновой кислоты также называется первичной структурой .
Последовательность представляет генетическую информацию . Биологическая дезоксирибонуклеиновая кислота представляет информацию , которая направляет функции организма .
Нуклеиновые кислоты также имеют вторичную структуру и третичную структуру . Первичную структуру иногда ошибочно называют «первичной последовательностью». Однако параллельной концепции вторичной или третичной последовательности не существует.
Нуклеиновые кислоты состоят из цепочки связанных единиц, называемых нуклеотидами. Каждый нуклеотид состоит из трех субъединиц: фосфатной группы и сахара ( рибозы в случае РНК , дезоксирибозы в ДНК ) составляют остов цепи нуклеиновой кислоты, а к сахару прикреплено одно из набора азотистых оснований . Азотистые основания играют важную роль в спаривании оснований цепей для формирования вторичных и третичных структур более высокого уровня , таких как знаменитая двойная спираль .
Возможные буквы: A , C , G и T , представляющие четыре нуклеотидных основания цепи ДНК — аденин , цитозин , гуанин , тимин — ковалентно связанных с фосфодиэфирным остовом. В типичном случае последовательности печатаются впритык друг к другу без пробелов, как в последовательности AAAGTCTGAC, читаемой слева направо в направлении от 5' к 3' . Что касается транскрипции , последовательность находится на кодирующей цепи, если она имеет тот же порядок, что и транскрибированная РНК.
Одна последовательность может быть комплементарной другой последовательности, то есть они имеют основание в каждой позиции в комплементарном порядке (т. е. от A до T, от C до G) и в обратном порядке. Например, комплементарная последовательность для TTAC — GTAA. Если одна нить двухцепочечной ДНК считается смысловой, то другая нить, считающаяся антисмысловой, будет иметь комплементарную последовательность смысловой.
В то время как A, T, C и G представляют собой определенный нуклеотид в позиции, есть также буквы, которые представляют неоднозначность, которые используются, когда в этой позиции может находиться более одного вида нуклеотида. Правила Международного союза теоретической и прикладной химии ( IUPAC ) следующие: [1]
Например, W означает, что в этом положении может находиться как аденин, так и тимин, не нарушая функциональности последовательности.
Эти символы также действительны для РНК, за исключением того, что U (урацил) заменяет T (тимин). [1]
Помимо аденина (A), цитозина (C), гуанина (G), тимина (T) и урацила (U), ДНК и РНК также содержат основания, которые были модифицированы после формирования цепи нуклеиновой кислоты. В ДНК наиболее распространенным модифицированным основанием является 5-метилцитидин (m5C). В РНК существует множество модифицированных оснований, включая псевдоуридин (Ψ), дигидроуридин (D), инозин (I), риботимидин (rT) и 7-метилгуанозин (m7G). [3] [4] Гипоксантин и ксантин являются двумя из многих оснований, созданных в присутствии мутагена , оба они посредством дезаминирования (замены аминогруппы на карбонильную группу). Гипоксантин образуется из аденина , а ксантин образуется из гуанина . [5] Аналогично дезаминирование цитозина приводит к образованию урацила .
Даны две последовательности из 10 нуклеотидов, выровняйте их и сравните различия между ними. Рассчитайте процентное различие, взяв число различий между основаниями ДНК, разделенное на общее число нуклеотидов. В этом случае в последовательности из 10 нуклеотидов есть три различия. Таким образом, разница составляет 30%.
В биологических системах нуклеиновые кислоты содержат информацию, которая используется живой клеткой для построения определенных белков . Последовательность азотистых оснований в цепи нуклеиновой кислоты транслируется клеточным аппаратом в последовательность аминокислот, составляющих белковую цепь. Каждая группа из трех оснований, называемая кодоном , соответствует одной аминокислоте, и существует определенный генетический код , с помощью которого каждая возможная комбинация из трех оснований соответствует определенной аминокислоте.
Центральная догма молекулярной биологии описывает механизм, посредством которого белки конструируются с использованием информации, содержащейся в нуклеиновых кислотах. ДНК транскрибируется в молекулы мРНК , которые перемещаются в рибосому , где мРНК используется в качестве шаблона для конструирования белковой цепи. Поскольку нуклеиновые кислоты могут связываться с молекулами с комплементарными последовательностями , существует различие между « смысловыми » последовательностями, которые кодируют белки, и комплементарной «антисмысловой» последовательностью, которая сама по себе нефункциональна, но может связываться со смысловой цепью.
Секвенирование ДНК — это процесс определения нуклеотидной последовательности заданного фрагмента ДНК . Последовательность ДНК живого существа кодирует необходимую информацию для того, чтобы это живое существо выживало и размножалось. Поэтому определение последовательности полезно в фундаментальных исследованиях того, почему и как живут организмы, а также в прикладных предметах. Из-за важности ДНК для живых существ знание последовательности ДНК может быть полезным практически в любом биологическом исследовании . Например, в медицине его можно использовать для выявления, диагностики и потенциальной разработки методов лечения генетических заболеваний . Аналогичным образом, исследование патогенов может привести к методам лечения инфекционных заболеваний. Биотехнология — это бурно развивающаяся дисциплина, имеющая потенциал для многих полезных продуктов и услуг.
РНК не секвенируется напрямую. Вместо этого она копируется в ДНК с помощью обратной транскриптазы , а затем эта ДНК секвенируется.
Современные методы секвенирования основаны на дискриминационной способности ДНК-полимераз и, следовательно, могут различать только четыре основания. Инозин (создан из аденозина во время редактирования РНК ) считывается как G, а 5-метилцитозин (создан из цитозина путем метилирования ДНК ) считывается как C. При современных технологиях сложно секвенировать небольшие количества ДНК, поскольку сигнал слишком слаб для измерения. Это преодолевается амплификацией полимеразной цепной реакции (ПЦР).
После того, как последовательность нуклеиновой кислоты получена из организма, она хранится in silico в цифровом формате. Цифровые генетические последовательности могут храниться в базах данных последовательностей , анализироваться (см. Анализ последовательностей ниже), изменяться в цифровом виде и использоваться в качестве шаблонов для создания новой фактической ДНК с использованием искусственного синтеза генов .
Цифровые генетические последовательности можно анализировать с помощью инструментов биоинформатики , чтобы попытаться определить их функцию.
ДНК в геноме организма может быть проанализирована для диагностики уязвимости к наследственным заболеваниям , а также может быть использована для определения отцовства ребенка (генетического отца) или происхождения человека . Обычно каждый человек несет две вариации каждого гена , одну унаследованную от матери, другую унаследованную от отца. Считается, что геном человека содержит около 20 000–25 000 генов. Помимо изучения хромосом на уровне отдельных генов, генетическое тестирование в более широком смысле включает биохимические тесты на возможное наличие генетических заболеваний или мутантных форм генов, связанных с повышенным риском развития генетических нарушений.
Генетическое тестирование выявляет изменения в хромосомах, генах или белках. [6] Обычно тестирование используется для поиска изменений, связанных с наследственными заболеваниями. Результаты генетического теста могут подтвердить или исключить предполагаемое генетическое состояние или помочь определить вероятность развития или передачи генетического заболевания у человека. В настоящее время используется несколько сотен генетических тестов, и разрабатываются новые. [7] [8]
В биоинформатике выравнивание последовательностей — это способ упорядочивания последовательностей ДНК , РНК или белка для выявления областей сходства, которые могут быть обусловлены функциональными, структурными или эволюционными связями между последовательностями. [9] Если две последовательности в выравнивании имеют общего предка, несовпадения можно интерпретировать как точечные мутации , а пробелы — как мутации вставки или делеции ( индели ), введенные в одну или обе линии с тех пор, как они разошлись друг от друга. При выравнивании последовательностей белков степень сходства между аминокислотами , занимающими определенное положение в последовательности, можно интерпретировать как грубую меру того, насколько консервативен определенный регион или мотив последовательности среди линий. Отсутствие замен или наличие только очень консервативных замен (то есть замен аминокислот, боковые цепи которых имеют схожие биохимические свойства) в определенной области последовательности, предполагает [10] , что эта область имеет структурное или функциональное значение. Хотя нуклеотидные основания ДНК и РНК более похожи друг на друга, чем аминокислоты, сохранение пар оснований может указывать на схожую функциональную или структурную роль. [11]
Вычислительная филогенетика широко использует выравнивания последовательностей при построении и интерпретации филогенетических деревьев , которые используются для классификации эволюционных отношений между гомологичными генами, представленными в геномах расходящихся видов. Степень, в которой последовательности в наборе запроса различаются, качественно связана с эволюционным расстоянием последовательностей друг от друга. Грубо говоря, высокая идентичность последовательностей предполагает, что рассматриваемые последовательности имеют сравнительно молодого последнего общего предка , в то время как низкая идентичность предполагает, что расхождение более древнее. Это приближение, которое отражает гипотезу « молекулярных часов », согласно которой примерно постоянную скорость эволюционных изменений можно использовать для экстраполяции прошедшего времени с момента первого расхождения двух генов (то есть времени слияния ), предполагает, что эффекты мутации и отбора постоянны во всех линиях последовательностей. Поэтому оно не учитывает возможные различия между организмами или видами в скоростях восстановления ДНК или возможной функциональной консервации определенных областей в последовательности. (В случае нуклеотидных последовательностей гипотеза молекулярных часов в своей самой базовой форме также не учитывает разницу в скоростях принятия между молчащими мутациями , которые не изменяют значение данного кодона , и другими мутациями, которые приводят к включению в белок другой аминокислоты .) Более статистически точные методы позволяют варьировать скорость эволюции на каждой ветви филогенетического дерева, тем самым обеспечивая более точные оценки времени слияния генов.
Часто первичная структура кодирует мотивы, которые имеют функциональное значение. Некоторые примеры мотивов последовательностей: C/D [12] и H/ACA-боксы [13] snoRNA , сайт связывания Sm , обнаруженный в сплайсосомных РНК, таких как U1 , U2 , U4 , U5 , U6 , U12 и U3 , последовательность Шайна-Дальгарно [14] , консенсусная последовательность Козака [ 15] и терминатор РНК-полимеразы III [16] .
В биоинформатике энтропия последовательности, также известная как сложность последовательности или информационный профиль, [17] представляет собой числовую последовательность, обеспечивающую количественную меру локальной сложности последовательности ДНК, независимо от направления обработки. Манипуляции с информационными профилями позволяют анализировать последовательности с использованием методов, не требующих выравнивания, например, при обнаружении мотивов и перестроек. [17] [18] [19]