Используемая в настоящее время система обозначений нуклеиновых кислот была впервые формализована Международным союзом теоретической и прикладной химии (ИЮПАК) в 1970 году. [1] В этой общепринятой системе обозначений используются римские буквы G, C, A и T для обозначения четырех нуклеотидов, обычно встречающихся в дезоксирибонуклеиновых кислотах (ДНК).
Учитывая быстро растущую роль генетического секвенирования, синтеза и анализа в биологии, некоторые исследователи разработали альтернативные обозначения для дальнейшей поддержки анализа и обработки генетических данных. Эти обозначения обычно используют размер, форму и симметрию для достижения этих целей.
Вырожденные базовые символы в биохимии являются представлением IUPAC [2] [3] для позиции в последовательности ДНК , которая может иметь несколько возможных альтернатив. Их не следует путать с неканоническими базами , поскольку каждая конкретная последовательность будет иметь на самом деле одну из регулярных баз. Они используются для кодирования консенсусной последовательности популяции выровненных последовательностей и используются, например, в филогенетическом анализе для суммирования в одну множественных последовательностей или для поиска BLAST , даже если вырожденные символы IUPAC замаскированы (поскольку они не кодируются).
В общепринятой системе ИЮПАК азотистые основания представлены первыми буквами их химических названий: гуанин, цитозин, аденин и тимин. [1] Это сокращение также включает одиннадцать символов «неоднозначности», связанных с каждой возможной комбинацией четырех оснований ДНК. [4] Символы неоднозначности были разработаны для кодирования позиционных вариаций с целью сообщения об ошибках секвенирования ДНК , консенсусных последовательностях или однонуклеотидных полиморфизмах . Обозначение ИЮПАК, включая символы неоднозначности и предлагаемые мнемонические обозначения, показано в Таблице 1.
Несмотря на широкое и почти всеобщее признание, система ИЮПАК имеет ряд ограничений, которые вытекают из ее зависимости от латинского алфавита. Плохая разборчивость заглавных латинских символов, которые обычно используются при отображении генетических данных, может быть главным из этих ограничений. Значение внешних проекций в различении букв хорошо документировано. [5] Однако эти проекции отсутствуют у заглавных букв, которые в некоторых случаях различимы только по тонким внутренним подсказкам. Возьмем, к примеру, заглавные буквы C и G, используемые для представления цитозина и гуанина. Эти символы обычно составляют половину символов в генетической последовательности, но различаются небольшой внутренней чертой (в зависимости от гарнитуры). Тем не менее, эти латинские символы доступны в наборе символов ASCII , наиболее часто используемом в текстовых сообщениях, что усиливает повсеместность этой системы.
Другой недостаток нотации ИЮПАК возникает из-за того, что ее одиннадцать символов неоднозначности были выбраны из оставшихся символов латинского алфавита. Авторы нотации попытались выбрать символы неоднозначности с логической мнемоникой. Например, S используется для представления возможности обнаружения цитозина или гуанина в генетических локусах, оба из которых образуют сильные перекрестные связывающие взаимодействия. Наоборот, более слабые взаимодействия тимина и аденина представлены как W. Однако удобные мнемоники не так легко доступны для других символов неоднозначности, представленных в Таблице 1. Это сделало символы неоднозначности сложными в использовании и может объяснить их ограниченное применение.
Позиции атомов углерода в рибозном сахаре, который образует остов цепи нуклеиновой кислоты, пронумерованы и используются для указания направления нуклеиновых кислот (5'->3' против 3'->5'). Это называется направленностью . [ 3]
Проблемы с читаемостью, связанные с генетическими данными, закодированными в ИЮПАК, заставили биологов рассмотреть альтернативные стратегии отображения генетических данных. Эти креативные подходы к визуализации последовательностей ДНК, как правило, основывались на использовании пространственно распределенных символов и/или визуально различимых форм для кодирования длинных последовательностей нуклеиновых кислот. Были предприняты попытки создания альтернативных обозначений для последовательностей нуклеотидов, однако их общее внедрение было низким. Некоторые из этих подходов суммированы ниже.
В 1986 году Коуин и др. описали новый метод визуализации последовательности ДНК, известный как проекция нотного стана. [6] Их стратегия заключалась в кодировании нуклеотидов в виде кругов на ряде горизонтальных полос, похожих на ноты на музыкальном нотном стане. Как показано на рисунке 1, каждый пробел на пятилинейном нотном стане соответствовал одному из четырех оснований ДНК. Пространственное распределение кругов значительно упростило различение отдельных оснований и сравнение генетических последовательностей, чем данные, закодированные в ИЮПАК.
Порядок оснований (сверху вниз, G, A, T, C) выбран таким образом, чтобы комплементарную цепь можно было прочитать, перевернув проекцию вверх дном.
Циммерман и др. использовали другой подход к визуализации генетических данных. [7] Вместо того, чтобы полагаться на пространственно распределенные круги для выделения генетических особенностей, они использовали четыре геометрически различных символа, найденных в стандартном компьютерном шрифте, чтобы различать четыре основы. Авторы разработали простой макрос WordPerfect для перевода символов IUPAC в более визуально различимые символы.
С ростом доступности редакторов шрифтов Джарвиус и Ландегрен разработали новый набор генетических символов, известный как шрифт DNA Skyline, который использует все более высокие блоки для представления различных оснований ДНК. [8] Хотя шрифт DNA Skyline напоминает пространственно распределенную проекцию нотного стана Ковина и др ., его легко загрузить, и он позволяет выполнять перевод в нотацию ИЮПАК и обратно путем простого изменения шрифта в большинстве стандартных приложений для обработки текстов.
Амбиграммы (символы, которые передают разное значение при просмотре в разной ориентации) были разработаны для отражения структурных симметрий, обнаруженных в двойной спирали ДНК. [9] Присвоив амбиграфические символы комплементарным основаниям (например, гуанин: b, цитозин: q, аденин: n и тимин: u), можно дополнять последовательности ДНК, просто поворачивая текст на 180 градусов. [10] Амбиграфическая нотация нуклеиновой кислоты также позволяет легко идентифицировать генетические палиндромы, такие как сайты рестрикции эндонуклеазы, как разделы текста, которые можно повернуть на 180 градусов без изменения последовательности.
Одним из примеров амбиграфической нотации нуклеиновых кислот является AmbiScript, рационально спроектированная нотация нуклеиновых кислот, которая объединила многие визуальные и функциональные особенности своих предшественников. [11] Ее нотация также использует пространственно смещенные символы для облегчения визуального просмотра и анализа генетических данных. AmbiScript также был разработан для указания неоднозначных позиций нуклеотидов с помощью составных символов. Эта стратегия была направлена на предложение более интуитивного решения для использования неоднозначных символов, впервые предложенных ИЮПАК. [4] Как и шрифты DNA Skyline Джарвиуса и Ландегрена, шрифты AmbiScript можно загружать и применять к данным последовательностей, закодированным в ИЮПАК.
Пары оснований Уотсона и Крика обозначаются символами «•», «-» или «.» (пример: A•T или poly(rC)•2poly(rC)).
Пары оснований тройной спирали Хугстина обозначаются символом «*» или «:» (пример: C•G*G+, или T•A*T, или C•G*G, или T•A*A).