Обозначение нуклеиновой кислоты

Используемая в настоящее время система обозначений нуклеиновых кислот была впервые формализована Международным союзом теоретической и прикладной химии (ИЮПАК) в 1970 году. ^[1] В этой общепринятой системе обозначений используются римские буквы G, C, A и T для обозначения четырех нуклеотидов, обычно встречающихся в дезоксирибонуклеиновых кислотах (ДНК).

Учитывая быстро растущую роль генетического секвенирования, синтеза и анализа в биологии, некоторые исследователи разработали альтернативные обозначения для дальнейшей поддержки анализа и обработки генетических данных. Эти обозначения обычно используют размер, форму и симметрию для достижения этих целей.

Нотация ИЮПАК

Вырожденные базовые символы в биохимии являются представлением IUPAC ^[2]^[3] для позиции в последовательности ДНК , которая может иметь несколько возможных альтернатив. Их не следует путать с неканоническими базами , поскольку каждая конкретная последовательность будет иметь на самом деле одну из регулярных баз. Они используются для кодирования консенсусной последовательности популяции выровненных последовательностей и используются, например, в филогенетическом анализе для суммирования в одну множественных последовательностей или для поиска BLAST , даже если вырожденные символы IUPAC замаскированы (поскольку они не кодируются).

В общепринятой системе ИЮПАК азотистые основания представлены первыми буквами их химических названий: гуанин, цитозин, аденин и тимин. ^[1] Это сокращение также включает одиннадцать символов «неоднозначности», связанных с каждой возможной комбинацией четырех оснований ДНК. ^[4] Символы неоднозначности были разработаны для кодирования позиционных вариаций с целью сообщения об ошибках секвенирования ДНК , консенсусных последовательностях или однонуклеотидных полиморфизмах . Обозначение ИЮПАК, включая символы неоднозначности и предлагаемые мнемонические обозначения, показано в Таблице 1.

Несмотря на широкое и почти всеобщее признание, система ИЮПАК имеет ряд ограничений, которые вытекают из ее зависимости от латинского алфавита. Плохая разборчивость заглавных латинских символов, которые обычно используются при отображении генетических данных, может быть главным из этих ограничений. Значение внешних проекций в различении букв хорошо документировано. ^[5] Однако эти проекции отсутствуют у заглавных букв, которые в некоторых случаях различимы только по тонким внутренним подсказкам. Возьмем, к примеру, заглавные буквы C и G, используемые для представления цитозина и гуанина. Эти символы обычно составляют половину символов в генетической последовательности, но различаются небольшой внутренней чертой (в зависимости от гарнитуры). Тем не менее, эти латинские символы доступны в наборе символов ASCII , наиболее часто используемом в текстовых сообщениях, что усиливает повсеместность этой системы.

Другой недостаток нотации ИЮПАК возникает из-за того, что ее одиннадцать символов неоднозначности были выбраны из оставшихся символов латинского алфавита. Авторы нотации попытались выбрать символы неоднозначности с логической мнемоникой. Например, S используется для представления возможности обнаружения цитозина или гуанина в генетических локусах, оба из которых образуют сильные перекрестные связывающие взаимодействия. Наоборот, более слабые взаимодействия тимина и аденина представлены как W. Однако удобные мнемоники не так легко доступны для других символов неоднозначности, представленных в Таблице 1. Это сделало символы неоднозначности сложными в использовании и может объяснить их ограниченное применение.

Номенклатура нуклеиновых кислот

Позиции атомов углерода в рибозном сахаре, который образует остов цепи нуклеиновой кислоты, пронумерованы и используются для указания направления нуклеиновых кислот (5'->3' против 3'->5'). Это называется направленностью . [ ^3]

Альтернативные визуально улучшенные обозначения

Проблемы с читаемостью, связанные с генетическими данными, закодированными в ИЮПАК, заставили биологов рассмотреть альтернативные стратегии отображения генетических данных. Эти креативные подходы к визуализации последовательностей ДНК, как правило, основывались на использовании пространственно распределенных символов и/или визуально различимых форм для кодирования длинных последовательностей нуклеиновых кислот. Были предприняты попытки создания альтернативных обозначений для последовательностей нуклеотидов, однако их общее внедрение было низким. Некоторые из этих подходов суммированы ниже.

Проекция нотного стана

В 1986 году Коуин и др. описали новый метод визуализации последовательности ДНК, известный как проекция нотного стана. ^[6] Их стратегия заключалась в кодировании нуклеотидов в виде кругов на ряде горизонтальных полос, похожих на ноты на музыкальном нотном стане. Как показано на рисунке 1, каждый пробел на пятилинейном нотном стане соответствовал одному из четырех оснований ДНК. Пространственное распределение кругов значительно упростило различение отдельных оснований и сравнение генетических последовательностей, чем данные, закодированные в ИЮПАК.

Порядок оснований (сверху вниз, G, A, T, C) выбран таким образом, чтобы комплементарную цепь можно было прочитать, перевернув проекцию вверх дном.

Геометрические символы

Циммерман и др. использовали другой подход к визуализации генетических данных. ^[7] Вместо того, чтобы полагаться на пространственно распределенные круги для выделения генетических особенностей, они использовали четыре геометрически различных символа, найденных в стандартном компьютерном шрифте, чтобы различать четыре основы. Авторы разработали простой макрос WordPerfect для перевода символов IUPAC в более визуально различимые символы.

ДНК-скрайлинг

С ростом доступности редакторов шрифтов Джарвиус и Ландегрен разработали новый набор генетических символов, известный как шрифт DNA Skyline, который использует все более высокие блоки для представления различных оснований ДНК. ^[8] Хотя шрифт DNA Skyline напоминает пространственно распределенную проекцию нотного стана Ковина и др ., его легко загрузить, и он позволяет выполнять перевод в нотацию ИЮПАК и обратно путем простого изменения шрифта в большинстве стандартных приложений для обработки текстов.

Амбиграфические обозначения

Амбиграммы (символы, которые передают разное значение при просмотре в разной ориентации) были разработаны для отражения структурных симметрий, обнаруженных в двойной спирали ДНК. ^[9] Присвоив амбиграфические символы комплементарным основаниям (например, гуанин: b, цитозин: q, аденин: n и тимин: u), можно дополнять последовательности ДНК, просто поворачивая текст на 180 градусов. ^[10] Амбиграфическая нотация нуклеиновой кислоты также позволяет легко идентифицировать генетические палиндромы, такие как сайты рестрикции эндонуклеазы, как разделы текста, которые можно повернуть на 180 градусов без изменения последовательности.

Одним из примеров амбиграфической нотации нуклеиновых кислот является AmbiScript, рационально спроектированная нотация нуклеиновых кислот, которая объединила многие визуальные и функциональные особенности своих предшественников. ^[11] Ее нотация также использует пространственно смещенные символы для облегчения визуального просмотра и анализа генетических данных. AmbiScript также был разработан для указания неоднозначных позиций нуклеотидов с помощью составных символов. Эта стратегия была направлена на предложение более интуитивного решения для использования неоднозначных символов, впервые предложенных ИЮПАК. ^[4] Как и шрифты DNA Skyline Джарвиуса и Ландегрена, шрифты AmbiScript можно загружать и применять к данным последовательностей, закодированным в ИЮПАК.

Спаривание оснований тройной спирали

Пары оснований Уотсона и Крика обозначаются символами «•», «-» или «.» (пример: A•T или poly(rC)•2poly(rC)).

Пары оснований тройной спирали Хугстина обозначаются символом «*» или «:» (пример: C•G*G+, или T•A*T, или C•G*G, или T•A*A).

Смотрите также

Ссылки

^ ab Комиссия по биохимической номенклатуре IUPAC-IUB (1970). «Сокращения и символы для нуклеиновых кислот, полинуклеотидов и их компонентов». Биохимия . 9 (20): 4022–4027. doi :10.1021/bi00822a023.
^ ab Номенклатурный комитет Международного союза биохимии (NC-IUB) (1984). «Номенклатура неполностью определенных оснований в последовательностях нуклеиновых кислот». Nucleic Acids Research . 13 (9): 3021–3030. doi :10.1093/nar/13.9.3021. PMC 341218. PMID 2582368 .
^ ab Cornish-Bowden A (май 1985). "Номенклатура для не полностью определенных оснований в последовательностях нуклеиновых кислот: рекомендации 1984". Nucleic Acids Research . 13 (9): 3021–30. doi :10.1093/nar/13.9.3021. PMC 341218. PMID 2582368 .
^ ab Номенклатурный комитет Международного союза биохимии (NC-IUB) (1986). "Номенклатура для не полностью определенных оснований в последовательностях нуклеиновых кислот. Рекомендации 1984". Proc. Natl. Acad. Sci. USA . 83 (1): 4–8. Bibcode :1986PNAS...83....4O. doi : 10.1073/pnas.83.1.4 . PMC 322779 . PMID 2417239.
^ Тинкер, MA 1963. Разборчивость печати. Издательство Университета штата Айова, Эймс, штат Айова.
^ Cowin, JE; Jellis, CH; Rickwood, D. (1986). «Новый метод представления последовательностей ДНК, который сочетает простоту визуального анализа с машинной читаемостью». Nucleic Acids Research . 14 (1): 509–15. doi :10.1093/nar/14.1.509. PMC 339435. PMID 3003680 .
^ Циммерман, PA; Спелл, ML; Роулз, J.; Уннаш, TR (1991). «Преобразование данных о последовательности ДНК в геометрические символы». BioTechniques . 11 (1): 50–52. PMID 1954017.
^ Jarvius, J.; Landegren, U. (2006). «DNA Skyline: шрифты для облегчения визуального осмотра последовательностей нуклеиновых кислот». BioTechniques . 40 (6): 740. doi : 10.2144/000112180 . PMID 16774117.
^ Хофштадтер, Дуглас Р. (1985). Метамагические темы: вопрошание сущности разума и паттерна . Нью-Йорк: Basic Books. ISBN 978-0465045662.
^ Розак, ДА (2006). «Практические и педагогические преимущества амбиграфической записи нуклеиновых кислот». Нуклеозиды, нуклеотиды и нуклеиновые кислоты . 25 (7): 807–813. doi :10.1080/15257770600726109. PMID 16898419. S2CID 23600737.
^ Розак, Дэвид А.; Розак, Энтони Дж. (2008). «Простота, функциональность и удобочитаемость в улучшенной амбиграфической нотации нуклеиновых кислот». BioTechniques . 44 (6): 811–813. doi : 10.2144/000112727 . PMID 18476835.