stringtranslate.com

Точечный график (биоинформатика)

Точечный график ДНК фактора транскрипции цинкового пальца человека (GenBank ID NM_002383), демонстрирующий региональное самоподобие . Основная диагональ представляет собой выравнивание последовательности сама по себе; линии за пределами главной диагонали представляют собой похожие или повторяющиеся узоры в последовательности.

В биоинформатике точечная диаграмма — это графический метод сравнения двух биологических последовательностей и определения областей близкого сходства после выравнивания последовательностей . Это тип повторяющегося графика .

История

Один из способов визуализировать сходство между двумя последовательностями белков или нуклеиновых кислот — использовать матрицу сходства, известную как точечный график. Они были представлены Гиббсом и Макинтайром в 1970 году [1] и представляют собой двумерные матрицы, в которых последовательности сравниваемых белков располагаются вдоль вертикальной и горизонтальной осей. Для простого визуального представления сходства между двумя последовательностями отдельные ячейки в матрице могут быть закрашены черным, если остатки идентичны, так что совпадающие сегменты последовательности отображаются в виде диагональных линий по матрице.

Интерпретация

Некоторое представление о сходстве двух последовательностей можно получить из количества и длины совпадающих сегментов, показанных в матрице. Идентичные белки, очевидно, будут иметь диагональную линию в центре матрицы. Вставки и делеции между последовательностями приводят к нарушениям этой диагонали. Области локального сходства или повторяющиеся последовательности приводят к появлению дополнительных диагональных совпадений в дополнение к центральной диагонали. Один из способов уменьшить этот шум — заштриховать только серии или « кортежи » остатков, например, кортеж из 3 соответствует трем остаткам подряд. Это эффективно, поскольку вероятность случайного совпадения трех остатков подряд намного ниже, чем вероятность совпадения одного остатка.

Точечные графики сравнивают две последовательности, организуя одну последовательность по оси X, а другую по оси Y графика. Когда остатки обеих последовательностей совпадают в одном и том же месте на графике, в соответствующей позиции рисуется точка. Обратите внимание, что последовательности можно записывать назад или вперед, однако последовательности на обеих осях должны быть записаны в одном и том же направлении. Также обратите внимание, что направление последовательностей по осям будет определять направление линии на точечном графике. После нанесения точек они объединятся в линии. Близость последовательностей по сходству будет определять, насколько близка диагональная линия к графику, показывающему кривую, демонстрирующую прямую связь . На эту взаимосвязь влияют определенные особенности последовательности, такие как сдвиги кадров, прямые повторы и инвертированные повторы. Сдвиги кадров включают вставки, делеции и мутации. Наличие одного из этих признаков или наличие нескольких признаков приведет к построению нескольких линий в различных возможных конфигурациях, в зависимости от признаков, присутствующих в последовательностях. Особенностью, которая приведет к совершенно другому результату на точечной диаграмме, является наличие областей/регионов низкой сложности. Области низкой сложности — это участки последовательности, содержащие всего несколько аминокислот, что, в свою очередь, вызывает избыточность внутри этой небольшой или ограниченной области. Эти области обычно располагаются вокруг диагонали и могут иметь или не иметь квадрат в середине точечного графика.

Программное обеспечение для создания точечных графиков

В дополнение к инструментам, перечисленным выше, сервер NCBI Blast по адресу https://blast.ncbi.nlm.nih.gov/Blast.cgi включает в свои выходные данные точечные графики.

Смотрите также

Рекомендации

  1. ^ Гиббс, Адриан Дж.; Макинтайр, Джордж А. (1970). «Диаграмма, метод сравнения последовательностей. Ее использование с аминокислотными и нуклеотидными последовательностями». Евро. Дж. Биохим . 16 (1): 1–11. дои : 10.1111/j.1432-1033.1970.tb01046.x . ПМИД  5456129.
  2. ^ Клопп, Кристоф; Кабанетты, Флореаль (23 февраля 2018 г.). «D-GENIES: точечные построения больших геномов интерактивным, эффективным и простым способом». ПерДж . 6 : е4958. doi : 10.7287/peerj.preprints.26567v1 . ПМК 5991294 . ПМИД  29888139. 
  3. ^ Райс, П.; Лонгден, И.; Блисби, А. (июнь 2000 г.). «EMBOSS: Европейский пакет открытого программного обеспечения для молекулярной биологии». Тенденции в генетике . 16 (6): 276–277. дои : 10.1016/s0168-9525(00)02024-2. ISSN  0168-9525. ПМИД  10827456.
  4. ^ Зоннхаммер, Эль; Дурбин, Р. (29 декабря 1995 г.). «Матричная программа с динамическим пороговым контролем, подходящая для анализа геномной ДНК и последовательностей белков». Джин . 167 (1–2): GC1–10. дои : 10.1016/0378-1119(95)00714-8. ISSN  0378-1119. ПМИД  8566757.
  5. ^ Броди, Райан; Ропер, Рэйчел Л.; Аптон, Крис (22 января 2004 г.). «JDotter: интерфейс Java для нескольких точечных диаграмм, созданных с помощью dotter». Биоинформатика . 20 (2): 279–281. doi : 10.1093/биоинформатика/btg406 . ISSN  1367-4803. ПМИД  14734323.
  6. ^ Зейбт, Кэтрин М.; Шмидт, Томас; Хейткам, Тони (15 октября 2018 г.). «FlexiDot: легко настраиваемые точечные диаграммы с учетом неоднозначности для визуального анализа последовательностей». Биоинформатика . 34 (20): 3575–3577. doi : 10.1093/биоинформатика/bty395 . ПМИД  29762645.
  7. ^ Крумсик, Ян; Арнольд, Роланд; Раттей, Томас (15 апреля 2007 г.). «Гепард: быстрый и чувствительный инструмент для создания точечных диаграмм в масштабе генома». Биоинформатика . 23 (8): 1026–1028. doi : 10.1093/биоинформатика/btm039 . ISSN  1367-4803. ПМИД  17309896.
  8. ^ Фрит MC. и Кавагути Р. (2015). «Расщепление геномов позволяет более точно найти ортологии». Геном Биол . 16 (1): 106. дои : 10.1186/s13059-015-0670-9 . ПМЦ 4464727 . ПМИД  25994148. 
  9. ^ Харрис, RS (2007). Улучшено попарное выравнивание геномной ДНК. Кандидат наук. Тезис . Пенсильвания: Университет штата Пенсильвания.
  10. ^ Ной Л., Кучеров. Г. (2005). «YASS: повышение чувствительности поиска сходства ДНК». Исследования нуклеиновых кислот . 33 (2): W540–W543. дои : 10.1093/nar/gki478. ПМК 1160238 . ПМИД  15980530.