stringtranslate.com

к-мер

Последовательность ATGG состоит из двух 3-меров: ATG и TGG.

В биоинформатике k -меры представляют собой подстроки длины, содержащиеся в биологической последовательности. В основном используемые в контексте вычислительной геномики и анализа последовательностей , в которых k -меры состоят из нуклеотидов ( т . е. A, T, G и C), k -меры используются с заглавной буквы для сборки последовательностей ДНК , [1] улучшения экспрессии гетерологичных генов , [2] [3] идентификации видов в метагеномных образцах , [4] и создания ослабленных вакцин . [5] Обычно термин k -мер относится ко всем подпоследовательностям последовательности длины , таким образом, что последовательность AGAT будет иметь четыре мономера (A, G, A и T), три 2-мера (AG, GA, AT), два 3-мера (AGA и GAT) и один 4-мер (AGAT). В более общем смысле, последовательность длины будет иметь k -меров и общее количество возможных k -меров, где — число возможных мономеров (например, четыре в случае ДНК ).

Введение

k -меры — это просто подпоследовательности длины . Например, все возможные k -меры последовательности ДНК показаны ниже:

Пример спектра 8-меров для E. coli, сравнивающий частоту 8-меров ( т.е. множественность) с их числом появлений.

Метод визуализации k -меров, спектр k -меров , показывает множественность каждого k -мера в последовательности в зависимости от числа k -меров с этой множественностью. [6] Количество мод в спектре k -меров для генома вида варьируется, при этом большинство видов имеют унимодальное распределение. [7] Однако все млекопитающие имеют мультимодальное распределение. Количество мод в спектре k -меров также может варьироваться между областями генома: у людей унимодальные спектры k -меров в 5'-НТО и экзонах , но мультимодальные спектры в 3'-НТО и интронах .

Силы, действующие на ДНКк-мер частота

Частота использования k -меров зависит от многочисленных сил, действующих на нескольких уровнях, которые часто конфликтуют. Важно отметить, что k -меры для более высоких значений k также подвержены влиянию сил, влияющих на более низкие значения k . Например, если 1-мер A не встречается в последовательности, ни один из 2-меров, содержащих A (AA, AT, AG и AC), также не будет встречаться, тем самым связывая эффекты различных сил.

к= 1

Когда k = 1, существует четыре k -мера ДНК, то есть A, T, G и C. На молекулярном уровне существует три водородные связи между G и C, тогда как между A и T их всего две. Связи GC, в результате дополнительной водородной связи (и более сильных стековых взаимодействий), более термически стабильны, чем связи AT. [8] Млекопитающие и птицы имеют более высокое отношение Gs и Cs к As и Ts ( GC-содержание ), что привело к гипотезе о том, что термическая стабильность является движущим фактором изменения GC-содержания. [9] Однако, хотя эта гипотеза и была многообещающей, она не выдержала проверки: анализ среди различных прокариот не показал никаких доказательств корреляции GC-содержания с температурой, как предсказывала бы гипотеза тепловой адаптации. [10] Действительно, если бы естественный отбор был движущей силой изменения GC-содержания, это потребовало бы, чтобы изменения отдельных нуклеотидов , которые часто молчат , изменили приспособленность организма. [11]

Скорее, текущие данные свидетельствуют о том, что конверсия генов с GC-смещением (gBGC) является движущим фактором, стоящим за изменением содержания GC. [11] gBGC — это процесс, который происходит во время рекомбинации , который заменяет As и T на Gs и Cs. [12] Этот процесс, хотя и отличается от естественного отбора, тем не менее может оказывать селективное давление на ДНК, смещенную в сторону замен GC, фиксируемых в геноме. Поэтому gBGC можно рассматривать как «самозванца» естественного отбора. Как и следовало ожидать, содержание GC больше в местах, испытывающих большую рекомбинацию. [13] Кроме того, организмы с более высокими скоростями рекомбинации демонстрируют более высокое содержание GC, что соответствует предсказанным эффектам гипотезы gBGC. [14] Интересно, что gBGC, по-видимому, не ограничивается эукариотами . [15] Бесполые организмы, такие как бактерии и археи, также испытывают рекомбинацию посредством конверсии генов, процесса замены гомологичной последовательности, приводящего к появлению нескольких идентичных последовательностей по всему геному. [16] То, что рекомбинация способна повышать содержание GC во всех доменах жизни, предполагает, что gBGC универсально сохраняется. Является ли gBGC (в основном) нейтральным побочным продуктом молекулярной машины жизни или сам находится под селекцией, еще предстоит определить. Точный механизм и эволюционное преимущество или недостаток gBGC в настоящее время неизвестны. [17]

к= 2

Несмотря на сравнительно большой объем литературы, обсуждающей смещения GC-содержания, относительно мало было написано о смещениях динуклеотидов. Известно, что эти смещения динуклеотидов относительно постоянны по всему геному, в отличие от GC-содержания, которое, как было показано выше, может значительно варьироваться. [18] Это важное понимание, которое нельзя упускать из виду. Если бы смещения динуклеотидов подвергались давлению, вызванному трансляцией , то были бы различные модели смещения динуклеотидов в кодирующих и некодирующих областях, обусловленные сниженной эффективностью трансляции некоторых динуклеотидов. [19] Поскольку этого не происходит, можно сделать вывод, что силы, модулирующие смещение динуклеотидов, не зависят от трансляции. Еще одним доказательством против давления трансляции, влияющего на смещение динуклеотидов, является тот факт, что смещения динуклеотидов вирусов, которые в значительной степени зависят от эффективности трансляции, формируются их вирусным семейством больше, чем их хозяевами, трансляционный аппарат которых захватывают вирусы. [20]

Противоположностью увеличению содержания GC в gBGC является подавление CG , которое снижает частоту 2-меров CG из-за дезаминирования метилированных динуклеотидов CG, что приводит к замене CG на TG, тем самым снижая содержание GC. [21] Это взаимодействие подчеркивает взаимосвязь между силами, действующими на k - меры при различных значениях k.

Один интересный факт о динуклеотидном смещении заключается в том, что оно может служить измерением «расстояния» между филогенетически схожими геномами. Геномы пар организмов, которые тесно связаны, имеют больше схожих динуклеотидных смещений, чем между парами более отдаленно связанных организмов. [18]

к= 3

Существует двадцать природных аминокислот , которые используются для построения белков, кодируемых ДНК. Однако существует только четыре нуклеотида. Следовательно, не может быть однозначного соответствия между нуклеотидами и аминокислотами. Аналогично, существует 16 2-меров, чего также недостаточно для однозначного представления каждой аминокислоты. Однако в ДНК существует 64 различных 3-мера, чего достаточно для уникального представления каждой аминокислоты. Эти неперекрывающиеся 3-меры называются кодонами . Хотя каждый кодон сопоставляется только одной аминокислоте, каждая аминокислота может быть представлена ​​несколькими кодонами . Таким образом, одна и та же последовательность аминокислот может иметь несколько представлений ДНК. Интересно, что каждый кодон для аминокислоты не используется в равных пропорциях. [22] Это называется смещением использования кодонов (CUB). Когда k = 3, необходимо провести различие между истинной частотой 3-меров и CUB. Например, последовательность ATGGCA содержит четыре 3-мерных слова (ATG, TGG, GGC и GCA), при этом содержит только два кодона (ATG и GCA). Однако CUB является основным движущим фактором смещения использования 3-меров (составляя до ⅓ его, поскольку ⅓ k -меров в кодирующей области являются кодонами) и будет основным объектом внимания в этом разделе.

Точная причина вариации между частотами различных кодонов не полностью понята. Известно, что предпочтение кодонов коррелирует с распространенностью тРНК, причем кодоны, соответствующие более распространенным тРНК, соответственно встречаются чаще [22] и что более высокоэкспрессированные белки демонстрируют большую CUB. [23] Это говорит о том, что движущей силой вариации CUB является отбор по эффективности или точности трансляции.

к= 4

Подобно эффекту, наблюдаемому в динуклеотидном смещении, тетрануклеотидные смещения филогенетически схожих организмов более схожи, чем между менее близкородственными организмами. [4] Точная причина вариации тетрануклеотидного смещения не совсем понятна, но была выдвинута гипотеза, что это результат поддержания генетической стабильности на молекулярном уровне. [24]

Приложения

Частота набора k -меров в геноме вида, в геномной области или в классе последовательностей может использоваться как «сигнатура» базовой последовательности. Сравнение этих частот вычислительно проще, чем выравнивание последовательностей , и является важным методом в анализе последовательностей без выравнивания . Его также можно использовать в качестве анализа первой стадии перед выравниванием.

Последовательность сборки

На этом рисунке показан процесс разделения прочтений на более мелкие k -меры (в данном случае 4-меры) для использования в графе Де Брейна. (A) Показывает начальный сегмент ДНК, который секвенируется. (B) Показывает прочтения, которые были получены в результате секвенирования, а также показывает, как они выравниваются. Проблема с этим выравниванием заключается в том, что они перекрываются на k-2, а не на k-1 (что необходимо в графах Де Брейна). (C) Показывает прочтения, разделяемые на более мелкие 4-меры. (D) Отбрасывает повторяющиеся 4-меры, а затем показывает их выравнивание. Обратите внимание, что эти k -меры перекрываются на k-1 и затем могут использоваться в графе Де Брейна.

При сборке последовательностей k -меры используются при построении графов Де Брейна . [25] [26] Для того чтобы создать граф Де Брейна, k -меры, хранящиеся в каждом ребре с длиной, должны перекрывать другую строку в другом ребре на , чтобы создать вершину . Считывания, сгенерированные с помощью секвенирования следующего поколения, как правило, будут иметь разные длины считываний. Например, считывания с помощью технологии секвенирования Illumina захватывают считывания 100-меров. Однако проблема с секвенированием заключается в том, что фактически генерируются только небольшие доли из всех возможных 100-меров, которые присутствуют в геноме. Это происходит из-за ошибок чтения, но, что более важно, просто из-за простых дыр покрытия, которые возникают во время секвенирования. Проблема в том, что эти небольшие доли возможных k -меров нарушают ключевое предположение графов Де Брейна о том, что все прочтения k -меров должны перекрывать соседние k -меры в геноме (что не может произойти, если отсутствуют все возможные k -меры).

Решение этой проблемы состоит в том, чтобы разбить эти чтения размером с k -мер на меньшие k -меры, так что полученные меньшие k -меры будут представлять все возможные k -меры этого меньшего размера, которые присутствуют в геноме. [27] Кроме того, разделение k -меров на меньшие размеры также помогает облегчить проблему различных начальных длин прочтений. В этом примере пять прочтений не учитывают все возможные 7-меры генома, и, как таковой, граф Де Брейна не может быть создан. Но когда они разделены на 4-меры, полученных подпоследовательностей достаточно для реконструкции генома с использованием графа Де Брейна.

Помимо использования непосредственно для сборки последовательности, k -меры также могут использоваться для обнаружения неправильной сборки генома путем идентификации k -меров, которые представлены в избыточном количестве, что предполагает наличие повторяющихся последовательностей ДНК , которые были объединены. [28] Кроме того, k -меры также используются для обнаружения бактериального загрязнения во время сборки эукариотического генома, подход, заимствованный из области метагеномики. [29] [30]

Выборк-размер мера

Выбор размера k -мера имеет много различных эффектов на сборку последовательности. Эти эффекты сильно различаются между k -мерами меньшего и большего размера. Поэтому необходимо достичь понимания различных размеров k -меров, чтобы выбрать подходящий размер, который уравновешивает эффекты. Эффекты размеров описаны ниже.

Нижек-мер размеры
Вышек-мер размеры

Генетика и геномика

Что касается заболеваний, то динуклеотидное смещение применялось для обнаружения генетических островов, связанных с патогенностью. [11] Предыдущие исследования также показали, что тетрануклеотидное смещение способно эффективно обнаруживать горизонтальный перенос генов как у прокариот [32], так и у эукариот [33] .

Другое применение k -меров — таксономия, основанная на геномике. Например, GC-содержание использовалось для различения видов Erwinia с умеренным успехом. [34] Аналогично прямому использованию GC-содержания в таксономических целях используется T m , температура плавления ДНК. Поскольку связи GC более термически стабильны, последовательности с более высоким содержанием GC демонстрируют более высокую T m . В 1987 году Специальный комитет по согласованию подходов к бактериальной систематике предложил использовать ΔT m в качестве фактора при определении границ видов в рамках концепции филогенетического вида , хотя это предложение, по-видимому, не получило поддержки в научном сообществе. [35]

Другие приложения в области генетики и геномики включают:

Метагеномика

Частота и спектральная вариация k -меров широко используются в метагеномике как для анализа [47] [48], так и для биннинга. При биннинге задача состоит в том, чтобы разделить прочтения секвенирования на «бины» прочтений для каждого организма (или операционной таксономической единицы ), которые затем будут собраны. TETRA — это известный инструмент, который берет метагеномные образцы и объединяет их в организмы на основе их частот тетрануклеотидов ( k = 4). [49]  Другими инструментами, которые аналогичным образом полагаются на частоту k -меров для метагеномного биннинга, являются CompostBin ( k = 6), [50] PCAHIER, [51] PhyloPythia (5 ≤ k ≤ 6), [52] CLARK ( k ≥ 20), [53] и TACOA (2 ≤  k  ≤ 6). [54] Недавние разработки также применили глубокое обучение к метагеномному биннингу с использованием k -меров. [55]

Другие приложения в метагеномике включают:

Биотехнология 

Изменение частот k -меров в последовательностях ДНК широко использовалось в биотехнологических приложениях для контроля эффективности трансляции. В частности, оно использовалось как для повышения, так и для понижения скорости производства белка.

Что касается увеличения производства белка, снижение неблагоприятной частоты динуклеотидов использовалось для получения более высоких скоростей синтеза белка. [61] Кроме того, смещение использования кодонов было изменено для создания синонимичных последовательностей с более высокими скоростями экспрессии белка. [2] [3] Аналогичным образом, оптимизация пар кодонов, комбинация динуклеотида и оптимизации кодонов, также успешно использовалась для увеличения экспрессии. [62]

Наиболее изученным применением k -меров для снижения эффективности трансляции является манипуляция парами кодонов для ослабления вирусов с целью создания вакцин. Исследователи смогли перекодировать вирус денге , вирус, вызывающий лихорадку денге , таким образом, что его смещение пар кодонов больше отличалось от предпочтения использования кодонов млекопитающих, чем у дикого типа. [63] Хотя перекодированный вирус содержал идентичную аминокислотную последовательность, он продемонстрировал значительно ослабленную патогенность , вызывая при этом сильный иммунный ответ. Этот подход также эффективно использовался для создания вакцины против гриппа [64], а также вакцины против вируса герпеса болезни Марека (MDV). [65] Примечательно, что манипуляция смещением пар кодонов, использованная для ослабления MDV, не снизила эффективно онкогенность вируса, что подчеркивает потенциальную слабость в биотехнологических приложениях этого подхода. На сегодняшний день ни одна деоптимизированная вакцина с парами кодонов не была одобрена для использования.

Две более поздние статьи помогают объяснить фактический механизм, лежащий в основе деоптимизации пар кодонов: смещение пар кодонов является результатом смещения динуклеотидов. [66] [67] Изучая вирусы и их хозяев, обе группы авторов смогли сделать вывод, что молекулярный механизм, который приводит к ослаблению вирусов, заключается в увеличении количества динуклеотидов, плохо подходящих для трансляции.

Содержание GC, ввиду его влияния на температуру плавления ДНК , используется для прогнозирования температуры отжига в ПЦР — еще одном важном инструменте биотехнологии.

Выполнение

Псевдокод

Определение возможных k -меров чтения можно выполнить, просто циклически проходя по длине строки на единицу и вынимая каждую подстроку длины . Псевдокод для достижения этого выглядит следующим образом:

процедура k-mers(string seq, integer k) — это L ← длина(посл.) arr ← новый массив из L − k + 1 пустых строк // перебираем количество k-меров в seq,  // сохраняем n-й k-мер в выходном массиве  для n ← 0 до L − k + 1 эксклюзивно do arr[n] ← подпоследовательность seq от буквы n включительно до буквы n + k не включая возврат прибытий

В биоинформатических трубопроводах

Поскольку число k -меров растет экспоненциально для значений k , подсчет k -меров для больших значений k (обычно >10) является вычислительно сложной задачей. Хотя простые реализации, такие как приведенный выше псевдокод, работают для малых значений k , их необходимо адаптировать для высокопроизводительных приложений или когда k велико. Для решения этой проблемы были разработаны различные инструменты:

Смотрите также

Ссылки

  1. ^ Compeau, Phillip EC; Pevzner, Pavel A; Tesler, Glenn (ноябрь 2011 г.). «Как применить графы де Брейна к сборке генома». Nature Biotechnology . 29 (11): 987–991. doi :10.1038/nbt.2023. ISSN  1087-0156. PMC  5531759 . PMID  22068540.
  2. ^ ab Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (2009-09-14). Kudla, Grzegorz (ред.). "Параметры проектирования для управления экспрессией синтетических генов в Escherichia coli". PLOS ONE . ​​4 (9): e7002. Bibcode :2009PLoSO...4.7002W. doi : 10.1371/journal.pone.0007002 . ISSN  1932-6203. PMC 2736378 . PMID  19759823. 
  3. ^ ab Gustafsson, Claes; Govindarajan, Sridhar; Minshull, Jeremy (июль 2004 г.). «Смещение кодонов и экспрессия гетерологичных белков». Trends in Biotechnology . 22 (7): 346–353. doi :10.1016/j.tibtech.2004.04.006. PMID  15245907.
  4. ^ ab Perry, Scott C.; Beiko, Robert G. (2010-01-01). «Различение фрагментов микробного генома на основе их состава: эволюционные и сравнительные геномные перспективы». Genome Biology and Evolution . 2 : 117–131. doi :10.1093/gbe/evq004. ISSN  1759-6653. PMC 2839357 . PMID  20333228. 
  5. ^ Эшке, Катрин; Тримперт, Якоб; Остерридер, Николаус; Кунец, Душан (29.01.2018). Мокарски, Эдвард (ред.). «Ослабление очень вирулентного вируса герпеса болезни Марека (MDV) путем деоптимизации смещения пар кодонов». PLOS Pathogens . 14 (1): e1006857. doi : 10.1371/journal.ppat.1006857 . ISSN  1553-7374. PMC 5805365. PMID 29377958  . 
  6. ^ ab Mapleson, Daniel; Garcia Accinelli, Gonzalo; Kettleborough, George; Wright, Jonathan; Clavijo, Bernardo J. (2016-10-22). "KAT: набор инструментов анализа K-mer для контроля качества наборов данных NGS и геномных сборок". Bioinformatics . 33 (4): 574–576. doi :10.1093/bioinformatics/btw663. ISSN  1367-4803. PMC 5408915 . PMID  27797770. 
  7. ^ ab Chor, Benny ; Horn, David; Goldman, Nick; Levy, Yaron; Massingham, Tim (2009). "Спектры геномной ДНК k-mer: модели и модальности". Genome Biology . 10 (10): R108. doi : 10.1186/gb-2009-10-10-r108 . ISSN  1465-6906. PMC 2784323 . PMID  19814784. 
  8. ^ Яковчук, П. (2006-01-30). "Вклад укладки оснований и спаривания оснований в термическую стабильность двойной спирали ДНК". Nucleic Acids Research . 34 (2): 564–574. doi :10.1093/nar/gkj454. ISSN  0305-1048. PMC 1360284. PMID 16449200  . 
  9. ^ Бернарди, Джорджио (январь 2000 г.). «Изохоры и эволюционная геномика позвоночных». Gene . 241 (1): 3–17. doi :10.1016/S0378-1119(99)00485-0. PMID  10607893.
  10. ^ Hurst, Laurence D.; Merchant, Alexa R. (2001-03-07). «Высокое содержание гуанина–цитозина не является адаптацией к высокой температуре: сравнительный анализ среди прокариот». Труды Королевского общества B: Biological Sciences . 268 (1466): 493–497. doi :10.1098/rspb.2000.1397. ISSN  1471-2954. PMC 1088632. PMID 11296861  . 
  11. ^ abc Mugal, Carina F.; Weber, Claudia C.; Ellegren, Hans (декабрь 2015 г.). «GC-смещенная генная конверсия связывает ландшафт рекомбинации и демографию с составом геномных оснований: GC-смещенная генная конверсия управляет составом геномных оснований у широкого спектра видов». BioEssays . 37 (12): 1317–1326. doi :10.1002/bies.201500058. PMID  26445215. S2CID  21843897.
  12. ^ Ромигье, Джонатан; Ру, Камиль (2017-02-15). «Аналитические смещения, связанные с содержанием GC в молекулярной эволюции». Frontiers in Genetics . 8 : 16. doi : 10.3389/fgene.2017.00016 . ISSN  1664-8021. PMC 5309256. PMID 28261263  . 
  13. ^ Спенсер, CCA (2006-08-01). "Человеческий полиморфизм вокруг точек рекомбинации: Рисунок 1". Biochemical Society Transactions . 34 (4): 535–536. doi :10.1042/BST0340535. ISSN  0300-5127. PMID  16856853.
  14. ^ Вебер, Клаудия С.; Буссо, Бастьен; Ромигье, Джонатан; Джарвис, Эрих Д.; Эллегрен, Ханс (декабрь 2014 г.). «Доказательства GC-смещенной генной конверсии как фактора, обусловливающего различия между линиями в составе птичьих оснований». Genome Biology . 15 (12): 549. doi : 10.1186/s13059-014-0549-1 . ISSN  1474-760X. PMC 4290106 . PMID  25496599. 
  15. ^ Лассаль, Флоран; Периан, Северин; Батайон, Томас; Несме, Ксавье; Дюре, Лоран; Добен, Винсент (2015-02-06). Петров, Дмитрий А. (ред.). "Эволюция содержания GC в бактериальных геномах: гипотеза предвзятой конверсии генов расширяется". PLOS Genetics . 11 (2): e1004941. doi : 10.1371/journal.pgen.1004941 . ISSN  1553-7404. PMC 4450053 . PMID  25659072. 
  16. ^ Сантойо, Г.; Ромеро, Д. (апрель 2005 г.). «Конверсия генов и согласованная эволюция в бактериальных геномах». FEMS Microbiology Reviews . 29 (2): 169–183. doi :10.1016/j.femsre.2004.10.004. PMID  15808740.
  17. ^ Берер, Клод; Отон, Адам (2014-06-16), John Wiley & Sons Ltd (ред.), "Предвзятая конверсия генов и ее влияние на эволюцию генома", eLS , John Wiley & Sons, Ltd, doi :10.1002/9780470015902.a0020834.pub2, ISBN 9780470015902
  18. ^ ab Карлин, Сэмюэл (октябрь 1998 г.). «Глобальные динуклеотидные сигнатуры и анализ геномной гетерогенности». Current Opinion in Microbiology . 1 (5): 598–610. doi : 10.1016/S1369-5274(98)80095-7 . PMID  10066522.
  19. ^ Beutler, E.; Gelbart, T.; Han, JH; Koziol, JA; Beutler, B. (1989-01-01). «Эволюция генома и генетического кода: селекция на уровне динуклеотидов путем метилирования и расщепления полирибонуклеотидов». Труды Национальной академии наук . 86 (1): 192–196. Bibcode : 1989PNAS...86..192B. doi : 10.1073/pnas.86.1.192 . ISSN  0027-8424. PMC 286430. PMID 2463621  . 
  20. ^ Ди Джиаллонардо, Франческа; Шлаб, Тимоти Э.; Ши, Манг; Холмс, Эдвард К. (15.04.2017). Дермоди, Теренс С. (ред.). «Состав динуклеотидов в РНК-вирусах животных определяется больше семейством вирусов, чем видом хозяина». Журнал вирусологии . 91 (8). doi :10.1128/JVI.02381-16. ISSN  0022-538X. PMC 5375695. PMID 28148785  . 
  21. ^ Żemojtel, Tomasz; kiełbasa, Szymon M.; Arndt, Peter F.; Behrens, Sarah; Bourque, Guillaume; Vingron, Martin (2011-01-01). «CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency». Genome Biology and Evolution . 3 : 1304–1311. doi :10.1093/gbe/evr107. ISSN  1759-6653. PMC 3228489 . PMID  22016335. 
  22. ^ ab Hershberg, R; Petrov, DA (2008). «Выбор по смещению кодонов». Annual Review of Genetics . 42 : 287–299. doi :10.1146/annurev.genet.42.110807.091442. PMID  18983258.
  23. ^ Шарп, Пол М.; Ли, Вэнь-Сюн (1987). «Индекс адаптации кодонов — мера смещения направленного синонимичного использования кодонов и его потенциальное применение». Nucleic Acids Research . 15 (3): 1281–1295. doi :10.1093/nar/15.3.1281. ISSN  0305-1048. PMC 340524. PMID 3547335  . 
  24. ^ Noble, Peter A.; Citek, Robert W.; Ogunseitan, Oladele A. (апрель 1998 г.). «Частоты тетрануклеотидов в микробных геномах». Электрофорез . 19 (4): 528–535. doi :10.1002/elps.1150190412. ISSN  0173-0835. PMID  9588798. S2CID  9539686.
  25. ^ Нагараджан, Ниранджан; Поп, Михай (2013). «Сборка последовательностей демистифицирована». Nature Reviews Genetics . 14 (3): 157–167. doi :10.1038/nrg3367. ISSN  1471-0056. PMID  23358380. S2CID  3519991.
  26. ^ Ли, Жуйцян; Чжу, Хунмэй; Жуан, Цзюэ; Цянь, Вубин; Фан, Сяодун; Ши, Чжунбинь; Ли, Инжуй; Ли, Шэнтин; Шан, Гао; Кристиансен, Карстен; Ли, Сунган; Ян, Хуаньмин; Ван, Цзянь; Ван, Цзюнь (февраль 2010 г.). «Сборка геномов человека de novo с массовым параллельным секвенированием короткого чтения». Геномные исследования . 20 (2): 265–272. дои : 10.1101/гр.097261.109. ПМЦ 2813482 . ПМИД  20019144. 
  27. ^ Компо, П.; Певзнер, П.; Теслар, Г. (2011). «Как применить графы де Брейна к сборке генома». Nature Biotechnology . 29 (11): 987–991. doi :10.1038/nbt.2023. PMC 5531759. PMID 22068540  . 
  28. ^ Филлиппи, Адам М.; Шатц, Майкл К.; Поп, Михай (2008). «Геномная сборка: криминалистика: поиск неуловимой ошибки сборки». Genome Biology . 9 (3): R55. doi : 10.1186/gb-2008-9-3-r55 . PMC 2397507. PMID  18341692 . 
  29. ^ Delmont, Tom O.; Eren, A. Murat (29 марта 2016 г.). «Определение загрязнения с помощью передовых методов визуализации и анализа: метагеномные подходы к сборкам генома эукариот». PeerJ . 4 : e1839. doi : 10.7717/peerj.1839 . PMC 4824900 . PMID  27069789. 
  30. ^ Бемм, Феликс; Вайс, Клеменс Леонард; Шульц, Йорг; Фёрстер, Франк (31 мая 2016 г.). «Геном тихоходки: горизонтальный перенос генов или бактериальное загрязнение?». Труды Национальной академии наук . 113 (22): E3054-6. Bibcode : 2016PNAS..113E3054B. doi : 10.1073/pnas.1525116113 . PMC 4896698. PMID  27173902 . 
  31. ^ ab Zerbino, Daniel R.; Birney, Ewan (май 2008 г.). «Velvet: Алгоритмы для сборки коротких прочтений de novo с использованием графов де Брейна». Genome Research . 18 (5): 821–829. doi :10.1101/gr.074492.107. PMC 2336801 . PMID  18349386. 
  32. ^ Goodur, Haswanee D.; Ramtohul, Vyasanand; Baichoo, Shakuntala (2012-11-11). "GIDT — инструмент для идентификации и визуализации геномных островов в прокариотических организмах". 2012 IEEE 12-я Международная конференция по биоинформатике и биоинженерии (BIBE) . стр. 58–63. doi :10.1109/bibe.2012.6399707. ISBN 978-1-4673-4358-9. S2CID  6368495.
  33. ^ Jaron, KS; Moravec, JC; Martinkova, N. (2014-04-15). "SigHunt: поисковик горизонтального переноса генов, оптимизированный для эукариотических геномов". Bioinformatics . 30 (8): 1081–1086. doi : 10.1093/bioinformatics/btt727 . ISSN  1367-4803. PMID  24371153.
  34. ^ Starr, MP; Mandel, M. (1969-04-01). «Состав оснований ДНК и таксономия фитопатогенных и других энтеробактерий». Журнал общей микробиологии . 56 (1): 113–123. doi : 10.1099/00221287-56-1-113 . ISSN  0022-1287. PMID  5787000.
  35. ^ Мур, WEC; Стакебрандт, Э.; Кандлер, О.; Колвелл, Р. Р.; Кричевский, М. И.; Трупер, Х. Г.; Мюррей, Р. Г. Э.; Уэйн, Л. Г.; Гримонт, П. А. Д. (1987-10-01). «Отчет Специального комитета по согласованию подходов к бактериальной систематике». Международный журнал систематической и эволюционной микробиологии . 37 (4): 463–464. doi : 10.1099/00207713-37-4-463 . ISSN  1466-5026.
  36. ^ Patro, Rob; Mount, Stephen M; Kingsford, Carl (май 2014 г.). «Sailfish позволяет проводить количественную оценку изоформ без выравнивания из прочтений РНК-секвенирования с использованием легких алгоритмов». Nature Biotechnology . 32 (5): 462–464. arXiv : 1308.3700 . doi :10.1038/nbt.2862. PMC 4077321 . PMID  24752080. 
  37. ^ Наварро-Гомес, Дэниел; Лейпциг, Джереми; Шен, Лишуан; Лотт, Мари; Стассен, Альфонс ПМ; Уоллес, Дуглас К.; Виггс, Джейни Л.; Фальк, Марни Дж.; ван Овен, Маннис; Гай, Сяову (15 апреля 2015 г.). «Phy-Mer: новый классификатор митохондриальных гаплогрупп, не требующий выравнивания и не зависящий от ссылок». Биоинформатика . 31 (8): 1310–1312. doi : 10.1093/биоинформатика/btu825. ПМЦ 4393525 . ПМИД  25505086. 
  38. ^ Карикари, Бенджамин; Лемей, Марк-Андре; Бельзил, Франсуа (13 июля 2023 г.). «Исследования ассоциаций по всему геному на основе k-меров у растений: достижения, проблемы и перспективы». Гены . 14 (7): 1439. doi : 10.3390/genes14071439 . PMC 10379394. PMID  37510343 . 
  39. ^ Hozza, Michal; Vinař, Tomáš; Brejová, Broňa (2015), Iliopoulos, Costas; Puglisi, Simon; Yilmaz, Emine (ред.), "How Big is that Genome? Estimating Genome Size and Coverage from k-mer Abundance Spectra", Обработка строк и поиск информации , Конспект лекций по информатике, т. 9309, Springer International Publishing, стр. 199–209, doi :10.1007/978-3-319-23826-5_20, ISBN 9783319238258
  40. ^ Ламичхани, Сангит; Фань, Гуаньи; Видемо, Фредрик; Гуннарссон, Ульрика; Тельманн, Дорин Швочоу; Хоппнер, Марк П; Керье, Сюзанна; Густавсон, Улла; Ши, Чэнчэн (2016). «Структурные геномные изменения лежат в основе альтернативных репродуктивных стратегий ерша (Philomachus pugnax)». Природная генетика . 48 (1): 84–88. дои : 10.1038/ng.3430 . ISSN  1061-4036. ПМИД  26569123.
  41. ^ Chae, H.; Park, J.; Lee, S.-W.; Nephew, KP; Kim, S. (1 мая 2013 г.). «Сравнительный анализ с использованием паттернов K-mer и K-flank предоставляет доказательства эволюции последовательности CpG-островков в геномах млекопитающих». Nucleic Acids Research . 41 (9): 4783–4791. doi :10.1093/nar/gkt144. PMC 3643570 . PMID  23519616. 
  42. ^ Мохамед Хашим, Эззеддин Камил; Абдулла, Росни (декабрь 2015 г.). «Редкая ДНК k-меров: идентификация мотивов последовательностей и прогнозирование CpG-острова и промотора». Журнал теоретической биологии . 387 : 88–100. Bibcode : 2015JThBi.387...88M. doi : 10.1016/j.jtbi.2015.09.014. PMID  26427337.
  43. ^ Прайс, Джонс, Певзнер (2005). «Идентификация de novo повторяющихся семейств в больших геномах». Биоинформатика . 21(supp 1): i351–8. doi : 10.1093/bioinformatics/bti1018 . PMID  15961478.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  44. ^ Мехер, Прабина Кумар; Саху, Танмая Кумар; Рао, АР (2016). «Идентификация видов на основе ДНК-штрихкода с использованием вектора признаков k-mer и классификатора случайного леса». Gene . 592 (2): 316–324. doi :10.1016/j.gene.2016.07.010. PMID  27393648.
  45. ^ Newburger, DE; Bulyk, ML (1 января 2009 г.). «UniPROBE: онлайн-база данных микрочипов связывания белков по взаимодействиям белок-ДНК». Nucleic Acids Research . 37 (База данных): D77–D82. doi :10.1093/nar/gkn660. PMC 2686578 . PMID  18842628. 
  46. ^ Нордстрем, Карл СП; Альбани, Мария С; Джеймс, Гео Великкакам; Гутжар, Кэролайн; Хартвиг, Бенджамин; Терк, Франциска; Пашковский, Ута; Купленд, Джордж; Шнебергер, Корбинян (апрель 2013 г.). «Идентификация мутаций путем прямого сравнения данных полногеномного секвенирования мутантов и особей дикого типа с использованием k-меров». Природная биотехнология . 31 (4): 325–330. дои : 10.1038/nbt.2515 . ПМИД  23475072.
  47. ^ Чжу, Цзяньфэн; Чжэн, Вэй-Моу (2014). «Самоорганизующийся подход к метагеномам». Computational Biology and Chemistry . 53 : 118–124. doi : 10.1016/j.compbiolchem.2014.08.016. PMID  25213854.
  48. ^ Дубинкина, Вероника Б.; Ищенко, Дмитрий С.; Ульянцев, Владимир И.; Тяхт, Александр В.; Алексеев, Дмитрий Г. (декабрь 2016 г.). "Оценка применимости спектра k-mer для анализа метагеномного различия". BMC Bioinformatics . 17 (1): 38. doi : 10.1186/s12859-015-0875-7 . PMC 4715287 . PMID  26774270. 
  49. ^ Teeling, H; Waldmann, J; Lombardot, T; Bauer, M; Glöckner, F (2004). "TETRA: веб-сервис и автономная программа для анализа и сравнения моделей использования тетрануклеотидов в последовательностях ДНК". BMC Bioinformatics . 5 : 163. doi : 10.1186/1471-2105-5-163 . PMC 529438 . PMID  15507136. 
  50. ^ Чаттерджи, Соурав; Ямазаки, Ичитаро; Бай, Чжаоцзюнь; Эйзен, Джонатан А. (2008), Вингрон, Мартин; Вонг, Лимсун (ред.), «CompostBin: основанный на составе ДНК алгоритм для биннинга экологических дробовиков», Исследования в области вычислительной молекулярной биологии , Lecture Notes in Computer Science, т. 4955, Springer Berlin Heidelberg, стр. 17–28, arXiv : 0708.3098 , doi : 10.1007/978-3-540-78839-3_3, ISBN 9783540788386, S2CID  7832512
  51. ^ Чжэн, Хао; У, Хунвэй (2010). «Короткое прокариотическое ДНК-связывание фрагментов с использованием иерархического классификатора на основе линейного дискриминантного анализа и анализа главных компонент». Журнал биоинформатики и вычислительной биологии . 08 (6): 995–1011. doi :10.1142/S0219720010005051. ISSN  0219-7200. PMID  21121023.
  52. ^ Макхарди, Элис Кэролин; Мартин, Гектор Гарсия; Циригос, Аристотель; Хугенхольц, Филипп; Ригутсос, Исидор (2007). «Точная филогенетическая классификация фрагментов ДНК переменной длины». Nature Methods . 4 (1): 63–72. doi :10.1038/nmeth976. ISSN  1548-7091. PMID  17179938. S2CID  28797816.
  53. ^ Оюнит, Рашид; Уонамейкер, Стив; Клоуз, Тимоти Дж.; Лонарди, Стефано (2015). «КЛАРК: быстрая и точная классификация метагеномных и геномных последовательностей с использованием дискриминантных k-меров». BMC Genomics . 16 (1): 236. doi : 10.1186/s12864-015-1419-2 . ISSN  1471-2164. PMC 4428112. PMID  25879410 . 
  54. ^ Диас, Наритца Н.; Краузе, Лутц; Гёсманн, Александр; Нихаус, Карстен; Натткемпер, Тим В. (2009). «TACOA – Таксономическая классификация фрагментов генома окружающей среды с использованием подхода «ядерного ближайшего соседа». BMC Bioinformatics . 10 (1): 56. doi : 10.1186/1471-2105-10-56 . ISSN  1471-2105. PMC 2653487. PMID 19210774  . 
  55. ^ Фианнака, Антонино; Ла Палья, Лаура; Ла Роза, Массимо; Ло Боско, Джосуэ'; Ренда, Джованни; Риццо, Риккардо; Гаглио, Сальваторе; Урсо, Альфонсо (2018). «Модели глубокого обучения для таксономической классификации метагеномных данных бактерий». БМК Биоинформатика . 19 (S7): 198. дои : 10.1186/s12859-018-2182-6 . ISSN  1471-2105. ПМК 6069770 . ПМИД  30066629. 
  56. ^ Чжу, Цзяньфэн; Чжэн, Вэй-Моу (декабрь 2014 г.). «Самоорганизующийся подход к метагеномам». Computational Biology and Chemistry . 53 : 118–124. doi : 10.1016/j.compbiolchem.2014.08.016. PMID  25213854.
  57. ^ Лу, Дженнифер; Брайтвизер, Флориан П.; Тилен, Питер; Зальцберг, Стивен Л. (2017-01-02). «Bracken: оценка численности видов в данных метагеномики». PeerJ Computer Science . 3 : e104. doi : 10.7717/peerj-cs.104 . ISSN  2376-5992.
  58. ^ Вуд, Деррик Э.; Зальцберг, Стивен Л. (2014). «Кракен: сверхбыстрая классификация метагеномных последовательностей с использованием точных выравниваний». Genome Biology . 15 (3): R46. doi : 10.1186/gb-2014-15-3-r46 . ISSN  1465-6906. PMC 4053813. PMID 24580807  . 
  59. ^ Розен, Гейл; Гарбарин, Элейн; Касейро, Диамантино; Поликар, Роби; Сохансандж, Бахрад (2008). «Классификация фрагментов метагенома с использованием профилей частот -Mer». Достижения в области биоинформатики . 2008 : 205969. doi : 10.1155/2008/205969 . ISSN  1687-8027. PMC 2777009. PMID  19956701 . 
  60. ^ Ван, Ин; Фу, Лэй; Жэнь, Цзе; Ю, Чжаося; Чэнь, Тин; Сан, Фэнчжу (2018-05-03). «Идентификация группоспецифичных последовательностей для микробных сообществ с использованием длинных сигнатур последовательностей k-меров». Frontiers in Microbiology . 9 : 872. doi : 10.3389/fmicb.2018.00872 . ISSN  1664-302X. PMC 5943621. PMID 29774017  . 
  61. ^ Аль-Саиф, Махер; Хабар, Халид СА (2012). «Снижение частоты динуклеотидов UU/UA в кодирующих областях приводит к повышению стабильности мРНК и экспрессии белка». Молекулярная терапия . 20 (5): 954–959. doi :10.1038/mt.2012.29. PMC 3345983. PMID  22434136 . 
  62. ^ Trinh, R; Gurbaxani, B; Morrison, SL; Seyfzadeh, M (2004). «Оптимизация использования пар кодонов в последовательности линкера (GGGGS)3 приводит к усилению экспрессии белка». Молекулярная иммунология . 40 (10): 717–722. doi :10.1016/j.molimm.2003.08.006. PMID  14644097. S2CID  36734007.
  63. ^ Шен, Сэм Х.; Штауфт, Чарльз Б.; Горбацевич, Александр; Сонг, Ютонг; Уорд, Чарльз Б.; Юровский, Алиса; Мюллер, Штеффен; Футчер, Брюс; Виммер, Эккард (14.04.2015). «Масштабное перекодирование генома арбовируса для восстановления баланса его предпочтений к насекомым и млекопитающим». Труды Национальной академии наук . 112 (15): 4749–4754. Bibcode : 2015PNAS..112.4749S. doi : 10.1073/pnas.1502864112 . ISSN  0027-8424. PMC 4403163. PMID 25825721  . 
  64. ^ Каплан, Брайан С.; Соуза, Карин К.; Гогер, Филлип К.; Штауфт, Чарльз Б.; Роберт Коулман, Дж.; Мюллер, Штеффен; Винсент, Эми Л. (2018). «Вакцинация свиней живой аттенуированной вакциной против гриппа с деоптимизированным смещением пар кодонов защищает от гомологичного заражения». Вакцина . 36 (8): 1101–1107. doi : 10.1016/j.vaccine.2018.01.027 . PMID  29366707.
  65. ^ Эшке, Катрин; Тримперт, Якоб; Остерридер, Николаус; Кунец, Душан (29.01.2018). Мокарски, Эдвард (ред.). «Ослабление очень вирулентного вируса герпеса болезни Марека (MDV) путем деоптимизации смещения пар кодонов». PLOS Pathogens . 14 (1): e1006857. doi : 10.1371/journal.ppat.1006857 . ISSN  1553-7374. PMC 5805365. PMID 29377958  . 
  66. ^ Кунец, Душан; Остерридер, Николаус (2016). «Смещение пар кодонов — прямое следствие смещения динуклеотидов». Cell Reports . 14 (1): 55–67. doi : 10.1016/j.celrep.2015.12.011 . PMID  26725119.
  67. ^ Tulloch, Fiona; Atkinson, Nicky J; Evans, David J; Ryan, Martin D; Simmonds, Peter (2014-12-09). "Ослабление РНК-вируса путем деоптимизации пар кодонов является артефактом увеличения частот динуклеотидов CpG/UpA". eLife . 3 : e04531. doi : 10.7554/eLife.04531 . ISSN  2050-084X. PMC 4383024 . PMID  25490153. 
  68. ^ Marçais, Guillaume; Kingsford, Carl (2011-03-15). "Быстрый, неблокируемый подход к эффективному параллельному подсчету случаев появления k-меров". Bioinformatics . 27 (6): 764–770. doi :10.1093/bioinformatics/btr011. ISSN  1460-2059. PMC 3051319 . PMID  21217122. 
  69. ^ Деорович, Себастьян; Кокот, Марек; Грабовский, Шимон; Дебудай-Грабыш, Агнешка (15 мая 2015 г.). «KMC 2: быстрый и экономичный подсчет k-меров». Биоинформатика . 31 (10): 1569–1576. arXiv : 1407.1507 . doi : 10.1093/биоинформатика/btv022 . ISSN  1460-2059. ПМИД  25609798.
  70. ^ Эрберт, Мариус; Рехнер, Штеффен; Мюллер-Ханнеманн, Маттиас (2017). «Gerbil: быстрый и эффективный с точки зрения памяти счетчик k-меров с поддержкой GPU». Алгоритмы для молекулярной биологии . 12 (1): 9. doi : 10.1186/s13015-017-0097-9 . ISSN  1748-7188. PMC 5374613. PMID 28373894  . 

Внешние ссылки