к-мер

В биоинформатике k -меры представляют собой подстроки длины, содержащиеся в биологической последовательности. В основном используемые в контексте вычислительной геномики и анализа последовательностей , в которых k -меры состоят из нуклеотидов ( т . е. A, T, G и C), k -меры используются с заглавной буквы для сборки последовательностей ДНК , ^[1] улучшения экспрессии гетерологичных генов , ^[2]^[3]идентификации видов в метагеномных образцах , ^[4] и создания ослабленных вакцин . ^[5] Обычно термин k -мер относится ко всем подпоследовательностям последовательности длины , таким образом, что последовательность AGAT будет иметь четыре мономера (A, G, A и T), три 2-мера (AG, GA, AT), два 3-мера (AGA и GAT) и один 4-мер (AGAT). В более общем смысле, последовательность длины будет иметь k -меров и общее количество возможных k -меров, где — число возможных мономеров (например, четыре в случае ДНК ). $к$ $к$ $L$ $L-k+1$ $n^{k}$ $n$

Введение

k -меры — это просто подпоследовательности длины . Например, все возможные k -меры последовательности ДНК показаны ниже: $к$

Метод визуализации k -меров, спектр k -меров , показывает множественность каждого k -мера в последовательности в зависимости от числа k -меров с этой множественностью. ^[6] Количество мод в спектре k -меров для генома вида варьируется, при этом большинство видов имеют унимодальное распределение. ^[7] Однако все млекопитающие имеют мультимодальное распределение. Количество мод в спектре k -меров также может варьироваться между областями генома: у людей унимодальные спектры k -меров в 5'-НТО и экзонах , но мультимодальные спектры в 3'-НТО и интронах .

Силы, действующие на ДНКк-мер частота

Частота использования k -меров зависит от многочисленных сил, действующих на нескольких уровнях, которые часто конфликтуют. Важно отметить, что k -меры для более высоких значений k также подвержены влиянию сил, влияющих на более низкие значения k . Например, если 1-мер A не встречается в последовательности, ни один из 2-меров, содержащих A (AA, AT, AG и AC), также не будет встречаться, тем самым связывая эффекты различных сил.

к= 1

Когда k = 1, существует четыре k -мера ДНК, то есть A, T, G и C. На молекулярном уровне существует три водородные связи между G и C, тогда как между A и T их всего две. Связи GC, в результате дополнительной водородной связи (и более сильных стековых взаимодействий), более термически стабильны, чем связи AT. ^[8] Млекопитающие и птицы имеют более высокое отношение Gs и Cs к As и Ts ( GC-содержание ), что привело к гипотезе о том, что термическая стабильность является движущим фактором изменения GC-содержания. ^[9] Однако, хотя эта гипотеза и была многообещающей, она не выдержала проверки: анализ среди различных прокариот не показал никаких доказательств корреляции GC-содержания с температурой, как предсказывала бы гипотеза тепловой адаптации. ^[10] Действительно, если бы естественный отбор был движущей силой изменения GC-содержания, это потребовало бы, чтобы изменения отдельных нуклеотидов , которые часто молчат , изменили приспособленность организма. ^[11]

Скорее, текущие данные свидетельствуют о том, что конверсия генов с GC-смещением (gBGC) является движущим фактором, стоящим за изменением содержания GC. ^[11] gBGC — это процесс, который происходит во время рекомбинации , который заменяет As и T на Gs и Cs. ^[12] Этот процесс, хотя и отличается от естественного отбора, тем не менее может оказывать селективное давление на ДНК, смещенную в сторону замен GC, фиксируемых в геноме. Поэтому gBGC можно рассматривать как «самозванца» естественного отбора. Как и следовало ожидать, содержание GC больше в местах, испытывающих большую рекомбинацию. ^[13] Кроме того, организмы с более высокими скоростями рекомбинации демонстрируют более высокое содержание GC, что соответствует предсказанным эффектам гипотезы gBGC. ^[14] Интересно, что gBGC, по-видимому, не ограничивается эукариотами . ^[15] Бесполые организмы, такие как бактерии и археи, также испытывают рекомбинацию посредством конверсии генов, процесса замены гомологичной последовательности, приводящего к появлению нескольких идентичных последовательностей по всему геному. ^[16] То, что рекомбинация способна повышать содержание GC во всех доменах жизни, предполагает, что gBGC универсально сохраняется. Является ли gBGC (в основном) нейтральным побочным продуктом молекулярной машины жизни или сам находится под селекцией, еще предстоит определить. Точный механизм и эволюционное преимущество или недостаток gBGC в настоящее время неизвестны. ^[17]

к= 2

Несмотря на сравнительно большой объем литературы, обсуждающей смещения GC-содержания, относительно мало было написано о смещениях динуклеотидов. Известно, что эти смещения динуклеотидов относительно постоянны по всему геному, в отличие от GC-содержания, которое, как было показано выше, может значительно варьироваться. ^[18] Это важное понимание, которое нельзя упускать из виду. Если бы смещения динуклеотидов подвергались давлению, вызванному трансляцией , то были бы различные модели смещения динуклеотидов в кодирующих и некодирующих областях, обусловленные сниженной эффективностью трансляции некоторых динуклеотидов. ^[19] Поскольку этого не происходит, можно сделать вывод, что силы, модулирующие смещение динуклеотидов, не зависят от трансляции. Еще одним доказательством против давления трансляции, влияющего на смещение динуклеотидов, является тот факт, что смещения динуклеотидов вирусов, которые в значительной степени зависят от эффективности трансляции, формируются их вирусным семейством больше, чем их хозяевами, трансляционный аппарат которых захватывают вирусы. ^[20]

Противоположностью увеличению содержания GC в gBGC является подавление CG , которое снижает частоту 2-меров CG из-за дезаминирования метилированных динуклеотидов CG, что приводит к замене CG на TG, тем самым снижая содержание GC. ^[21] Это взаимодействие подчеркивает взаимосвязь между силами, действующими на k - меры при различных значениях k.

Один интересный факт о динуклеотидном смещении заключается в том, что оно может служить измерением «расстояния» между филогенетически схожими геномами. Геномы пар организмов, которые тесно связаны, имеют больше схожих динуклеотидных смещений, чем между парами более отдаленно связанных организмов. ^[18]

к= 3

Существует двадцать природных аминокислот , которые используются для построения белков, кодируемых ДНК. Однако существует только четыре нуклеотида. Следовательно, не может быть однозначного соответствия между нуклеотидами и аминокислотами. Аналогично, существует 16 2-меров, чего также недостаточно для однозначного представления каждой аминокислоты. Однако в ДНК существует 64 различных 3-мера, чего достаточно для уникального представления каждой аминокислоты. Эти неперекрывающиеся 3-меры называются кодонами . Хотя каждый кодон сопоставляется только одной аминокислоте, каждая аминокислота может быть представлена несколькими кодонами . Таким образом, одна и та же последовательность аминокислот может иметь несколько представлений ДНК. Интересно, что каждый кодон для аминокислоты не используется в равных пропорциях. ^[22] Это называется смещением использования кодонов (CUB). Когда k = 3, необходимо провести различие между истинной частотой 3-меров и CUB. Например, последовательность ATGGCA содержит четыре 3-мерных слова (ATG, TGG, GGC и GCA), при этом содержит только два кодона (ATG и GCA). Однако CUB является основным движущим фактором смещения использования 3-меров (составляя до ⅓ его, поскольку ⅓ k -меров в кодирующей области являются кодонами) и будет основным объектом внимания в этом разделе.

Точная причина вариации между частотами различных кодонов не полностью понята. Известно, что предпочтение кодонов коррелирует с распространенностью тРНК, причем кодоны, соответствующие более распространенным тРНК, соответственно встречаются чаще ^[22] и что более высокоэкспрессированные белки демонстрируют большую CUB. ^[23] Это говорит о том, что движущей силой вариации CUB является отбор по эффективности или точности трансляции.

к= 4

Подобно эффекту, наблюдаемому в динуклеотидном смещении, тетрануклеотидные смещения филогенетически схожих организмов более схожи, чем между менее близкородственными организмами. ^[4] Точная причина вариации тетрануклеотидного смещения не совсем понятна, но была выдвинута гипотеза, что это результат поддержания генетической стабильности на молекулярном уровне. ^[24]

Приложения

Частота набора k -меров в геноме вида, в геномной области или в классе последовательностей может использоваться как «сигнатура» базовой последовательности. Сравнение этих частот вычислительно проще, чем выравнивание последовательностей , и является важным методом в анализе последовательностей без выравнивания . Его также можно использовать в качестве анализа первой стадии перед выравниванием.

Последовательность сборки

На этом рисунке показан процесс разделения прочтений на более мелкие k -меры (в данном случае 4-меры) для использования в графе Де Брейна. (A) Показывает начальный сегмент ДНК, который секвенируется. (B) Показывает прочтения, которые были получены в результате секвенирования, а также показывает, как они выравниваются. Проблема с этим выравниванием заключается в том, что они перекрываются на k-2, а не на k-1 (что необходимо в графах Де Брейна). (C) Показывает прочтения, разделяемые на более мелкие 4-меры. (D) Отбрасывает повторяющиеся 4-меры, а затем показывает их выравнивание. Обратите внимание, что эти k -меры перекрываются на k-1 и затем могут использоваться в графе Де Брейна.

При сборке последовательностей k -меры используются при построении графов Де Брейна . ^[25]^[26] Для того чтобы создать граф Де Брейна, k -меры, хранящиеся в каждом ребре с длиной, должны перекрывать другую строку в другом ребре на , чтобы создать вершину . Считывания, сгенерированные с помощью секвенирования следующего поколения, как правило, будут иметь разные длины считываний. Например, считывания с помощью технологии секвенирования Illumina захватывают считывания 100-меров. Однако проблема с секвенированием заключается в том, что фактически генерируются только небольшие доли из всех возможных 100-меров, которые присутствуют в геноме. Это происходит из-за ошибок чтения, но, что более важно, просто из-за простых дыр покрытия, которые возникают во время секвенирования. Проблема в том, что эти небольшие доли возможных k -меров нарушают ключевое предположение графов Де Брейна о том, что все прочтения k -меров должны перекрывать соседние k -меры в геноме (что не может произойти, если отсутствуют все возможные k -меры). $L$ $L-1$ $к-1$

Решение этой проблемы состоит в том, чтобы разбить эти чтения размером с k -мер на меньшие k -меры, так что полученные меньшие k -меры будут представлять все возможные k -меры этого меньшего размера, которые присутствуют в геноме. ^[27] Кроме того, разделение k -меров на меньшие размеры также помогает облегчить проблему различных начальных длин прочтений. В этом примере пять прочтений не учитывают все возможные 7-меры генома, и, как таковой, граф Де Брейна не может быть создан. Но когда они разделены на 4-меры, полученных подпоследовательностей достаточно для реконструкции генома с использованием графа Де Брейна.

Помимо использования непосредственно для сборки последовательности, k -меры также могут использоваться для обнаружения неправильной сборки генома путем идентификации k -меров, которые представлены в избыточном количестве, что предполагает наличие повторяющихся последовательностей ДНК , которые были объединены. ^[28] Кроме того, k -меры также используются для обнаружения бактериального загрязнения во время сборки эукариотического генома, подход, заимствованный из области метагеномики. ^[29]^[30]

Выборк-размер мера

Выбор размера k -мера имеет много различных эффектов на сборку последовательности. Эти эффекты сильно различаются между k -мерами меньшего и большего размера. Поэтому необходимо достичь понимания различных размеров k -меров, чтобы выбрать подходящий размер, который уравновешивает эффекты. Эффекты размеров описаны ниже.

Нижек-мер размеры

Меньший размер k -мера уменьшит количество ребер, хранящихся в графе, и, таким образом, поможет уменьшить объем пространства, необходимый для хранения последовательности ДНК.
Меньшие размеры увеличат вероятность того, что все k -меры будут перекрываться, и, таким образом, будут иметь необходимые подпоследовательности для построения графа Де Брейна. ^[31]
Однако, имея k -меры меньшего размера, вы также рискуете иметь много вершин в графе, ведущих к одному k-меру. Таким образом, это затруднит реконструкцию генома, поскольку существует более высокий уровень неоднозначности пути из-за большего количества вершин, которые необходимо будет обойти.
Информация теряется по мере уменьшения k -меров.
- Например, вероятность AGTCGTAGATGCTG ниже, чем ACGT, и, как таковая, содержит больший объем информации (для получения дополнительной информации обратитесь к энтропии (теории информации) ).
Более мелкие k -меры также имеют проблему неспособности разрешить области в ДНК, где встречаются небольшие микросателлиты или повторы. Это происходит потому, что более мелкие k -меры будут иметь тенденцию сидеть полностью в области повтора и поэтому трудно определить количество повторений, которые фактически имели место.
- Например, для подпоследовательности ATGTGTGTGTGTGTACG количество повторений TG будет потеряно, если выбран размер k -мера менее 16. Это связано с тем, что большинство k -меров будут находиться в повторяющейся области и могут быть просто отброшены как повторы одного и того же k -мера вместо того, чтобы ссылаться на количество повторов.

Вышек-мер размеры

Увеличение размера k -меров приведет к увеличению количества ребер в графе, что, в свою очередь, увеличит объем памяти, необходимый для хранения последовательности ДНК.
При увеличении размера k -меров число вершин также уменьшится. Это поможет в построении генома, поскольку в графе будет меньше путей для обхода. ^[31]
Более крупные k -меры также подвергаются более высокому риску отсутствия внешних вершин от каждого k-мера. Это связано с тем, что более крупные k -меры увеличивают риск того, что они не будут перекрываться с другими k -мерами на . Таким образом, это может привести к несовпадениям в чтениях и, как следствие, к большему количеству более мелких контигов . $к-1$
Большие размеры k -меров помогают смягчить проблему небольших областей повторов. Это связано с тем, что k -мер будет содержать баланс области повторов и прилегающих последовательностей ДНК (при условии, что он достаточно большой), что может помочь разрешить количество повторов в этой конкретной области.

Генетика и геномика

Что касается заболеваний, то динуклеотидное смещение применялось для обнаружения генетических островов, связанных с патогенностью. ^[11] Предыдущие исследования также показали, что тетрануклеотидное смещение способно эффективно обнаруживать горизонтальный перенос генов как у прокариот ^[32], так и у эукариот ^{[33] .}

Другое применение k -меров — таксономия, основанная на геномике. Например, GC-содержание использовалось для различения видов Erwinia с умеренным успехом. ^[34] Аналогично прямому использованию GC-содержания в таксономических целях используется T m , температура плавления ДНК. Поскольку связи GC более термически стабильны, последовательности с более высоким содержанием GC демонстрируют более высокую T m . В 1987 году Специальный комитет по согласованию подходов к бактериальной систематике предложил использовать ΔT m в качестве фактора при определении границ видов в рамках концепции филогенетического вида , хотя это предложение, по-видимому, не получило поддержки в научном сообществе. ^[35]

Другие приложения в области генетики и геномики включают:

Количественная оценка изоформ РНК по данным РНК-секвенирования ^[36]
Классификация митохондриальной гаплогруппы человека ^[37]
Обнаружение участков рекомбинации в геномах ^[38]
Оценка размера генома с использованием частоты k -меров по сравнению с глубиной k -меров ^[39]^[40]
Характеристика CpG-островков по фланкирующим областям ^[41]^[42]
Новое обнаружение повторяющейся последовательности, такой как мобильный элемент ^[43]
ДНК-штрихкодирование видов. ^[7]^[44]
Характеристика мотивов белок-связывающей последовательности ^[45]
Идентификация мутации или полиморфизма с использованием данных секвенирования следующего поколения ^[46]

Метагеномика

Частота и спектральная вариация k -меров широко используются в метагеномике как для анализа ^[47]^[48], так и для биннинга. При биннинге задача состоит в том, чтобы разделить прочтения секвенирования на «бины» прочтений для каждого организма (или операционной таксономической единицы ), которые затем будут собраны. TETRA — это известный инструмент, который берет метагеномные образцы и объединяет их в организмы на основе их частот тетрануклеотидов ( k = 4). ^[49] Другими инструментами, которые аналогичным образом полагаются на частоту k -меров для метагеномного биннинга, являются CompostBin ( k = 6), ^[50] PCAHIER, ^[51] PhyloPythia (5 ≤ k ≤ 6), ^[52] CLARK ( k ≥ 20), ^[53] и TACOA (2 ≤ k ≤ 6). ^[54] Недавние разработки также применили глубокое обучение к метагеномному биннингу с использованием k -меров. ^[55]

Другие приложения в метагеномике включают:

Восстановление рамок считывания из необработанных считываний ^[56]
Оценка численности видов в метагеномных образцах ^[57]
Определение видов, присутствующих в образцах ^[58]^[59]
Определение биомаркеров заболеваний из образцов ^[60]

Биотехнология

Изменение частот k -меров в последовательностях ДНК широко использовалось в биотехнологических приложениях для контроля эффективности трансляции. В частности, оно использовалось как для повышения, так и для понижения скорости производства белка.

Что касается увеличения производства белка, снижение неблагоприятной частоты динуклеотидов использовалось для получения более высоких скоростей синтеза белка. ^[61] Кроме того, смещение использования кодонов было изменено для создания синонимичных последовательностей с более высокими скоростями экспрессии белка. ^[2]^[3] Аналогичным образом, оптимизация пар кодонов, комбинация динуклеотида и оптимизации кодонов, также успешно использовалась для увеличения экспрессии. ^[62]

Наиболее изученным применением k -меров для снижения эффективности трансляции является манипуляция парами кодонов для ослабления вирусов с целью создания вакцин. Исследователи смогли перекодировать вирус денге , вирус, вызывающий лихорадку денге , таким образом, что его смещение пар кодонов больше отличалось от предпочтения использования кодонов млекопитающих, чем у дикого типа. ^[63] Хотя перекодированный вирус содержал идентичную аминокислотную последовательность, он продемонстрировал значительно ослабленную патогенность , вызывая при этом сильный иммунный ответ. Этот подход также эффективно использовался для создания вакцины против гриппа ^[64], а также вакцины против вируса герпеса болезни Марека (MDV). ^[65] Примечательно, что манипуляция смещением пар кодонов, использованная для ослабления MDV, не снизила эффективно онкогенность вируса, что подчеркивает потенциальную слабость в биотехнологических приложениях этого подхода. На сегодняшний день ни одна деоптимизированная вакцина с парами кодонов не была одобрена для использования.

Две более поздние статьи помогают объяснить фактический механизм, лежащий в основе деоптимизации пар кодонов: смещение пар кодонов является результатом смещения динуклеотидов. ^[66]^[67] Изучая вирусы и их хозяев, обе группы авторов смогли сделать вывод, что молекулярный механизм, который приводит к ослаблению вирусов, заключается в увеличении количества динуклеотидов, плохо подходящих для трансляции.

Содержание GC, ввиду его влияния на температуру плавления ДНК , используется для прогнозирования температуры отжига в ПЦР — еще одном важном инструменте биотехнологии.

Выполнение

Псевдокод

Определение возможных k -меров чтения можно выполнить, просто циклически проходя по длине строки на единицу и вынимая каждую подстроку длины . Псевдокод для достижения этого выглядит следующим образом: $к$

процедура k-mers(string seq, integer k) — это L ← длина(посл.) arr ← новый массив из L − k + 1 пустых строк // перебираем количество k-меров в seq,  // сохраняем n-й k-мер в выходном массиве  для n ← 0 до L − k + 1 эксклюзивно do arr[n] ← подпоследовательность seq от буквы n включительно до буквы n + k не включая возврат прибытий

В биоинформатических трубопроводах

Поскольку число k -меров растет экспоненциально для значений k , подсчет k -меров для больших значений k (обычно >10) является вычислительно сложной задачей. Хотя простые реализации, такие как приведенный выше псевдокод, работают для малых значений k , их необходимо адаптировать для высокопроизводительных приложений или когда k велико. Для решения этой проблемы были разработаны различные инструменты:

Jellyfish использует многопоточную, неблокируемую хэш-таблицу для подсчета k -меров и имеет привязки к Python , Ruby и Perl ^[68]
KMC — это инструмент для подсчета k -меров, который использует многодисковую архитектуру для оптимизации скорости ^[69]
Gerbil использует подход хэш-таблицы, но с дополнительной поддержкой ускорения GPU ^[70]
Набор инструментов анализа K-mer (KAT) использует модифицированную версию Jellyfish для анализа количества k -меров ^[6]

Смотрите также

Ссылки

Часть содержимого этой статьи была скопирована из K-mer на вики PLOS, которая доступна по лицензии Creative Commons Attribution 2.5 Generic (CC BY 2.5).

^ Compeau, Phillip EC; Pevzner, Pavel A; Tesler, Glenn (ноябрь 2011 г.). «Как применить графы де Брейна к сборке генома». Nature Biotechnology . 29 (11): 987–991. doi :10.1038/nbt.2023. ISSN 1087-0156. PMC 5531759 . PMID 22068540.
^ ab Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (2009-09-14). Kudla, Grzegorz (ред.). "Параметры проектирования для управления экспрессией синтетических генов в Escherichia coli". PLOS ONE . 4 (9): e7002. Bibcode :2009PLoSO...4.7002W. doi : 10.1371/journal.pone.0007002 . ISSN 1932-6203. PMC 2736378 . PMID 19759823.
^ ab Gustafsson, Claes; Govindarajan, Sridhar; Minshull, Jeremy (июль 2004 г.). «Смещение кодонов и экспрессия гетерологичных белков». Trends in Biotechnology . 22 (7): 346–353. doi :10.1016/j.tibtech.2004.04.006. PMID 15245907.
^ ab Perry, Scott C.; Beiko, Robert G. (2010-01-01). «Различение фрагментов микробного генома на основе их состава: эволюционные и сравнительные геномные перспективы». Genome Biology and Evolution . 2 : 117–131. doi :10.1093/gbe/evq004. ISSN 1759-6653. PMC 2839357 . PMID 20333228.
^ Эшке, Катрин; Тримперт, Якоб; Остерридер, Николаус; Кунец, Душан (29.01.2018). Мокарски, Эдвард (ред.). «Ослабление очень вирулентного вируса герпеса болезни Марека (MDV) путем деоптимизации смещения пар кодонов». PLOS Pathogens . 14 (1): e1006857. doi : 10.1371/journal.ppat.1006857 . ISSN 1553-7374. PMC 5805365. PMID 29377958 .
^ ab Mapleson, Daniel; Garcia Accinelli, Gonzalo; Kettleborough, George; Wright, Jonathan; Clavijo, Bernardo J. (2016-10-22). "KAT: набор инструментов анализа K-mer для контроля качества наборов данных NGS и геномных сборок". Bioinformatics . 33 (4): 574–576. doi :10.1093/bioinformatics/btw663. ISSN 1367-4803. PMC 5408915 . PMID 27797770.
^ ab Chor, Benny ; Horn, David; Goldman, Nick; Levy, Yaron; Massingham, Tim (2009). "Спектры геномной ДНК k-mer: модели и модальности". Genome Biology . 10 (10): R108. doi : 10.1186/gb-2009-10-10-r108 . ISSN 1465-6906. PMC 2784323 . PMID 19814784.
^ Яковчук, П. (2006-01-30). "Вклад укладки оснований и спаривания оснований в термическую стабильность двойной спирали ДНК". Nucleic Acids Research . 34 (2): 564–574. doi :10.1093/nar/gkj454. ISSN 0305-1048. PMC 1360284. PMID 16449200 .
^ Бернарди, Джорджио (январь 2000 г.). «Изохоры и эволюционная геномика позвоночных». Gene . 241 (1): 3–17. doi :10.1016/S0378-1119(99)00485-0. PMID 10607893.
^ Hurst, Laurence D.; Merchant, Alexa R. (2001-03-07). «Высокое содержание гуанина–цитозина не является адаптацией к высокой температуре: сравнительный анализ среди прокариот». Труды Королевского общества B: Biological Sciences . 268 (1466): 493–497. doi :10.1098/rspb.2000.1397. ISSN 1471-2954. PMC 1088632. PMID 11296861 .
^ abc Mugal, Carina F.; Weber, Claudia C.; Ellegren, Hans (декабрь 2015 г.). «GC-смещенная генная конверсия связывает ландшафт рекомбинации и демографию с составом геномных оснований: GC-смещенная генная конверсия управляет составом геномных оснований у широкого спектра видов». BioEssays . 37 (12): 1317–1326. doi :10.1002/bies.201500058. PMID 26445215. S2CID 21843897.
^ Ромигье, Джонатан; Ру, Камиль (2017-02-15). «Аналитические смещения, связанные с содержанием GC в молекулярной эволюции». Frontiers in Genetics . 8 : 16. doi : 10.3389/fgene.2017.00016 . ISSN 1664-8021. PMC 5309256. PMID 28261263 .
^ Спенсер, CCA (2006-08-01). "Человеческий полиморфизм вокруг точек рекомбинации: Рисунок 1". Biochemical Society Transactions . 34 (4): 535–536. doi :10.1042/BST0340535. ISSN 0300-5127. PMID 16856853.
^ Вебер, Клаудия С.; Буссо, Бастьен; Ромигье, Джонатан; Джарвис, Эрих Д.; Эллегрен, Ханс (декабрь 2014 г.). «Доказательства GC-смещенной генной конверсии как фактора, обусловливающего различия между линиями в составе птичьих оснований». Genome Biology . 15 (12): 549. doi : 10.1186/s13059-014-0549-1 . ISSN 1474-760X. PMC 4290106 . PMID 25496599.
^ Лассаль, Флоран; Периан, Северин; Батайон, Томас; Несме, Ксавье; Дюре, Лоран; Добен, Винсент (2015-02-06). Петров, Дмитрий А. (ред.). "Эволюция содержания GC в бактериальных геномах: гипотеза предвзятой конверсии генов расширяется". PLOS Genetics . 11 (2): e1004941. doi : 10.1371/journal.pgen.1004941 . ISSN 1553-7404. PMC 4450053 . PMID 25659072.
^ Сантойо, Г.; Ромеро, Д. (апрель 2005 г.). «Конверсия генов и согласованная эволюция в бактериальных геномах». FEMS Microbiology Reviews . 29 (2): 169–183. doi :10.1016/j.femsre.2004.10.004. PMID 15808740.
^ Берер, Клод; Отон, Адам (2014-06-16), John Wiley & Sons Ltd (ред.), "Предвзятая конверсия генов и ее влияние на эволюцию генома", eLS , John Wiley & Sons, Ltd, doi :10.1002/9780470015902.a0020834.pub2, ISBN 9780470015902
^ ab Карлин, Сэмюэл (октябрь 1998 г.). «Глобальные динуклеотидные сигнатуры и анализ геномной гетерогенности». Current Opinion in Microbiology . 1 (5): 598–610. doi : 10.1016/S1369-5274(98)80095-7 . PMID 10066522.
^ Beutler, E.; Gelbart, T.; Han, JH; Koziol, JA; Beutler, B. (1989-01-01). «Эволюция генома и генетического кода: селекция на уровне динуклеотидов путем метилирования и расщепления полирибонуклеотидов». Труды Национальной академии наук . 86 (1): 192–196. Bibcode : 1989PNAS...86..192B. doi : 10.1073/pnas.86.1.192 . ISSN 0027-8424. PMC 286430. PMID 2463621 .
^ Ди Джиаллонардо, Франческа; Шлаб, Тимоти Э.; Ши, Манг; Холмс, Эдвард К. (15.04.2017). Дермоди, Теренс С. (ред.). «Состав динуклеотидов в РНК-вирусах животных определяется больше семейством вирусов, чем видом хозяина». Журнал вирусологии . 91 (8). doi :10.1128/JVI.02381-16. ISSN 0022-538X. PMC 5375695. PMID 28148785 .
^ Żemojtel, Tomasz; kiełbasa, Szymon M.; Arndt, Peter F.; Behrens, Sarah; Bourque, Guillaume; Vingron, Martin (2011-01-01). «CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency». Genome Biology and Evolution . 3 : 1304–1311. doi :10.1093/gbe/evr107. ISSN 1759-6653. PMC 3228489 . PMID 22016335.
^ ab Hershberg, R; Petrov, DA (2008). «Выбор по смещению кодонов». Annual Review of Genetics . 42 : 287–299. doi :10.1146/annurev.genet.42.110807.091442. PMID 18983258.
^ Шарп, Пол М.; Ли, Вэнь-Сюн (1987). «Индекс адаптации кодонов — мера смещения направленного синонимичного использования кодонов и его потенциальное применение». Nucleic Acids Research . 15 (3): 1281–1295. doi :10.1093/nar/15.3.1281. ISSN 0305-1048. PMC 340524. PMID 3547335 .
^ Noble, Peter A.; Citek, Robert W.; Ogunseitan, Oladele A. (апрель 1998 г.). «Частоты тетрануклеотидов в микробных геномах». Электрофорез . 19 (4): 528–535. doi :10.1002/elps.1150190412. ISSN 0173-0835. PMID 9588798. S2CID 9539686.
^ Нагараджан, Ниранджан; Поп, Михай (2013). «Сборка последовательностей демистифицирована». Nature Reviews Genetics . 14 (3): 157–167. doi :10.1038/nrg3367. ISSN 1471-0056. PMID 23358380. S2CID 3519991.
^ Ли, Жуйцян; Чжу, Хунмэй; Жуан, Цзюэ; Цянь, Вубин; Фан, Сяодун; Ши, Чжунбинь; Ли, Инжуй; Ли, Шэнтин; Шан, Гао; Кристиансен, Карстен; Ли, Сунган; Ян, Хуаньмин; Ван, Цзянь; Ван, Цзюнь (февраль 2010 г.). «Сборка геномов человека de novo с массовым параллельным секвенированием короткого чтения». Геномные исследования . 20 (2): 265–272. дои : 10.1101/гр.097261.109. ПМЦ 2813482 . ПМИД 20019144.
^ Компо, П.; Певзнер, П.; Теслар, Г. (2011). «Как применить графы де Брейна к сборке генома». Nature Biotechnology . 29 (11): 987–991. doi :10.1038/nbt.2023. PMC 5531759. PMID 22068540 .
^ Филлиппи, Адам М.; Шатц, Майкл К.; Поп, Михай (2008). «Геномная сборка: криминалистика: поиск неуловимой ошибки сборки». Genome Biology . 9 (3): R55. doi : 10.1186/gb-2008-9-3-r55 . PMC 2397507. PMID 18341692 .
^ Delmont, Tom O.; Eren, A. Murat (29 марта 2016 г.). «Определение загрязнения с помощью передовых методов визуализации и анализа: метагеномные подходы к сборкам генома эукариот». PeerJ . 4 : e1839. doi : 10.7717/peerj.1839 . PMC 4824900 . PMID 27069789.
^ Бемм, Феликс; Вайс, Клеменс Леонард; Шульц, Йорг; Фёрстер, Франк (31 мая 2016 г.). «Геном тихоходки: горизонтальный перенос генов или бактериальное загрязнение?». Труды Национальной академии наук . 113 (22): E3054-6. Bibcode : 2016PNAS..113E3054B. doi : 10.1073/pnas.1525116113 . PMC 4896698. PMID 27173902 .
^ ab Zerbino, Daniel R.; Birney, Ewan (май 2008 г.). «Velvet: Алгоритмы для сборки коротких прочтений de novo с использованием графов де Брейна». Genome Research . 18 (5): 821–829. doi :10.1101/gr.074492.107. PMC 2336801 . PMID 18349386.
^ Goodur, Haswanee D.; Ramtohul, Vyasanand; Baichoo, Shakuntala (2012-11-11). "GIDT — инструмент для идентификации и визуализации геномных островов в прокариотических организмах". 2012 IEEE 12-я Международная конференция по биоинформатике и биоинженерии (BIBE) . стр. 58–63. doi :10.1109/bibe.2012.6399707. ISBN 978-1-4673-4358-9. S2CID 6368495.
^ Jaron, KS; Moravec, JC; Martinkova, N. (2014-04-15). "SigHunt: поисковик горизонтального переноса генов, оптимизированный для эукариотических геномов". Bioinformatics . 30 (8): 1081–1086. doi : 10.1093/bioinformatics/btt727 . ISSN 1367-4803. PMID 24371153.
^ Starr, MP; Mandel, M. (1969-04-01). «Состав оснований ДНК и таксономия фитопатогенных и других энтеробактерий». Журнал общей микробиологии . 56 (1): 113–123. doi : 10.1099/00221287-56-1-113 . ISSN 0022-1287. PMID 5787000.
^ Мур, WEC; Стакебрандт, Э.; Кандлер, О.; Колвелл, Р. Р.; Кричевский, М. И.; Трупер, Х. Г.; Мюррей, Р. Г. Э.; Уэйн, Л. Г.; Гримонт, П. А. Д. (1987-10-01). «Отчет Специального комитета по согласованию подходов к бактериальной систематике». Международный журнал систематической и эволюционной микробиологии . 37 (4): 463–464. doi : 10.1099/00207713-37-4-463 . ISSN 1466-5026.
^ Patro, Rob; Mount, Stephen M; Kingsford, Carl (май 2014 г.). «Sailfish позволяет проводить количественную оценку изоформ без выравнивания из прочтений РНК-секвенирования с использованием легких алгоритмов». Nature Biotechnology . 32 (5): 462–464. arXiv : 1308.3700 . doi :10.1038/nbt.2862. PMC 4077321 . PMID 24752080.
^ Наварро-Гомес, Дэниел; Лейпциг, Джереми; Шен, Лишуан; Лотт, Мари; Стассен, Альфонс ПМ; Уоллес, Дуглас К.; Виггс, Джейни Л.; Фальк, Марни Дж.; ван Овен, Маннис; Гай, Сяову (15 апреля 2015 г.). «Phy-Mer: новый классификатор митохондриальных гаплогрупп, не требующий выравнивания и не зависящий от ссылок». Биоинформатика . 31 (8): 1310–1312. doi : 10.1093/биоинформатика/btu825. ПМЦ 4393525 . ПМИД 25505086.
^ Карикари, Бенджамин; Лемей, Марк-Андре; Бельзил, Франсуа (13 июля 2023 г.). «Исследования ассоциаций по всему геному на основе k-меров у растений: достижения, проблемы и перспективы». Гены . 14 (7): 1439. doi : 10.3390/genes14071439 . PMC 10379394. PMID 37510343 .
^ Hozza, Michal; Vinař, Tomáš; Brejová, Broňa (2015), Iliopoulos, Costas; Puglisi, Simon; Yilmaz, Emine (ред.), "How Big is that Genome? Estimating Genome Size and Coverage from k-mer Abundance Spectra", Обработка строк и поиск информации , Конспект лекций по информатике, т. 9309, Springer International Publishing, стр. 199–209, doi :10.1007/978-3-319-23826-5_20, ISBN 9783319238258
^ Ламичхани, Сангит; Фань, Гуаньи; Видемо, Фредрик; Гуннарссон, Ульрика; Тельманн, Дорин Швочоу; Хоппнер, Марк П; Керье, Сюзанна; Густавсон, Улла; Ши, Чэнчэн (2016). «Структурные геномные изменения лежат в основе альтернативных репродуктивных стратегий ерша (Philomachus pugnax)». Природная генетика . 48 (1): 84–88. дои : 10.1038/ng.3430 . ISSN 1061-4036. ПМИД 26569123.
^ Chae, H.; Park, J.; Lee, S.-W.; Nephew, KP; Kim, S. (1 мая 2013 г.). «Сравнительный анализ с использованием паттернов K-mer и K-flank предоставляет доказательства эволюции последовательности CpG-островков в геномах млекопитающих». Nucleic Acids Research . 41 (9): 4783–4791. doi :10.1093/nar/gkt144. PMC 3643570 . PMID 23519616.
^ Мохамед Хашим, Эззеддин Камил; Абдулла, Росни (декабрь 2015 г.). «Редкая ДНК k-меров: идентификация мотивов последовательностей и прогнозирование CpG-острова и промотора». Журнал теоретической биологии . 387 : 88–100. Bibcode : 2015JThBi.387...88M. doi : 10.1016/j.jtbi.2015.09.014. PMID 26427337.
^ Прайс, Джонс, Певзнер (2005). «Идентификация de novo повторяющихся семейств в больших геномах». Биоинформатика . 21(supp 1): i351–8. doi : 10.1093/bioinformatics/bti1018 . PMID 15961478.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Мехер, Прабина Кумар; Саху, Танмая Кумар; Рао, АР (2016). «Идентификация видов на основе ДНК-штрихкода с использованием вектора признаков k-mer и классификатора случайного леса». Gene . 592 (2): 316–324. doi :10.1016/j.gene.2016.07.010. PMID 27393648.
^ Newburger, DE; Bulyk, ML (1 января 2009 г.). «UniPROBE: онлайн-база данных микрочипов связывания белков по взаимодействиям белок-ДНК». Nucleic Acids Research . 37 (База данных): D77–D82. doi :10.1093/nar/gkn660. PMC 2686578 . PMID 18842628.
^ Нордстрем, Карл СП; Альбани, Мария С; Джеймс, Гео Великкакам; Гутжар, Кэролайн; Хартвиг, Бенджамин; Терк, Франциска; Пашковский, Ута; Купленд, Джордж; Шнебергер, Корбинян (апрель 2013 г.). «Идентификация мутаций путем прямого сравнения данных полногеномного секвенирования мутантов и особей дикого типа с использованием k-меров». Природная биотехнология . 31 (4): 325–330. дои : 10.1038/nbt.2515 . ПМИД 23475072.
^ Чжу, Цзяньфэн; Чжэн, Вэй-Моу (2014). «Самоорганизующийся подход к метагеномам». Computational Biology and Chemistry . 53 : 118–124. doi : 10.1016/j.compbiolchem.2014.08.016. PMID 25213854.
^ Дубинкина, Вероника Б.; Ищенко, Дмитрий С.; Ульянцев, Владимир И.; Тяхт, Александр В.; Алексеев, Дмитрий Г. (декабрь 2016 г.). "Оценка применимости спектра k-mer для анализа метагеномного различия". BMC Bioinformatics . 17 (1): 38. doi : 10.1186/s12859-015-0875-7 . PMC 4715287 . PMID 26774270.
^ Teeling, H; Waldmann, J; Lombardot, T; Bauer, M; Glöckner, F (2004). "TETRA: веб-сервис и автономная программа для анализа и сравнения моделей использования тетрануклеотидов в последовательностях ДНК". BMC Bioinformatics . 5 : 163. doi : 10.1186/1471-2105-5-163 . PMC 529438 . PMID 15507136.
^ Чаттерджи, Соурав; Ямазаки, Ичитаро; Бай, Чжаоцзюнь; Эйзен, Джонатан А. (2008), Вингрон, Мартин; Вонг, Лимсун (ред.), «CompostBin: основанный на составе ДНК алгоритм для биннинга экологических дробовиков», Исследования в области вычислительной молекулярной биологии , Lecture Notes in Computer Science, т. 4955, Springer Berlin Heidelberg, стр. 17–28, arXiv : 0708.3098 , doi : 10.1007/978-3-540-78839-3_3, ISBN 9783540788386, S2CID 7832512
^ Чжэн, Хао; У, Хунвэй (2010). «Короткое прокариотическое ДНК-связывание фрагментов с использованием иерархического классификатора на основе линейного дискриминантного анализа и анализа главных компонент». Журнал биоинформатики и вычислительной биологии . 08 (6): 995–1011. doi :10.1142/S0219720010005051. ISSN 0219-7200. PMID 21121023.
^ Макхарди, Элис Кэролин; Мартин, Гектор Гарсия; Циригос, Аристотель; Хугенхольц, Филипп; Ригутсос, Исидор (2007). «Точная филогенетическая классификация фрагментов ДНК переменной длины». Nature Methods . 4 (1): 63–72. doi :10.1038/nmeth976. ISSN 1548-7091. PMID 17179938. S2CID 28797816.
^ Оюнит, Рашид; Уонамейкер, Стив; Клоуз, Тимоти Дж.; Лонарди, Стефано (2015). «КЛАРК: быстрая и точная классификация метагеномных и геномных последовательностей с использованием дискриминантных k-меров». BMC Genomics . 16 (1): 236. doi : 10.1186/s12864-015-1419-2 . ISSN 1471-2164. PMC 4428112. PMID 25879410 .
^ Диас, Наритца Н.; Краузе, Лутц; Гёсманн, Александр; Нихаус, Карстен; Натткемпер, Тим В. (2009). «TACOA – Таксономическая классификация фрагментов генома окружающей среды с использованием подхода «ядерного ближайшего соседа». BMC Bioinformatics . 10 (1): 56. doi : 10.1186/1471-2105-10-56 . ISSN 1471-2105. PMC 2653487. PMID 19210774 .
^ Фианнака, Антонино; Ла Палья, Лаура; Ла Роза, Массимо; Ло Боско, Джосуэ'; Ренда, Джованни; Риццо, Риккардо; Гаглио, Сальваторе; Урсо, Альфонсо (2018). «Модели глубокого обучения для таксономической классификации метагеномных данных бактерий». БМК Биоинформатика . 19 (S7): 198. дои : 10.1186/s12859-018-2182-6 . ISSN 1471-2105. ПМК 6069770 . ПМИД 30066629.
^ Чжу, Цзяньфэн; Чжэн, Вэй-Моу (декабрь 2014 г.). «Самоорганизующийся подход к метагеномам». Computational Biology and Chemistry . 53 : 118–124. doi : 10.1016/j.compbiolchem.2014.08.016. PMID 25213854.
^ Лу, Дженнифер; Брайтвизер, Флориан П.; Тилен, Питер; Зальцберг, Стивен Л. (2017-01-02). «Bracken: оценка численности видов в данных метагеномики». PeerJ Computer Science . 3 : e104. doi : 10.7717/peerj-cs.104 . ISSN 2376-5992.
^ Вуд, Деррик Э.; Зальцберг, Стивен Л. (2014). «Кракен: сверхбыстрая классификация метагеномных последовательностей с использованием точных выравниваний». Genome Biology . 15 (3): R46. doi : 10.1186/gb-2014-15-3-r46 . ISSN 1465-6906. PMC 4053813. PMID 24580807 .
^ Розен, Гейл; Гарбарин, Элейн; Касейро, Диамантино; Поликар, Роби; Сохансандж, Бахрад (2008). «Классификация фрагментов метагенома с использованием профилей частот -Mer». Достижения в области биоинформатики . 2008 : 205969. doi : 10.1155/2008/205969 . ISSN 1687-8027. PMC 2777009. PMID 19956701 .
^ Ван, Ин; Фу, Лэй; Жэнь, Цзе; Ю, Чжаося; Чэнь, Тин; Сан, Фэнчжу (2018-05-03). «Идентификация группоспецифичных последовательностей для микробных сообществ с использованием длинных сигнатур последовательностей k-меров». Frontiers in Microbiology . 9 : 872. doi : 10.3389/fmicb.2018.00872 . ISSN 1664-302X. PMC 5943621. PMID 29774017 .
^ Аль-Саиф, Махер; Хабар, Халид СА (2012). «Снижение частоты динуклеотидов UU/UA в кодирующих областях приводит к повышению стабильности мРНК и экспрессии белка». Молекулярная терапия . 20 (5): 954–959. doi :10.1038/mt.2012.29. PMC 3345983. PMID 22434136 .
^ Trinh, R; Gurbaxani, B; Morrison, SL; Seyfzadeh, M (2004). «Оптимизация использования пар кодонов в последовательности линкера (GGGGS)3 приводит к усилению экспрессии белка». Молекулярная иммунология . 40 (10): 717–722. doi :10.1016/j.molimm.2003.08.006. PMID 14644097. S2CID 36734007.
^ Шен, Сэм Х.; Штауфт, Чарльз Б.; Горбацевич, Александр; Сонг, Ютонг; Уорд, Чарльз Б.; Юровский, Алиса; Мюллер, Штеффен; Футчер, Брюс; Виммер, Эккард (14.04.2015). «Масштабное перекодирование генома арбовируса для восстановления баланса его предпочтений к насекомым и млекопитающим». Труды Национальной академии наук . 112 (15): 4749–4754. Bibcode : 2015PNAS..112.4749S. doi : 10.1073/pnas.1502864112 . ISSN 0027-8424. PMC 4403163. PMID 25825721 .
^ Каплан, Брайан С.; Соуза, Карин К.; Гогер, Филлип К.; Штауфт, Чарльз Б.; Роберт Коулман, Дж.; Мюллер, Штеффен; Винсент, Эми Л. (2018). «Вакцинация свиней живой аттенуированной вакциной против гриппа с деоптимизированным смещением пар кодонов защищает от гомологичного заражения». Вакцина . 36 (8): 1101–1107. doi : 10.1016/j.vaccine.2018.01.027 . PMID 29366707.
^ Эшке, Катрин; Тримперт, Якоб; Остерридер, Николаус; Кунец, Душан (29.01.2018). Мокарски, Эдвард (ред.). «Ослабление очень вирулентного вируса герпеса болезни Марека (MDV) путем деоптимизации смещения пар кодонов». PLOS Pathogens . 14 (1): e1006857. doi : 10.1371/journal.ppat.1006857 . ISSN 1553-7374. PMC 5805365. PMID 29377958 .
^ Кунец, Душан; Остерридер, Николаус (2016). «Смещение пар кодонов — прямое следствие смещения динуклеотидов». Cell Reports . 14 (1): 55–67. doi : 10.1016/j.celrep.2015.12.011 . PMID 26725119.
^ Tulloch, Fiona; Atkinson, Nicky J; Evans, David J; Ryan, Martin D; Simmonds, Peter (2014-12-09). "Ослабление РНК-вируса путем деоптимизации пар кодонов является артефактом увеличения частот динуклеотидов CpG/UpA". eLife . 3 : e04531. doi : 10.7554/eLife.04531 . ISSN 2050-084X. PMC 4383024 . PMID 25490153.
^ Marçais, Guillaume; Kingsford, Carl (2011-03-15). "Быстрый, неблокируемый подход к эффективному параллельному подсчету случаев появления k-меров". Bioinformatics . 27 (6): 764–770. doi :10.1093/bioinformatics/btr011. ISSN 1460-2059. PMC 3051319 . PMID 21217122.
^ Деорович, Себастьян; Кокот, Марек; Грабовский, Шимон; Дебудай-Грабыш, Агнешка (15 мая 2015 г.). «KMC 2: быстрый и экономичный подсчет k-меров». Биоинформатика . 31 (10): 1569–1576. arXiv : 1407.1507 . doi : 10.1093/биоинформатика/btv022 . ISSN 1460-2059. ПМИД 25609798.
^ Эрберт, Мариус; Рехнер, Штеффен; Мюллер-Ханнеманн, Маттиас (2017). «Gerbil: быстрый и эффективный с точки зрения памяти счетчик k-меров с поддержкой GPU». Алгоритмы для молекулярной биологии . 12 (1): 9. doi : 10.1186/s13015-017-0097-9 . ISSN 1748-7188. PMC 5374613. PMID 28373894 .

Внешние ссылки

биоXriv:k-mer
arXiv: k-мер