stringtranslate.com

Вычислительная геномика

Вычислительная геномика относится к использованию вычислительного и статистического анализа для расшифровки биологии из последовательностей генома и связанных с ними данных, [1] включая как последовательности ДНК и РНК , так и другие «постгеномные» данные (т. е. экспериментальные данные, полученные с помощью технологий, которым требуется последовательность генома, таких как микроматрицы геномной ДНК ). Эти, в сочетании с вычислительными и статистическими подходами к пониманию функции генов и статистическим анализом ассоциаций, эту область также часто называют вычислительной и статистической генетикой/геномикой. Таким образом, вычислительную геномику можно рассматривать как подмножество биоинформатики и вычислительной биологии , но с акцентом на использование целых геномов (а не отдельных генов) для понимания принципов того, как ДНК вида контролирует его биологию на молекулярном уровне и за его пределами. С текущим изобилием массивных биологических наборов данных вычислительные исследования стали одним из важнейших средств для биологических открытий. [2]

История

Корни вычислительной геномики совпадают с корнями биоинформатики . В 1960-х годах Маргарет Дейхофф и другие в Национальном фонде биомедицинских исследований собрали базы данных гомологичных последовательностей белков для эволюционного изучения. [3] Их исследование разработало филогенетическое дерево , которое определило эволюционные изменения, необходимые для того, чтобы определенный белок превратился в другой белок, на основе базовых аминокислотных последовательностей. Это привело их к созданию матрицы оценок, которая оценивала вероятность того, что один белок связан с другим.

Начиная с 1980-х годов, базы данных последовательностей геномов начали записываться, но это создало новые проблемы в виде поиска и сравнения баз данных генной информации. В отличие от алгоритмов поиска текста, которые используются на таких веб-сайтах, как Google или Wikipedia, поиск разделов генетического сходства требует нахождения строк, которые не просто идентичны, а похожи. Это привело к разработке алгоритма Нидлмана-Вунша , который является динамическим алгоритмом программирования для сравнения наборов аминокислотных последовательностей друг с другом с использованием матриц подсчета, полученных из более раннего исследования Дейхоффа. Позже был разработан алгоритм BLAST для выполнения быстрого оптимизированного поиска баз данных последовательностей генов. BLAST и его производные, вероятно, являются наиболее широко используемыми алгоритмами для этой цели. [4]

Появление фразы «вычислительная геномика» совпадает с появлением полностью секвенированных геномов в середине-конце 1990-х годов. Первое заседание Ежегодной конференции по вычислительной геномике было организовано учеными из Института геномных исследований (TIGR) в 1998 году, что обеспечило форум для этой специальности и эффективно отделило эту область науки от более общих областей геномики или вычислительной биологии . [ требуется ссылка ] Первое использование этого термина в научной литературе, согласно рефератам MEDLINE , было всего годом ранее в Nucleic Acids Research . [5] Заключительная конференция по вычислительной геномике состоялась в 2006 году, на ней с основным докладом выступил лауреат Нобелевской премии Барри Маршалл , один из первооткрывателей связи между Helicobacter pylori и язвой желудка. По состоянию на 2014 год ведущими конференциями в этой области являются «Интеллектуальные системы для молекулярной биологии» (ISMB) и «Исследования в области вычислительной молекулярной биологии» (RECOMB).

Развитие компьютерной математики (с использованием таких продуктов, как Mathematica или Matlab ) помогло инженерам, математикам и компьютерным ученым начать работать в этой области, и растёт общедоступная коллекция тематических исследований и демонстраций, начиная от сравнений целых геномов до анализа экспрессии генов . [6] Это увеличило внедрение различных идей, включая концепции из систем и управления, теории информации, анализа строк и добычи данных. Ожидается, что вычислительные подходы станут и останутся стандартной темой для исследований и обучения, в то время как студенты, свободно владеющие обеими темами, начинают формироваться в многочисленных курсах, созданных за последние несколько лет.

Вклад исследований вычислительной геномики в биологию

Вклад исследований вычислительной геномики в биологию включает: [2]

Сравнение геномов

Были разработаны вычислительные инструменты для оценки сходства геномных последовательностей. Некоторые из них основаны на расстояниях выравнивания , таких как средняя идентичность нуклеотидов. [7] Эти методы очень специфичны, хотя и являются вычислительно медленными. Другие, не требующие выравнивания методы, включают статистические и вероятностные подходы. Одним из примеров является Mash, [8] вероятностный подход с использованием minhash . В этом методе, учитывая число k, геномная последовательность преобразуется в более короткий эскиз с помощью случайной хэш-функции на возможных k-мерах . Например, если , создаются эскизы размером 4 и задана следующая хэш-функция

набросок последовательности

CTGACCTTAACGGGAGACTATGATGACGACCGCAT

{0,1,1,2}, которые являются наименьшими значениями хэша его k-меров размера 2. Затем эти наброски сравниваются для оценки доли общих k-меров ( индекс Жаккара ) соответствующих последовательностей. Стоит отметить, что значение хэша представляет собой двоичное число. В реальной геномной обстановке полезный размер k-меров варьируется от 14 до 21, а размер набросков будет около 1000. [8]

За счет уменьшения размера последовательностей, даже в сотни раз, и сравнения их без выравнивания, этот метод значительно сокращает время оценки сходства последовательностей.

Кластеризация геномных данных

Кластеризация данных — это инструмент, используемый для упрощения статистического анализа геномного образца. Например, в [9] авторы разработали инструмент (BiG-SCAPE) для анализа сетей сходства последовательностей кластеров биосинтетических генов (BGC). В [10] последовательные слои кластеризации кластеров биосинтетических генов используются в автоматизированном инструменте BiG-MAP как для фильтрации избыточных данных, так и для идентификации семейств кластеров генов. Этот инструмент профилирует уровни распространенности и экспрессии BGC в образцах микробиома.

Биосинтетические генные кластеры

Биоинформационные инструменты были разработаны для прогнозирования и определения распространенности и экспрессии этого типа кластера генов в образцах микробиома на основе метагеномных данных. [11] Поскольку размер метагеномных данных значителен, их фильтрация и кластеризация являются важными частями этих инструментов. Эти процессы могут состоять из методов уменьшения размерности, таких как Minhash , [8] и алгоритмов кластеризации, таких как k-medoids и распространение сродства . Также было разработано несколько метрик и сходств для их сравнения.

Геномный майнинг для кластеров генов биосинтеза (BGC) стал неотъемлемой частью открытия натуральных продуктов. Более 200 000 микробных геномов, которые теперь общедоступны, содержат информацию об изобилии новой химии. Один из способов навигации по этому огромному геномному разнообразию — сравнительный анализ гомологичных BGC, который позволяет идентифицировать кросс-видовые паттерны, которые можно сопоставить с наличием метаболитов или биологической активностью. Однако современные инструменты сдерживаются узким местом, вызванным дорогим сетевым подходом, используемым для группировки этих BGC в семейства кластеров генов (GCF). BiG-SLiCE (Biosynthetic Genes Super-Linear Clustering Engine), инструмент, разработанный для кластеризации огромного количества BGC. Представляя их в евклидовом пространстве, BiG-SLiCE может группировать BGC в GCF непарным, почти линейным образом.

Satria et. al, 2021 [12] через BiG-SLiCE демонстрируют полезность таких анализов путем реконструкции глобальной карты вторичного метаболического разнообразия в таксономии для выявления неизведанного биосинтетического потенциала, открывают новые возможности для ускорения открытия природных продуктов и предлагают первый шаг к построению глобальной и доступной для поиска взаимосвязанной сети BGC. По мере того, как все больше геномов секвенируются из недостаточно изученных таксонов, можно добыть больше информации, чтобы выделить их потенциально новую химию. [12]

Алгоритмы сжатия

Алгоритмы сжатия генетики — это последнее поколение алгоритмов без потерь, которые сжимают данные (обычно последовательности нуклеотидов) с использованием как обычных алгоритмов сжатия, так и генетических алгоритмов, адаптированных к определенному типу данных. В 2012 году группа ученых из Университета Джонса Хопкинса опубликовала алгоритм генетического сжатия, который не использует для сжатия референтный геном. HAPZIPPER был адаптирован для данных HapMap и достигает более чем 20-кратного сжатия (уменьшение размера файла на 95%), обеспечивая в 2–4 раза лучшее сжатие и требуя меньших вычислительных ресурсов, чем ведущие утилиты сжатия общего назначения. Для этого Чанда, Элхаик и Бадер представили кодирование на основе MAF (MAFE), которое снижает неоднородность набора данных путем сортировки SNP по частоте их минорных аллелей, тем самым гомогенизируя набор данных. [13] Другие алгоритмы, разработанные в 2009 и 2013 годах (DNAZip и GenomeZip), имеют коэффициент сжатия до 1200 раз, что позволяет хранить 6 миллиардов пар оснований диплоидных геномов человека в 2,5 мегабайтах (относительно эталонного генома или усредненного по многим геномам). [14] [15] Для сравнения в компрессорах генетических/геномных данных см. [16]

Смотрите также

Ссылки

  1. ^ Кунин EV (март 2001). "Вычислительная геномика". Current Biology . 11 (5): R155–8. doi : 10.1016/S0960-9822(01)00081-1 . PMID  11267880. S2CID  17202180.
  2. ^ ab "Computational Genomics and Proteomics at MIT". Архивировано из оригинала 2018-03-22 . Получено 2006-12-29 .
  3. ^ Mount D (2000). Биоинформатика, секвенирование и анализ генома . Cold Spring Harbor Laboratory Press. стр. 2–3. ISBN 978-0-87969-597-2.
  4. ^ Браун ТА (1999). Геномы . Wiley. ISBN 978-0-471-31618-3.
  5. ^ Вагнер А. (сентябрь 1997 г.). «Подход вычислительной геномики к идентификации генных сетей». Nucleic Acids Research . 25 (18): 3594–604. doi :10.1093/nar/25.18.3594. PMC 146952. PMID  9278479 . 
  6. ^ Кристианини Н., Хан М. (2006). Введение в вычислительную геномику. Cambridge University Press. ISBN 978-0-521-67191-0.
  7. ^ Константинидис КТ, Тиедже ДжМ (2005). «Геномные идеи, которые продвигают определение видов для прокариот». Proc Natl Acad Sci USA . 102 (7): 2567–72. Bibcode : 2005PNAS..102.2567K. doi : 10.1073/pnas.0409727102 . PMC 549018. PMID  15701695 . 
  8. ^ abc Ондов Б., Треанген Т., Мелстед П., Маллони А., Бергман Н., Корен С., Филлиппи А. (2016). "Mash: быстрая оценка расстояний генома и метагенома с использованием MinHash". Genome Biology . 17 (32): 14. doi : 10.1186/s13059-016-0997-x . PMC 4915045. PMID  27323842 . 
  9. ^ Наварро-Муньос Дж., Селем-Мохика Н., Маллоуни М., Каутсар С., Трайон Дж., Паркинсон Е., Де Лос Сантос Е., Йеонг М., Круз-Моралес П., Абубакер С., Ротерс А., Локхорст В., Фернандес-Гуэрра А., Диас-Капелини Л., Геринг А., Томсон Р., Меткалф В., Келлехер Н., Барона-Гомез Ф., Медема М. (2020). «Вычислительная система для изучения крупномасштабного биосинтетического разнообразия». Nat Chem Biol . 16 (1): 60–68. дои : 10.1038/s41589-019-0400-9. ПМЦ 6917865 . ПМИД  31768033. 
  10. ^ Паскаль-Андре В., Августейн Х., ван ден Берг К., ван дер Хоофт Дж., Фишбах М., Медема М. (2020). «BiG-MAP: автоматизированный конвейер для определения численности и экспрессии метаболических кластеров генов в микробиомах». mSystems . 6 (5): e00937-21. bioRxiv 10.1101/2020.12.14.422671 . doi : 10.1128/msystems.00937-21. ПМЦ 8547482 . ПМИД  34581602.  
  11. ^ Паскаль-Андре В., Августейн Х., ван ден Берг К., ван дер Хоофт Дж., Фишбах М., Медема М. (2020). «BiG-MAP: автоматизированный конвейер для определения численности и экспрессии метаболических кластеров генов в микробиомах». биоRxiv . 6 (5): e00937-21. дои : 10.1101/2020.12.14.422671. ПМЦ 8547482 . ПМИД  34581602. 
  12. ^ ab Kautsar, Satria A; van der Hooft, Justin JJ; de Ridder, Dick; Medema, Marnix H (13 января 2021 г.). «BiG-SLiCE: высокомасштабируемый инструмент отображает разнообразие 1,2 миллиона кластеров биосинтетических генов». GigaScience . 10 (1): giaa154. doi : 10.1093/gigascience/giaa154 . PMC 7804863 . PMID  33438731. 
  13. ^ Чанда П., Бадер Дж. С., Элхаик Э. (27 июля 2012 г.). «HapZipper: обмен популяциями HapMap стал проще». Nucleic Acids Research . 40 (20): e159. doi :10.1093/nar/gks709. PMC 3488212. PMID  22844100 . 
  14. ^ Christley S, Lu Y, Li C, Xie X (15 января 2009 г.). «Человеческие геномы как вложения электронной почты». Биоинформатика . 25 (2): 274–5. doi : 10.1093/bioinformatics/btn582 . PMID  18996942.
  15. ^ Павличин Д.С., Вайсман Т., Йона Г. (сентябрь 2013 г.). «Геном человека снова сокращается». Биоинформатика . 29 (17): 2199–202. doi : 10.1093/bioinformatics/btt362 . PMID  23793748.
  16. ^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо (2016). «Обзор методов сжатия данных биологических последовательностей». Информация . 7 (4): 56. дои : 10.3390/info7040056 .

Внешние ссылки