Вычислительная геномика относится к использованию вычислительного и статистического анализа для расшифровки биологии из последовательностей генома и связанных с ними данных, [1] включая как последовательности ДНК и РНК , так и другие «постгеномные» данные (т. е. экспериментальные данные, полученные с помощью технологий, которым требуется последовательность генома, таких как микроматрицы геномной ДНК ). Эти, в сочетании с вычислительными и статистическими подходами к пониманию функции генов и статистическим анализом ассоциаций, эту область также часто называют вычислительной и статистической генетикой/геномикой. Таким образом, вычислительную геномику можно рассматривать как подмножество биоинформатики и вычислительной биологии , но с акцентом на использование целых геномов (а не отдельных генов) для понимания принципов того, как ДНК вида контролирует его биологию на молекулярном уровне и за его пределами. С текущим изобилием массивных биологических наборов данных вычислительные исследования стали одним из важнейших средств для биологических открытий. [2]
Корни вычислительной геномики совпадают с корнями биоинформатики . В 1960-х годах Маргарет Дейхофф и другие в Национальном фонде биомедицинских исследований собрали базы данных гомологичных последовательностей белков для эволюционного изучения. [3] Их исследование разработало филогенетическое дерево , которое определило эволюционные изменения, необходимые для того, чтобы определенный белок превратился в другой белок, на основе базовых аминокислотных последовательностей. Это привело их к созданию матрицы оценок, которая оценивала вероятность того, что один белок связан с другим.
Начиная с 1980-х годов, базы данных последовательностей геномов начали записываться, но это создало новые проблемы в виде поиска и сравнения баз данных генной информации. В отличие от алгоритмов поиска текста, которые используются на таких веб-сайтах, как Google или Wikipedia, поиск разделов генетического сходства требует нахождения строк, которые не просто идентичны, а похожи. Это привело к разработке алгоритма Нидлмана-Вунша , который является динамическим алгоритмом программирования для сравнения наборов аминокислотных последовательностей друг с другом с использованием матриц подсчета, полученных из более раннего исследования Дейхоффа. Позже был разработан алгоритм BLAST для выполнения быстрого оптимизированного поиска баз данных последовательностей генов. BLAST и его производные, вероятно, являются наиболее широко используемыми алгоритмами для этой цели. [4]
Появление фразы «вычислительная геномика» совпадает с появлением полностью секвенированных геномов в середине-конце 1990-х годов. Первое заседание Ежегодной конференции по вычислительной геномике было организовано учеными из Института геномных исследований (TIGR) в 1998 году, что обеспечило форум для этой специальности и эффективно отделило эту область науки от более общих областей геномики или вычислительной биологии . [ требуется ссылка ] Первое использование этого термина в научной литературе, согласно рефератам MEDLINE , было всего годом ранее в Nucleic Acids Research . [5] Заключительная конференция по вычислительной геномике состоялась в 2006 году, на ней с основным докладом выступил лауреат Нобелевской премии Барри Маршалл , один из первооткрывателей связи между Helicobacter pylori и язвой желудка. По состоянию на 2014 год ведущими конференциями в этой области являются «Интеллектуальные системы для молекулярной биологии» (ISMB) и «Исследования в области вычислительной молекулярной биологии» (RECOMB).
Развитие компьютерной математики (с использованием таких продуктов, как Mathematica или Matlab ) помогло инженерам, математикам и компьютерным ученым начать работать в этой области, и растёт общедоступная коллекция тематических исследований и демонстраций, начиная от сравнений целых геномов до анализа экспрессии генов . [6] Это увеличило внедрение различных идей, включая концепции из систем и управления, теории информации, анализа строк и добычи данных. Ожидается, что вычислительные подходы станут и останутся стандартной темой для исследований и обучения, в то время как студенты, свободно владеющие обеими темами, начинают формироваться в многочисленных курсах, созданных за последние несколько лет.
Вклад исследований вычислительной геномики в биологию включает: [2]
Были разработаны вычислительные инструменты для оценки сходства геномных последовательностей. Некоторые из них основаны на расстояниях выравнивания , таких как средняя идентичность нуклеотидов. [7] Эти методы очень специфичны, хотя и являются вычислительно медленными. Другие, не требующие выравнивания методы, включают статистические и вероятностные подходы. Одним из примеров является Mash, [8] вероятностный подход с использованием minhash . В этом методе, учитывая число k, геномная последовательность преобразуется в более короткий эскиз с помощью случайной хэш-функции на возможных k-мерах . Например, если , создаются эскизы размером 4 и задана следующая хэш-функция
набросок последовательности
CTGACCTTAACGGGAGACTATGATGACGACCGCAT
{0,1,1,2}, которые являются наименьшими значениями хэша его k-меров размера 2. Затем эти наброски сравниваются для оценки доли общих k-меров ( индекс Жаккара ) соответствующих последовательностей. Стоит отметить, что значение хэша представляет собой двоичное число. В реальной геномной обстановке полезный размер k-меров варьируется от 14 до 21, а размер набросков будет около 1000. [8]
За счет уменьшения размера последовательностей, даже в сотни раз, и сравнения их без выравнивания, этот метод значительно сокращает время оценки сходства последовательностей.
Кластеризация данных — это инструмент, используемый для упрощения статистического анализа геномного образца. Например, в [9] авторы разработали инструмент (BiG-SCAPE) для анализа сетей сходства последовательностей кластеров биосинтетических генов (BGC). В [10] последовательные слои кластеризации кластеров биосинтетических генов используются в автоматизированном инструменте BiG-MAP как для фильтрации избыточных данных, так и для идентификации семейств кластеров генов. Этот инструмент профилирует уровни распространенности и экспрессии BGC в образцах микробиома.
Биоинформационные инструменты были разработаны для прогнозирования и определения распространенности и экспрессии этого типа кластера генов в образцах микробиома на основе метагеномных данных. [11] Поскольку размер метагеномных данных значителен, их фильтрация и кластеризация являются важными частями этих инструментов. Эти процессы могут состоять из методов уменьшения размерности, таких как Minhash , [8] и алгоритмов кластеризации, таких как k-medoids и распространение сродства . Также было разработано несколько метрик и сходств для их сравнения.
Геномный майнинг для кластеров генов биосинтеза (BGC) стал неотъемлемой частью открытия натуральных продуктов. Более 200 000 микробных геномов, которые теперь общедоступны, содержат информацию об изобилии новой химии. Один из способов навигации по этому огромному геномному разнообразию — сравнительный анализ гомологичных BGC, который позволяет идентифицировать кросс-видовые паттерны, которые можно сопоставить с наличием метаболитов или биологической активностью. Однако современные инструменты сдерживаются узким местом, вызванным дорогим сетевым подходом, используемым для группировки этих BGC в семейства кластеров генов (GCF). BiG-SLiCE (Biosynthetic Genes Super-Linear Clustering Engine), инструмент, разработанный для кластеризации огромного количества BGC. Представляя их в евклидовом пространстве, BiG-SLiCE может группировать BGC в GCF непарным, почти линейным образом.
Satria et. al, 2021 [12] через BiG-SLiCE демонстрируют полезность таких анализов путем реконструкции глобальной карты вторичного метаболического разнообразия в таксономии для выявления неизведанного биосинтетического потенциала, открывают новые возможности для ускорения открытия природных продуктов и предлагают первый шаг к построению глобальной и доступной для поиска взаимосвязанной сети BGC. По мере того, как все больше геномов секвенируются из недостаточно изученных таксонов, можно добыть больше информации, чтобы выделить их потенциально новую химию. [12]