Геномный майнинг описывает использование геномной информации для открытия биосинтетических путей природных продуктов и их возможных взаимодействий. [1] Он зависит от вычислительной технологии и инструментов биоинформатики . Процесс майнинга опирается на огромный объем данных (представленных последовательностями ДНК и аннотациями), доступных в геномных базах данных . Применяя алгоритмы интеллектуального анализа данных , данные могут быть использованы для создания новых знаний в нескольких областях медицинской химии , [2] [3], таких как открытие новых природных продуктов . [4]
История
В середине и конце 1980-х годов исследователи все больше сосредотачивались на генетических исследованиях с использованием передовых технологий секвенирования . [5] База данных GenBank была создана в 1982 году для сбора, управления, хранения и распространения данных о последовательностях ДНК из-за растущей доступности последовательностей ДНК. С ростом количества генетических данных биотехнологические компании смогли использовать последовательности ДНК человека для разработки белковых и антителовых препаратов с помощью добычи генома с 1992 года. [6] В конце 1990-х годов многие компании, такие как Amgen, Immunec, Genentech, смогли разработать препараты, которые перешли на клиническую стадию, приняв добычу генома. [7] С тех пор как проект «Геном человека» был завершен в начале 2000 года, исследователи секвенировали геномы многих микроорганизмов . [8] Впоследствии многие из этих геномов были тщательно изучены для выявления новых генов и биосинтетических путей. [9]
Алгоритмы
Поскольку большие объемы данных о геномных последовательностях начали накапливаться в публичных базах данных, генетические алгоритмы стали важными для расшифровки огромной коллекции геномных данных. Они обычно используются для генерации высококачественных решений для задач оптимизации и поиска, полагаясь на био-вдохновленные операторы, такие как мутация, кроссинговер и селекция. [10] Ниже приведены часто используемые генетические алгоритмы:
PRISM (прогностическая информатика для вторичных метаболитов) [13] представляет собой комбинаторный подход к прогнозированию химической структуры генетически кодируемых нерибосомальных пептидов и поликетидов типа I и II. [14]
Метод SIM (статистически обоснованное сходство последовательностей), такой как FASTA или PSI-BLAST [ сломанный якорь ] , позволяет сделать вывод об ортологической гомологии. [15]
BLAST (базовый инструмент поиска локального выравнивания) — это подход для быстрого сравнения последовательностей. [16]
Приложения
Геномный анализ применяется при открытии натурального продукта, облегчая характеристику новых молекул и биосинтетических путей. [4] [17]
Открытие натурального продукта
Производство натуральных продуктов регулируется кластерами биосинтетических генов (BGC), закодированными в микроорганизме. [18] Применяя добычу генома, можно предсказать BGC, которые производят целевой натуральный продукт. [19] Некоторые важные ферменты, ответственные за образование натуральных продуктов, - это поликетидсинтазы (PKS), нерибосомальные пептидсинтазы (NRPS), рибосомально и посттрансляционно модифицированные пептиды (RiPP), терпеноиды и многие другие. [20] Добывая ферменты, исследователи могут выяснить классы, которые кодируют BGC, и сравнить целевые генные кластеры с известными генными кластерами. [21] Чтобы проверить связь между BGC и натуральными продуктами, целевые BGC могут быть экспрессированы подходящим хозяином с помощью молекулярного клонирования . [22]
Базы данных и инструменты
Генетические данные были накоплены в базах данных. Исследователи могут использовать алгоритмы для расшифровки данных, доступных из баз данных, для открытия новых процессов, целей и продуктов. [10] Ниже перечислены базы данных и инструменты:
AntiSMASH-DB [11] [24] позволяет сравнивать последовательности недавно секвенированных BGC с ранее предсказанными и экспериментально охарактеризованными. [25]
BIG-FAM [26] — это база данных семейств кластеров биосинтетических генов. [27]
DoBISCUIT [28] — это база данных кластеров генов биосинтеза вторичных метаболитов. [29]
MIBiG (Минимальная информация о спецификации кластера биосинтетических генов) [30] предоставляет стандарт для аннотаций и метаданных по кластерам биосинтетических генов и их молекулярным продуктам. [31]
Интерактивное дерево жизни (iTOL) [32] — это веб-инструмент для отображения, обработки и аннотирования филогенетических деревьев. [33]
Ссылки
^ Альбарано Л., Эспозито Р., Руокко Н., Костантини М. (апрель 2020 г.). «Геномная добыча как новый вызов в исследовании природных продуктов». Marine Drugs . 18 (4): 199. doi : 10.3390/md18040199 . PMC 7230286. PMID 32283638 .
^ Hannigan GD, Prihoda D, Palicka A, Soukup J, Klempir O, Rampula L и др. (октябрь 2019 г.). «Стратегия глубокого изучения генома для прогнозирования кластера биосинтетических генов». Nucleic Acids Research . 47 (18): e110. doi : 10.1093/nar/gkz654. PMC 6765103. PMID 31400112 .
^ Lee N, Hwang S, Kim J, Cho S, Palsson B, Cho BK (2020-01-01). "Мини-обзор: подходы к анализу генома для идентификации кластеров генов биосинтеза вторичных метаболитов у Streptomyces". Computational and Structural Biotechnology Journal . 18 : 1548–1556. doi : 10.1016/j.csbj.2020.06.024. PMC 7327026. PMID 32637051 .
^ ab Challis GL (май 2008 г.). «Геномный анализ для открытия новых натуральных продуктов». Журнал медицинской химии . 51 (9): 2618–2628. doi :10.1021/jm700948z. PMID 18393407.
^ Bains W, Smith GC (декабрь 1988 г.). «Новый метод определения последовательности нуклеиновой кислоты». Журнал теоретической биологии . 135 (3): 303–307. Bibcode : 1988JThBi.135..303B. doi : 10.1016/S0022-5193(88)80246-7. PMID 3256722.
^ Кук-Диган Р., Хини К. (2010-09-01). «Патенты в области геномики и генетики человека». Ежегодный обзор геномики и генетики человека . 11 (1): 383–425. doi :10.1146/annurev-genom-082509-141811. PMC 2935940. PMID 20590431 .
^ Ziemert N, Alanjary M, Weber T (август 2016 г.). «Эволюция добычи генома у микробов — обзор». Natural Product Reports . 33 (8): 988–1005. doi : 10.1039/C6NP00025H . PMID 27272205.
^ Омура С., Икеда Х., Ишикава Дж., Ханамото А., Такахаши С., Шиносе М. и др. (октябрь 2001 г.). «Геномная последовательность промышленного микроорганизма Streptomyces avermitilis: выведение способности производить вторичные метаболиты». Труды Национальной академии наук Соединенных Штатов Америки . 98 (21): 12215–12220. Bibcode : 2001PNAS...9812215O. doi : 10.1073/pnas.211433198 . PMC 59794. PMID 11572948 .
^ Tang X, Li J, Millán-Aguiñaga N, Zhang JJ, O'Neill EC, Ugalde JA и др. (декабрь 2015 г.). «Идентификация путей биосинтеза антибиотиков тиотетроновой кислоты с помощью целенаправленного геномного майнинга». ACS Chemical Biology . 10 (12): 2841–2849. doi :10.1021/acschembio.5b00658. PMC 4758359 . PMID 26458099.
^ ab Brandon MC, Wallace DC, Baldi P (июль 2009 г.). «Структуры данных и алгоритмы сжатия для данных геномной последовательности». Биоинформатика . 25 (14): 1731–1738. doi :10.1093/bioinformatics/btp319. PMC 2705231. PMID 19447783 .
^ ab "AntiSMASH-DB".
^ Medema MH, Blin K, Cimermancic P, de Jager V, Zakrzewski P, Fischbach MA и др. (июль 2011 г.). «antiSMASH: быстрая идентификация, аннотация и анализ кластеров генов биосинтеза вторичных метаболитов в последовательностях генома бактерий и грибов». Nucleic Acids Research . 39 (выпуск веб-сервера): W339–W346. doi :10.1093/nar/gkr466. PMC 3125804. PMID 21672958 .
^ "ПРИЗМА". Adapsyn Bioscience.
^ Skinnider MA, Johnston CW, Gunabalasingam M, Merwin NJ, Kieliszek AM, MacLellan RJ и др. (Ноябрь 2020 г.). «Комплексное прогнозирование структуры вторичных метаболитов и биологической активности из последовательностей микробного генома». Nature Communications . 11 (1): 6058. Bibcode :2020NatCo..11.6058S. doi :10.1038/s41467-020-19986-1. PMC 7699628 . PMID 33247171.
^ King RD, Wise PH, Clare A (май 2004 г.). «Подтверждение предсказаний функций белков на основе интеллектуального анализа данных». Биоинформатика . 20 (7): 1110–1118. doi : 10.1093/bioinformatics/bth047 . PMID 14764546.
^ Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (октябрь 1990 г.). "Базовый инструмент поиска локального выравнивания". Журнал молекулярной биологии . 215 (3): 403–410. doi :10.1016/S0022-2836(05)80360-2. PMID 2231712.
^ Medema MH, de Rond T, Moore BS (сентябрь 2021 г.). «Изучение геномов для освещения специализированной химии жизни». Nature Reviews. Genetics . 22 (9): 553–571. doi :10.1038/s41576-021-00363-7. PMC 8364890. PMID 34083778 .
^ Ратледж П.Дж., Чаллис Г.Л. (август 2015 г.). «Открытие микробных природных продуктов путем активации молчащих биосинтетических генных кластеров». Nature Reviews. Микробиология . 13 (8): 509–523. doi :10.1038/nrmicro3496. PMID 26119570. S2CID 6474118.
^ Belknap KC, Park CJ, Barth BM, Andam CP (февраль 2020 г.). «Геномный анализ кластеров биосинтетических и химиотерапевтических генов в бактериях Streptomyces». Scientific Reports . 10 (1): 2003. Bibcode :2020NatSR..10.2003B. doi :10.1038/s41598-020-58904-9. PMC 7005152 . PMID 32029878.
^ Хоффмайстер Д., Келлер Н. П. (апрель 2007 г.). «Естественные продукты нитчатых грибов: ферменты, гены и их регуляция». Natural Product Reports . 24 (2): 393–416. doi :10.1039/B603084J. PMID 17390002.
^ Микаллеф ML, Д'Агостино PM, Шарма D, Вишванатан R, Моффитт MC (сентябрь 2015 г.). «Геномный анализ кластеров генов биосинтеза природных продуктов в цианобактериях Подраздела V». BMC Genomics . 16 (1): 669. doi : 10.1186/s12864-015-1855-z . PMC 4558948 . PMID 26335778.
^ Gomez-Escribano JP, Bibb MJ (февраль 2014 г.). «Гетерологичная экспрессия кластеров генов биосинтеза природных продуктов в Streptomyces coelicolor: от анализа генома до манипуляции биосинтетическими путями». Журнал промышленной микробиологии и биотехнологии . 41 (2): 425–431. doi :10.1007/s10295-013-1348-5. PMID 24096958. S2CID 15215660.
^ Сэйерс Э.В., Кавано М., Кларк К., Прюитт К.Д., Шох К.Л., Шерри С.Т., Карш-Мизрачи I (январь 2021 г.). «ГенБанк». Исследования нуклеиновых кислот . 49 (Д1): Д92–Д96. дои : 10.1093/nar/gkaa1023. ПМЦ 7778897 . ПМИД 33196830.
^ "IMG-ABC".
^ Паланиаппан К., Чен И.А., Чу К., Ратнер А., Сешадри Р., Кирпидес Н.К. и др. (январь 2020 г.). «IMG-ABC v.5.0: обновление базы знаний IMG / Атласа кластеров биосинтетических генов». Исследования нуклеиновых кислот . 48 (Д1): Д422–Д430. дои : 10.1093/nar/gkz932. ПМЦ 7145673 . ПМИД 31665416.
^ "БОЛЬШАЯ СЕМЬЯ".
^ Kautsar SA, Blin K, Shaw S, Weber T, Medema MH (январь 2021 г.). «BiG-FAM: база данных семейств кластеров биосинтетических генов». Nucleic Acids Research . 49 (D1): D490–D497. doi :10.1093/nar/gkaa812. PMC 7778980. PMID 33010170 .
^ "DoBISCUIT".
^ Ичикава Н., Сасагава М., Ямамото М., Комаки Х., Ёсида И., Ямазаки С., Фудзита Н. (январь 2013 г.). «DoBISCUIT: база данных кластеров генов биосинтеза вторичных метаболитов». Nucleic Acids Research . 41 (выпуск базы данных): D408–D414. doi :10.1093/nar/gks1177. PMC 3531092. PMID 23185043 .
^ "МИБиГ".
^ Kautsar SA, Blin K, Shaw S, Navarro-Muñoz JC, Terlouw BR, van der Hooft JJ, et al. (Январь 2020 г.). «MIBiG 2.0: репозиторий для кластеров биосинтетических генов с известной функцией». Nucleic Acids Research . 48 (D1): D454–D458. doi : 10.1093/nar/gkz882. PMC 7145714. PMID 31612915.
^ "iTOL".
^ Letunic I, Bork P (июль 2016 г.). «Интерактивное дерево жизни (iTOL) v3: онлайн-инструмент для отображения и аннотирования филогенетических и других деревьев». Nucleic Acids Research . 44 (W1): W242–W245. doi :10.1093/nar/gkw290. PMC 4987883 . PMID 27095192.