stringtranslate.com

Филогенетическое распределение названных линий глобальных вспышек

Филогенетическое назначение названных глобальных линий вспышек ( PANGOLIN ) — это программный инструмент, разработанный доктором Айн О'Тул [2] и членами лаборатории Эндрю Рамбо , с соответствующим веб-приложением, разработанным Центром по надзору за геномными патогенами в Южном Кембриджшире . [3] Его цель — реализовать динамическую номенклатуру (известную как номенклатура Pango) для классификации генетических линий SARS -CoV-2 , вируса, вызывающего COVID-19 . [4] Пользователь с полной последовательностью генома образца SARS-CoV-2 может использовать инструмент для отправки этой последовательности, которая затем сравнивается с другими последовательностями генома и назначается наиболее вероятной линии (линия Pango). [5] Возможны одиночные или множественные запуски, и инструмент может возвращать дополнительную информацию относительно известной истории назначенной линии. [5] Кроме того, он взаимодействует с Microreact, чтобы показать временную последовательность расположения отчетов о секвенированных образцах одной и той же линии. [5] Эта последняя функция опирается на общедоступные геномы, полученные от Консорциума COVID-19 Genomics UK , и на те, которые были отправлены в GISAID . [5] Он назван в честь панголина .

Контекст

ПАНГОЛИН является ключевым компонентом, лежащим в основе системы номенклатуры панго. [6]

Как описано в Andrew Rambaut et al. (2020), [4] линия Pango описывается как кластер последовательностей, которые связаны с эпидемиологическим событием, например, внедрением вируса в определенную географическую область с доказательствами дальнейшего распространения. Линии предназначены для захвата зарождающегося края пандемии и имеют мелкозернистое разрешение, подходящее для геномного эпидемиологического надзора и расследования вспышек. [ необходима цитата ]

И этот инструмент, и система номенклатуры PANGOLIN широко использовались во время пандемии COVID-19 . [4] [7] [8]

Описание

Обозначение родословной

В отличие от инструмента PANGOLIN, линии Pango регулярно вручную курируются на основе текущего глобально циркулирующего разнообразия. Большое филогенетическое дерево строится из выравнивания, содержащего общедоступные геномы SARS-CoV-2, и подкластеры последовательностей в этом дереве вручную проверяются и сопоставляются с эпидемиологической информацией для обозначения новых линий; они могут быть обозначены производителями данных, а предложения по линиям могут быть отправлены команде Pango через запрос на решение проблемы GitHub . [9] [10] [ требуется дополнительное объяснение ]

Обучение модели

Эти вручную подобранные обозначения родословной и связанные с ними последовательности генома являются входными данными для обучения модели машинного обучения. Эта модель, как обучение, так и назначение, была названа «pangoLEARN». Текущая версия pangoLEARN использует дерево классификации, основанное на реализации scikit-learn [11] классификатора дерева решений.

Присвоение родословной

Первоначально PANGOLIN использовал алгоритм назначения на основе максимального правдоподобия для назначения запроса SARS-CoV-2 наиболее вероятной последовательности линии. Однако с момента выпуска версии 2.0 в июле 2020 года он использовал алгоритм назначения на основе машинного обучения «pangoLEARN» для назначения линий новым геномам SARS-CoV-2. [12] Этот подход быстрый и может назначать большое количество геномов SARS-CoV-2 за относительно короткое время. [13]

Доступность

PANGOLIN доступен как инструмент на основе командной строки , загружаемый из Conda и из репозитория GitHub, [12] и как веб-приложение [14] с графическим пользовательским интерфейсом с функцией перетаскивания. Веб-приложение PANGOLIN присвоило более 512 000 уникальных последовательностей SARS-CoV-2 по состоянию на январь 2021 года. [ необходима цитата ]

Создатели и разработчики

PANGOLIN был создан Айн О'Тул и лабораторией Rambaut и выпущен 5 апреля 2020 года. Основными разработчиками PANGOLIN являются Айн О'Тул и Эмили Шер; многие другие внесли свой вклад в различные аспекты инструмента, включая Бена Джексона, Дж. Т. Маккрона, Верити Хилл и Рэйчел Колкухун из лаборатории Rambaut. [5]

Веб-приложение PANGOLIN было разработано Центром геномного надзора за патогенами [14] , а именно Энтони Андервудом, Беном Тейлором, Корин Йетс, Хали Абу-Дахаб и Дэвидом Ааненсеном. [5]

Смотрите также

Ссылки

  1. ^ "Release 4.3.1". 26 июля 2023 г. Получено 1 августа 2023 г.
  2. ^ О'Тул, Эйн; Шер, Эмили; Андервуд, Энтони; Джексон, Бен; Хилл, Верити; Маккроун, Джон Т; Колкухун, Рэйчел; Руис, Крис; Абу-Дахаб, Халил; Тейлор, Бен; Йейтс, Корин; Дю Плесси, Луис; Малони, Дэниел; Медд, Натан; Эттвуд, Стивен В; Ааненсен, Дэвид М; Холмс, Эдвард С; Пайбус, Оливер Г; Рамбо, Эндрю (5 июля 2021 г.). «Назначение эпидемиологических линий в возникающей пандемии с использованием инструмента панголина». Эволюция вирусов . 7 (2): veab064. doi :10.1093/ve/veab064. PMC 8344591. PMID  34527285 . 
  3. ^ "Real-Time Epidemiology for COVID-19". www.pathogensurveillance.net . Архивировано из оригинала 17 января 2021 г. . Получено 22 января 2021 г. .
  4. ^ abc Rambaut, A.; Holmes, EC; O'Toole, Á.; et al. (2020). «Предложение по динамической номенклатуре линий SARS-CoV-2 для содействия геномной эпидемиологии». Nature Microbiology . 5 (11): 1403–1407. doi : 10.1038/s41564-020-0770-5 . PMC 7610519 . PMID  32669681. S2CID  220544096. 
  5. ^ abcdef "Pangolin web application release". virological.org . Май 2020. Архивировано из оригинала 10 февраля 2021 . Получено 18 февраля 2021 .
  6. ^ Rambaut, Andrew; Holmes, Edward C.; o'Toole, Áine; Hill, Verity; McCrone, John T.; Ruis, Christopher; Du Plessis, Louis; Pybus, Oliver G. (15 июля 2020 г.). «Приложение: динамическое предложение по номенклатуре линий SARS-CoV-2 для содействия геномной эпидемиологии». Nature Microbiology . 6 (3): 415. doi : 10.1038/s41564-021-00872-5 . PMC 7845574 . PMID  33514928. 
  7. ^ Pipes, Lenore; Wang, Hongru; Huelsenbeck, John P; Nielsen, Rasmus (9 декабря 2020 г.). Malik, Harmit (ред.). «Оценка неопределенности в истоках филогенеза SARS-CoV-2». Молекулярная биология и эволюция . 38 (4). Oxford University Press (OUP): 1537–1543. doi : 10.1093/molbev/msaa316 . ISSN  0737-4038. PMC 7798932. PMID 33295605.  Архивировано из оригинала 10 декабря 2020 г. Получено 22 января 2021 г. 
  8. ^ Jacob, Jobin John; Vasudevan, Karthick; Pragasam, Agila Kumari; Gunasekaran, Karthik; Kang, Gagandeep; Veeraraghavan, Balaji; Mutreja, Ankur (22 декабря 2020 г.). «Эволюционное отслеживание генетических вариантов SARS-CoV-2 подчеркивает сложный баланс стабилизирующих и дестабилизирующих мутаций». bioRxiv 10.1101/2020.12.22.423920 . Инструмент филогенетического назначения именованных глобальных вспышек LINeages (PANGOLIN) стал наиболее широко используемым инструментом для назначения линий новым появляющимся вариантам. 
  9. ^ "pangoLEARN Store of the training model for PANGOLIN to access". GitHub: cov-lineages/pangoLEARN . Архивировано из оригинала 3 января 2021 г. . Получено 13 февраля 2021 г. .
  10. ^ "PANGO lineages". cov-lineages.org . Архивировано из оригинала 28 февраля 2021 г. . Получено 4 марта 2021 г. .
  11. ^ "sklearn.tree.DecisionTreeClassifier". scikit-learn.org . Архивировано из оригинала 19 февраля 2021 г. . Получено 13 февраля 2021 г. .
  12. ^ ab "cov-lineages/pangolin". GitHub: cov-lineages/pangolin . Архивировано из оригинала 15 февраля 2021 г. Получено 13 февраля 2021 г.
  13. ^ "pangoLEARN PANGOLIN 2.0: pangoLEARN description". cov-lineages.org . Архивировано из оригинала 4 ноября 2021 г. . Получено 19 ноября 2021 г. Модель была обучена с использованием ~60 000 последовательностей SARS-CoV-2 из GISAID... обучение этой модели занимает около 30 минут на нашем оборудовании
  14. ^ ab "Pangolin COVID-19 Lineage Assigner". pangolin.cog-uk.io . Архивировано из оригинала 10 февраля 2021 г. . Получено 13 февраля 2021 г. .

Внешние ссылки