Филогенетическое назначение названных глобальных линий вспышек ( PANGOLIN ) — это программный инструмент, разработанный доктором Айн О'Тул [2] и членами лаборатории Эндрю Рамбо , с соответствующим веб-приложением, разработанным Центром по надзору за геномными патогенами в Южном Кембриджшире . [3] Его цель — реализовать динамическую номенклатуру (известную как номенклатура Pango) для классификации генетических линий SARS -CoV-2 , вируса, вызывающего COVID-19 . [4] Пользователь с полной последовательностью генома образца SARS-CoV-2 может использовать инструмент для отправки этой последовательности, которая затем сравнивается с другими последовательностями генома и назначается наиболее вероятной линии (линия Pango). [5] Возможны одиночные или множественные запуски, и инструмент может возвращать дополнительную информацию относительно известной истории назначенной линии. [5] Кроме того, он взаимодействует с Microreact, чтобы показать временную последовательность расположения отчетов о секвенированных образцах одной и той же линии. [5] Эта последняя функция опирается на общедоступные геномы, полученные от Консорциума COVID-19 Genomics UK , и на те, которые были отправлены в GISAID . [5] Он назван в честь панголина .
ПАНГОЛИН является ключевым компонентом, лежащим в основе системы номенклатуры панго. [6]
Как описано в Andrew Rambaut et al. (2020), [4] линия Pango описывается как кластер последовательностей, которые связаны с эпидемиологическим событием, например, внедрением вируса в определенную географическую область с доказательствами дальнейшего распространения. Линии предназначены для захвата зарождающегося края пандемии и имеют мелкозернистое разрешение, подходящее для геномного эпидемиологического надзора и расследования вспышек. [ необходима цитата ]
И этот инструмент, и система номенклатуры PANGOLIN широко использовались во время пандемии COVID-19 . [4] [7] [8]
В отличие от инструмента PANGOLIN, линии Pango регулярно вручную курируются на основе текущего глобально циркулирующего разнообразия. Большое филогенетическое дерево строится из выравнивания, содержащего общедоступные геномы SARS-CoV-2, и подкластеры последовательностей в этом дереве вручную проверяются и сопоставляются с эпидемиологической информацией для обозначения новых линий; они могут быть обозначены производителями данных, а предложения по линиям могут быть отправлены команде Pango через запрос на решение проблемы GitHub . [9] [10] [ требуется дополнительное объяснение ]
Эти вручную подобранные обозначения родословной и связанные с ними последовательности генома являются входными данными для обучения модели машинного обучения. Эта модель, как обучение, так и назначение, была названа «pangoLEARN». Текущая версия pangoLEARN использует дерево классификации, основанное на реализации scikit-learn [11] классификатора дерева решений.
Первоначально PANGOLIN использовал алгоритм назначения на основе максимального правдоподобия для назначения запроса SARS-CoV-2 наиболее вероятной последовательности линии. Однако с момента выпуска версии 2.0 в июле 2020 года он использовал алгоритм назначения на основе машинного обучения «pangoLEARN» для назначения линий новым геномам SARS-CoV-2. [12] Этот подход быстрый и может назначать большое количество геномов SARS-CoV-2 за относительно короткое время. [13]
PANGOLIN доступен как инструмент на основе командной строки , загружаемый из Conda и из репозитория GitHub, [12] и как веб-приложение [14] с графическим пользовательским интерфейсом с функцией перетаскивания. Веб-приложение PANGOLIN присвоило более 512 000 уникальных последовательностей SARS-CoV-2 по состоянию на январь 2021 года. [ необходима цитата ]
PANGOLIN был создан Айн О'Тул и лабораторией Rambaut и выпущен 5 апреля 2020 года. Основными разработчиками PANGOLIN являются Айн О'Тул и Эмили Шер; многие другие внесли свой вклад в различные аспекты инструмента, включая Бена Джексона, Дж. Т. Маккрона, Верити Хилл и Рэйчел Колкухун из лаборатории Rambaut. [5]
Веб-приложение PANGOLIN было разработано Центром геномного надзора за патогенами [14] , а именно Энтони Андервудом, Беном Тейлором, Корин Йетс, Хали Абу-Дахаб и Дэвидом Ааненсеном. [5]
Инструмент филогенетического назначения именованных глобальных вспышек LINeages (PANGOLIN) стал наиболее широко используемым инструментом для назначения линий новым появляющимся вариантам.
была обучена с использованием ~60 000 последовательностей SARS-CoV-2 из GISAID... обучение этой модели занимает около 30 минут на нашем оборудовании