Автоматическая идентификация видов

Автоматизированная идентификация видов — это метод, позволяющий сделать экспертные знания таксономистов доступными для экологов, паратаксономистов и других специалистов с помощью цифровых технологий и искусственного интеллекта . Сегодня большинство автоматизированных систем идентификации полагаются на изображения, изображающие вид, для идентификации. ^[1] На основе точно идентифицированных изображений вида обучается классификатор . После того, как этот классификатор подвергнется воздействию достаточного количества обучающих данных, он может идентифицировать обученный вид на ранее невиданных изображениях.

Введение

Автоматизированная идентификация биологических объектов, таких как насекомые (отдельные особи) и/или группы (например, виды , гильдии, персонажи), была мечтой систематиков на протяжении столетий. Целью некоторых из первых многомерных биометрических методов было решение извечной проблемы групповой дискриминации и межгрупповой характеристики. Несмотря на большую предварительную работу в 1950-х и 60-х годах, прогресс в разработке и внедрении практических систем для полностью автоматизированной биологической идентификации объектов оказался удручающе медленным. Совсем недавно, в 2004 году, Дэн Джанзен ^[2] обновил мечту для новой аудитории:

Космический корабль приземляется. Он выходит. Он направляет его вокруг. Он говорит: «дружелюбный–недружелюбный–съедобный–ядовитый–безопасный–опасный–живой–неодушевленный». На следующем взмахе он говорит: « Quercus oleoides—Homo sapiens—Spondias mombin—Solanum nigrum—Crotalus durissus—Morpho peleides —змеевидный». Это было у меня в голове с тех пор, как я читал научную фантастику в девятом классе полвека назад. ^{[ требуется пояснение ]}

Проблема идентификации видов

Предпочтительным решением Джанзена для этой классической проблемы было создание машин для идентификации видов по их ДНК . Однако недавние разработки в области компьютерных архитектур, а также инновации в разработке программного обеспечения предоставили инструменты, необходимые для реализации видения Джанзена, в руки сообщества систематиков и компьютерных наук не через несколько лет, а уже сейчас; и не только для создания ДНК-штрихкодов , но и для идентификации на основе цифровых изображений .

В обзоре, опубликованном в 2004 году, ^[3] изучается, почему автоматизированная идентификация видов не получила широкого распространения в то время и будет ли она реалистичным вариантом в будущем. Авторы обнаружили, что «небольшое, но растущее число исследований стремилось разработать автоматизированные системы идентификации видов на основе морфологических признаков». Обзор 20 исследований, анализирующих структуры видов, такие как клетки, пыльца, крылья и гениталии, показывает, что показатели успешной идентификации составляют от 40% до 100% на обучающих наборах с 1–72 видами. Однако они также выявили четыре фундаментальные проблемы с этими системами: (1) обучающие наборы — были слишком малы (5–10 образцов на вид), и их расширение, особенно для редких видов, может быть затруднено, (2) ошибки в идентификации — недостаточно изучены, чтобы с ними справиться и найти систематику, (3) масштабирование — исследования рассматривают только небольшое количество видов (<200 видов) и (4) новые виды — системы ограничены видами, для которых они были обучены, и будут классифицировать любое новое наблюдение как один из известных видов.

В обзоре, опубликованном в 2017 году ^[4], систематически сравниваются и обсуждаются прогресс и результаты в области автоматизированной идентификации видов растений за последнее десятилетие (2005–2015 гг.). За это время было опубликовано 120 основных исследований в высококачественных изданиях, в основном авторами с опытом работы в области компьютерных наук. Эти исследования предлагают множество подходов к компьютерному зрению , т. е. признаков, снижающих высокую размерность данных изображений на основе пикселей, при этом сохраняя характерную информацию, а также методы классификации. Подавляющее большинство этих исследований анализирует листья для идентификации, в то время как только 13 исследований предлагают методы идентификации на основе цветов . Причины в том, что листья легче собирать и отображать, и они доступны в течение большей части года. Предлагаемые признаки охватывают общие характеристики объекта, т. е. форму , текстуру и цвет , а также специфические характеристики листа, т. е. жилкование и край. Большинство исследований по-прежнему использовали наборы данных для оценки, которые содержали не более 250 видов . Однако в этом отношении есть прогресс: в одном исследовании используется набор данных с >2 тыс. ^[5] , а в другом — с >20 тыс. ^[6] видов .

Система, разработанная в 2022 году ^[7], показала, что автоматическая идентификация достигает точности, достаточно высокой для использования в автоматизированной системе наблюдения за насекомыми с использованием электронных ловушек. Обучая классификаторы на нескольких сотнях изображений, она правильно идентифицировала плодовых мух и может использоваться для непрерывного мониторинга, направленного на обнаружение вторжения видов или вспышки вредителей. Несколько аспектов способствуют успеху этой системы. В первую очередь, использование электронных ловушек обеспечивает стандартизированную настройку, что означает, что даже при их развертывании в разных странах и регионах визуальная изменчивость с точки зрения размера угла обзора и освещенности контролируется. Это говорит о том, что системы на основе ловушек могут быть проще в разработке, чем системы со свободным обзором для автоматической идентификации вредителей.

Не хватает специалистов, которые могут определить то самое биоразнообразие , сохранение которого стало глобальной проблемой. Комментируя эту проблему в палеонтологии в 1993 году, Роджер Кейслер ^[8] признал:

«... у нас заканчивается число систематических палеонтологов, которые обладают хоть какими-то знаниями, приближающимися к синоптическим, об основных группах организмов... Палеонтологи следующего столетия вряд ли смогут позволить себе роскошь подробно разбираться с таксономическими проблемами... Палеонтологии придется поддерживать свой уровень интереса без помощи систематиков, которые внесли столь большой вклад в ее успех».

Этот недостаток экспертизы глубоко проникает в те коммерческие отрасли, которые полагаются на точные идентификации (например, сельское хозяйство , биостратиграфия ), как и в широкий спектр чистых и прикладных исследовательских программ (например, сохранение , биологическая океанография , климатология , экология ). Также общепризнанно, хотя и неофициально, что техническая таксономическая литература по всем группам организмов изобилует примерами непоследовательных и неправильных идентификаций. Это связано с рядом факторов, включая недостаточную подготовку и навыки таксономистов в проведении идентификаций (например, использование различных эмпирических правил при распознавании границ между схожими группами), недостаточно подробные исходные описания групп и/или иллюстрации, недостаточный доступ к текущим монографиям и хорошо подобранным коллекциям и, конечно, различные мнения таксономистов относительно концепций групп. Рецензирование позволяет выявить только самые очевидные ошибки или упущения в этой области, и то только в том случае, если автор предоставляет адекватные представления (например, иллюстрации, записи и последовательности генов) рассматриваемых образцов.

Систематика также может многое получить от дальнейшего развития и использования автоматизированных систем идентификации. Чтобы привлечь как персонал, так и ресурсы, систематика должна трансформироваться в «крупное, скоординированное, международное научное предприятие». ^[9] Многие определили использование Интернета — особенно через Всемирную паутину — как среду, с помощью которой может быть осуществлена эта трансформация. Хотя создание виртуальной, подобной GenBank системы для доступа к морфологическим данным, аудиоклипам, видеофайлам и т. д. было бы значительным шагом в правильном направлении, улучшение доступа к информации наблюдений и/или текстовым описаниям само по себе не решит ни таксономических препятствий , ни проблем низкой воспроизводимости идентификации. Вместо этого неизбежная субъективность, связанная с принятием критических решений на основе качественных критериев, должна быть уменьшена или, по крайней мере, встроена в более формально аналитический контекст.

Изображения геля SDS- белка гусениц моли-сфинкса. Его можно использовать аналогично ДНК-фингерпринтингу

Правильно спроектированные, гибкие и надежные автоматизированные системы идентификации, организованные вокруг распределенных вычислительных архитектур и ссылающиеся на авторитетно идентифицированные коллекции данных обучающего набора (например, изображения и последовательности генов ), могут, в принципе, предоставить всем систематикам доступ к электронным архивам данных и необходимым аналитическим инструментам для обработки рутинных идентификаций распространенных таксонов. Правильно спроектированные системы также могут распознавать, когда их алгоритмы не могут сделать надежную идентификацию, и направлять это изображение специалисту (адрес которого можно получить из другой базы данных). Такие системы также могут включать элементы искусственного интеллекта и, таким образом, улучшать свою производительность по мере их использования. После того, как морфологические (или молекулярные) модели вида были разработаны и продемонстрировали свою точность, эти модели можно запрашивать, чтобы определить, какие аспекты наблюдаемых моделей вариации и пределов вариации используются для достижения идентификации, тем самым открывая путь для открытия новых и (потенциально) более надежных таксономических признаков.

iNaturalist — это глобальный гражданский научный проект и социальная сеть натуралистов, которая включает в себя как человеческую, так и автоматическую идентификацию растений, животных и других живых существ через браузер или мобильные приложения. ^[10]
Центр биоразнообразия Naturalis в Нидерландах разработал несколько моделей идентификации видов с помощью ИИ, ^[11]^[12], включая, помимо прочего:
- Многоисточниковая модель, обученная с использованием проверенных экспертами данных и используемая несколькими европейскими порталами по биоразнообразию для проектов гражданских ученых в разных странах Европы;
- Модель для анализа изображений с камеры наблюдения за насекомыми DIOPSIS;
- 8 моделей ИИ для бабочек, конусных улиток, птичьих яиц, скатов и яйцевых капсул акул, а также масок из разных культур, находящихся в коллекциях 5 голландских музеев;
- Модели распознавания звуков.
Pl@ntNet — это глобальный гражданский научный проект, который предоставляет приложение и веб-сайт для идентификации растений по фотографиям на основе машинного обучения.
Leaf Snap — это приложение для iOS, разработанное Смитсоновским институтом , которое использует программное обеспечение для визуального распознавания для определения североамериканских видов деревьев по фотографиям листьев. ^{[ необходима ссылка ]}
Google Photos может автоматически определять различные виды на фотографиях. ^[13]
Plant.id — это веб-приложение и API, созданные компанией FlowerChecker , которые используют нейронную сеть, обученную на фотографиях из мобильного приложения FlowerChecker. ^[14]^[15]

Смотрите также

Ключ множественного доступа – тип ключа идентификации, который позволяет пользователям оценивать характеристики в неустановленном порядке.
Цифровая автоматизированная система идентификации – автоматизированная система идентификации видов

Ссылки, цитируемые

^ Вальдхен, Яна; Медер, Патрик (ноябрь 2018 г.). Купер, Натали (ред.). «Машинное обучение для идентификации видов на основе изображений». Методы в экологии и эволюции . 9 (11): 2216–2225. Bibcode : 2018MEcEv...9.2216W. doi : 10.1111/2041-210X.13075 . S2CID 91666577.
^ Джанзен, Дэниел Х. (22 марта 2004 г.). «Сейчас самое время». Философские труды Лондонского королевского общества . B. 359 (1444): 731–732. doi :10.1098/rstb.2003.1444. PMC 1693358. PMID 15253359 .
^ Гастон, Кевин Дж.; О'Нил, Марк А. (22 марта 2004 г.). «Автоматизированное распознавание видов: почему бы и нет?». Philosophical Transactions of the Royal Society of London . B. 359 (1444): 655–667. doi :10.1098/rstb.2003.1442. PMC 1693351. PMID 15253351 .
^ Вальдхен, Яна; Медер, Патрик (2017-01-07). «Идентификация видов растений с использованием методов компьютерного зрения: систематический обзор литературы». Архивы вычислительных методов в инженерии . 25 (2): 507–543. doi :10.1007/s11831-016-9206-z. ISSN 1134-3060. PMC 6003396 . PMID 29962832.
^ Joly, Alexis; Goëau, Hervé; Bonnet, Pierre; Bakić, Vera; Barbe, Julien; Selmi, Souheil; Yahiaoui, Itheri; Carré, Jennifer; Mouysset, Elise (2014-09-01). "Интерактивная идентификация растений на основе данных социальных изображений". Ecological Informatics . Специальный выпуск о мультимедиа в экологии и окружающей среде. 23 : 22–34. Bibcode :2014EcInf..23...22J. doi : 10.1016/j.ecoinf.2013.07.006 .
^ У, Хуэйси; Ван, Лэй; Чжан, Фэн; Вэнь, Чжэнькунь (2015-08-01). «Автоматическое распознавание листьев из большой иерархической базы данных изображений». Международный журнал интеллектуальных систем . 30 (8): 871–886. doi : 10.1002/int.21729 . ISSN 1098-111X. S2CID 12917626.
^ Диллер, Йошуа; Шамсиан, Авив; Шакед, Бен; Альтман, Ям; Данцигер, Бат-Чен; Манрахан, Аруна; Серфонтейн, Леани; Бали, Элма; Вернике, Маттиас; Эгартнер, Алоис; Колаччи, Марко; Сциарретта, Андреа; Чечик, Гал; Альханатис, Виктор; Пападопулос, Никос Т. (2022-06-28). "Система удаленного наблюдения в реальном времени за плодовыми мухами экономического значения: чувствительность и анализ изображений" (PDF) . Журнал Pest Science . 96 (2): 611–622. doi : 10.1007/s10340-022-01528-x . ISSN 1612-4766. S2CID 250127830.
^ Kaesler, Roger L (1993). «Окно возможностей: заглядывая в новый век палеонтологии». Журнал палеонтологии . 67 (3): 329–333. Bibcode : 1993JPal...67..329K. doi : 10.1017/S0022336000036805. JSTOR 1306022. S2CID 133097253.
^ Уилер, Квентин Д. (2003). «Трансформация таксономии» (PDF) (22). Систематист: 3–5. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ "Исследования компьютерного зрения iNaturalist". iNaturalist.org . 2017-07-27 . Получено 2017-08-12 .
^ ainature. "AI Nature – Распознавание природы с помощью Naturalis AI". AI Nature . Получено 2024-06-27 .
^ "ИИ для природы | Naturalis". www.naturalis.nl . Получено 2024-06-27 .
^ «Как Google Photos различает собак, кошек, медведей и любых других животных на ваших фотографиях». 2015-06-04.
^ MLMU.cz - FlowerChecker: захватывающее путешествие одного стартапа ML - О. Весели и Й. Ржигак, 10 декабря 2017 г. , получено 12 января 2022 г.
^ "Tvůrci FlowerCheckeru spouštějí Shazam pro kytky. Plant.id staví na AI" . 7 мая 2018 г. Архивировано из оригинала 12 мая 2018 г. . Проверено 11 мая 2018 г.

Внешние ссылки

Вот несколько ссылок на домашние страницы систем идентификации видов. Системы SPIDA и DAISY по сути являются общими и способны классифицировать любой представленный материал изображения. Системы ABIS и DrawWing ограничены насекомыми с перепончатыми крыльями, поскольку они работают, сопоставляя определенный набор признаков на основе жилкования крыльев.

Система СПИДА
АБИС
ДЕЙЗИ
DrawWing
LeafSnap Архивировано 2013-05-20 в Wayback Machine
Pl@ntNet
Insect.id от Kindwise распознает более 6000 видов, включая жуков, пауков, многоножек, бабочек, муравьев, пчел и других насекомоподобных животных.
Mushroom id от Kindwise распознает более 3200 видов, включая грибы, лишайники и слизевики
Plant.id от Kindwise распознает более 33 000 таксонов, включая комнатные растения, садовые растения, деревья, сорняки, грибы и лишайники; он также распознает распространенные болезни растений.