Автоматизированная идентификация видов — это метод, позволяющий сделать экспертные знания таксономистов доступными для экологов, паратаксономистов и других специалистов с помощью цифровых технологий и искусственного интеллекта . Сегодня большинство автоматизированных систем идентификации полагаются на изображения, изображающие вид, для идентификации. [1] На основе точно идентифицированных изображений вида обучается классификатор . После того, как этот классификатор подвергнется воздействию достаточного количества обучающих данных, он может идентифицировать обученный вид на ранее невиданных изображениях.
Автоматизированная идентификация биологических объектов, таких как насекомые (отдельные особи) и/или группы (например, виды , гильдии, персонажи), была мечтой систематиков на протяжении столетий. Целью некоторых из первых многомерных биометрических методов было решение извечной проблемы групповой дискриминации и межгрупповой характеристики. Несмотря на большую предварительную работу в 1950-х и 60-х годах, прогресс в разработке и внедрении практических систем для полностью автоматизированной биологической идентификации объектов оказался удручающе медленным. Совсем недавно, в 2004 году, Дэн Джанзен [2] обновил мечту для новой аудитории:
Космический корабль приземляется. Он выходит. Он направляет его вокруг. Он говорит: «дружелюбный–недружелюбный–съедобный–ядовитый–безопасный–опасный–живой–неодушевленный». На следующем взмахе он говорит: « Quercus oleoides—Homo sapiens—Spondias mombin—Solanum nigrum—Crotalus durissus—Morpho peleides —змеевидный». Это было у меня в голове с тех пор, как я читал научную фантастику в девятом классе полвека назад. [ требуется пояснение ]
Предпочтительным решением Джанзена для этой классической проблемы было создание машин для идентификации видов по их ДНК . Однако недавние разработки в области компьютерных архитектур, а также инновации в разработке программного обеспечения предоставили инструменты, необходимые для реализации видения Джанзена, в руки сообщества систематиков и компьютерных наук не через несколько лет, а уже сейчас; и не только для создания ДНК-штрихкодов , но и для идентификации на основе цифровых изображений .
В обзоре, опубликованном в 2004 году, [3] изучается, почему автоматизированная идентификация видов не получила широкого распространения в то время и будет ли она реалистичным вариантом в будущем. Авторы обнаружили, что «небольшое, но растущее число исследований стремилось разработать автоматизированные системы идентификации видов на основе морфологических признаков». Обзор 20 исследований, анализирующих структуры видов, такие как клетки, пыльца, крылья и гениталии, показывает, что показатели успешной идентификации составляют от 40% до 100% на обучающих наборах с 1–72 видами. Однако они также выявили четыре фундаментальные проблемы с этими системами: (1) обучающие наборы — были слишком малы (5–10 образцов на вид), и их расширение, особенно для редких видов, может быть затруднено, (2) ошибки в идентификации — недостаточно изучены, чтобы с ними справиться и найти систематику, (3) масштабирование — исследования рассматривают только небольшое количество видов (<200 видов) и (4) новые виды — системы ограничены видами, для которых они были обучены, и будут классифицировать любое новое наблюдение как один из известных видов.
В обзоре, опубликованном в 2017 году [4], систематически сравниваются и обсуждаются прогресс и результаты в области автоматизированной идентификации видов растений за последнее десятилетие (2005–2015 гг.). За это время было опубликовано 120 основных исследований в высококачественных изданиях, в основном авторами с опытом работы в области компьютерных наук. Эти исследования предлагают множество подходов к компьютерному зрению , т. е. признаков, снижающих высокую размерность данных изображений на основе пикселей, сохраняя при этом характерную информацию, а также методы классификации. Подавляющее большинство этих исследований анализирует листья для идентификации, в то время как только 13 исследований предлагают методы идентификации на основе цветов . Причины в том, что листья легче собирать и отображать, и они доступны в течение большей части года. Предлагаемые признаки охватывают общие характеристики объекта, т. е. форму , текстуру и цвет , а также специфические характеристики листьев, т. е. жилкование и край. Большинство исследований по-прежнему использовали наборы данных для оценки, которые содержали не более 250 видов . Однако в этом отношении есть прогресс: в одном исследовании используется набор данных с >2 тыс. [5] , а в другом — с >20 тыс. [6] видов .
Система, разработанная в 2022 году [7], показала, что автоматическая идентификация достигает точности, достаточно высокой для использования в автоматизированной системе наблюдения за насекомыми с использованием электронных ловушек. Обучая классификаторы на нескольких сотнях изображений, она правильно идентифицировала плодовых мух и может использоваться для непрерывного мониторинга, направленного на обнаружение вторжения видов или вспышки вредителей. Несколько аспектов способствуют успеху этой системы. В первую очередь, использование электронных ловушек обеспечивает стандартизированную настройку, что означает, что даже при их развертывании в разных странах и регионах визуальная изменчивость с точки зрения угла обзора и освещенности контролируется. Это говорит о том, что системы на основе ловушек могут быть проще в разработке, чем системы со свободным обзором для автоматической идентификации вредителей.
Не хватает специалистов, которые могут определить то самое биоразнообразие , сохранение которого стало глобальной проблемой. Комментируя эту проблему в палеонтологии в 1993 году, Роджер Кейслер [8] признал:
«... у нас заканчивается число систематических палеонтологов, которые обладают хотя бы приблизительно синоптическими знаниями о крупной группе организмов... Палеонтологи следующего столетия вряд ли смогут позволить себе роскошь подробно разбираться с таксономическими проблемами... Палеонтологии придется поддерживать свой уровень интереса без помощи систематиков, которые внесли столь большой вклад в ее успех».
Этот недостаток экспертизы глубоко затрагивает как те коммерческие отрасли, которые полагаются на точные идентификации (например, сельское хозяйство , биостратиграфия ), так и широкий спектр чистых и прикладных исследовательских программ (например, сохранение , биологическая океанография , климатология , экология ). Также общепризнанно, хотя и неофициально, что техническая таксономическая литература по всем группам организмов изобилует примерами непоследовательных и неправильных идентификаций. Это связано с рядом факторов, включая недостаточную подготовку и навыки таксономистов в проведении идентификации (например, использование различных эмпирических правил при распознавании границ между схожими группами), недостаточно подробные исходные описания групп и/или иллюстрации, недостаточный доступ к текущим монографиям и хорошо подобранным коллекциям и, конечно, различные мнения таксономистов относительно концепций групп. Рецензирование позволяет выявить только самые очевидные ошибки или упущения в этой области, и то только в том случае, если автор предоставляет адекватные представления (например, иллюстрации, записи и последовательности генов) рассматриваемых образцов.
Систематика также может многое получить от дальнейшего развития и использования автоматизированных систем идентификации. Чтобы привлечь как персонал, так и ресурсы, систематика должна трансформироваться в «крупное, скоординированное, международное научное предприятие». [9] Многие определили использование Интернета — особенно через Всемирную паутину — как среду, с помощью которой может быть осуществлена эта трансформация. Хотя создание виртуальной, подобной GenBank системы для доступа к морфологическим данным, аудиоклипам, видеофайлам и т. д. было бы значительным шагом в правильном направлении, улучшение доступа к информации наблюдений и/или текстовым описаниям само по себе не решит ни таксономических препятствий , ни проблем низкой воспроизводимости идентификации. Вместо этого неизбежная субъективность, связанная с принятием критических решений на основе качественных критериев, должна быть уменьшена или, по крайней мере, встроена в более формально аналитический контекст.
Правильно спроектированные, гибкие и надежные автоматизированные системы идентификации, организованные вокруг распределенных вычислительных архитектур и ссылающиеся на авторитетно идентифицированные коллекции данных обучающего набора (например, изображения и последовательности генов ), могут, в принципе, предоставить всем систематикам доступ к электронным архивам данных и необходимым аналитическим инструментам для обработки рутинных идентификаций распространенных таксонов. Правильно спроектированные системы также могут распознавать, когда их алгоритмы не могут сделать надежную идентификацию, и направлять это изображение специалисту (адрес которого можно получить из другой базы данных). Такие системы также могут включать элементы искусственного интеллекта и, таким образом, улучшать свою производительность по мере их использования. После того, как морфологические (или молекулярные) модели вида были разработаны и продемонстрировали свою точность, эти модели можно запрашивать, чтобы определить, какие аспекты наблюдаемых моделей вариации и пределов вариации используются для достижения идентификации, тем самым открывая путь для открытия новых и (потенциально) более надежных таксономических признаков.
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )Вот несколько ссылок на домашние страницы систем идентификации видов. Системы SPIDA и DAISY по сути являются общими и способны классифицировать любой представленный материал изображения. Системы ABIS и DrawWing ограничены насекомыми с перепончатыми крыльями, поскольку они работают, сопоставляя определенный набор признаков на основе жилкования крыльев.