Таксономическая база данных — это база данных , созданная для хранения информации о биологических таксонах — например, группах организмов, организованных по названию вида или другому таксономическому идентификатору — для эффективного управления данными и поиска информации . Таксономические базы данных обычно используются для автоматизированного построения биологических контрольных списков, таких как флоры и фауны , как для печатных публикаций, так и для онлайн-публикаций; для поддержки работы веб-систем информации о видах; как часть управления биологическими коллекциями (например, в музеях и гербариях ); а также для предоставления, в некоторых случаях, компонента управления таксонами более широких научных или биологических информационных систем. Они также являются фундаментальным вкладом в дисциплину информатики биоразнообразия .
Таксономические базы данных оцифровывают научные данные о биоразнообразии и предоставляют доступ к таксономическим данным для исследований. [1] Таксономические базы данных различаются по широте групп таксонов и географического пространства, которые они стремятся включить, например: жуки в определенном регионе, млекопитающие в глобальном масштабе или все описанные таксоны в древе жизни. [2] Таксономическая база данных может включать идентификаторы организмов (научное название, автор и — для зоологических таксонов — год оригинальной публикации), синонимы, таксономические мнения, литературные источники или цитаты, иллюстрации или фотографии, а также биологические атрибуты для каждого таксона (такие как географическое распространение, экология, описательная информация, статус находящегося под угрозой или уязвимого и т. д.). [2] [3] [4] [5] Некоторые базы данных, такие как база данных Глобального информационного фонда по биоразнообразию (GBIF) и Система данных о штрих-кодах жизни , хранят штрих-код ДНК таксона, если он существует (также называемый индексным номером штрих-кода (BIN), который может быть присвоен, например, Международным проектом штрих-кодов жизни (iBOL) или UNITE, базой данных для штрих-кодирования ДНК грибов ). [6] [7]
Таксономическая база данных направлена на точное моделирование характеристик интереса, которые имеют отношение к организмам, которые находятся в области предполагаемого охвата и использования системы. [8] Например, базы данных грибов , водорослей , мохообразных и сосудистых растений («высшие растения») кодируют соглашения из Международного кодекса ботанической номенклатуры , в то время как их аналоги для животных и большинства простейших кодируют эквивалентные правила из Международного кодекса зоологической номенклатуры . Моделирование соответствующей таксономической иерархии для любого таксона естественным образом соответствует реляционной модели, используемой почти во всех системах баз данных. [ необходима ссылка ] Научный консенсус достигается не для всех групп таксонов, и новые виды продолжают описываться; поэтому еще одна цель таксономических баз данных — помочь в разрешении конфликтов научных мнений и унифицировать таксономию. [2]
Возможно, самое раннее документированное управление таксономической информацией в компьютеризированной форме включало таксономическую систему кодирования, разработанную Ричардом Шварцем и др. в Вирджинском институте морских наук для биоты Чесапикского залива и описанную в опубликованном отчете в 1972 году. [9] Эта работа привела прямо или косвенно к другим проектам с большим профилем, включая систему таксономических кодов NODC [10] , которая прошла через 8 версий, прежде чем была прекращена в 1996 году, чтобы быть включенной и преобразованной в по-прежнему действующую Интегрированную таксономическую информационную систему (ITIS). Ряд других таксономических баз данных, специализирующихся на определенных группах организмов, которые появились в 1970-х годах и по настоящее время, совместно вносят вклад в проект Species 2000, который с 2001 года сотрудничает с ITIS для создания объединенного продукта, Каталога жизни . В то время как Catalogue of Life в настоящее время концентрируется на сборе базовой информации о названиях в качестве глобального списка видов, многочисленные другие проекты таксономических баз данных, такие как Fauna Europaea , Australian Faunal Directory [11] и другие, предоставляют богатую вспомогательную информацию, включая описания, иллюстрации, карты и многое другое. Многие проекты таксономических баз данных в настоящее время перечислены на сайте TDWG "Biodiversity Information Projects of the World". [12]
Представление таксономической информации в машинокодируемой форме поднимает ряд проблем, не встречающихся в других областях, таких как различные способы цитирования одного и того же вида или другого названия таксона, одно и то же название, используемое для нескольких таксонов ( омонимы ), несколько неактуальных названий для одного и того же таксона ( синонимы ), изменения в названии и определении концепции таксона с течением времени и многое другое. [8] [2] [1] Нестандартизированные категории и метаданные в таксономических базах данных затрудняют возможность исследователей анализировать данные. [3] Одним из форумов, который способствовал обсуждению и возможным решениям этих и связанных с ними проблем с 1985 года, является Информационная группа по стандартам биоразнообразия (TDWG) , первоначально называвшаяся Рабочей группой по таксономическим базам данных.
Хотя онлайн-базы данных имеют большие преимущества (например, расширенный доступ к таксономической информации), они также имеют такие проблемы, как риски целостности данных из-за онлайн- и офлайн-версий и постоянных обновлений, технические проблемы доступа из-за сбоев сервера или интернета и различные возможности для сложных запросов для извлечения таксономических данных в списки. [2] Поскольку количество информации в онлайн-базах данных таксономии быстро растет, агрегация данных, а также интеграция и согласование нестандартизированных данных между базами данных являются большой проблемой в таксономии и информатике биоразнообразия. [1]