Экоинформатика , или экологическая информатика, является наукой об информации в экологии и науке об окружающей среде . Она объединяет науки об окружающей среде и информации для определения сущностей и природных процессов на языке, общем как для людей, так и для компьютеров. Однако это быстро развивающаяся область в экологии, и существуют альтернативные точки зрения на то, что составляет экоинформатику.
Было предложено несколько определений, в основном сосредоточенных на создании инструментов для доступа и анализа данных природных систем. Однако сфера и цели экоинформатики, безусловно, шире, чем разработка стандартов метаданных для использования при документировании наборов данных. Экоинформатика направлена на содействие экологическим исследованиям и управлению путем разработки способов доступа, интеграции баз данных экологической информации и разработки новых алгоритмов, позволяющих объединять различные наборы экологических данных для проверки экологических гипотез. Экоинформатика связана с концепцией экосистемных услуг . [1]
Экоинформатика характеризует семантику знаний о природных системах. По этой причине большая часть современных исследований в области экоинформатики относится к разделу компьютерной науки, известному как представление знаний , а активные проекты в области экоинформатики развивают связи с такими видами деятельности, как Semantic Web .
Текущие инициативы по эффективному управлению, обмену и повторному использованию экологических данных свидетельствуют о растущей важности таких областей, как экоинформатика, для разработки основ эффективного управления экологической информацией. Примерами таких инициатив являются проекты Национального научного фонда Datanet , DataONE , Data Conservancy и Artificial Intelligence for Environment & Sustainability . [1]
Центральным элементом концепции экоинформатики является жизненный цикл разработки программного обеспечения (SDLC), систематическая структура для написания, внедрения и поддержки программных продуктов. Обычно в проектах по экоинформатике конвейер разработки включает сбор данных, как правило, из нескольких различных источников данных об окружающей среде, затем интеграцию этих источников данных вместе, а затем анализ данных. Здесь каждый шаг SDLC описывается в контексте экоинформатики, согласно Миченеру и др. [2] . Важно отметить, что шаги планирования, сбора, обеспечения, описания и сохранения относятся к субъекту сбора данных, которым могут быть отдельные исследователи или крупные сети сбора данных, в то время как шаги обнаружения, интеграции и анализа обычно относятся к отдельному исследователю.
План : Экоинформационные проекты требуют данных из нескольких баз данных. Каждая база данных содержит разные данные, и поэтому исследователи должны определить, какие типы экологических данных им понадобятся для ответа на свой исследовательский вопрос.
Сбор : данные собираются несколькими способами. В экоинформатике это обычно ограничивается ручным вводом данных в электронную таблицу и разбором данных из существующей базы данных. Рост реляционных баз данных облегчил для экологов загрузку соответствующих данных и интеграцию наборов данных вместе
Assure : Вводимые данные должны быть тщательно проверены для подтверждения их точности и удобства использования, например, для проверки на выбросы и ошибочные точки. Тот же принцип применим к данным, загруженным из наборов данных. Эта ответственность ложится как на эколога, загружающего данные, так и на организацию, которая настраивает систему сбора данных.
Опишите : Точное описание метаданных набора данных, который используется в исследовании, должно включать достаточно информации, чтобы вывести методологию сбора и обработки данных, когда данные были собраны, почему данные были собраны и как данные были сохранены. Это важно для воспроизводимости, особенно для проектов, которые строятся друг на друге и могут повторно использовать данные.
Сохранение : После того, как данные собраны институциональным субъектом, они должны быть заархивированы таким образом, чтобы к ним был легкий доступ. В идеале это должно быть в базах данных, которые поддерживаются и не находятся под угрозой устаревания
Discover : Хотя существуют хорошие практики поиска данных для начала исследовательского проекта, этот процесс часто омрачен отсутствием пригодных для использования опубликованных данных, поскольку исследователи могут собирать данные, специфичные для их исследования, но не могут публиковать эти данные для более широкого использования. Что касается сбора данных, это можно решить с помощью лучших практик обмена данными, например, связывая наборы данных при публикации статей или исследований. Что касается закупки данных, это можно решить с помощью более точного поиска данных, например, используя ключевые слова для поиска соответствующих наборов данных.
Интеграция : Синтез наборов данных может быть сложным и трудоемким, в основном из-за методологических различий в сборе данных. Существует несколько подходов к этому, но лучшие практики обычно включают вычислительные подходы, а именно использование R или Python , для автоматизации процессов и предотвращения ошибок
Анализ : Анализ данных может принимать различные формы и должен быть адаптирован к конкретному экологическому проекту. Однако все методы анализа данных должны быть хорошо документированы, включая процедуру анализа, обоснование методов анализа и любые недостатки в конкретном подходе.
Экосистемные исследования по определению охватывают взаимодействия по всему спектру наук о жизни, от микроскопических биохимических реакций до крупномасштабных геологических явлений. В результате большие базы данных могут не быть разработаны специально для какого-либо конкретного исследовательского вопроса, но должны быть достаточно всеобъемлющими, чтобы поддерживать большинство исследований. Поскольку вопросы уровня экосистемы требуют широкой перспективы, экосистемные проекты, связанные с данными, вероятно, будут включать данные из нескольких баз данных.
Распространенной структурой для включения данных в исследования на уровне экосистем является модель сетевой науки , в которой механизмы и ресурсы сбора данных рассматриваются как большая взаимосвязанная сеть, а не как отдельные сущности. Сеть может включать несколько станций сбора данных в пределах одной базы данных или может охватывать несколько баз данных. В настоящее время существует несколько крупномасштабных сетей, но они не генерируют данные в масштабе, позволяющем рассматривать экологию как науку о больших данных.
Текущая проблема для экоинформатики в экологии экосистем заключается в том, что большая часть финансирования отдается в приоритет на создание новых данных, а не на поддержание существующих инфраструктур данных. Интеграция данных в различных пространственных масштабах также может быть сложной, поскольку каждый набор данных может содержать различные типы данных.
Текущий толчок к умным городам и интеграции сенсорных сетей в инфраструктуру позиционировал себя как основной источник данных для экологических исследований. Типичные вопросы городской экологии касаются влияния урбанизации на местную экосистему и того, как стимулировать будущее развитие для содействия городскому биоразнообразию .
В то время как сенсорные сети в городах обычно собирают данные об окружающей среде для оптимизации городских процессов, они также могут использоваться для экологических инициатив, особенно в отношении понимания сложных, многослойных отношений между городами и их локальной экосистемой. Их также можно использовать для лучшего понимания текущего ландшафта городов и определения путей их перестройки. Например, анализ моделей мобильности может определить области, которые могут хорошо подходить для строительства парков и зеленых зон. Данные наблюдения за птицами также могут использоваться для определения типов видов птиц в локальной области.
Как и другие дисциплины экологии, новые инфекционные заболевания и эпидемиология охватывают множество масштабов, от понимания генетики, которая управляет тенденциями заболеваний, до крупномасштабных пространственно-временных анализов. В результате исследования инфекционных заболеваний могут включать все, от биоинформатики, генетических последовательностей, аминокислотных последовательностей и данных наблюдений за окружающей средой.
В микромасштабе эти данные могут быть использованы для прогнозирования инфекционности/заразности, лекарственной устойчивости, кандидатов на лекарства и участков мутации. В макромасштабе их можно использовать для выявления общественных тенденций или факторов окружающей среды, которые способствуют распространению, мест заражения и практик, которые вызывают передачу болезни.