Объединение данных — это процесс интеграции нескольких источников данных для получения более согласованной, точной и полезной информации, чем та, которую предоставляет любой отдельный источник данных.
Процессы объединения данных часто подразделяются на низкие, промежуточные или высокие, в зависимости от этапа обработки, на котором происходит объединение. [1] Объединение данных низкого уровня объединяет несколько источников необработанных данных для создания новых необработанных данных. Ожидается, что объединенные данные будут более информативными и синтетическими , чем исходные входные данные.
Например, объединение датчиков также известно как (многосенсорное) объединение данных и является подмножеством объединения информации .
Концепция объединения данных берет свое начало в развившейся способности людей и животных объединять информацию от нескольких органов чувств, чтобы улучшить свою способность к выживанию. Например, сочетание зрения, осязания, обоняния и вкуса может указывать на то, съедобно ли вещество. [2]
В середине 1980-х годов объединенные директора лабораторий сформировали подгруппу Data Fusion (которая позже стала известна как Data Fusion Group). Таким образом, с появлением Всемирной паутины объединение данных включало в себя объединение данных, датчиков и информации. JDL/DFIG представила модель объединения данных, которая разделила различные процессы. В настоящее время модель Data Fusion Information Group (DFIG) состоит из шести уровней:
Хотя модель JDL (уровни 1–4) все еще используется сегодня, ее часто критикуют за то, что из нее следует, что уровни обязательно происходят по порядку, а также за отсутствие адекватного представления потенциала «человека в цикле». . Модель DFIG (уровни 0–5) исследовала последствия осведомленности о ситуации, уточнения пользователей и управления миссиями. [3] Несмотря на эти недостатки, модели JDL/DFIG полезны для визуализации процесса объединения данных, облегчают обсуждение и общее понимание, [4] и важны для проектирования объединения информации на системном уровне. [3] [5]
В геопространственной ( ГИС ) области объединение данных часто является синонимом интеграции данных . В этих приложениях часто возникает необходимость объединить различные наборы данных в единый (объединенный) набор данных, который включает в себя все точки данных и временные шаги из наборов входных данных. Объединенный набор данных отличается от простого комбинированного расширенного набора тем, что точки в объединенном наборе данных содержат атрибуты и метаданные, которые могли не быть включены для этих точек в исходный набор данных.
Упрощенный пример этого процесса показан ниже, где набор данных «α» объединяется с набором данных β, чтобы сформировать объединенный набор данных δ. Точки данных в наборе «α» имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в наборе β имеют пространственные координаты X и Y и атрибуты B1 и B2. Объединенный набор данных содержит все точки и атрибуты.
В простом случае, когда все атрибуты одинаковы во всей области анализа, атрибуты могут быть просто присвоены: M?, N?, Q?, R? на M, N, Q, R. В реальном приложении атрибуты не являются однородными, и для правильного назначения атрибутов точкам данных в объединенном наборе обычно требуется некоторый тип интерполяции.
В гораздо более сложном приложении исследователи морских животных используют объединение данных для объединения данных отслеживания животных с батиметрическими , метеорологическими данными , данными о температуре поверхности моря (SST) и средой обитания животных для изучения и понимания использования среды обитания и поведения животных в ответ на внешние силы, такие как погода. или температура воды. Каждый из этих наборов данных имеет различную пространственную сетку и частоту дискретизации, поэтому простая комбинация, скорее всего, приведет к ошибочным предположениям и испортит результаты анализа. Но благодаря использованию объединения данных все данные и атрибуты объединяются в единое представление, в котором создается более полная картина окружающей среды. Это позволяет ученым определять ключевые места и время и формировать новое понимание взаимодействия между окружающей средой и поведением животных.
На рисунке справа каменные омары изучаются у побережья Тасмании. Хью Педерсон из Университета Тасмании использовал программное обеспечение для объединения данных, чтобы объединить данные отслеживания южных каменных омаров (желтый и черный цвет для дня и ночи соответственно) с данными батиметрии и среды обитания, чтобы создать уникальную четырехмерную картину поведения каменных омаров.
В приложениях за пределами геопространственной области применяются различия в использовании терминов «интеграция данных» и «слияние данных». Например, в таких областях, как бизнес-аналитика, интеграция данных используется для описания объединения данных, тогда как объединение данных — это интеграция с последующим сокращением или заменой. Интеграцию данных можно рассматривать как комбинацию наборов, при которой сохраняется больший набор, тогда как объединение представляет собой метод сокращения наборов с повышенной достоверностью.
Данные, полученные от различных сенсорных технологий, можно интеллектуально комбинировать для точного определения состояния дорожного движения. Было показано, что подход, основанный на объединении данных, который использует собранные на обочине дороги акустические данные, данные изображений и данные датчиков, сочетает в себе преимущества различных отдельных методов. [6]
Во многих случаях географически рассредоточенные датчики сильно ограничены в энергопотреблении и пропускной способности. Поэтому необработанные данные, касающиеся определенного явления, часто суммируются в нескольких битах от каждого датчика. При выводе о двоичном событии (т. е. или ) в крайнем случае только двоичные решения отправляются от датчиков в Центр принятия решений (DFC) и объединяются для повышения эффективности классификации. [7] [8] [9]
Благодаря множеству встроенных датчиков, включая датчик движения, датчик окружающей среды и датчик положения, современное мобильное устройство обычно предоставляет мобильным приложениям доступ к ряду сенсорных данных, которые можно использовать для повышения контекстуальной осведомленности. Использование методов обработки сигналов и объединения данных, таких как генерация признаков, технико-экономическое обоснование и анализ главных компонентов (PCA), таких сенсорных данных значительно улучшит положительную скорость классификации движения и контекстно-релевантного состояния устройства. [10] Многие методы контекстно-расширенной информации предоставлены Snidaro и соавт. [11] [12]
Гауссовские процессы — популярная модель машинного обучения. Если предполагается авторегрессионная связь между данными и каждый источник данных считается гауссовским процессом, это представляет собой проблему нелинейной байесовской регрессии . [13]
Многие методы объединения данных предполагают общие условные распределения по нескольким источникам данных. [14] Недавно были разработаны методы, позволяющие эффективно оценивать полученную полупараметрическую модель. [15]
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка )