Объединение данных — это процесс интеграции нескольких источников данных для получения более последовательной, точной и полезной информации, чем та, которая предоставляется любым отдельным источником данных.
Процессы слияния данных часто классифицируются как низкие, средние или высокие, в зависимости от стадии обработки, на которой происходит слияние. [1] Слияние данных низкого уровня объединяет несколько источников необработанных данных для получения новых необработанных данных. Ожидается, что слитые данные будут более информативными и синтетическими , чем исходные входные данные.
Например, слияние датчиков также известно как (мультисенсорное) слияние данных и является подмножеством слияния информации .
Концепция слияния данных берет свое начало в эволюционной способности людей и животных объединять информацию из нескольких чувств для улучшения своей способности к выживанию. Например, сочетание зрения, осязания, обоняния и вкуса может указывать на то, является ли вещество съедобным. [2]
В середине 1980-х годов Объединенный совет директоров лабораторий сформировал Подгруппу по слиянию данных (которая позже стала известна как Группа по слиянию данных). С появлением Всемирной паутины слияние данных стало включать слияние данных, датчиков и информации. JDL/DFIG представила модель слияния данных, которая разделила различные процессы. В настоящее время шесть уровней модели Группы по слиянию данных (DFIG) таковы:
Хотя модель JDL (уровень 1–4) используется и сегодня, ее часто критикуют за то, что она подразумевает, что уровни обязательно происходят по порядку, а также за отсутствие адекватного представления потенциала для человека в контуре. Модель DFIG (уровень 0–5) исследовала последствия осведомленности о ситуации, уточнения пользователя и управления миссией. [3] Несмотря на эти недостатки, модели JDL/DFIG полезны для визуализации процесса слияния данных, облегчая обсуждение и общее понимание, [4] и важны для проектирования слияния информации на уровне систем. [3] [5]
В геопространственной ( ГИС ) области слияние данных часто является синонимом интеграции данных . В этих приложениях часто возникает необходимость объединить различные наборы данных в единый (слитый) набор данных, который включает все точки данных и временные шаги из входных наборов данных. Слитый набор данных отличается от простого объединенного супернабора тем, что точки в слитом наборе данных содержат атрибуты и метаданные, которые могли не быть включены для этих точек в исходном наборе данных.
Ниже показан упрощенный пример этого процесса, где набор данных «α» объединяется с набором данных β для формирования объединенного набора данных δ. Точки данных в наборе «α» имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в наборе β имеют пространственные координаты X и Y и атрибуты B1 и B2. Объединенный набор данных содержит все точки и атрибуты.
В простом случае, когда все атрибуты единообразны во всей области анализа, атрибуты можно просто назначить: M?, N?, Q?, R? для M, N, Q, R. В реальном приложении атрибуты не являются единообразными, и для правильного назначения атрибутов точкам данных в объединенном наборе обычно требуется некоторый тип интерполяции.
В гораздо более сложном приложении исследователи морских животных используют слияние данных для объединения данных отслеживания животных с батиметрическими , метеорологическими , данными о температуре поверхности моря (SST) и данными о среде обитания животных для изучения и понимания использования среды обитания и поведения животных в ответ на внешние силы, такие как погода или температура воды. Каждый из этих наборов данных демонстрирует различную пространственную сетку и частоту выборки, поэтому простая комбинация, скорее всего, создаст ошибочные предположения и испортит результаты анализа. Но благодаря использованию слияния данных все данные и атрибуты объединяются в единое представление, в котором создается более полная картина окружающей среды. Это позволяет ученым определять ключевые местоположения и время и формировать новые представления о взаимодействии между окружающей средой и поведением животных.
На рисунке справа лангусты изучаются у берегов Тасмании. Хью Педерсон из Университета Тасмании использовал программное обеспечение для слияния данных, чтобы объединить данные отслеживания лангустов (цветовая кодировка: желтый и черный для дня и ночи соответственно) с данными по батиметрии и среде обитания, чтобы создать уникальную 4D-картину поведения лангустов.
В приложениях за пределами геопространственной области применяются различия в использовании терминов Интеграция данных и Слияние данных. Например, в таких областях, как бизнес-аналитика, интеграция данных используется для описания объединения данных, тогда как слияние данных — это интеграция с последующей редукцией или заменой. Интеграцию данных можно рассматривать как комбинацию наборов, в которой сохраняется больший набор, тогда как слияние — это метод редукции наборов с повышенной достоверностью.
Данные от различных сенсорных технологий могут быть объединены интеллектуальными способами для точного определения состояния дорожного движения. Подход на основе слияния данных, который использует собранные на обочине дороги акустические данные, изображения и данные датчиков, как было показано, объединяет преимущества различных отдельных методов. [6]
Во многих случаях географически разбросанные датчики сильно ограничены по энергии и полосе пропускания. Поэтому необработанные данные, касающиеся определенного явления, часто суммируются в нескольких битах с каждого датчика. При выводе на основе бинарного события (т. е. или ), в крайнем случае только бинарные решения отправляются с датчиков в Центр слияния решений (DFC) и объединяются для получения улучшенной производительности классификации. [7] [8] [9]
Благодаря множеству встроенных датчиков, включая датчик движения, датчик окружающей среды, датчик положения, современное мобильное устройство обычно предоставляет мобильным приложениям доступ к ряду сенсорных данных, которые могут быть использованы для повышения контекстной осведомленности. Используя методы обработки сигналов и слияния данных, такие как генерация признаков, технико-экономическое обоснование и анализ главных компонентов (PCA), такие сенсорные данные значительно улучшат положительную скорость классификации движения и контекстно-релевантного статуса устройства. [10] Многие методы информации, улучшенной контекстом, предоставлены Snidaro и др. [11] [12]
Гауссовские процессы являются популярной моделью машинного обучения. Если предполагается авторегрессионная связь между данными, а каждый источник данных предполагается гауссовым процессом, то это представляет собой нелинейную байесовскую регрессионную проблему. [13]
Многие методы слияния данных предполагают общие условные распределения по нескольким источникам данных. [14] Недавно были разработаны методы, позволяющие проводить эффективную оценку в рамках полученной полупараметрической модели. [15]
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка )