stringtranslate.com

Слияние данных

Объединение данных из двух источников (параметры №1 и №2) может дать классификатор, превосходящий любые классификаторы, основанные только на измерении №1 или №2.

Объединение данных — это процесс интеграции нескольких источников данных для получения более согласованной, точной и полезной информации, чем та, которую предоставляет любой отдельный источник данных.

Процессы объединения данных часто подразделяются на низкие, промежуточные или высокие, в зависимости от этапа обработки, на котором происходит объединение. [1] Объединение данных низкого уровня объединяет несколько источников необработанных данных для создания новых необработанных данных. Ожидается, что объединенные данные будут более информативными и синтетическими , чем исходные входные данные.

Например, объединение датчиков также известно как (многосенсорное) объединение данных и является подмножеством объединения информации .

Концепция объединения данных берет свое начало в развившейся способности людей и животных объединять информацию от нескольких органов чувств, чтобы улучшить свою способность к выживанию. Например, сочетание зрения, осязания, обоняния и вкуса может указывать на то, съедобно ли вещество. [2]

Модель JDL/DFIG

Совместный директор лабораторий (JDL) и информационной группы Data Fusion (DFIG) Model

В середине 1980-х годов объединенные директора лабораторий сформировали подгруппу Data Fusion (которая позже стала известна как Data Fusion Group). Таким образом, с появлением Всемирной паутины объединение данных включало в себя объединение данных, датчиков и информации. JDL/DFIG представила модель объединения данных, которая разделила различные процессы. В настоящее время модель Data Fusion Information Group (DFIG) состоит из шести уровней:

Хотя модель JDL (уровни 1–4) все еще используется сегодня, ее часто критикуют за то, что из нее следует, что уровни обязательно происходят по порядку, а также за отсутствие адекватного представления потенциала «человека в цикле». . Модель DFIG (уровни 0–5) исследовала последствия осведомленности о ситуации, уточнения пользователей и управления миссиями. [3] Несмотря на эти недостатки, модели JDL/DFIG полезны для визуализации процесса объединения данных, облегчают обсуждение и общее понимание, [4] и важны для проектирования объединения информации на системном уровне. [3] [5]

Геопространственные приложения

В геопространственной ( ГИС ) области объединение данных часто является синонимом интеграции данных . В этих приложениях часто возникает необходимость объединить различные наборы данных в единый (объединенный) набор данных, который включает в себя все точки данных и временные шаги из наборов входных данных. Объединенный набор данных отличается от простого комбинированного расширенного набора тем, что точки в объединенном наборе данных содержат атрибуты и метаданные, которые могли не быть включены для этих точек в исходный набор данных.

Упрощенный пример этого процесса показан ниже, где набор данных «α» объединяется с набором данных β, чтобы сформировать объединенный набор данных δ. Точки данных в наборе «α» имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в наборе β имеют пространственные координаты X и Y и атрибуты B1 и B2. Объединенный набор данных содержит все точки и атрибуты.

В простом случае, когда все атрибуты одинаковы во всей области анализа, атрибуты могут быть просто присвоены: M?, N?, Q?, R? на M, N, Q, R. В реальном приложении атрибуты не являются однородными, и для правильного назначения атрибутов точкам данных в объединенном наборе обычно требуется некоторый тип интерполяции.

Визуализация объединенных наборов данных по следам каменных омаров в Тасмановом море. Изображение создано с помощью программного обеспечения Eonfusion от Myriax Pty. Ltd.

В гораздо более сложном приложении исследователи морских животных используют объединение данных для объединения данных отслеживания животных с батиметрическими , метеорологическими данными , данными о температуре поверхности моря (SST) и средой обитания животных для изучения и понимания использования среды обитания и поведения животных в ответ на внешние силы, такие как погода. или температура воды. Каждый из этих наборов данных имеет различную пространственную сетку и частоту дискретизации, поэтому простая комбинация, скорее всего, приведет к ошибочным предположениям и испортит результаты анализа. Но благодаря использованию объединения данных все данные и атрибуты объединяются в единое представление, в котором создается более полная картина окружающей среды. Это позволяет ученым определять ключевые места и время и формировать новое понимание взаимодействия между окружающей средой и поведением животных.

На рисунке справа каменные омары изучаются у побережья Тасмании. Хью Педерсон из Университета Тасмании использовал программное обеспечение для объединения данных, чтобы объединить данные отслеживания южных каменных омаров (желтый и черный цвет для дня и ночи соответственно) с данными батиметрии и среды обитания, чтобы создать уникальную четырехмерную картину поведения каменных омаров.

Интеграция данных

В приложениях за пределами геопространственной области применяются различия в использовании терминов «интеграция данных» и «слияние данных». Например, в таких областях, как бизнес-аналитика, интеграция данных используется для описания объединения данных, тогда как объединение данных — это интеграция с последующим сокращением или заменой. Интеграцию данных можно рассматривать как комбинацию наборов, при которой сохраняется больший набор, тогда как объединение представляет собой метод сокращения наборов с повышенной достоверностью.

Области применения

Из нескольких способов определения трафика

Данные, полученные от различных сенсорных технологий, можно интеллектуально комбинировать для точного определения состояния дорожного движения. Было показано, что подход, основанный на объединении данных, который использует собранные на обочине дороги акустические данные, данные изображений и данные датчиков, сочетает в себе преимущества различных отдельных методов. [6]

Слияние решений

Во многих случаях географически рассредоточенные датчики сильно ограничены в энергопотреблении и пропускной способности. Поэтому необработанные данные, касающиеся определенного явления, часто суммируются в нескольких битах от каждого датчика. При выводе о двоичном событии (т. е. или ) в крайнем случае только двоичные решения отправляются от датчиков в Центр принятия решений (DFC) и объединяются для повышения эффективности классификации. [7] [8] [9]

Для повышения контекстуальной осведомленности

Благодаря множеству встроенных датчиков, включая датчик движения, датчик окружающей среды и датчик положения, современное мобильное устройство обычно предоставляет мобильным приложениям доступ к ряду сенсорных данных, которые можно использовать для повышения контекстуальной осведомленности. Использование методов обработки сигналов и объединения данных, таких как генерация признаков, технико-экономическое обоснование и анализ главных компонентов (PCA), таких сенсорных данных значительно улучшит положительную скорость классификации движения и контекстно-релевантного состояния устройства. [10] Многие методы контекстно-расширенной информации предоставлены Snidaro и соавт. [11] [12]

Статистические методы

Байесовские авторегрессионные гауссовские процессы

Гауссовские процессы — популярная модель машинного обучения. Если предполагается авторегрессионная связь между данными и каждый источник данных считается гауссовским процессом, это представляет собой проблему нелинейной байесовской регрессии . [13]

Полупараметрическая оценка

Многие методы объединения данных предполагают общие условные распределения по нескольким источникам данных. [14] Недавно были разработаны методы, позволяющие эффективно оценивать полученную полупараметрическую модель. [15]

Смотрите также

Рекомендации

  1. ^ Кляйн, Лоуренс А. (2004). Объединение датчиков и данных: инструмент для оценки информации и принятия решений. СПАЙ Пресс. п. 51. ИСБН 978-0-8194-5435-5.
  2. ^ Холл, Дэвид Л.; Ллинас, Джеймс (1997). «Введение в объединение мультисенсорных данных». Труды IEEE . 85 (1): 6–23. дои : 10.1109/5.554205. ISSN  0018-9219.
  3. ^ аб Блаш, Эрик П.; Боссе, Элои; Ламберт, Дейл А. (2012). Управление объединением информации высокого уровня и проектирование систем . Норвуд, Массачусетс: Издательство Artech House. ISBN 978-1-6080-7151-7.
  4. ^ Лиггинс, Мартин Э.; Холл, Дэвид Л.; Ллинас, Джеймс (2008). Мультисенсорное объединение данных, второе издание: теория и практика (Мультисенсорное объединение данных) . КПР. ISBN 978-1-4200-5308-1.
  5. ^ Блаш, Э., Стейнберг, А., Дас, С., Ллинас, Дж., Чонг, К.-Ю., Кесслер, О., Вальц, Э., Уайт, Ф.» (2013) . Модель JDL для использования информации . Международная конференция по объединению информации.{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  6. ^ Джоши, В., Раджамани, Н., Такаюки, К., Пратапанени, Субраманиам, Л.В. (2013). Обучение на основе объединения информации для определения состояния экономичного дорожного движения . Материалы двадцать третьей международной совместной конференции по искусственному интеллекту.{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  7. ^ Чуонзо, Д.; Папа, Г.; Романо, Г.; Сальво Росси, П.; Уиллетт, П. (1 сентября 2013 г.). «Однобитное децентрализованное обнаружение с помощью теста Рао для мультисенсорного слияния». Письма об обработке сигналов IEEE . 20 (9): 861–864. arXiv : 1306.6141 . Бибкод : 2013ISPL...20..861C. дои :10.1109/ЛСП.2013.2271847. ISSN  1070-9908. S2CID  6315906.
  8. ^ Чуонзо, Д.; Сальво Росси, П. (01 февраля 2014 г.). «Объединение решений с неизвестной вероятностью обнаружения датчика». Письма об обработке сигналов IEEE . 21 (2): 208–212. arXiv : 1312.2227 . Бибкод : 2014ISPL...21..208C. дои :10.1109/ЛСП.2013.2295054. ISSN  1070-9908. S2CID  8761982.
  9. ^ Чуонзо, Д.; Де Майо, А.; Сальво Росси, П. (01 сентября 2015 г.). «Систематическая основа проверки комплексных гипотез независимых испытаний Бернулли». Письма об обработке сигналов IEEE . 22 (9): 1249–1253. Бибкод : 2015ISPL...22.1249C. дои :10.1109/ЛСП.2015.2395811. ISSN  1070-9908. S2CID  15503268.
  10. ^ Гири, Джон Дж.; ван де Вен, Пепейн; Нельсон, Джон (21 марта 2014 г.). «Мультисенсорное объединение для повышения контекстуальной осведомленности о повседневной деятельности с помощью повсеместных устройств». Датчики . 14 (3): 5687–5701. Бибкод : 2014Senso..14.5687G. дои : 10.3390/s140305687 . ПМК 4004015 . ПМИД  24662406. 
  11. ^ Снидаро, Лаурао; и другие. (2016). Контекстно-расширенное объединение информации: повышение реальной производительности за счет знаний предметной области . Швейцария, AG: Springer. ISBN 978-3-319-28971-7.
  12. ^ Хагигат, Мохаммед; Абдель-Мотталеб, Мохамед; Алхалаби, Вади (2016). «Дискриминантный корреляционный анализ: объединение уровней признаков в реальном времени для мультимодального биометрического распознавания». Транзакции IEEE по информационной криминалистике и безопасности . 11 (9): 1984–1996. дои : 10.1109/TIFS.2016.2569061. S2CID  15624506.
  13. ^ Ранфтл, Саша; Мелито, Джан Марко; Бадели, Вахид; Рейнбахер-Кёстингер, Алиса; Эллерманн, Катрин; фон дер Линден, Вольфганг (31 декабря 2019 г.). «Количественная оценка байесовской неопределенности с использованием данных разной точности и гауссовских процессов для импедансной кардиографии расслоения аорты». Энтропия . 22 (1): 58. Бибкод : 2019Entrp..22...58R. дои : 10.3390/e22010058 . ISSN  1099-4300. ПМЦ 7516489 . ПМИД  33285833. 
  14. ^ Барейнбойм, Элиас; Перл, Иудея (05 июля 2016 г.). «Причинно-следственный вывод и проблема объединения данных». Труды Национальной академии наук . 113 (27): 7345–7352. дои : 10.1073/pnas.1510507113. ISSN  0027-8424. ПМЦ 4941504 . ПМИД  27382148. 
  15. ^ Ли, Сидзя; Людтке, Алекс (15 ноября 2023 г.). «Эффективная оценка при объединении данных». Биометрика . 110 (4): 1041–1054. doi : 10.1093/biomet/asad007. ISSN  0006-3444. ПМЦ 10653189 . ПМИД  37982010. 

Источники

Общие ссылки

Библиография

Внешние ссылки