stringtranslate.com

Слияние данных

Объединение данных из двух источников (измерения № 1 и № 2) может дать классификатор, превосходящий любые классификаторы, основанные только на измерении № 1 или только на измерении № 2.

Объединение данных — это процесс интеграции нескольких источников данных для получения более последовательной, точной и полезной информации, чем та, которая предоставляется любым отдельным источником данных.

Процессы слияния данных часто классифицируются как низкие, средние или высокие, в зависимости от стадии обработки, на которой происходит слияние. [1] Слияние данных низкого уровня объединяет несколько источников необработанных данных для получения новых необработанных данных. Ожидается, что слитые данные будут более информативными и синтетическими , чем исходные входные данные.

Например, слияние датчиков также известно как (мультисенсорное) слияние данных и является подмножеством слияния информации .

Концепция слияния данных берет свое начало в эволюционной способности людей и животных объединять информацию из нескольких чувств для улучшения своей способности к выживанию. Например, сочетание зрения, осязания, обоняния и вкуса может указывать на то, является ли вещество съедобным. [2]

Модель JDL/DFIG

Совместный директор Labs (JDL)/Data Fusion Information Group (DFIG) Модель

В середине 1980-х годов Объединенный совет директоров лабораторий сформировал Подгруппу по слиянию данных (которая позже стала известна как Группа по слиянию данных). С появлением Всемирной паутины слияние данных стало включать слияние данных, датчиков и информации. JDL/DFIG представила модель слияния данных, которая разделила различные процессы. В настоящее время шесть уровней модели Группы по слиянию данных (DFIG) таковы:

Хотя модель JDL (уровень 1–4) используется и сегодня, ее часто критикуют за то, что она подразумевает, что уровни обязательно происходят по порядку, а также за отсутствие адекватного представления потенциала для человека в контуре. Модель DFIG (уровень 0–5) исследовала последствия осведомленности о ситуации, уточнения пользователя и управления миссией. [3] Несмотря на эти недостатки, модели JDL/DFIG полезны для визуализации процесса слияния данных, облегчая обсуждение и общее понимание, [4] и важны для проектирования слияния информации на уровне систем. [3] [5]

Геопространственные приложения

В геопространственной ( ГИС ) области слияние данных часто является синонимом интеграции данных . В этих приложениях часто возникает необходимость объединить различные наборы данных в единый (слитый) набор данных, который включает все точки данных и временные шаги из входных наборов данных. Слитый набор данных отличается от простого объединенного супернабора тем, что точки в слитом наборе данных содержат атрибуты и метаданные, которые могли не быть включены для этих точек в исходном наборе данных.

Ниже показан упрощенный пример этого процесса, где набор данных «α» объединяется с набором данных β для формирования объединенного набора данных δ. Точки данных в наборе «α» имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в наборе β имеют пространственные координаты X и Y и атрибуты B1 и B2. Объединенный набор данных содержит все точки и атрибуты.

В простом случае, когда все атрибуты единообразны во всей области анализа, атрибуты можно просто назначить: M?, N?, Q?, R? для M, N, Q, R. В реальном приложении атрибуты не являются единообразными, и для правильного назначения атрибутов точкам данных в объединенном наборе обычно требуется некоторый тип интерполяции.

Визуализация объединенных наборов данных для траекторий лангустов в Тасмановом море. Изображение создано с помощью программного обеспечения Eonfusion от Myriax Pty. Ltd.

В гораздо более сложном приложении исследователи морских животных используют слияние данных для объединения данных отслеживания животных с батиметрическими , метеорологическими , данными о температуре поверхности моря (SST) и данными о среде обитания животных для изучения и понимания использования среды обитания и поведения животных в ответ на внешние силы, такие как погода или температура воды. Каждый из этих наборов данных демонстрирует различную пространственную сетку и частоту выборки, поэтому простая комбинация, скорее всего, создаст ошибочные предположения и испортит результаты анализа. Но благодаря использованию слияния данных все данные и атрибуты объединяются в единое представление, в котором создается более полная картина окружающей среды. Это позволяет ученым определять ключевые местоположения и время и формировать новые представления о взаимодействии между окружающей средой и поведением животных.

На рисунке справа лангусты изучаются у берегов Тасмании. Хью Педерсон из Университета Тасмании использовал программное обеспечение для слияния данных, чтобы объединить данные отслеживания лангустов (цветовая кодировка: желтый и черный для дня и ночи соответственно) с данными по батиметрии и среде обитания, чтобы создать уникальную 4D-картину поведения лангустов.

Интеграция данных

В приложениях за пределами геопространственной области применяются различия в использовании терминов Интеграция данных и Слияние данных. Например, в таких областях, как бизнес-аналитика, интеграция данных используется для описания объединения данных, тогда как слияние данных — это интеграция с последующей редукцией или заменой. Интеграцию данных можно рассматривать как комбинацию наборов, в которой сохраняется больший набор, тогда как слияние — это метод редукции наборов с повышенной достоверностью.

Области применения

Из нескольких модальностей обнаружения дорожного движения

Данные от различных сенсорных технологий могут быть объединены интеллектуальными способами для точного определения состояния дорожного движения. Подход на основе слияния данных, который использует собранные на обочине дороги акустические данные, изображения и данные датчиков, как было показано, объединяет преимущества различных отдельных методов. [6]

Слияние решений

Во многих случаях географически разбросанные датчики сильно ограничены по энергии и полосе пропускания. Поэтому необработанные данные, касающиеся определенного явления, часто суммируются в нескольких битах с каждого датчика. При выводе на основе бинарного события (т. е. или ), в крайнем случае только бинарные решения отправляются с датчиков в Центр слияния решений (DFC) и объединяются для получения улучшенной производительности классификации. [7] [8] [9]

Для улучшения контекстной осведомленности

Благодаря множеству встроенных датчиков, включая датчик движения, датчик окружающей среды, датчик положения, современное мобильное устройство обычно предоставляет мобильным приложениям доступ к ряду сенсорных данных, которые могут быть использованы для повышения контекстной осведомленности. Используя методы обработки сигналов и слияния данных, такие как генерация признаков, технико-экономическое обоснование и анализ главных компонентов (PCA), такие сенсорные данные значительно улучшат положительную скорость классификации движения и контекстно-релевантного статуса устройства. [10] Многие методы информации, улучшенной контекстом, предоставлены Snidaro и др. [11] [12]

Статистические методы

Байесовские авторегрессионные гауссовские процессы

Гауссовские процессы являются популярной моделью машинного обучения. Если предполагается авторегрессионная связь между данными, а каждый источник данных предполагается гауссовым процессом, то это представляет собой нелинейную байесовскую регрессионную проблему. [13]

Полупараметрическая оценка

Многие методы слияния данных предполагают общие условные распределения по нескольким источникам данных. [14] Недавно были разработаны методы, позволяющие проводить эффективную оценку в рамках полученной полупараметрической модели. [15]

Смотрите также

Ссылки

  1. ^ Кляйн, Лоуренс А. (2004). Слияние датчиков и данных: инструмент для оценки информации и принятия решений. SPIE Press. стр. 51. ISBN 978-0-8194-5435-5.
  2. ^ Холл, Дэвид Л.; Ллинас, Джеймс (1997). «Введение в слияние данных с нескольких датчиков». Труды IEEE . 85 (1): 6–23. doi :10.1109/5.554205. ISSN  0018-9219.
  3. ^ аб Блаш, Эрик П.; Боссе, Элои; Ламберт, Дейл А. (2012). Управление объединением информации высокого уровня и проектирование систем . Норвуд, Массачусетс: Издательство Artech House. ISBN 978-1-6080-7151-7.
  4. ^ Лиггинс, Мартин Э.; Холл, Дэвид Л.; Ллинас, Джеймс (2008). Мультисенсорное слияние данных, второе издание: теория и практика (Мультисенсорное слияние данных) . CRC. ISBN 978-1-4200-5308-1.
  5. ^ Блаш, Э., Стейнберг, А., Дас, С., Ллинас, Дж., Чонг, К.-Й., Кесслер, О., Уолц, Э., Уайт, Ф." (2013). Пересмотр модели JDL для эксплуатации информации . Международная конференция по слиянию информации.{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  6. ^ Джоши, В., Раджамани, Н., Такаюки, К., Пратапанени, Субраманиам, Л. В. (2013). Обучение на основе слияния информации для экономичного определения состояния дорожного движения . Труды Двадцать третьей Международной совместной конференции по искусственному интеллекту.{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  7. ^ Ciuonzo, D.; Papa, G.; Romano, G.; Salvo Rossi, P.; Willett, P. (2013-09-01). «Однобитное децентрализованное обнаружение с тестом Рао для многосенсорного слияния». IEEE Signal Processing Letters . 20 (9): 861–864. arXiv : 1306.6141 . Bibcode : 2013ISPL...20..861C. doi : 10.1109/LSP.2013.2271847. ISSN  1070-9908. S2CID  6315906.
  8. ^ Ciuonzo, D.; Salvo Rossi, P. (2014-02-01). «Слияние решений с вероятностью обнаружения неизвестного датчика». IEEE Signal Processing Letters . 21 (2): 208–212. arXiv : 1312.2227 . Bibcode : 2014ISPL...21..208C. doi : 10.1109/LSP.2013.2295054. ISSN  1070-9908. S2CID  8761982.
  9. ^ Ciuonzo, D.; De Maio, A.; Salvo Rossi, P. (2015-09-01). «Систематическая структура для проверки составных гипотез независимых испытаний Бернулли». IEEE Signal Processing Letters . 22 (9): 1249–1253. Bibcode : 2015ISPL...22.1249C. doi : 10.1109/LSP.2015.2395811. ISSN  1070-9908. S2CID  15503268.
  10. ^ Guiry, John J.; van de Ven, Pepijn; Nelson, John (2014-03-21). «Мультисенсорное слияние для улучшенной контекстной осведомленности о повседневной деятельности с помощью вездесущих устройств». Датчики . 14 (3): 5687–5701. Bibcode : 2014Senso..14.5687G. doi : 10.3390 /s140305687 . PMC 4004015. PMID  24662406. 
  11. ^ Snidaro, Laurao; et, al. (2016). Context-Enhanced Information Fusion: Boosting Real-World Performance with Domain Knowledge . Швейцария, AG: Springer. ISBN 978-3-319-28971-7.
  12. ^ Хагигат, Мохаммад; Абдель-Мотталеб, Мохамед; Альхалаби, Вади (2016). «Дискриминантный корреляционный анализ: слияние на уровне признаков в реальном времени для мультимодального биометрического распознавания». Труды IEEE по информационной криминалистике и безопасности . 11 (9): 1984–1996. doi :10.1109/TIFS.2016.2569061. S2CID  15624506.
  13. ^ Ранфтл, Саша; Мелито, Джан Марко; Бадели, Вахид; Рейнбахер-Кёстингер, Элис; Эллерманн, Катрин; фон дер Линден, Вольфганг (2019-12-31). "Байесовская количественная оценка неопределенности с использованием данных с множественной точностью и гауссовых процессов для импедансной кардиографии расслоения аорты". Энтропия . 22 (1): 58. Bibcode : 2019Entrp..22...58R. doi : 10.3390/e22010058 . ISSN  1099-4300. PMC 7516489. PMID 33285833  . 
  14. ^ Барейнбойм, Элиас; Перл, Джудея (2016-07-05). «Причинный вывод и проблема слияния данных». Труды Национальной академии наук . 113 (27): 7345–7352. doi :10.1073/pnas.1510507113. ISSN  0027-8424. PMC 4941504. PMID  27382148 . 
  15. ^ Ли, Сиджия; Людтке, Алекс (15.11.2023). «Эффективная оценка при слиянии данных». Biometrika . 110 (4): 1041–1054. doi :10.1093/biomet/asad007. ISSN  0006-3444. PMC 10653189. PMID 37982010  . 

Источники

Общие ссылки

Библиография

Внешние ссылки