stringtranslate.com

Интеграция веб-данных

Интеграция веб-данных (WDI) — это процесс агрегирования и управления данными с разных веб-сайтов в единый однородный рабочий процесс. Этот процесс включает доступ к данным, преобразование, картографирование, обеспечение качества и объединение данных. Данные, полученные и структурированные с веб-сайтов, называются «веб-данными». WDI — это расширение и специализация интеграции данных , которая рассматривает Интернет как набор разнородных баз данных.

Методы интеграции данных в контексте Интернета формируют основу для бизнеса, использующего данные, доступные на постоянно растущем числе общедоступных веб-сайтов. [1] Корпоративные расходы в этом направлении в 2017 году составили около 2,5 млрд долларов США, и ожидается, что к 2020 году рынок достигнет почти 7 млрд долларов США. [2]

Источники

Интеграция веб-данных расширяет и специализируется на интеграции данных, чтобы рассматривать Интернет как набор представлений баз данных, доступных через веб-протоколы, включая, помимо прочего: [3]

Доступ к данным и преобразование

У WDI есть технические проблемы, отличные от интеграции данных, поскольку доступ к данным и преобразование, необходимые для источников веб-данных, часто представляют собой неструктурированные или полуструктурированные данные без стандартного механизма запросов.

Качество данных

Понимание качества и достоверности данных даже более важно в WDI, чем в интеграции данных, поскольку данные, как правило, менее безоговорочно доверяют и имеют более низкое качество, чем те, которые собираются из надежного источника. Существуют попытки автоматизировать оценку доверия к веб-данным. [4]

Качество данных при интеграции данных обычно может достигаться после доступа к данным и их преобразования, но в WDI качество может потребоваться отслеживать по мере сбора данных из-за времени и стоимости повторного сбора данных. [5]

Приложения

WDI применяется во многих областях, включая биоинформатику, [6] поисковые системы, [7] сравнение цен, [8] и судебно-медицинский поиск [9] анализ данных, бизнес-аналитику, электронную коммерцию, [10] здравоохранение, фармацевтику [11] и производство продуктов. разработка.

Большинство механизмов сравнения цен и систем рекомендаций используют данные, сгенерированные пользователями, для создания рекомендаций для своих пользователей. Аналогично, системы здравоохранения используют результаты конкурсов, проводимых на таких сайтах, как Kaggle [12], чтобы убедиться в точности данных и создать продукты, ориентированные на пользователя. Фактически, по оценкам IBM, низкое качество WDI обходится компаниям в более чем 3 триллиона долларов [13] дохода каждый год.

Рекомендации

  1. ^ «Интеграция веб-данных IE 670» . www.uni-mannheim.de . 24 января 2019 г. Проверено 11 февраля 2019 г.
  2. ^ «Опимас: Рынок извлечения веб-данных» . Опимас: Начнем с понимания . Проверено 12 февраля 2019 г.
  3. ^ «Введение :: Интеграция веб-данных» . www.webdataintegration.io . Проверено 14 февраля 2019 г.
  4. ^ Хименес-Гарсия, Хосе М.; Таккар, Харш; Циммерманн, Антуан (2016). «Оценка доверия с помощью PageRank в сети данных» (PDF) . В Саке, Харальд; Риццо, Джузеппе; Штайнмец, Надин; Младенич, Дуня; Ауэр, Сёрен; Ланге, Кристоф (ред.). Семантическая сеть . Конспекты лекций по информатике. Том. 9989. Международное издательство Springer. стр. 293–307. дои : 10.1007/978-3-319-47602-5_45. ISBN 9783319476025.
  5. ^ Способ интеграции данных с платформы веб-сайта электронной коммерции.
  6. ^ «Интеграция веб-данных». База данных группы Лейпциг .
  7. ^ «Интеграция данных в веб-масштабе - вы можете позволить себе платить только по мере использования» . www.datascienceassn.org . Проверено 12 февраля 2019 г.
  8. ^ Сигел, Майкл Д.; Мэдник, Стюарт Э.; Чжу, Хунвэй (2008). «Включение глобального сравнения цен посредством семантической интеграции веб-данных». Международный журнал электронного бизнеса . 6 (4): 319. doi :10.1504/IJEB.2008.020672. hdl : 1721.1/40084 . S2CID  7995576.
  9. ^ «PwC покупает Kusiri, лондонский стартап по обнаружению мошенничества» . www.consultancy.uk . 30 октября 2015 г. Проверено 12 февраля 2019 г.
  10. ^ Осиал, П.; Кауранен, К.; Ахмед, Э. (апрель 2017 г.). «Система рекомендаций для смартфонов с использованием методов интеграции веб-данных». 2017 30-я Канадская конференция IEEE по электротехнике и вычислительной технике (CCECE) . стр. 1–5. дои : 10.1109/CCECE.2017.7946845. ISBN 978-1-5090-5538-8. S2CID  12474147.
  11. ^ «Как интеграция данных меняет здравоохранение и фармацевтику». Информация об интеграции данных . 27 апреля 2020 г. Проверено 4 мая 2020 г.
  12. ^ «Kaggle: ваше сообщество по машинному обучению и наукам о данных» . www.kaggle.com . Проверено 4 мая 2020 г.
  13. ^ Импорт.io. «Интеграция веб-данных: революция в способе работы с веб-данными». www.import.io . Проверено 4 мая 2020 г.