Интеграция веб-данных (WDI) — это процесс агрегирования и управления данными с разных веб-сайтов в единый однородный рабочий процесс. Этот процесс включает доступ к данным, преобразование, картографирование, обеспечение качества и объединение данных. Данные, полученные и структурированные с веб-сайтов, называются «веб-данными». WDI — это расширение и специализация интеграции данных , которая рассматривает Интернет как набор разнородных баз данных.
Методы интеграции данных в контексте Интернета формируют основу для бизнеса, использующего данные, доступные на постоянно растущем числе общедоступных веб-сайтов. [1] Корпоративные расходы в этом направлении в 2017 году составили около 2,5 млрд долларов США, и ожидается, что к 2020 году рынок достигнет почти 7 млрд долларов США. [2]
Интеграция веб-данных расширяет и специализируется на интеграции данных, чтобы рассматривать Интернет как набор представлений баз данных, доступных через веб-протоколы, включая, помимо прочего: [3]
У WDI есть технические проблемы, отличные от интеграции данных, поскольку доступ к данным и преобразование, необходимые для источников веб-данных, часто представляют собой неструктурированные или полуструктурированные данные без стандартного механизма запросов.
Понимание качества и достоверности данных даже более важно в WDI, чем в интеграции данных, поскольку данные, как правило, менее безоговорочно доверяют и имеют более низкое качество, чем те, которые собираются из надежного источника. Существуют попытки автоматизировать оценку доверия к веб-данным. [4]
Качество данных при интеграции данных обычно может достигаться после доступа к данным и их преобразования, но в WDI качество может потребоваться отслеживать по мере сбора данных из-за времени и стоимости повторного сбора данных. [5]
WDI применяется во многих областях, включая биоинформатику, [6] поисковые системы, [7] сравнение цен, [8] и судебно-медицинский поиск [9] анализ данных, бизнес-аналитику, электронную коммерцию, [10] здравоохранение, фармацевтику [11] и производство продуктов. разработка.
Большинство механизмов сравнения цен и систем рекомендаций используют данные, сгенерированные пользователями, для создания рекомендаций для своих пользователей. Аналогично, системы здравоохранения используют результаты конкурсов, проводимых на таких сайтах, как Kaggle [12], чтобы убедиться в точности данных и создать продукты, ориентированные на пользователя. Фактически, по оценкам IBM, низкое качество WDI обходится компаниям в более чем 3 триллиона долларов [13] дохода каждый год.