Пространство данных — это абстракция в управлении данными , которая направлена на преодоление некоторых проблем, возникающих в системе интеграции данных . Пространство данных определяется как набор «участников» или источников данных и отношений между ними: например, набор данных A является дубликатом набора данных B. [1] Он может содержать все источники данных организации независимо от их формата, физического местоположения или модели данных . [1] Затем пространство данных предоставляет унифицированный интерфейс для запроса данных независимо от формата, иногда в режиме «наилучших усилий», и способы дальнейшей интеграции данных при необходимости. [1] Это сильно отличается от традиционной реляционной базы данных , которая требует, чтобы все данные были в одном формате. [1] Цель концепции — сократить усилия, необходимые для настройки системы интеграции данных, полагаясь на существующие методы сопоставления и генерации карт, [ необходимо разъяснение ] и улучшить систему в режиме «оплаты по мере использования». [2] [3] Трудоемкие аспекты интеграции данных откладываются до тех пор, пока они не станут абсолютно необходимыми. [4]
Традиционно системы интеграции данных и обмена данными были нацелены на предложение многих предполагаемых услуг систем пространств данных. Пространства данных можно рассматривать как следующий шаг в эволюции архитектур интеграции данных, но они отличаются от текущих систем интеграции данных, поскольку требуют семантической интеграции до предоставления каких-либо услуг. Следовательно, хотя не существует единой схемы , которой соответствуют все данные, и данные находятся во множестве хост-систем, система интеграции данных знает точные отношения между терминами, используемыми в каждой схеме. В результате для настройки системы интеграции данных требуются значительные предварительные усилия. [5]
Пространства данных смещают акцент на подход сосуществования данных, предоставляя базовую функциональность по всем источникам данных, независимо от того, насколько они интегрированы. Например, платформа поддержки DataSpace (DSSP) может обеспечить поиск по ключевым словам по всем своим источникам данных, аналогично тому, который предоставляют существующие системы поиска на рабочем столе. Когда требуются более сложные операции, такие как запросы в реляционном стиле, интеллектуальный анализ данных или мониторинг определенных источников, то можно приложить дополнительные усилия для более тесной интеграции этих источников в инкрементном режиме. Аналогично, с точки зрения традиционных гарантий баз данных, изначально система пространства данных может предоставить только более слабые гарантии согласованности и долговечности. Поскольку требуются более сильные гарантии, можно приложить больше усилий для заключения соглашений между различными владельцами источников данных и открытия определенных интерфейсов (например, для протоколов фиксации). [6] [7]
Согласно циклической модели развития технологий, новые технологии развиваются, сначала проходя через фазу конкуренции проектов, где технология исследуется и проводятся эксперименты, пока отрасль не остановится на доминирующем проекте и не прекратит так много итераций. [1] По словам Эдварда, в 2019 году [обновлять]пространства данных уже прошли «первую волну» принятия, состоящую из исследовательских и концептуальных проектов, и начали «вторую волну», в которой они адаптируются для более общих и менее приятных вариантов использования. [1]
Европейская комиссия работает над разработкой общих пространств данных для различных отраслей промышленности под названием «Общие европейские пространства данных» с февраля 2020 года. [8] Планируется создание пространств данных для сельского хозяйства, энергетики, финансов, здравоохранения, СМИ, производства, мобильности и туризма, а также для Европейского зеленого соглашения , языков, государственного управления, исследований и инноваций, а также навыков. [8] [9] [ необходимо разъяснение ] Первыми конкретными шагами стали ряд исследовательских и инновационных инициатив, финансируемых в рамках Европейского государственно-частного партнерства по ценности больших данных (ГЧП по ценности больших данных). [10]