stringtranslate.com

Куб данных

В контексте компьютерного программирования куб данных (или datacube ) представляет собой многомерный («nD») массив значений. Обычно термин «куб данных» применяется в контекстах, где эти массивы значительно больше основной памяти хост-компьютера; примерами служат хранилища данных объемом в несколько терабайт/петабайт и временные ряды данных изображений.

Куб данных используется для представления данных (иногда называемых фактами) по некоторым интересующим измерениям. Например, в аналитической обработке данных в режиме онлайн (OLAP) такими измерениями могут быть дочерние компании компании, продукты, предлагаемые компанией, и время; в этой настройке фактом будет событие продажи, когда определенный продукт был продан в определенном дочернем предприятии в определенное время. В измерениях временных рядов спутниковых изображений будут координаты широты и долготы и время; факт (иногда называемый мерой) будет пикселем в заданном пространстве и времени, снятым спутником (после некоторой обработки, которая здесь не имеет значения). Несмотря на то, что он называется кубом ( и приведенные выше примеры являются трехмерными для краткости), куб данных, как правило, является многомерной концепцией, которая может быть одномерной, двухмерной, трехмерной или многомерной. В любом случае каждое измерение делит данные на группы ячеек, тогда как каждая ячейка в кубе представляет собой одну интересующую меру. Иногда кубы содержат только несколько значений, а остальные пустые , т. е. неопределенные, в то время как иногда большинство или все координаты куба содержат значение ячейки. В первом случае такие данные называются разреженными , а во втором случае они называются плотными , хотя между ними нет жесткого разграничения.

История

Многомерные массивы давно известны в языках программирования. Fortran предлагает произвольно индексированные одномерные массивы и массивы массивов, что позволяет создавать массивы более высокой размерности, до 15 измерений. APL поддерживает nD массивы с богатым набором операций. Все они имеют общее то, что массивы должны помещаться в основную память и доступны только во время работы конкретной программы, поддерживающей их (например, ПО для обработки изображений).

Ряд форматов обмена данными поддерживают хранение и передачу данных в виде куба данных, часто адаптированных к конкретным областям применения. Примерами являются MDX для статистических (в частности, бизнес) данных, Hierarchical Data Format для общих научных данных и TIFF для изображений.

В 1992 году Питер Бауманн представил управление большими кубами данных с пользовательской функциональностью высокого уровня в сочетании с эффективной программной архитектурой. [1] Операции с кубами данных включают извлечение подмножеств, обработку, слияние и общие запросы в духе языков манипулирования данными, таких как SQL .

Несколько лет спустя концепция куба данных была применена для описания изменяющихся во времени бизнес-данных в виде кубов данных Джимом Греем и др. [2] и Венки Харинараяном , Анандом Раджараманом и Джеффом Ульманом [3], которые вошли в число 500 наиболее цитируемых статей по информатике за 25-летний период. [4]

Примерно в это же время в немецком Gesellschaft für Informatik была создана рабочая группа по многомерным базам данных («Arbeitskreis Multi-Dimensionale Datenbanken») . [5] [6]

Datacube Inc. была компанией по обработке изображений, продававшей аппаратные и программные приложения для рынка ПК в 1996 году, однако не занимавшейся кубами данных как таковыми.

Инициатива EarthServer установила требования к обслуживанию куба геоданных. [7]

Стандартизация

В 2018 году язык баз данных ISO SQL был расширен функциональностью куба данных как «SQL – Часть 15: Многомерные массивы (SQL/MDA)». [8]

Web Coverage Processing Service — это язык аналитики кубов геоданных, выпущенный Open Geospatial Consortium в 2008 году. Помимо обычных операций с кубами данных, язык знает о семантике пространства и времени и поддерживает как регулярные, так и нерегулярные сеточные кубы данных, основанные на концепции данных покрытия .

Отраслевой стандарт для запросов к кубам бизнес-данных, изначально разработанный корпорацией Microsoft , — MultiDimensional eXpressions .

Выполнение

Многие языки программирования высокого уровня рассматривают кубы данных и другие большие массивы как отдельные сущности, отличные от их содержимого. Эти языки, примерами которых являются Fortran , APL , IDL , NumPy , PDL и S-Lang , позволяют программисту манипулировать полными клипами фильмов и другими данными в массовом порядке с помощью простых выражений, полученных из линейной алгебры и векторной математики. Некоторые языки (например, PDL) различают список изображений и куб данных, в то время как многие (например, IDL) этого не делают.

Массивы СУБД (системы управления базами данных) предлагают модель данных, которая в общем поддерживает определение, управление, извлечение и манипуляцию n-мерными кубами данных. Эта категория баз данных была пионером системы Rasdaman с 1994 года. [9]

Приложения

Многомерные массивы могут осмысленно представлять пространственно-временные данные датчиков, изображений и моделирования, а также статистические данные, где семантика измерений не обязательно имеет пространственную или временную природу. Как правило, любой вид оси может быть объединен с любым другим в куб данных.

Математика

В математике одномерный массив соответствует вектору, двумерный массив напоминает матрицу ; в более общем случае тензор можно представить как n-мерный куб данных.

Наука и техника

Для временной последовательности цветных изображений массив обычно является четырехмерным, причем измерения представляют координаты X и Y изображения, время и цветовую плоскость RGB (или другое цветовое пространство ). Например, инициатива EarthServer [10] объединяет центры обработки данных с разных континентов, предлагая временные ряды спутниковых изображений 3-D x/y/t и данные о погоде 4-D x/y/z/t для извлечения и обработки на стороне сервера с помощью стандарта языка запросов куба геоданных Open Geospatial Consortium WCPS.

Куб данных также используется в области спектроскопии изображений , поскольку спектрально-разрешенное изображение представляется в виде трехмерного объема. Кубы данных наблюдения Земли объединяют спутниковые снимки, такие как Landsat 8 и Sentinel-2, с аналитикой географической информационной системы . [11]

Бизнес-аналитика

В онлайн-аналитической обработке (OLAP) кубы данных представляют собой общепринятую структуру бизнес-данных, пригодную для анализа с разных точек зрения с помощью таких операций, как срезы, разрезание, поворот и агрегация.

Смотрите также

Ссылки

  1. ^ Бауманн, Питер (апрель 1992 г.). «Языковая поддержка для обработки растровых изображений в базах данных». Графическое моделирование и визуализация в науке и технике . Международный семинар по графическому моделированию, визуализации в науке и технике. Дармштадт, Германия: Springer (опубликовано в 1993 г.). стр. 236–45. doi :10.1007/978-3-642-77811-7_19.
  2. ^ Грей, Джим; Чаудхури, Сураджит; Босворт, Адам; Лейман, Эндрю; Рейхарт, Дон; Венкатрао, Мурали; Пеллоу, Фрэнк; Пирахеш, Хамид (январь 1997 г.). «Куб данных: реляционный оператор агрегации, обобщающий Group-By, Cross-Tab и Sub-Totals». Data Mining and Knowledge Discovery . 1 (1): 29–53. doi :10.1023/A:1009726021843. S2CID  12502175.
  3. ^ Харинараян, Венки; Раджараман, Ананд; Ульман, Джеффри Д. (1996). «Эффективная реализация кубов данных». Труды международной конференции ACM SIGMOD 1996 года по управлению данными – SIGMOD '96 . Том 25. ACM SIGMOD . С. 205–16. CiteSeerX 10.1.1.41.1205 . doi :10.1145/233269.233333. ISBN  978-0897917940. S2CID  3104453.
  4. 500 наиболее цитируемых статей по информатике (501–600), CiteSeer . 12 июня 2009 г. Получено 21 марта 2017 г.
  5. ^ "Datenbank Rundbrief, Ausgabe 19, май 1997" . дблп . ДЭ: Университет Трира.
  6. ^ "Datenbank Rundbrief, Ausgabe 23, май 1999" . дблп . ДЭ: Университет Трира.
  7. ^ "The DatabaseManifesto". Сервер Earth . EU . Получено 2017-09-21 .
  8. ^ "Часть 15: Многомерные массивы (SQL/MDA)". DIS 9075-15 Информационные технологии – Языки баз данных – SQL . ISO/IEC . Получено 27.05.2018 .
  9. ^ "Управление многомерными дискретными данными" (PDF) . VLDB . Получено 2017-09-21 .
  10. ^ "EarthServer - Big Datacube Analytics at Your Fingertips". Earth server . EU . Получено 2017-03-31 .
  11. ^ Копп, Стив; Беккер, Питер; Доши, Абхиджит; Райт, Дон Дж.; Чжан, Кайси; Сюй, Хун (2019). «Достижение полного видения кубов данных наблюдения за Землей». Данные . 4 (3): 94. doi : 10.3390/data4030094 .