stringtranslate.com

Озеро данных

Пример базы данных, которая может использоваться озером данных (в данном случае структурированных данных)

Озеро данных — это система или репозиторий данных, хранящихся в естественном/сыром формате, [1] обычно объектные блоки или файлы. Озеро данных — это обычно единое хранилище данных, включающее необработанные копии исходных системных данных, данные датчиков, социальные данные и т. д., [2] и преобразованные данные, используемые для таких задач, как отчетность , визуализация , расширенная аналитика и машинное обучение . Озеро данных может включать структурированные данные из реляционных баз данных (строки и столбцы), полуструктурированные данные ( CSV , журналы, XML , JSON ), неструктурированные данные ( электронные письма , документы, PDF-файлы ) и двоичные данные (изображения, аудио , видео). [3] Озеро данных может быть создано локально (в центрах обработки данных организации) или в облаке (с использованием облачных сервисов ).

Фон

Джеймс Диксон, тогдашний главный технический директор Pentaho , ввел этот термин в 2011 году [4] , чтобы противопоставить его киоску данных , который представляет собой меньшее хранилище интересных атрибутов, полученных из необработанных данных. [5] Продвигая озёра данных, он утверждал, что киоскам данных присуще несколько присущих им проблем, таких как разрозненность информации . PricewaterhouseCoopers (PwC) заявила, что озёра данных могут «положить конец разрозненности данных». [6] В своём исследовании озёр данных они отметили, что предприятия «начинают извлекать и размещать данные для аналитики в едином репозитории на основе Hadoop».

Примеры

Многие компании используют облачные сервисы хранения данных , такие как Google Cloud Storage и Amazon S3 , или распределенную файловую систему, такую ​​как распределенная файловая система Apache Hadoop (HDFS). [7] Постепенно растет академический интерес к концепции озер данных. Например, Personal DataLake в Кардиффском университете — это новый тип озера данных, который нацелен на управление большими данными отдельных пользователей, предоставляя единую точку сбора, организации и обмена персональными данными. [8]

Ранние озера данных, такие как Hadoop 1.0, имели ограниченные возможности, поскольку поддерживали только пакетно-ориентированную обработку ( Map Reduce ). Взаимодействие с ними требовало знаний Java, Map Reduce и инструментов более высокого уровня, таких как Apache Pig , Apache Spark и Apache Hive (которые также изначально были пакетно-ориентированными).

Критика

Плохо управляемые озера данных в шутку называют болотами данных. [9]

В июне 2015 года Дэвид Нидл охарактеризовал «так называемые озера данных» как «один из наиболее спорных способов управления большими данными ». [10] PwC также осторожно отметила в своем исследовании, что не все инициативы по озерам данных успешны. Они цитируют Шона Мартина, технического директора Cambridge Semantics :

Мы видим, как клиенты создают большие кладбища данных, сбрасывая все в распределенную файловую систему Hadoop (HDFS) и надеясь что-то с этим сделать в будущем. Но затем они просто теряют счет тому, что там находится. Главная проблема заключается не в создании озера данных, а в использовании возможностей, которые оно предоставляет. [6]

Они описывают компании, которые создают успешные озера данных, как компании, которые постепенно совершенствуют свои озера по мере того, как они выясняют, какие данные и метаданные важны для организации.

Другое замечание заключается в том, что термин «озеро данных» бесполезен, поскольку он используется в самых разных смыслах. [11] Он может использоваться для обозначения, например: любых инструментов или методов управления данными, которые не являются хранилищами данных ; конкретной технологии для внедрения; резервуара необработанных данных; концентратора для разгрузки ETL ; или центрального концентратора для аналитики с самообслуживанием.

Хотя критика озер данных оправдана, во многих случаях она применима и к другим проектам в области данных. [12] Например, определение хранилища данных также изменчиво, и не все усилия по созданию хранилищ данных были успешными. В ответ на различные критические замечания McKinsey отметила [13] , что озеро данных следует рассматривать как модель обслуживания для предоставления бизнес-ценности в рамках предприятия, а не как технологический результат.

Хранилища данных

Data lakehouses — это гибридный подход, который может принимать различные форматы необработанных данных, как data lake, но при этом обеспечивать транзакции ACID и обеспечивать качество данных, как data warehouse . [14] [15] Архитектура data lakehouse пытается устранить несколько критических замечаний data lakes, добавляя возможности хранилища данных, такие как поддержка транзакций, принудительное применение схем, управление и поддержка различных рабочих нагрузок. По словам Oracle, data lakehouses объединяют «гибкое хранение неструктурированных данных из data lake и функции и инструменты управления из data warehouses». [16]

Смотрите также

Ссылки

  1. ^ «Растущая важность качества больших данных». The Data Roundtable . 21 ноября 2016 г. Получено 1 июня 2020 г.
  2. ^ «Что такое озеро данных?». aws.amazon.com . Получено 12 октября 2020 г.
  3. ^ Кэмпбелл, Крис. "Пять главных различий между хранилищами данных и озерами данных". Blue-Granite.com . Архивировано из оригинала 14 марта 2016 г.
  4. ^ Вудс, Дэн (21 июля 2011 г.). «Большие данные требуют большой архитектуры». Forbes .
  5. ^ Диксон, Джеймс (14 октября 2010 г.). "Pentaho, Hadoop и озера данных". Блог Джеймса Диксона . Джеймс Диксон . Получено 7 ноября 2015 г. Если представить себе хранилище бутилированной воды — очищенной, упакованной и структурированной для удобства потребления — озеро данных представляет собой большой водоем в более естественном состоянии. Содержимое озера данных поступает из источника, чтобы заполнить озеро, и различные пользователи озера могут приходить, чтобы исследовать, нырять или брать образцы.
  6. ^ ab Stein, Brian; Morrison, Alan (2014). Data lakes and the promise of unsiloed data (PDF) (Report). Технологический прогноз: переосмысление интеграции. PricewaterhouseCoopers.
  7. ^ Туулос, Вилле (22 сентября 2015 г.). «Петабайтные конвейеры данных с Docker, Luigi и Elastic Spot Instances». NextRoll .
  8. ^ Уокер, Корал; Альрехами, Хассан (2015). «Озеро персональных данных с гравитационным притяжением данных». Пятая международная конференция IEEE 2015 года по большим данным и облачным вычислениям . С. 160–167. doi :10.1109/BDCloud.2015.62. ISBN 978-1-4673-7183-4. S2CID  18024161.
  9. ^ Олавсруд, Тор (8 июня 2017 г.). «Три ключа, которые помогут вашему озеру данных не превратиться в болото данных». CIO . Получено 4 января 2021 г.
  10. ^ Needle, David (10 июня 2015 г.). «Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques». Enterprise Apps. eWeek . Получено 1 ноября 2015 г. Уолтер Магуайр, главный полевой технолог подразделения HP Big Data Business Unit, обсудил один из наиболее спорных способов управления большими данными, так называемые озера данных.[ постоянная мертвая ссылка ]
  11. ^ «Являются ли Data Lakes фейковыми новостями?». Sonra . 8 августа 2017 г. Получено 10 августа 2017 г.
  12. ^ Белов, Владимир; Косенков, Александр Н.; Никульчев, Евгений (2021). "Экспериментальное исследование характеристик форматов хранения данных для разработки витрин данных в озерах данных". Прикладные науки . 11 (18): 8651. doi : 10.3390/app11188651 .
  13. ^ «Более разумный способ перейти к озерам данных». McKinsey . 1 августа 2017 г.
  14. ^ Что такое Data Lakehouse? | Databricks
  15. ^ Что такое Data Lakehouse? | Snowflake
  16. ^ Что такое Data Lakehouse? | Oracle