Распределенная архитектура фреймворка для управления данными
Data mesh — это социотехнический подход к построению децентрализованной архитектуры данных с использованием ориентированного на домен дизайна с самообслуживанием (с точки зрения разработки программного обеспечения), который заимствует теорию ориентированного на домен дизайна Эрика Эванса [1] и теорию топологий команд Мануэля Пайса и Мэтью Скелтона. [2] Data mesh в основном занимается самими данными, рассматривая озеро данных и конвейеры как вторичную проблему. [3] Основное предложение — масштабирование аналитических данных с помощью ориентированной на домен децентрализации. [4] С помощью data mesh ответственность за аналитические данные перекладывается с центральной команды по данным на команды по доменам, поддерживаемые командой платформы данных , которая предоставляет платформу данных, независимую от домена. [5] Это позволяет уменьшить беспорядок в данных или существование изолированных бункеров данных из-за наличия централизованной системы, которая обеспечивает согласованное распределение фундаментальных принципов между различными узлами в пределах сетки данных и позволяет распределять данные между различными областями. [6]
История
Термин «сетка данных» впервые был определен Жамак Дехгани в 2019 году [7] , когда она работала главным консультантом в технологической компании Thoughtworks . [8] [9] Дехгани представила этот термин в 2019 году, а затем предоставила более подробную информацию о его принципах и логической архитектуре в течение 2020 года. Было предсказано, что этот процесс станет «большим претендентом» для компаний в 2022 году. [10] [11] Сетки данных были внедрены такими компаниями, как Zalando , [12] Netflix , [13] Intuit , [14] VistaPrint , PayPal [15] и другими.
В 2022 году Дехгани покинул Thoughtworks , чтобы основать Nextdata Technologies, сосредоточившись на децентрализованных данных. [16]
Принципы
Сетка данных основана на четырех основных принципах: [17]
- Право собственности на домен
- Данные как продукт [18]
- Платформа самообслуживания данных
- Федеративное вычислительное управление
В дополнение к этим принципам Дехгани пишет, что продукты данных, созданные каждой группой домена, должны быть обнаруживаемыми, адресуемыми, заслуживающими доверия, обладать самоописываемой семантикой и синтаксисом, быть совместимыми, безопасными и регулироваться глобальными стандартами и контролем доступа. [19] Другими словами, данные следует рассматривать как готовый к использованию и надежный продукт. [20]
На практике
После его внедрения в 2019 году [7] несколько компаний начали внедрять сетку данных [12] [14] [15] и делиться своим опытом. Проблемы (C) и передовой опыт (BP) для практиков включают:
- C1. Федеративное управление данными
- Компании сообщают о трудностях с принятием федеративной структуры управления для видов деятельности и процессов, которые ранее были централизованно реализованы и принуждались. Это особенно касается вопросов безопасности, конфиденциальности и регулирования. [21] [22] [23]
- C2. Перераспределение ответственности
- В сетке данных люди в доменах несут сквозную ответственность за продукты данных. Эта новая ответственность может быть сложной, поскольку она редко компенсируется и обычно приносит пользу другим доменам. [21] [22]
- C3.Понимание
- Исследования показали серьезное отсутствие понимания парадигмы сетки данных среди сотрудников компаний, внедряющих сетку данных. [21]
- BP1. Междоменная единица
- Обращаясь к C1, организации должны ввести кросс-доменное управляющее подразделение, ответственное за стратегическое планирование, приоритезацию вариантов использования и обеспечение соблюдения определенных правил управления, особенно касающихся тем безопасности, регулирования и конфиденциальности. Тем не менее, кросс-доменное управляющее подразделение может только дополнять и поддерживать федеративную структуру управления и может устареть с ростом зрелости сетки данных. [21] [24]
- BP2. Отслеживать и наблюдать
- Обращаясь к C2., организации должны наблюдать и оценивать качество продуктов данных, поскольку отслеживание и ранжирование ключевых продуктов данных может стимулировать высококачественные предложения, мотивировать владельцев доменов и поддерживать переговоры по бюджету. [21]
- BP3. Сознательное принятие
- Организации должны тщательно оценить и оценить свои существующие системы данных, рассмотреть организационные факторы и взвесить потенциальные выгоды перед внедрением сетки данных. При внедрении сетки данных рекомендуется осторожно и осознанно ввести терминологию сетки данных, чтобы обеспечить четкое понимание концепции (C3). [21]
Сообщество
Скотт Хирлеман создал сообщество Data Mesh, в котором на канале Slack участвуют более 7500 человек. [25]
Смотрите также
Ссылки
- ^ Эванс, Эрик (2004). Проектирование на основе предметной области: преодоление сложности в сердце программного обеспечения. Бостон: Addison-Wesley. ISBN 0-321-12521-5. OCLC 52134890.
- ^ Скелтон, Мэтью (2019). Топологии команд: организация бизнес- и технологических команд для быстрого потока. Мануэль Паис. Портленд, штат Орегон. ISBN 978-1-942788-84-3. OCLC 1108538721.
{{cite book}}
: CS1 maint: location missing publisher (link) - ^ Мачадо, Инес Араужо; Коста, Карлос; Сантос, Марибель Ясмина (2022-01-01). «Сетка данных: концепции и принципы смены парадигмы в архитектурах данных». Procedia Computer Science . Международная конференция по информационным системам предприятий / ProjMAN - Международная конференция по управлению проектами / HCist - Международная конференция по информационным системам и технологиям здравоохранения и социального обеспечения 2021. 196 : 263–271. doi : 10.1016/j.procs.2021.12.013 . hdl : 1822/78127 . ISSN 1877-0509. S2CID 245864612.
- ^ "Архитектура сетки данных". datamesh-architecture.com . Получено 2022-06-13 .
- ^ Дехгани, Жамак (2022). Сетка данных. Севастополь, Калифорния. ISBN 978-1-4920-9236-0. OCLC 1260236796.
{{cite book}}
: CS1 maint: location missing publisher (link) - ^ Мачадо, Инес Араужо; Коста, Карлос; Сантос, Марибель Ясмина (2022-01-01). «Сетка данных: концепции и принципы смены парадигмы в архитектурах данных». Procedia Computer Science . Международная конференция по информационным системам предприятий / ProjMAN - Международная конференция по управлению проектами / HCist - Международная конференция по информационным системам и технологиям здравоохранения и социального обеспечения 2021. 196 : 263–271. doi :10.1016/j.procs.2021.12.013. hdl : 1822/78127 . ISSN 1877-0509.
- ^ ab "Как перейти от монолитного озера данных к распределенной сетке данных". martinfowler.com . Получено 28 января 2022 г. .
- ^ Баер (dbInsight), Тони. «Data Mesh: стоит ли попробовать это дома?». ZDNet . Получено 10.02.2022 .
- ^ Энди Мотт (2022-01-12). «Ускорение получения информации с помощью Data Mesh». RTInsights . Получено 2022-03-01 .
- ^ "Разработки, которые определят управление данными и операционную безопасность в 2022 году". Help Net Security . 2021-12-28 . Получено 2022-03-01 .
- ^ Бэйн, Энди. «Council Post: Куда направится промышленная трансформация в 2022 году?». Forbes . Получено 01.03.2022 .
- ^ Аб Шульце, Макс; Видер, Ариф (2021). Сетка данных на практике . ISBN 978-1-09-810849-6.
- ^ Netflix Data Mesh: Composable Data Processing - Джастин Каннингем , получено 29.04.2022
- ^ ab Baker, Tristan (22.02.2021). "Стратегия Intuit Data Mesh". Intuit Engineering . Получено 29.04.2022 .
- ^ ab "Следующее поколение платформ данных — это Data Mesh". 2022-08-03 . Получено 2023-02-08 .
- ^ "Почему мы запустили Nextdata". 2022-01-16 . Получено 2023-02-08 .
- ^ Дехгани, Жамак (2022). Сетка данных. Севастополь, Калифорния. ISBN 978-1-4920-9236-0. OCLC 1260236796.
{{cite book}}
: CS1 maint: location missing publisher (link) - ^ "Data Mesh defined | Блог Джеймса Серры". 16 февраля 2021 г. Получено 28 января 2022 г.
- ^ «Аналитика в 2022 году означает овладение политикой распределенных данных». The New Stack . 2021-12-29 . Получено 2022-03-03 .
- ^ "Разработки, которые определят управление данными и операционную безопасность в 2022 году". Help Net Security . 2021-12-28 . Получено 2022-03-01 .
- ^ abcdef Боде, Ян; Кюль, Никлас; Кройцбергер, Доминик; Хиршль, Себастьян; Хольтманн, Карстен (04 мая 2023 г.). «Сетка данных: мотивационные факторы, проблемы и лучшие практики». arXiv : 2302.01713v2 [cs.AI].
- ^ ab Vestues, Kathrine; Hanssen, Geir Kjetil; Mikalsen, Marius; Buan, Thor Aleksander; Conboy, Kieran (2022). "Agile Data Management in NAV: A Case Study". Agile Processes in Software Engineering and Extreme Programming . Lecture Notes in Business Information Processing 445 LNBIP. Vol. 445. Springer. pp. 220–235. doi :10.1007/978-3-031-08169-9_14. ISBN 978-3-031-08168-2.
- ^ Джоши, Дивья; Пратик, Шитал; Рао, Мадху Подила (2021). «Управление данными в инфраструктурах сетей передачи данных: исследование случая банка Saxo». Труды Международной конференции по электронному бизнесу (ICEB) . Том 21. С. 599–604.
- ^ Уайт, Мартин; Оденкирхен, Андреас; Баутц, Стефан; Херингер, Агнес; Круков, Оливер (2022). «Data Mesh — просто еще одно модное слово или платформа данных следующего поколения?». Исследование PwC 2022: Изменение платформ данных .
- ^ "The Global Home for Data Mesh". The Global Home for Data Mesh . Получено 24.04.2022 .