Greenplum — это технология больших данных , основанная на архитектуре MPP и технологии баз данных с открытым исходным кодом Postgres . Технология была создана компанией с тем же названием, головной офис которой находится в Сан-Матео , Калифорния, около 2005 года. Greenplum была приобретена корпорацией EMC в июле 2010 года. [1]
Начиная с 2012 года, ее программное обеспечение для управления базами данных стало известно как Pivotal Greenplum Database , продаваемое через Pivotal Software . Pivotal открыл исходный код ядра и продолжил его разработку сообществом разработчиков программного обеспечения с открытым исходным кодом Greenplum Database и Pivotal.
Начиная с 2020 года Pivotal была приобретена VMware [2] , и VMware продолжила спонсировать сообщество разработчиков программного обеспечения с открытым исходным кодом Greenplum Database, а также коммерциализировать технологию под торговой маркой VMware Tanzu Greenplum . В ноябре 2023 года VMware была приобретена Broadcom. [3]
В мае 2024 года Tanzu by Broadcom приняла решение закрыть исходный код проекта Greenplum Database. Все будущие выпуски Greenplum Database будут иметь закрытый исходный код и будут выпускаться как часть VMware Tanzu Data Suite.
Greenplum, компания, была основана в сентябре 2003 года Скоттом Ярой и Люком Лонерганом. Это было слияние двух более мелких компаний: Metapa (основана в августе 2000 года недалеко от Лос-Анджелеса ) [4] и Didera в Фэрфаксе, Вирджиния . [5]
Инвесторами были SoundView Ventures, Hudson Ventures и Royal Wulff Ventures. В ходе слияния было объявлено о финансировании в размере 20 миллионов долларов США . [6] Greenplum, базирующаяся в Сан-Матео, Калифорния , выпустила свое программное обеспечение для управления базами данных на основе PostgreSQL в апреле 2005 года, назвав его Bizgres. [7] Раунды венчурного капитала примерно по 15 миллионов долларов США каждый были инвестированы в марте 2006 года и феврале 2007 года. [8]
В июле 2006 года было объявлено о партнерстве с Sun Microsystems . [9] Sun, которая также приобрела MySQL AB , приняла участие в раунде инвестиций в размере 27 миллионов долларов США в январе 2009 года под руководством Meritech Capital Partners . [8] Проект Bizgres включал несколько других участников и поддерживался примерно до 2008 года, когда продукт также назывался просто «Greenplum». [10] [11] Sun Fire X4500 был эталонной архитектурой и использовался большинством клиентов до тех пор, пока примерно в то же время не был осуществлен переход на Linux . Greenplum была приобретена корпорацией EMC в июле 2010 года, став основой подразделения программного обеспечения для больших данных EMC . [1] Хотя EMC не раскрывала стоимость, она была оценена в 300 миллионов долларов США . [12] [13] На момент приобретения продуктами Greenplum были Greenplum Database, Chorus (инструмент управления) и Data Science Labs. У Greenplum были клиенты на вертикальных рынках, включая eBay . [14] В 2012 году компания стала частью Pivotal Software. [15]
Вариант, использующий Apache Hadoop для хранения данных в файловой системе Hadoop под названием Hawq, был анонсирован в 2013 году. [16] [17] В 2015 году были анонсированы проекты программного обеспечения с открытым исходным кодом GreenplumDB и Hawq . [18]
Продукт базы данных Greenplum от Pivotal использует методы массивно-параллельной обработки (MPP). Каждый компьютерный кластер состоит из главного узла, резервного главного узла и узлов сегмента. [19] Все данные находятся на узлах сегмента, а информация каталога хранится в главных узлах. Узлы сегмента запускают один или несколько сегментов, которые являются измененными экземплярами базы данных PostgreSQL и которым назначается идентификатор содержимого. Для каждой таблицы данные распределяются между узлами сегмента на основе ключей столбцов распределения, указанных пользователем на языке определения данных . Для каждого идентификатора содержимого сегмента есть как основной сегмент, так и зеркальный сегмент, которые не работают на одном и том же физическом хосте. Когда запрос поступает на главный узел, он анализируется, планируется и отправляется всем сегментам для выполнения плана запроса и либо возвращает запрошенные данные, либо вставляет результат запроса в таблицу базы данных. Для представления запросов в системе используется язык структурированных запросов версии SQL:2003 . Семантика транзакций соответствует ограничениям, известным как ACID . [20]
Конкурентами являются другие системы управления базами данных MPP, предоставляемые крупными поставщиками, такими как Teradata , Amazon Redshift , Microsoft Azure , Alibaba AnalyticDB и, в прошлом, IBM Netezza . [19] [21] Дополнительную конкуренцию составляют другие более мелкие конкуренты, столбчато-ориентированные базы данных , такие как HP Vertica , Exasol , и поставщики хранилищ данных с архитектурой, отличной от MPP, такие как Oracle Exadata , IBM Db2 и SAP HANA .
В сентябре 2023 года была выпущена версия 7 базы данных Greenplum. [22] Версия 7 основана на PostgreSQL версии 12.12.
В сентябре 2019 года была выпущена версия Greenplum Database 6. Версия 6 основана на PostgreSQL версии 9.4 и отличается значительным приростом производительности [23] OLTP. Greenplum 6 была рассмотрена в СМИ несколькими источниками и упомянута за ее соответствие Postgres с открытым исходным кодом [24] и за ее производительность OLTP [25].
В сентябре 2017 года была выпущена версия Greenplum Database 5. Версия 5 включает в себя первую итерацию стратегии проекта Greenplum по слиянию более поздних версий PostgreSQL обратно в Greenplum и основана на PostgreSQL версии 8.3 по сравнению с предыдущей версией 8.2. [26] Версия 5 также представляет общедоступный оптимизатор GPORCA [27] для оптимизации SQL на основе затрат, разработанный для больших данных.