stringtranslate.com

Устройство хранилища данных

В вычислительной технике термин «устройство хранилища данных» ( DWA ) был придуман Фостером Хиншоу [1] [2] для компьютерной архитектуры для хранилищ данных (DW), специально предназначенной для анализа и обнаружения больших данных , которая проста в использовании (не является предварительной конфигурацией) и имеет высокую производительность для рабочей нагрузки. DWA включает в себя интегрированный набор серверов, хранилищ, операционных систем и баз данных .

В маркетинге этот термин стал включать в себя предварительно установленное и предварительно оптимизированное оборудование и программное обеспечение, а также аналогичные системы, состоящие только из программного обеспечения [3], которые рекламируются как простые в установке на определенных рекомендуемых конфигурациях оборудования или предварительно настроенные как полная система. [4] [5] Это маркетинговые применения термина, которые не отражают его технического определения.

DWA разработан специально для высокопроизводительной аналитики больших данных и поставляется как простая в использовании упакованная система. Устройства DW продаются для объемов данных в диапазоне от терабайта до петабайта .

Технологии

Устройство хранилища данных (DWA) имеет несколько характеристик, которые отличают эту архитектуру от аналогичных машин в центре обработки данных , таких как корпоративное хранилище данных (EDW).

  1. DWA имеет очень тесную интеграцию внутренних компонентов, которые оптимизированы для операций, ориентированных на данные, в отличие от операций, ориентированных на вычисления. Последние, как правило, делают акцент на количестве ЦП, ядер и пропускной способности сети.
  1. DWA прост в использовании и установке. В отличие от «предварительной конфигурации» компонентов, DWA имеет очень мало переключателей конфигурации или опций. Исключение таких опций значительно снижает ошибки конфигурации — основную причину сбоев в крупных системах.
  1. DWA оптимизирован для аналитики больших данных . В отличие от этого, предыдущие архитектуры (включая параллельные) были сосредоточены на «корпоративном хранилище данных», являющемся универсальным репозиторием для данных и поддерживающим аналитику в качестве вспомогательной задачи.

Большинство устройств DW используют архитектуры с массивно-параллельной обработкой (MPP) для обеспечения высокой производительности запросов и масштабируемости платформы . Архитектуры MPP состоят из независимых процессоров или серверов, работающих параллельно. Большинство архитектур MPP реализуют « архитектуру без общего доступа », где каждый сервер работает самостоятельно и управляет собственной памятью и диском. Устройства DW распределяют данные на выделенные дисковые хранилища, подключенные к каждому серверу в устройстве. Такое распределение позволяет устройствам DW разрешать реляционные запросы путем параллельного сканирования данных на каждом сервере. Подход «разделяй и властвуй» обеспечивает высокую производительность и линейно масштабируется по мере добавления новых серверов в архитектуру.

История

«Устройство хранилища данных» — термин, введенный Фостером Хиншоу, [1] [2] основателем Netezza . При создании первого устройства хранилища данных Хиншоу и Netezza использовали основы, разработанные Model 204 , Teradata и другими, чтобы стать пионерами новой категории для эффективного решения потребительской аналитики путем предоставления модульной, масштабируемой, простой в управлении системы баз данных, которая является экономически эффективной.

Архитектуры баз данных MPP имеют долгую родословную. Некоторые считают первоначальный продукт Teradata первым устройством DW — или Britton-Lee . [6] [7] Teradata приобрела Britton Lee — переименованную в ShareBase — в июне 1990 года. [8] Другие не согласны, считая устройства «подрывной технологией» для Teradata [9]

Дополнительные поставщики, включая Tandem Computers и Sequent Computer Systems, также предлагали архитектуры MPP в 1980-х годах. Компоненты вычислений с открытым исходным кодом и общедоступные компоненты способствовали повторному появлению устройств хранения данных MPP. Достижения в области технологий снизили затраты и повысили производительность устройств хранения, многоядерных процессоров и сетевых компонентов. Продукты RDBMS с открытым исходным кодом , такие как Ingres и PostgreSQL , снижают затраты на лицензии на программное обеспечение и позволяют поставщикам устройств DW сосредоточиться на оптимизации, а не на предоставлении базовой функциональности базы данных. Linux с открытым исходным кодом стал общей операционной системой для устройств DW.

Другие поставщики устройств DW используют специализированное оборудование и передовое программное обеспечение вместо архитектур MPP. [10] Netezza анонсировала «устройство данных» в 2003 году и использовала специализированное программируемое вентильное оборудование. [11] Kickfire последовала за ними в 2008 году с тем, что они назвали потоком данных «sql chip». [12] [ необходима цитата ]

В 2009 году появилось больше устройств DW. IBM интегрировала свое хранилище InfoSphere (ранее DB2 Warehouse) со своими собственными серверами и системами хранения, чтобы создать IBM InfoSphere Balanced Warehouse . Netezza представила свою платформу TwinFin на основе товарного оборудования IBM. Другие поставщики устройств DW также сотрудничали с крупными поставщиками оборудования. DATAllegro , до приобретения Microsoft , сотрудничала с EMC Corporation и Dell и реализовала Ingres с открытым исходным кодом на Linux. Greenplum сотрудничала с Sun Microsystems и внедряет базу данных Greenplum (на основе PostgreSQL) на Solaris с использованием файловой системы ZFS . HP Neoview использует HP NonStop SQL .

На рынке также появились пакеты хранилищ данных, в которых поставщики объединяют свое оборудование и программное обеспечение баз данных в качестве платформы хранилища данных. Инициатива Oracle Optimized Warehouse объединяет Oracle Database с оборудованием от различных производителей компьютеров ( Dell , EMC , HP , IBM , SGI и Sun Microsystems ). Оптимизированные хранилища Oracle предлагают предварительно проверенные конфигурации, а программное обеспечение базы данных поставляется предварительно установленным. В сентябре 2008 года Oracle начала предлагать более классическое предложение устройств, HP Oracle Database Machine, совместно разработанную и кобрендовую платформу, которую Oracle продавала и поддерживала, а HP создавала конфигурации специально для Oracle. [13] [14] В сентябре 2009 года Oracle выпустила систему Exadata второго поколения на основе приобретенного оборудования Sun Microsystems . [15]

Смотрите также

Ссылки

  1. ^ ab "Представляем 'устройства хранения данных' - Infostor.com®". 18 мая 2007 г.
  2. ^ ab Swoyer, Стивен (2007-05-23). ​​«Еще одно устройство для хранения данных уже на подходе!». TDWI .
  3. ^ «Блог Queries From Hell » Когда прибор не является прибором?».
  4. ^ «Устройства хранения данных – факты и вымысел | СУБД 2: Службы системы управления базами данных».
  5. ^ Омер Траджман, Ален Кролотт, Дэвид Штайнхофф, Рагхунат Намбиар , Майкель Поесс: Базы данных — это не тостеры: структура для сравнения устройств хранения данных
  6. ^ Кобелус, Джеймс (22 апреля 2008 г.). "Teradata Goes Appliance, Officially". Архивировано из оригинала 29 сентября 2011 г. Получено 14 января 2011 г. Teradata фактически создала рынок устройств хранения данных четверть века назад, когда она выпустила первое из длинной линейки предварительно настроенных, предварительно оптимизированных решений, объединяющих ЦП, хранилище, программное обеспечение и базу данных для удовлетворения самых строгих требований к аналитике и поддержке принятия решений.
  7. ^ "Машины баз данных и устройства для хранения данных – первые дни". Monash Research. 15 сентября 2008 г. Получено 15 января 2011 г. Но с практической точки зрения первыми двумя значимыми поставщиками "машин баз данных" были Britton-Lee и Teradata. И поскольку Britton-Lee в конечном итоге продался Teradata (после краткого изменения названия на ShareBase), Teradata имеет право на всю историческую славу, которая достается ей от инноваций в категории устройств управления базами данных.
  8. Тодд Уайт (5 ноября 1990 г.). «Teradata Corp. терпит первый квартальный убыток за четыре года». Los Angeles Business Journal . Получено 14 июля 2008 г.
  9. ^ All, Ann (6 апреля 2007 г.). «Подойдет ли вам устройство для хранения данных?» . Получено 14 января 2011 г. У DATAllegro есть сайт в Sears. Sears использует [устройство] в качестве интерфейса к своему хранилищу Teradata для расчета агрегатов. Поэтому, когда они хотят сделать срез и кубик, сколько мы продали, в каких магазинах и какого цвета, они используют устройство... Я думаю, [устройства] могут стать прорывной технологией для Teradata
  10. ^ "TPC-H - Десять лучших результатов по соотношению цена/производительность". www.tpc.org . Архивировано из оригинала 2020-04-23.
  11. ^ "Netezza Performance Server (NPS™) 8000 Series". Веб-страница продукта . Netezza. Архивировано из оригинала 3 февраля 2004 г. Получено 16 августа 2013 г.
  12. ^ "Kickfire". Архивировано из оригинала 2009-05-24 . Получено 2009-07-18 .
  13. ^ «Сервер хранения Oracle Exadata. Часть I». 24 сентября 2008 г.
  14. ^ "Oracle Exadata - В чем преимущество?". Архивировано из оригинала 20.11.2008 . Получено 19.11.2008 .
  15. ^ Алекс Горбачев (15 сентября 2009 г.). "Представление OLTP Oracle Database Machine & Exadata v2". Блог . Pythian . Получено 16 августа 2013 г. .

Внешние ссылки