Столбцово-ориентированная СУБД

Столбцово -ориентированная СУБД или столбчатая СУБД — это система управления базами данных (СУБД), в которой таблицы данных хранятся по столбцам , а не по строкам. Преимущества включают более эффективный доступ к данным при запросе только подмножества столбцов (за счет устранения необходимости читать нерелевантные столбцы) и больше возможностей для сжатия данных. Однако они обычно менее эффективны для вставки новых данных.

Практическое использование хранилища столбцов и хранилища строк мало чем отличается в мире реляционных СУБД . Как столбчатые, так и строковые базы данных могут использовать традиционные языки запросов к базам данных, такие как SQL, для загрузки данных и выполнения запросов. Базы данных как строк, так и столбцов могут стать основой системы для обслуживания данных для общего извлечения, преобразования, загрузки (ETL) и инструментов.

Описание

Фон

Система управления реляционными базами данных предоставляет данные, которые представляют собой двумерную таблицу столбцов и строк. Например, база данных может иметь следующую таблицу:

Эта простая таблица включает идентификатор сотрудника (EmpId), поля имени (Фамилия и Имя) и зарплату (Salary). Этот двумерный формат является абстракцией. В реальной реализации оборудование хранения требует, чтобы данные были сериализованы в ту или иную форму.

Наиболее дорогостоящие операции с жесткими дисками — это поиск . Чтобы улучшить общую производительность, связанные данные должны храниться таким образом, чтобы минимизировать количество поисков. Это известно как локальность ссылки , и основная концепция появляется в ряде различных контекстов. Жесткие диски организованы в серию блоков фиксированного размера, которого обычно достаточно для хранения нескольких строк таблицы. За счет организации данных таблицы таким образом, чтобы строки помещались в эти блоки, и группировки связанных строк в последовательные блоки, во многих случаях количество блоков, которые необходимо прочитать или найти, сводится к минимуму вместе с количеством операций поиска.

Исследование Pinnecke et al. ^[1] описывает методы гибридизации столбца/строки по состоянию на 2017 год.

Строко-ориентированные системы

Распространенный метод хранения таблицы — сериализация каждой строки данных, например:

001:10,Смит,Джо,60000;002:12,Джонс,Мэри,80000;003:11,Джонсон,Кэти,94000;004:22,Джонс,Боб,55000;

Когда данные вставляются в таблицу, им присваивается внутренний идентификатор, который rowidиспользуется внутри системы для ссылки на данные. В этом случае записи имеют последовательные rowidзначения, независимые от назначенных пользователем empid. В этом примере СУБД использует короткие целые числа для хранения rowids. На практике обычно используются более крупные числа: 64-битные или 128-битные.

Системы, ориентированные на строки, предназначены для эффективного возврата данных для всей строки или записи за минимально возможное количество операций. Это соответствует обычному случаю использования, когда система пытается получить информацию о конкретном объекте, скажем, контактную информацию пользователя в системе rolodex или информацию о продукте для системы онлайн-покупок . Сохраняя данные записи в одном блоке на диске вместе со связанными записями, система может быстро извлекать записи с минимумом дисковых операций.

Строко-ориентированные системы неэффективны при выполнении операций над множеством над всей таблицей, в отличие от небольшого количества конкретных записей. Например, чтобы найти в таблице-примере все записи с зарплатами от 40 000 до 50 000, СУБД придется полностью просмотреть всю таблицу в поисках совпадающих записей. Хотя приведенный выше пример таблицы, скорее всего, поместится в один дисковый блок, таблица даже с несколькими сотнями строк не подойдет, и для извлечения данных и их проверки потребуется несколько дисковых операций.

Чтобы повысить производительность такого рода операций (которые очень распространены и, как правило, являются целью использования СУБД), большинство СУБД поддерживают использование индексов базы данных , которые сохраняют все значения из набора столбцов вместе с rowidуказателями обратно в базу данных. оригинальный стол. Индекс в столбце зарплаты будет выглядеть примерно так:

55000:004;60000:001;80000:002;94000:003;

Поскольку индексы хранят только отдельные фрагменты данных, а не целые строки, они обычно намного меньше, чем хранилища основных таблиц. Сканирование этого меньшего набора данных уменьшает количество операций с диском. Если индекс интенсивно используется, это может значительно сократить время выполнения обычных операций. Однако поддержка индексов увеличивает нагрузку на систему, особенно когда в базу данных записываются новые данные. Записи необходимо не только хранить в основной таблице, но и все присоединенные индексы также необходимо обновлять.

Основная причина, по которой индексы значительно повышают производительность при работе с большими наборами данных, заключается в том, что индексы базы данных по одному или нескольким столбцам обычно сортируются по значению, что делает операции запросов по диапазону (например, приведенный выше пример «найти все записи с зарплатами от 40 000 до 50 000») очень быстрыми. (меньшая временная сложность ).

Ряд баз данных, ориентированных на строки, спроектирован так, чтобы полностью помещаться в ОЗУ , то есть в базе данных, находящейся в памяти . Эти системы не зависят от дисковых операций и имеют равновременный доступ ко всему набору данных. Это снижает потребность в индексах, поскольку для полного сканирования исходных данных требуется такое же количество операций, как и для полного индекса для типичных целей агрегирования. Таким образом, такие системы могут быть проще и меньше, но могут управлять только теми базами данных, которые помещаются в памяти.

Колонно-ориентированные системы

База данных, ориентированная на столбцы, сериализует все значения столбца вместе, затем значения следующего столбца и так далее. Для нашей таблицы-примера данные будут храниться следующим образом:

10:001,12:002,11:003,22:004;Смит: 001, Джонс: 002, Джонсон: 003, Джонс: 004;Джо: 001, Мэри: 002, Кэти: 003, Боб: 004;60000:001,80000:002,94000:003,55000:004;

В этом макете любой из столбцов более точно соответствует структуре индекса в системе, ориентированной на строки. Это может вызвать путаницу, которая может привести к ошибочному мнению, что хранилище, ориентированное на столбцы, «на самом деле просто» хранилище строк с индексом для каждого столбца. Однако кардинально отличается отображение данных. В системе, ориентированной на строки, индексы сопоставляют значения столбцов с идентификаторами строк, тогда как в системе, ориентированной на столбцы, столбцы сопоставляют идентификаторы строк со значениями столбцов. ^[2] Это может показаться незаметным, но разницу можно увидеть в этой общей модификации одного и того же хранилища, в которой два элемента «Джонс», приведенные выше, сжаты в один элемент с двумя идентификаторами строк:

…;Смит:001; Джонс:002,004 ;Джонсон:003;…

Будет ли система, ориентированная на столбцы, более эффективной в работе, во многом зависит от автоматизируемой рабочей нагрузки. Операции, извлекающие все данные для данного объекта (всю строку), выполняются медленнее. Система, ориентированная на строки, может получить строку за одно чтение с диска, тогда как для столбцовой базы данных требуются многочисленные дисковые операции для сбора данных из нескольких столбцов. Однако такие операции со всей строкой, как правило, редки. В большинстве случаев извлекается только ограниченный набор данных. Например, в приложении rolodex сбор имен и фамилий из многих строк для создания списка контактов является гораздо более распространенным явлением, чем чтение всех данных для любого отдельного адреса. Это еще более справедливо для записи данных в базу данных, особенно если данные имеют тенденцию быть «разреженными» со множеством дополнительных столбцов. По этой причине столбчатые накопители продемонстрировали превосходную производительность в реальных условиях, несмотря на множество теоретических недостатков. ^[3]

Секционирование , индексирование , кэширование, представления, кубы OLAP и транзакционные системы, такие как журналирование с упреждающей записью или управление многоверсионным параллелизмом, — все это существенно влияет на физическую организацию любой системы. Тем не менее, системы РСУБД, ориентированные на онлайн-обработку транзакций (OLTP), более ориентированы на строки, тогда как системы, ориентированные на онлайн-аналитическую обработку (OLAP), представляют собой баланс ориентированных на строки и столбцов.

Преимущества

Время доступа

Сравнение баз данных, ориентированных на строки и столбцы, обычно связано с эффективностью доступа к жесткому диску для заданной рабочей нагрузки, поскольку время поиска невероятно велико по сравнению с другими узкими местами в компьютерах. Например, среднее время поиска типичного жесткого диска Serial ATA (SATA) составляет от 16 до 22 миллисекунд ^[4] , тогда как доступ к DRAM на процессоре Intel Core i7 занимает в среднем 60 наносекунд, что почти в 400 000 раз быстрее. ^[5] Очевидно, что доступ к диску является основным узким местом при обработке больших данных. Столбчатые базы данных повышают производительность за счет уменьшения объема данных, которые необходимо прочитать с диска, как за счет эффективного сжатия аналогичных столбчатых данных, так и за счет чтения только тех данных, которые необходимы для ответа на запрос.

На практике столбчатые базы данных хорошо подходят для OLAP -подобных рабочих нагрузок (например, хранилищ данных ), которые обычно включают очень сложные запросы ко всем данным (возможно, петабайтам ). Однако необходимо проделать некоторую работу для записи данных в столбчатую базу данных. Транзакции (INSERT) должны быть разделены на столбцы и сжиматься при хранении, что делает их менее подходящими для рабочих нагрузок OLTP . Базы данных, ориентированные на строки, хорошо подходят для рабочих нагрузок, подобных OLTP, которые более загружены интерактивными транзакциями. Например, извлечение всех данных из одной строки более эффективно, когда эти данные расположены в одном месте (минимизация поиска на диске), как в архитектурах, ориентированных на строки. Однако системы, ориентированные на столбцы, были разработаны как гибриды, способные выполнять операции как OLTP, так и OLAP. Некоторые из ограничений OLTP, с которыми сталкиваются такие столбцово-ориентированные системы, решаются с помощью (помимо прочего) хранения данных в памяти . ^[6] Столбцово-ориентированные системы, подходящие как для ролей OLAP, так и для OLTP, эффективно сокращают общий объем данных, устраняя необходимость в отдельных системах. ^[7]

Сжатие

Данные столбца имеют единый тип; поэтому существуют некоторые возможности для оптимизации размера хранилища, доступные для данных, ориентированных на столбцы, но недоступные для данных, ориентированных на строки. Например, многие популярные современные схемы сжатия, такие как LZW или кодирование длин серий , используют для сжатия сходство соседних данных. Пропущенные значения и повторяющиеся значения, часто встречающиеся в клинических данных, могут быть представлены двухбитовым маркером. ^[8] Хотя те же методы можно использовать и для данных, ориентированных на строки, типичная реализация даст менее эффективные результаты. ^[9]^[10]

Для улучшения сжатия также может помочь сортировка строк. Например, используя растровые индексы , сортировка может улучшить сжатие на порядок. ^[11] Чтобы максимизировать преимущества сжатия лексикографического порядка по отношению к кодированию серий , лучше всего использовать столбцы с низкой мощностью в качестве ключей первой сортировки. ^[12] Например, в таблице со столбцами «пол», «возраст», «имя» лучше всего сортировать сначала по значению «пол» (мощность равна двум), затем по возрасту (мощность <128), а затем по имени.

Столбцовое сжатие позволяет уменьшить дисковое пространство за счет эффективности поиска. Чем выше достигается смежное сжатие, тем сложнее может стать произвольный доступ, поскольку для чтения может потребоваться несжатие данных. Поэтому столбцово-ориентированные архитектуры иногда обогащаются дополнительными механизмами, направленными на минимизацию необходимости доступа к сжатым данным. ^[13]

История

Хранилища по столбцам или транспонированные файлы были реализованы с первых дней разработки СУБД. TAXIR был первым применением столбцово-ориентированной системы хранения данных с упором на поиск информации в биологии ^[14] в 1969 году. Клинические данные из историй болезни пациентов, в которых было гораздо больше атрибутов, чем можно было проанализировать, были обработаны в 1975 году, а затем, спустя некоторое время, были обработаны. ориентированная система баз данных (TODS). ^[8] Статистическое управление Канады внедрило систему RAPID ^[15] в 1976 году и использовало ее для обработки и поиска данных канадской переписи населения и жилищного фонда, а также для ряда других статистических приложений. RAPID использовался другими статистическими организациями по всему миру и широко использовался в 1980-х годах. Статистическое управление Канады продолжало использовать его до 1990-х годов.

Еще одной базой данных, ориентированной на столбцы, была SCSS. ^[16]^[17]^[18]

Более поздние пакеты баз данных, ориентированные на столбцы, включали:

1993: КДБ
1995: Sybase IQ

Примерно с 2004 года появились дополнительные реализации с открытым исходным кодом и коммерческие реализации. MonetDB был выпущен под лицензией с открытым исходным кодом 30 сентября 2004 года, за ^ним последовал ныне несуществующий C-Store . ^[20]

C-store был университетским проектом, который в конечном итоге, когда член команды Майкл Стоунбрейкер остался, привел к созданию Vertica , соучредителем которой он стал в 2005 году. ^[21]^[22]

Проект X100, связанный с MonetDB, превратился в VectorWise . ^[23]^[24] Druid — это столбцово-ориентированное хранилище данных, исходный код которого был открыт в конце 2012 года и сейчас используется многими организациями. ^[25]

Классическая реляционная СУБД может использовать стратегии, ориентированные на столбцы, смешивая таблицы, ориентированные на строки и столбцы. Несмотря на сложность СУБД, этот подход доказал свою ценность с 2010 года по настоящее время. Например, в 2014 году компания Citusdata представила столбцово-ориентированные таблицы для PostgreSQL ^[26], а компания McObject добавила поддержку столбчатого хранилища в выпуске eXtremeDB Financial Edition в 2012 году ^[27] , который затем использовался для установления нового стандарта производительности для независимо проверенного STAC. -М3 бенчмарк. ^[28]

Смотрите также

Внешние ссылки

Различие двух основных типов колоночных хранилищ
Учебное пособие по VLDB 2009 — обзор
Обзор гибридной СУБД, ориентированной на строки и столбцы
Сплетение отношений для повышения производительности кэша — расположение блоков, ориентированное на столбцы
Проектирование и реализация современных столбцово-ориентированных систем баз данных. Архивировано 12 апреля 2021 г. на Wayback Machine.