NoSQL

NoSQL (первоначально обозначавший «не- SQL » или «нереляционный») ^[1] — это подход к проектированию базы данных , который фокусируется на обеспечении механизма хранения и извлечения данных, моделируемых способами, отличными от табличных отношений, используемых в реляционные базы данных . Вместо типичной табличной структуры реляционной базы данных в базах данных NoSQL данные размещаются в одной структуре данных. Поскольку эта конструкция нереляционной базы данных не требует схемы, она обеспечивает быструю масштабируемость для управления большими и обычно неструктурированными наборами данных. ^[2] Системы NoSQL также иногда называют «не только SQL» , чтобы подчеркнуть, что они могут поддерживать SQL -подобные языки запросов или располагаться рядом с базами данных SQL в многоязычных архитектурах. ^[3]^[4]

Нереляционные базы данных существуют с конца 1960-х годов, но название «NoSQL» было придумано только в начале 2000-х годов ^[5] , вызванное потребностями компаний Web 2.0 . ^[6]^[7] Базы данных NoSQL все чаще используются в больших данных и веб-приложениях реального времени . ^[8]

Мотивами для этого подхода являются простота конструкции , более простое «горизонтальное» масштабирование для кластеров машин (что является проблемой для реляционных баз данных), ^[5] более точный контроль над доступностью и ограничение несоответствия объектно-реляционного импеданса . ^[9] Структуры данных, используемые базами данных NoSQL (например, пара ключ-значение , широкий столбец , график или документ ), отличаются от тех, которые используются по умолчанию в реляционных базах данных, что делает некоторые операции в NoSQL более быстрыми. Конкретная пригодность конкретной базы данных NoSQL зависит от проблемы, которую она должна решить. Иногда структуры данных, используемые базами данных NoSQL, также считаются «более гибкими», чем таблицы реляционных баз данных. ^[10]

Многие хранилища NoSQL ставят под угрозу согласованность (в смысле теоремы CAP ) в пользу доступности, устойчивости к разделению и скорости. Препятствия для более широкого внедрения хранилищ NoSQL включают использование языков запросов низкого уровня (например, вместо SQL), отсутствие возможности выполнять специальные соединения между таблицами, отсутствие стандартизированных интерфейсов и огромные предыдущие инвестиции в существующие реляционные базы данных. . ^[11] В большинстве хранилищ NoSQL отсутствуют настоящие ACID- транзакции, хотя некоторые базы данных сделали их центральными в своих проектах.

Вместо этого большинство баз данных NoSQL предлагают концепцию « конечной согласованности », при которой изменения базы данных распространяются на все узлы «со временем» (обычно в течение миллисекунд), поэтому запросы к данным могут не возвращать обновленные данные немедленно или могут привести к чтению данных, которые неточно, проблема, известная как устаревшее чтение. ^[12] Кроме того, в некоторых системах NoSQL могут наблюдаться потери записи и другие формы потери данных . ^[13] Некоторые системы NoSQL предоставляют такие концепции, как упреждающая запись в журнал , чтобы избежать потери данных. ^[14] При распределенной обработке транзакций в нескольких базах данных согласованность данных является еще более серьезной проблемой, которая сложна как для NoSQL, так и для реляционных баз данных. Реляционные базы данных «не позволяют ограничениям ссылочной целостности охватывать базы данных». ^[15] Лишь немногие системы поддерживают как транзакции ACID , так и стандарты X/Open XA для распределенной обработки транзакций. ^[16] Общей чертой интерактивных реляционных баз данных являются методы конформационного релейного анализа. ^[17] Ограничения в интерфейсной среде преодолеваются с помощью протоколов семантической виртуализации, благодаря чему службы NoSQL доступны для большинства операционных систем. ^[18]

История

Термин NoSQL был использован Карло Строцци в 1998 году для названия его облегченной реляционной базы данных Strozzi NoSQL с открытым исходным кодом , которая не предоставляла стандартный интерфейс языка структурированных запросов (SQL), но все еще была реляционной. ^[19] Его СУБД NoSQL отличается от общей концепции баз данных NoSQL, существовавшей примерно в 2009 году. Строцци предполагает, что, поскольку нынешнее движение NoSQL «полностью отходит от реляционной модели, его следовало бы называть более уместно «NoREL»», ^[20] имея в виду «нереляционную».

Йохан Оскарссон, в то время разработчик Last.fm , вновь представил термин NoSQL в начале 2009 года, когда организовал мероприятие для обсуждения « распределенных нереляционных баз данных с открытым исходным кодом ». ^[21] Этим названием пытались обозначить появление растущего числа нереляционных, распределенных хранилищ данных, включая клоны с открытым исходным кодом Bigtable / MapReduce от Google и DynamoDB от Amazon .

Типы и примеры

Существуют различные способы классификации баз данных NoSQL с разными категориями и подкатегориями, некоторые из которых частично совпадают. Ниже приводится неполная классификация по модели данных с примерами: ^[22]

Хранилище ключей и значений

Хранилища «ключ-значение» (KV) используют ассоциативный массив (также называемый картой или словарем) в качестве фундаментальной модели данных. В этой модели данные представлены как набор пар ключ-значение, так что каждый возможный ключ появляется в коллекции не более одного раза. ^[25]^[26]

Модель «ключ-значение» — одна из простейших нетривиальных моделей данных, а более богатые модели данных часто реализуются как ее расширение. Модель «ключ-значение» может быть расширена до дискретно упорядоченной модели, которая поддерживает ключи в лексикографическом порядке . Это расширение является мощным в вычислительном отношении, поскольку оно может эффективно извлекать выборочные диапазоны ключей . ^[27]

Хранилища «ключ-значение» могут использовать модели согласованности , начиная от окончательной согласованности и заканчивая сериализуемостью . Некоторые базы данных поддерживают порядок ключей. Существуют различные аппаратные реализации, и некоторые пользователи хранят данные в памяти (ОЗУ), а другие — на твердотельных накопителях (SSD) или вращающихся дисках (также известных как жесткий диск (HDD)).

Хранилище документов

Центральным понятием хранилища документов является понятие «документ». Хотя детали этого определения различаются в зависимости от документо-ориентированных баз данных, все они предполагают, что документы инкапсулируют и кодируют данные (или информацию) в некоторых стандартных форматах или кодировках. Используемые кодировки включают XML , YAML и JSON , а также двоичные формы, такие как BSON . Документы обращаются в базе данных с помощью уникального ключа , который представляет этот документ. Еще одной определяющей характеристикой документо-ориентированной базы данных является API или язык запросов для извлечения документов на основе их содержимого.

Различные реализации предлагают разные способы организации и/или группировки документов:

Коллекции
Теги
Невидимые метаданные
Иерархии каталогов

По сравнению с реляционными базами данных коллекции можно считать аналогами таблиц, а документы — аналогами записей. Но они разные — каждая запись в таблице имеет одинаковую последовательность полей, а документы в коллекции могут иметь совершенно разные поля.

График

Базы данных графов предназначены для данных, отношения которых хорошо представлены в виде графа , состоящего из элементов, связанных конечным числом отношений. Примеры данных включают социальные отношения, маршруты общественного транспорта, дорожные карты, топологии сетей и т. д.

Графовые базы данных и их язык запросов

Производительность

Производительность баз данных NoSQL обычно оценивается с помощью показателя пропускной способности , который измеряется как количество операций в секунду. При оценке производительности необходимо уделять внимание правильным критериям, таким как производственные конфигурации, параметры баз данных, ожидаемый объем данных и одновременные рабочие нагрузки пользователей.

Бен Скофилд оценил различные категории баз данных NoSQL следующим образом: ^[29]

Сравнение производительности и масштабируемости чаще всего проводится с использованием теста YCSB .

Обработка реляционных данных

Поскольку в большинстве баз данных NoSQL отсутствует возможность объединения запросов, схему базы данных обычно необходимо проектировать по-другому. Существует три основных метода обработки реляционных данных в базе данных NoSQL. (См. таблицу «Поддержка соединений и ACID» для баз данных NoSQL, поддерживающих соединения.)

Несколько запросов

Вместо получения всех данных с помощью одного запроса, для получения нужных данных обычно выполняется несколько запросов. Запросы NoSQL часто выполняются быстрее, чем традиционные запросы SQL, поэтому стоимость дополнительных запросов может быть приемлемой. Если потребуется чрезмерное количество запросов, более подходящим будет один из двух других подходов.

Кэширование, репликация и ненормализованные данные

Вместо хранения только внешних ключей обычно вместе с данными модели сохраняются фактические внешние значения. Например, каждый комментарий в блоге может включать имя пользователя в дополнение к идентификатору пользователя, что обеспечивает легкий доступ к имени пользователя без необходимости повторного поиска. Однако при изменении имени пользователя его теперь необходимо будет изменить во многих местах базы данных. Таким образом, этот подход работает лучше, когда чтение происходит гораздо чаще, чем запись. ^[30]

Вложение данных

В базах данных документов, таких как MongoDB, обычно больше данных помещается в меньшее количество коллекций. Например, в приложении для ведения блога можно сохранить комментарии в документе сообщения блога, чтобы при одном извлечении можно было получить все комментарии. Таким образом, при таком подходе один документ содержит все данные, необходимые для конкретной задачи.

ACID и присоединяйтесь к поддержке

База данных помечается как поддерживающая свойства ACID (атомарность, согласованность, изоляция, долговечность) или операции соединения , если это утверждается в документации к базе данных. Однако это не обязательно означает, что эта возможность полностью поддерживается так же, как и в большинстве баз данных SQL.

^ Объединения не обязательно применимы к базам данных документов, но MarkLogic может выполнять соединения, используя семантику. ^[31]
^ MongoDB не поддерживал присоединение из сегментированной коллекции до версии 5.1. ^[32]
^ OrientDB может разрешать соединения 1:1 с использованием ссылок, сохраняя прямые ссылки на внешние записи. ^[33]

Смотрите также

дальнейшее чтение

Садалаге, Прамод; Фаулер, Мартин (2012). NoSQL в чистом виде: краткое руководство по развивающемуся миру многоязычной персистентности . Аддисон-Уэсли. ISBN 978-0-321-82662-6.
МакКрири, Дэн; Келли, Энн (2013). Осмысление NoSQL: Руководство для менеджеров и всех нас . Мэннинг. ISBN 9781617291074.
Визе, Лена (2015). Расширенное управление данными для SQL, NoSQL, облачных и распределенных баз данных . ДеГрюйтер/Ольденбург. ISBN 978-3-11-044140-6.
Штраух, Кристоф (2012). «Базы данных NoSQL» (PDF) .
Монируззаман, AB; Хоссейн, Ю.А. (2013). «База данных NoSQL: новая эра баз данных для анализа больших данных — классификация, характеристики и сравнение». arXiv : 1307.0191 [cs.DB].
Оренд, Кай (2013). «Анализ и классификация баз данных NoSQL и оценка их способности заменить объектно-реляционный уровень сохраняемости». CiteSeerX 10.1.1.184.483 .
Кришнан, Ганеш; Кулкарни, Саранг; Дадбхавала, Дхармеш Кирит. «Метод и система версионного обмена, консолидации и представления информации».

Внешние ссылки

Штраух, Кристоф. «Информационный документ NoSQL» (PDF) . Штутгарт: Hochschule der Medien.
Эдлих, Стефан. «Список баз данных NoSQL».
Нойбауэр, Питер (2010). «Графовые базы данных, NOSQL и Neo4j».
Бушик, Сергей (2012). «Независимое от поставщика сравнение баз данных NoSQL: Cassandra, HBase, MongoDB, Riak». СетьМир.
Зикари, Роберто В. (2014). «Хранилища данных NoSQL – статьи, статьи, презентации». odbms.org .