База данных в виде плоских файлов

База данных с плоским файлом — это база данных, хранящаяся в файле, называемом плоским файлом . Записи следуют единому формату, и нет структур для индексации или распознавания связей между записями. Файл прост. Плоский файл может быть обычным текстовым файлом (например, csv , txt или tsv ) или двоичным файлом . Связи могут быть выведены из данных в базе данных, но сам формат базы данных не делает эти связи явными.

Термин обычно подразумевает небольшую базу данных, но очень большие базы данных также могут быть плоскими.

Обзор

Файлы с простым текстом обычно содержат одну запись на строку. ^[2]

Примерами плоских файлов являются /etc/passwdи /etc/groupв операционных системах типа Unix . Другим примером плоского файла является список имен и адресов с полями Name , Address , и Phone Number .

Список имен, адресов и телефонных номеров, написанный от руки на листе бумаги, представляет собой базу данных в виде плоского файла. Это также можно сделать с помощью любой пишущей машинки или текстового процессора . Для реализации базы данных в виде плоского файла можно использовать электронную таблицу или текстовый редактор , который затем можно распечатать или использовать онлайн для улучшения возможностей поиска.

Плоские файлы обычно либо разделены разделителями (например, значения, разделенные запятыми (CSV) ), либо имеют фиксированную ширину (каждый столбец имеет фиксированную ширину).

Значения, разделенные разделителем

В файлах значений, разделенных разделителем , поля разделяются символом или строкой, называемой разделителем . Распространенными вариантами являются CSV (разделителем является ,), значения, разделенные табуляцией (TSV) (разделителем является символ табуляции), значения, разделенные пробелом, и значения, разделенные вертикальной чертой (разделителем является |).

Если разделитель разрешен внутри поля, должен быть способ отличить символы разделителей или строки, которые подразумеваются буквально. Например, рассмотрим предложение «Если мне придется, я сделаю это сам». Чтобы закодировать его в CSV, должен быть способ предотвратить разделение поля запятой. Существует несколько стратегий предотвращения коллизий разделителей .

Форматы фиксированной ширины

В форматах с фиксированной шириной каждый столбец имеет фиксированную длину, а поля дополняются пробелами по мере необходимости. Фиксированная длина может быть предопределена и известна заранее (т. е. указана в спецификации формата) или проанализирована из заголовка .

При предопределенных длинах поля ограничены максимальной длиной. Потребность в более длинных полях может возникнуть через некоторое время после определения формата. Возможные обходные пути включают сокращение фраз, замену значений ссылками (например, URI, указывающим на значение) и разделение файла на несколько файлов.

В форматах с разделителями определение границ полей требует поиска разделителей, что влечет за собой некоторые вычислительные издержки . Это не требуется для форматов с фиксированной шириной. Однако форматы с фиксированной шириной могут привести к неоправданно большим размерам файлов, если поля имеют тенденцию быть короче зарезервированной для них длины.

Декларативная нотация

Разделители могут использоваться вместе с нотацией, указывающей длину каждого поля. Например, 5apple|9pineappleуказывает длину (5 и 9) каждого поля. Это называется декларативной нотацией . Она имеет низкие накладные расходы и тривиально позволяет избежать коллизий разделителей, но она хрупкая при редактировании вручную и редко используется.

История

Работа Германа Холлерита для Бюро переписи населения США , впервые реализованная в ходе переписи населения США 1890 года , включавшая в себя данные, сведенные в таблицы с помощью дыроколов в бумажных карточках, ^[3] иногда считается первой компьютеризированной базой данных в виде плоских файлов, поскольку она не включала в себя ни одной карточки, индексирующей другие карточки, или иным образом связывающей отдельные карточки друг с другом, за исключением их групповой принадлежности. ^{[ необходима ссылка ]}

В 1980-х годах настраиваемые приложения для работы с базами данных на основе плоских файлов были популярны на IBM PC и Macintosh . Эти программы были разработаны для того, чтобы облегчить отдельным пользователям разработку и использование собственных баз данных, и по популярности они были почти на одном уровне с текстовыми процессорами и электронными таблицами . ^{[ необходима цитата ]} Примерами программного обеспечения для работы с базами данных на основе плоских файлов являются ранние версии FileMaker и условно-бесплатное программное обеспечение PC-File , а также популярная dBase .

Базы данных в виде плоских файлов широко распространены и повсеместны, поскольку их легко писать и редактировать, и они подходят для множества целей простым способом.

Современные реализации

Линейные хранилища данных NoSQL , данных JSON , примитивных электронных таблиц (возможно, разделенных запятыми или табуляцией) и текстовых файлов можно рассматривать как базы данных плоских файлов, поскольку в них отсутствуют интегрированные индексы, встроенные ссылки между элементами данных и сложные типы данных. Программы для управления коллекциями книг или назначений и адресных книг могут использовать одноцелевые базы данных плоских файлов, сохраняя и извлекая информацию из плоских файлов, не украшенных индексами или системами указателей.

Хотя пользователь может записать оглавление в текстовый файл, сам формат текстового файла не включает концепцию оглавления. Хотя пользователь может написать «друзья Кэти» в разделе «Заметки» для контактной информации Джона, это интерпретируется пользователем, а не встроенной функцией базы данных. Когда система базы данных начинает распознавать и кодифицировать отношения между записями, она начинает отдаляться от «плоской», а когда у нее есть подробная система описания типов и иерархических отношений, она становится слишком структурированной, чтобы считаться «плоской».

Пример базы данных

Следующий пример иллюстрирует типичные элементы базы данных с плоским файлом. Структура данных состоит из ряда столбцов и строк, организованных в табличный формат . В этом конкретном примере используется только одна таблица.

Столбцы включают в себя: имя (имя человека, второй столбец); команда (название спортивной команды, которую поддерживает человек, третий столбец); и числовой уникальный идентификатор (используется для уникальной идентификации записей, первый столбец).

Вот пример текстового представления описанных данных:

имя идентификатора команды1 Эми Блюз2 Боба Редса3 Чак Блюз4 Ричард Блюз5 Этель Редс6 Фред Блюз7 Джилли Блюз8 Хэнк Редс9 Хэнк Блюз

Этот тип представления данных является вполне стандартным для базы данных в виде плоских файлов, хотя есть некоторые дополнительные соображения, которые не очевидны из текста:

Типы данных: каждый столбец в таблице базы данных, такой как та, что приведена выше, обычно ограничен определенным типом данных . Такие ограничения обычно устанавливаются соглашением, но не указываются формально, если только данные не передаются в систему реляционной базы данных .
Разделенные столбцы: В приведенном выше примере отдельные столбцы разделены пробелами . Это также называется отступом или форматированием данных «фиксированной ширины». Другое распространенное соглашение — разделять столбцы с помощью одного или нескольких символов- разделителей , таких как табуляция или запятая .
Реляционная алгебра: Каждая строка или запись в приведенной выше таблице соответствует стандартному определению кортежа в реляционной алгебре (пример выше изображает серию из 3-кортежей). Кроме того, первая строка указывает имена полей , которые связаны со значениями каждой строки.
Система управления базами данных: поскольку формальные операции, возможные с текстовым файлом, обычно более ограничены, чем хотелось бы, текст в приведенном выше примере обычно представляет собой промежуточное состояние данных перед передачей в систему управления базами данных .

Смотрите также

/etc/passwd — широко используемый плоский файл, используемый для детализации пользователей в Unix
CSV (стандартные значения, разделенные запятыми)
Berkeley DB (типичная база данных с плоскими файлами)
Awk (классический процессор плоских файлов)
Recfiles (формат файла базы данных в виде простого текста)

Ссылки

На Викискладе есть медиафайлы по теме «Модели плоских файлов» .

↑ Глоссарий интеграции данных. Архивировано 20 марта 2009 г. в Wayback Machine , Министерство транспорта США, август 2001 г.
^ Фаулер, Гленн (1994), "cql: язык запросов к базам данных с плоскими файлами", WTEC'94: Труды технической конференции USENIX Winter 1994 на технической конференции USENIX Winter 1994
^ Блоджетт, Джон Х.; Шульц, Клэр К. (1969). «Герман Холлерит: пионер обработки данных». Американская документация . 20 (3): 221–226. doi :10.1002/asi.4630200307. ISSN 1936-6108.