Реляционное исчисление кортежей

Исчисление кортежей — это исчисление, созданное и представленное Эдгаром Ф. Коддом как часть реляционной модели , чтобы предоставить декларативный язык запросов к базе данных для манипулирования данными в этой модели данных . Оно послужило источником вдохновения для языков запросов к базе данных QUEL и SQL , из которых последний, хотя и гораздо менее верен исходной реляционной модели и исчислению, в настоящее время является фактическим стандартным языком запросов к базе данных; диалект SQL используется почти каждой реляционной системой управления базами данных . Мишель Лакруа и Ален Пиротт предложили исчисление доменов , которое ближе к логике первого порядка , и вместе с Коддом показали, что оба этих исчисления (а также реляционная алгебра ) эквивалентны по выразительной мощности. Впоследствии языки запросов для реляционной модели были названы реляционно полными , если они могли выразить по крайней мере все эти запросы.

Определение исчисления

Реляционная база данных

Поскольку исчисление является языком запросов для реляционных баз данных, мы сначала должны определить реляционную базу данных. Основным реляционным строительным блоком является домен ( несколько похожий, но не равный, типу данных ). Кортеж — это конечная последовательность атрибутов , которые являются упорядоченными парами доменов и значений. Отношение — это набор (совместимых) кортежей. Хотя эти реляционные концепции определены математически, эти определения свободно сопоставляются с традиционными концепциями баз данных. Таблица — это принятое визуальное представление отношения; кортеж похож на концепцию строки .

Сначала мы предполагаем существование набора C имен столбцов, примерами которых являются «имя», «автор», «адрес» и т. д. Мы определяем заголовки как конечные подмножества C. Схема реляционной базы данных определяется как кортеж S = ( D , R , h ), где D — домен атомарных значений (см. реляционную модель для получения дополнительной информации о понятиях домена и атомарного значения ), R — конечный набор имен отношений, а

ч : Р → 2 ^С

функция , которая связывает заголовок с каждым именем отношения в R. (Обратите внимание, что это упрощение полной реляционной модели, где есть более одного домена, и заголовок — это не просто набор имен столбцов, но и отображение этих имен столбцов в домен.) Для заданного домена D мы определяем кортеж над D как частичную функцию , которая отображает некоторые имена столбцов в атомарное значение в D. Примером может быть (имя: "Гарри", возраст: 25).

т : С ⇸ D

Множество всех кортежей над D обозначается как T _D. Подмножество C, для которого определен кортеж t, называется доменом t ( не путать с доменом в схеме) и обозначается как dom ( t ).

Наконец, мы определяем реляционную базу данных , заданную схемой S = ( D , R , h ) как функцией

дБ : Р → 2 ^{Т _Д}

который отображает имена отношений в R в конечные подмножества T _D , так что для каждого имени отношения r в R и кортежа t в db ( r ) выполняется следующее:

дом ( т ) = ч ( г ).

Последнее требование просто говорит о том, что все кортежи в отношении должны содержать одинаковые имена столбцов, а именно те, которые определены для него в схеме.

Атомы

Для построения формул мы предположим бесконечное множество V переменных кортежа. Формулы определяются с учетом схемы базы данных S = ( D , R , h ) и частичной функции type : V ⇸ 2 ^C , вызываемой при назначении типа , которая назначает заголовки некоторым переменным кортежа. Затем мы определяем множество атомарных формул A [ S , type ] со следующими правилами:

если v и w в V , a в типе ( v ) и b в типе ( w ), то формула v . a = w . b находится в A [ S , тип ],
если v в V , a в типе ( v ) и k обозначает значение в D , то формула v . a = k находится в A [ S , тип ], и
если v в V , r в R и тип ( v ) = h ( r ), то формула r ( v ) находится в A [ S , тип ].

Примерами атомов являются:

( t .age = s .age) — t имеет атрибут age и s имеет атрибут age с тем же значением
( t .name = "Codd") — кортеж t имеет атрибут name и его значение равно "Codd"
Book( t ) — кортеж t присутствует в отношении Book.

Формальная семантика таких атомов определяется с учетом базы данных db над S и связывания переменных кортежа val : V → T _D , которая сопоставляет переменные кортежа с кортежами над доменом в S :

v . a = w . b истинно тогда и только тогда, когда val ( v )( a ) = val ( w )( b )
v . a = k истинно тогда и только тогда, когда val ( v )( a ) = k
r ( v ) истинно тогда и только тогда, когда val ( v ) находится в db ( r )

Формулы

Атомы могут быть объединены в формулы, как это обычно бывает в логике первого порядка, с помощью логических операторов ∧ (и), ∨ (или) и ¬ (не), и мы можем использовать квантификатор существования (∃) и квантификатор всеобщности (∀) для связывания переменных. Мы определяем множество формул F [ S , тип ] индуктивно с помощью следующих правил:

каждый атом в A [ S , тип ] также находится в F [ S , тип ]
если f ₁ и f ₂ находятся в F [ S , тип ] , то формула f ₁ ∧ f ₂ также находится в F [ S , тип ]
если f ₁ и f ₂ находятся в F [ S , тип ] , то формула f ₁ ∨ f ₂ также находится в F [ S , тип ]
если f находится в F [ S , тип ] , то формула ¬ f также находится в F [ S , тип ]
если v в V , H заголовок и f формула в F [ S , тип _{[ v -> H ]} ] , то формула ∃ v : H ( f ) также находится в F [ S , тип ], где тип _{[ v -> H ]} обозначает функцию, которая равна типу, за исключением того, что она отображает v в H ,
если v в V , H заголовок и f формула в F [ S , тип _{[ v -> H ]} ] , то формула ∀ v : H ( f ) также находится в F [ S , тип ]

Примеры формул:

t .name = "CJ Дата" ∨ t .name = "H. Дарвен"
Книга( t ) ∨ Журнал( t )
∀ t : {автор, название, тема} ( ¬ ( Книга( t ) ∧ t .author = "Дата CJ" ∧ ¬ ( t .subject = "реляционная модель")))

Обратите внимание, что последняя формула утверждает, что все книги, написанные CJ Date, имеют в качестве своего предмета реляционную модель. Как обычно, мы опускаем скобки, если это не вызывает двусмысленности относительно семантики формулы.

Мы предположим, что квантификаторы квантифицируют по вселенной всех кортежей по домену в схеме. Это приводит к следующей формальной семантике для формул, заданных базой данных db по S и связыванием переменной кортежа val : V -> T _D :

f ₁ ∧ f ₂ истинно тогда и только тогда, когда f ₁ истинно и f ₂ истинно,
f ₁ ∨ f ₂ истинно тогда и только тогда, когда f ₁ истинно или f ₂ истинно или оба истинны,
¬ f истинно тогда и только тогда, когда f не истинно,
∃ v : H ( f ) истинно тогда и только тогда, когда существует кортеж t над D такой, что dom ( t ) = H и формула f истинна для val _{[ v -> t ]} , и
∀ v : H ( f ) истинно тогда и только тогда, когда для всех кортежей t над D таких, что dom ( t ) = H , формула f истинна для val _{[ v -> t ]} .

Запросы

Наконец, мы определяем, как выглядит выражение запроса, учитывая схему S = ( D , R , h ):

{ v : H | f ( v ) }

где v — переменная кортежа, H — заголовок, а f ( v ) — формула в F [ S , type ], где type = { ( v , H ) } и v — единственная свободная переменная. Результатом такого запроса для заданной базы данных db над S является набор всех кортежей t над D с dom ( t ) = H , таких что f истинно для db и val = { ( v , t ) }.

Примеры выражений запроса:

{ t : {имя} | ∃ s : {имя, заработная плата} ( Сотрудник( и ) ∧ s .заработная плата = 50.000 ∧ t .имя = s .имя ) }
{ t : {поставщик, статья} | ∃ s : {s#, sname} ( Поставщик( s ) ∧ s .sname = t .поставщик ∧ ∃ p : {p#, pname} ( Продукт( p ) ∧ p .pname = t .статья ∧ ∃ a : {s#, p#} ( Поставки( a ) ∧ s .s# = a .s# ∧ a .p# = p .p# ))) }

Семантическое и синтаксическое ограничение исчисления

Запросы, не зависящие от домена

Поскольку семантика квантификаторов такова, что они квантифицируют все кортежи по домену в схеме, может случиться так, что запрос может вернуть другой результат для определенной базы данных, если предполагается другая схема. Например, рассмотрим две схемы S ₁ = ( D ₁ , R , h ) и S ₂ = ( D ₂ , R , h ) с доменами D ₁ = { 1 }, D ₂ = { 1, 2 }, именами отношений R = { "r ₁ " } и заголовками h = { ("r ₁ ", {"a"}) }. Обе схемы имеют общий экземпляр:

db = { ( "r ₁ ", { ("a", 1) } ) }

Если мы рассмотрим следующее выражение запроса

{ т : {а} | т .а = т .а }

то его результат в db будет либо { (a : 1) } при S ₁ , либо { (a : 1), (a : 2) } при S ₂ . Также будет ясно, что если мы возьмем домен как бесконечное множество, то результат запроса также будет бесконечным. Чтобы решить эти проблемы, мы ограничим наше внимание теми запросами, которые независимы от домена , т. е. запросами, которые возвращают один и тот же результат для базы данных при всех ее схемах.

Интересным свойством этих запросов является то, что если мы предположим, что переменные кортежа ранжируются по кортежам в так называемом активном домене базы данных, который является подмножеством домена, которое встречается по крайней мере в одном кортеже в базе данных или в выражении запроса, то семантика выражений запроса не меняется. Фактически, во многих определениях исчисления кортежей именно так определяется семантика квантификаторов, что делает все запросы по определению независимыми от домена.

Безопасные запросы

Чтобы ограничить выражения запроса таким образом, чтобы они выражали только запросы, независимые от домена, обычно вводится синтаксическое понятие безопасного запроса . Чтобы определить, является ли выражение запроса безопасным, мы выведем два типа информации из запроса. Первый — связана ли пара переменная-столбец t . a со столбцом отношения или константой, а второй — приравнены ли две пары переменная-столбец напрямую или косвенно (обозначается t . v == s . w ).

Для вывода ограниченности введем следующие правила рассуждений:

в " v . a = w . b " не связана ни одна пара переменная-столбец,
в " v . a = k " пара переменная-столбец v . a связана,
в " r ( v ) " все пары v . a связаны для a в типе ( v ),
в " f ₁ ∧ f ₂ " связаны все пары, которые связаны либо в f _{1 ,} либо в f ₂ ,
в " f ₁ ∨ f ₂ " связаны все пары, которые связаны как в f _{1 ,} так и в f ₂ ,
в "¬ f " пары не связаны,
в "∃ v : H ( f ) " пара w . a связана, если она связана в f и w <> v , и
в " ∀ v : H ( f ) " пара w . a связана, если она связана в f и w <> v .

Для вывода эквивалентности введем следующие правила рассуждения (наряду с обычными правилами рассуждения для отношений эквивалентности: рефлексивность, симметрия и транзитивность):

в " v . a = w . b " утверждается, что v . a == w . b ,
в " v . a = k " пары не приравниваются,
в " r ( v )" пары не приравниваются,
в " f ₁ ∧ f ₂ " выполняется, что v . a == w . b, если это выполняется либо в f _{1 ,} либо в f ₂ ,
в " f ₁ ∨ f ₂ " выполняется, что v . a == w . b, если это выполняется как в f _{1 ,} так и в f ₂ ,
в "¬ f " пары не приравниваются,
в "∃ v : H ( f ) " выполняется, что w . a == x . b, если это выполняется в f и w <> v и x <> v , и
в " ∀ v : H ( f ) " выполняется, что w . a == x . b, если это выполняется в f и w <> v и x <> v .

Затем мы говорим, что выражение запроса { v : H | f(v) } является безопасным , если

для каждого имени столбца a в H мы можем вывести, что v . a приравнивается к связанной паре в f ,
для каждого подвыражения f вида "∀ w : G ( g ) " мы можем вывести, что для каждого имени столбца a в G мы можем вывести, что w . a приравнивается к связанной паре в g , и
для каждого подвыражения f вида «∃ w : G ( g ) » мы можем вывести, что для каждого имени столбца a в G мы можем вывести, что w . a приравнивается к связанной паре в g .

Ограничение на безопасные выражения запросов не ограничивает выразительность, поскольку все доменно-независимые запросы, которые могут быть выражены, также могут быть выражены безопасным выражением запроса. Это можно доказать, показав, что для схемы S = ( D , R , h ), заданного набора констант K в выражении запроса, переменной кортежа v и заголовка H мы можем построить безопасную формулу для каждой пары v . a с a в H , которая утверждает, что ее значение находится в активном домене. Например, предположим, что K = {1,2}, R = {"r"} и h = { ("r", {"a, "b"}) }, тогда соответствующая безопасная формула для v .b будет:

v .b = 1 ∨ v .b = 2 ∨ ∃ w ( r(w) ∧ ( v .b = w .a ∨ v .b = w .b ) )

Эта формула, таким образом, может быть использована для переписывания любого небезопасного выражения запроса в эквивалентное безопасное выражение запроса путем добавления такой формулы для каждой переменной v и имени столбца a в его типе, где она используется в выражении. Фактически это означает, что мы позволяем всем переменным находиться в диапазоне активного домена, что, как уже объяснялось, не меняет семантики, если выраженный запрос не зависит от домена.

Системы

DES – образовательный инструмент для работы с реляционным исчислением кортежей и другими формальными языками
WinRDBI – образовательный инструмент для работы с реляционным исчислением кортежей и другими формальными языками

Смотрите также

Ссылки

Эдгар Ф. Кодд : Реляционная модель данных для больших общих банков данных. Communications of the ACM , 13(6):377–387, 1970.