Модель сущность-связь

Модель «сущность-связь» (или модель ER ) описывает взаимосвязанные вещи, представляющие интерес в конкретной области знаний. Базовая модель ER состоит из типов сущностей (которые классифицируют интересующие объекты) и определяет отношения, которые могут существовать между сущностями (экземплярами этих типов сущностей).

В разработке программного обеспечения модель ER обычно формируется для представления вещей, которые бизнесу необходимо запомнить для выполнения бизнес-процессов . Следовательно, модель ER становится абстрактной моделью данных ^[1] , которая определяет структуру данных или информации, которая может быть реализована в базе данных , обычно в реляционной базе данных .

Моделирование сущностей и связей было разработано для баз данных и проектирования Питером Ченом и опубликовано в статье 1976 года ^[2] с вариантами идеи, существовавшими ранее ^[3] , но сегодня оно обычно используется для обучения студентов основам структуры базы данных. Некоторые модели ER показывают сущности супер- и подтипа, связанные отношениями обобщения-специализации, ^[4] и модель ER может использоваться также в спецификации онтологий , специфичных для предметной области .

Введение

Модель ER обычно является результатом систематического анализа, позволяющего определить и описать, какие данные создаются и необходимы процессам в определенной области бизнеса. Обычно он представляет собой записи объектов и событий, которые отслеживаются и управляются бизнес-процессами, а не сами процессы. Обычно он изображается в графической форме в виде прямоугольников ( сущностей ), соединенных линиями ( отношениями ), выражающими ассоциации и зависимости между сущностями. Это может быть выражено и в словесной форме, например: одно здание может быть разделено на ноль и более квартир, но одна квартира может располагаться только в одном доме.

Сущности могут быть не только отношениями, но и дополнительными свойствами ( атрибутами ), которые включают в себя идентификаторы, называемые «первичными ключами». Диаграммы, созданные для представления атрибутов, а также сущностей и отношений, можно назвать диаграммами сущность-атрибут-связь, а не моделями сущность-связь.

Модель ER обычно реализуется в виде базы данных . В простой реализации реляционной базы данных каждая строка таблицы представляет один экземпляр типа сущности, а каждое поле в таблице представляет тип атрибута. В реляционной базе данных связь между сущностями реализуется путем хранения первичного ключа одной сущности в виде указателя или «внешнего ключа» в таблице другой сущности.

Существует традиция строить модели ER/данных на двух или трех уровнях абстракции. Приведенная ниже концептуально-логико-физическая иерархия используется в других видах спецификаций и отличается от трехсхемного подхода к разработке программного обеспечения .

Концептуальная модель данных: Это модель ER самого высокого уровня, поскольку она содержит наименьшую детализацию, но устанавливает общий объем того, что должно быть включено в набор моделей. Концептуальная модель ER обычно определяет основные справочные объекты данных, которые обычно используются организацией. Разработка концептуальной модели электронной отчетности в масштабе всего предприятия полезна для поддержки документирования архитектуры данных в организации.; Концептуальная модель ER может использоваться в качестве основы для одной или нескольких логических моделей данных (см. ниже). Целью концептуальной модели ER является установление общности структурных метаданных для объектов основных данных между набором логических моделей ER. Концептуальная модель данных может использоваться для формирования отношений общности между моделями ER в качестве основы для интеграции моделей данных.
Логическая модель данных: Логическая модель ER не требует концептуальной модели ER, особенно если объем логической модели ER включает только разработку отдельной информационной системы. Логическая модель ER содержит больше деталей, чем концептуальная модель ER. В дополнение к объектам основных данных теперь определены объекты операционных и транзакционных данных. Детали каждого объекта данных разрабатываются и устанавливаются отношения между этими объектами данных. Однако логическая модель ER разрабатывается независимо от конкретной системы управления базами данных , в которой она может быть реализована.
Физическая модель данных: На основе каждой логической модели ER можно разработать одну или несколько физических моделей ER. Физическая модель ER обычно разрабатывается для реализации в виде базы данных. Следовательно, каждая физическая модель ER должна содержать достаточно деталей для создания базы данных, и каждая физическая модель ER зависит от технологии, поскольку каждая система управления базой данных несколько отличается.; Физическая модель обычно создается в структурных метаданных системы управления базой данных в виде объектов реляционной базы данных, таких как таблицы базы данных , индексов базы данных , таких как индексы уникальных ключей , и ограничений базы данных, таких как ограничение внешнего ключа или ограничение общности. Модель ER также обычно используется для разработки модификаций объектов реляционной базы данных и для поддержки структурных метаданных базы данных.

На первом этапе проектирования информационной системы эти модели используются во время анализа требований для описания информационных потребностей или типа информации , которая должна храниться в базе данных . Технику моделирования данных можно использовать для описания любой онтологии (т. е. обзора и классификации используемых терминов и их взаимосвязей) для определенной области интересов . В случае проектирования информационной системы, основанной на базе данных, концептуальная модель данных на более позднем этапе (обычно называемом логическим проектированием) сопоставляется с логической моделью данных , такой как реляционная модель ; это, в свою очередь, отображается в физической модели во время физического проектирования. Иногда обе эти фазы называют «физическим проектированием».

Компоненты

Две связанные сущности

Сущность с атрибутом

Связь с атрибутом

Основной ключ

Сущность можно определить как вещь, способную к независимому существованию, которая может быть однозначно идентифицирована и способна хранить данные. ^[5] Сущность представляет собой абстракцию сложностей предметной области. Когда мы говорим о сущности, мы обычно говорим о каком-то аспекте реального мира, который можно отличить от других аспектов реального мира. ^[6]

Сущность — это вещь, которая существует физически или логически. Сущностью может быть физический объект, такой как дом или машина (они существуют физически), событие, такое как продажа дома или автосервис, или такое понятие, как транзакция или заказ клиента (они существуют логически — как концепция). ). Хотя термин «сущность» используется чаще всего, вслед за Ченом нам следует различать сущность и тип сущности. Тип сущности — это категория. Сущность, строго говоря, является экземпляром данного типа сущности. Обычно существует много экземпляров типа сущности. Поскольку термин «тип объекта» несколько громоздкий, большинство людей склонны использовать его как синоним этого термина.

Сущности можно рассматривать как существительные . ^[7] Примеры: компьютер, сотрудник, песня, математическая теорема и т. д.

Отношения отражают то , как сущности связаны друг с другом. Отношения можно рассматривать как глаголы , связывающие два или более существительных. ^[7] Примеры: отношения владения между компанией и компьютером, отношения контроля между сотрудником и отделом, отношения исполнителя между артистом и песней, отношения доказательства между математиком и гипотезой и т. д.

Описанный выше лингвистический аспект модели используется в декларативном языке запросов к базе данных ERROL, который имитирует конструкции естественного языка . Семантика и реализация ERROL основаны на измененной реляционной алгебре (RRA), реляционной алгебре , адаптированной к модели сущность-связь и отражающей ее лингвистический аспект.

И сущности, и отношения могут иметь атрибуты. Примеры: сущность « Сотрудник» может иметь атрибут «Номер социального страхования» (SSN), а доказанные отношения могут иметь атрибут « Дата» .

Все объекты, за исключением слабых объектов, должны иметь минимальный набор уникально идентифицирующих атрибутов, которые могут использоваться в качестве уникального / первичного ключа.

Диаграммы сущность-связь (ERD) не отображают отдельные сущности или отдельные экземпляры отношений. Скорее, они показывают наборы сущностей (все сущности одного типа сущностей) и наборы отношений (все отношения одного типа отношений). Примеры: конкретная песня является сущностью; коллекция всех песен в базе данных представляет собой набор сущностей; съеденные отношения между ребенком и его обедом — это единые отношения ; набор всех таких отношений «ребенок-обед» в базе данных является набором отношений. Другими словами, набор отношений соответствует отношению в математике , а отношение соответствует члену отношения.

Также могут быть указаны определенные ограничения мощности наборов отношений.

Физический вид показывает, как на самом деле хранятся данные.

Отношения, роли и мощности

В оригинальной статье Чена он приводит пример отношений и их ролей. Он описывает отношения «брак» и его две роли «муж» и «жена».

Человек играет роль мужа в браке (отношениях), а другой человек играет роль жены в (том же) браке. Эти слова являются существительными. Это неудивительно; для обозначения вещей требуется существительное.

Терминология Чена также применялась к более ранним идеям. Линии, стрелки и «гусиные лапки» на некоторых диаграммах больше связаны с более ранними диаграммами Бахмана , чем с диаграммами отношений Чена.

Еще одно распространенное расширение модели Чена — «называть» отношения и роли глаголами или фразами.

Именование ролей

Также стало распространенным называть роли такими фразами, как « является владельцем» и «принадлежит» . Правильные существительные в данном случае — владелец и владение . Таким образом, человек играет роль владельца , а автомобиль играет роль владения, а не человек играет роль , является владельцем и т. д.

Использование существительных имеет прямую выгоду при создании физических реализаций семантических моделей. Когда у человека есть две связи с автомобилем , можно генерировать такие имена, как Owner_person и driver_person , которые сразу имеют смысл. ^[9]

Мощность

Модификации исходной спецификации могут быть полезными. Чен описал кардинальность просмотра. Кроме того, нотация Баркера-Эллиса , используемая в Oracle Designer, использует одну и ту же сторону для минимальной мощности (аналог необязательности) и роли, а для максимальной мощности используется перекрестный взгляд («гусиная лапка»). ^{[ нужны разъяснения ]}

Исследования Меризе , Эльмасри и Навате и других показали, что существует предпочтение односторонних ролей, а также минимальной и максимальной мощности ^[10]^[11]^[12] и исследователи (Фейнерер, Дуллеа и др.) показали, что это более последовательно применительно к n-арным отношениям порядка больше 2. ^[13]^[14]

В Дуллеа и др. можно прочитать: «Нотация «сквозного просмотра», такая как используемая в UML , не эффективно отражает семантику ограничений участия, налагаемых на отношения, степень которых выше двоичной».

У Файнерера говорится: «Проблемы возникают, если мы работаем с семантикой просмотра, используемой для ассоциаций UML. Хартманн ^[15] исследует эту ситуацию и показывает, как и почему различные преобразования терпят неудачу». (Хотя упомянутая «редукция» является ложной, поскольку две диаграммы 3.4 и 3.5 на самом деле одинаковы), а также «Как мы увидим на следующих нескольких страницах, перекрестная интерпретация вводит несколько трудностей, которые препятствуют расширению простых механизмов от бинарных к n-арным ассоциациям».

Два связанных объекта показаны с использованием обозначения «гусиная лапка». В этом примере показана необязательная связь между исполнителем и песней; символы, ближайшие к сущности песни, представляют собой «ноль, один или множество», тогда как у песни есть «один и только один» исполнитель. Таким образом, первое читается как «Исполнитель (может) исполнять «ноль, одну или множество» песен.

В нотации Чена для моделирования сущностей и связей прямоугольники используются для представления наборов сущностей, а ромбы — для представления отношений, подходящих для первоклассных объектов : они могут иметь собственные атрибуты и отношения. Если набор сущностей участвует в наборе отношений, они соединяются линией.

Атрибуты изображаются в виде овалов и соединяются линией ровно с одним объектом или набором отношений.

Ограничения мощности выражаются следующим образом:

двойная линия указывает ограничение участия , тотальность или сюръективность : все сущности в наборе сущностей должны участвовать хотя бы в одном отношении в наборе отношений;
стрелка от набора сущностей к набору отношений указывает ключевое ограничение , т.е. инъективность : каждый объект набора сущностей может участвовать не более чем в одном отношении в наборе отношений;
толстая линия указывает на то и другое, т.е. биективность : каждый объект в наборе сущностей участвует ровно в одном отношении.
подчеркнутое имя атрибута указывает на то, что он является ключом : две разные сущности или отношения с этим атрибутом всегда имеют разные значения для этого атрибута.

Атрибуты часто опускаются, поскольку они могут загромождать диаграмму; другие методы построения диаграмм часто перечисляют атрибуты сущностей внутри прямоугольников, нарисованных для наборов сущностей.

Связанные методы соглашения о построении диаграмм

Обозначение Бахмана
Обозначение Баркера
ВЫРАЖАТЬ
IDEF1X
§ Обозначение «гусиной лапки» (также обозначение Мартина )
(мин, макс) - обозначения Жана-Раймона Абриала в 1974 году.
Диаграммы классов UML
Меризе
Объектно-ролевое моделирование

Обозначение «гусиной лапки»

Обозначение «вороньей лапки», начало которого восходит к статье Гордона Эвереста (1976), ^[16] используется в нотации Баркера , методе структурированного системного анализа и проектирования (SSADM) и инженерии информационных технологий . Диаграммы «гусиные лапки» представляют объекты в виде блоков, а отношения — в виде линий между блоками. Различные фигуры на концах этих линий представляют относительную мощность отношений.

Обозначение «вороньей лапки» использовалось в ICL в 1978 году ^[17] и применялось в консультативной практике CACI . Многие консультанты CACI (включая Ричарда Баркера) пришли из ICL, а затем перешли в Oracle UK, где разработали ранние версии инструментов Oracle CASE , познакомив с этой системой обозначений более широкую аудиторию.

При таком обозначении отношения не могут иметь атрибутов. При необходимости отношения повышаются до самостоятельных сущностей: например, если необходимо зафиксировать, где и когда артист исполнил песню, вводится новая сущность «исполнение» (с атрибутами, отражающими время и место), и отношение артиста к песне становится косвенным отношением через исполнение (исполнитель-исполняет-исполнение, исполнительские особенности-песня).

Для обозначения мощности используются три символа:

кольцо означает «ноль»
тире означает « один»
гусиная лапка символизирует «много» или «бесконечное»

Эти символы используются парами для обозначения четырех типов кардинальности, которые сущность может иметь в отношениях. Внутренний компонент обозначения представляет минимум, а внешний компонент представляет максимум.

кольцо и тире → минимум ноль, максимум один (необязательно)
тире и тире → минимум один, максимум один (обязательно)
кольцо и «гусиная лапка » → минимум ноль, максимум много (необязательно)
тире и «гусиная лапка » → минимум один, максимум много (обязательно)

Проблемы с удобством использования модели

При использовании смоделированной базы данных пользователи могут столкнуться с двумя хорошо известными проблемами, когда возвращаемые результаты означают нечто иное, чем результаты, предполагаемые автором запроса.

Во-первых, это «ловушка для фанатов». Это происходит с (главной) таблицей, которая связана с несколькими таблицами отношением «один ко многим». Проблема получила свое название от того, как выглядит модель, когда она нарисована на диаграмме «сущность-связь»: связанные таблицы «разветвляются» от главной таблицы. Этот тип модели похож на звездообразную схему — тип модели, используемый в хранилищах данных . При попытке вычислить суммы по агрегатам с использованием стандартного SQL для главной таблицы могут возникнуть неожиданные (и неправильные) результаты. Решение состоит в том, чтобы скорректировать модель или SQL. Эта проблема возникает в основном в базах данных систем поддержки принятия решений, и программное обеспечение, которое запрашивает такие системы, иногда включает специальные методы для решения этой проблемы.

Вторая проблема – это «ловушка пропасти». Ловушка пропасти возникает, когда модель предполагает существование связи между типами сущностей, но между определенными экземплярами сущностей не существует пути. Например, в здании есть одна или несколько комнат, в которых находится ноль или более компьютеров. Можно было бы ожидать, что можно будет запросить модель, чтобы увидеть все компьютеры в здании. Однако компьютеры, которые в данный момент не закреплены за комнатой (поскольку они находятся в ремонте или где-то еще), не отображаются в списке. Другая связь между зданием и компьютерами необходима для захвата всех компьютеров в здании. Эта последняя проблема моделирования является результатом неспособности уловить в модели все отношения, существующие в реальном мире. Подробности см. в разделе «Моделирование сущностей и связей 2».

В семантическом моделировании

Семантическая модель

Семантическая модель — это модель концепций, ее иногда называют «платформенно-независимой моделью». Это интенсиональная модель. По крайней мере, со времен Карнапа хорошо известно, что: ^[18]

«...полное значение понятия складывается из двух аспектов, его интенсионала и его расширения. Первая часть включает в себя встраивание понятия в мир понятий в целом, т.е. совокупность всех отношений к другим понятиям. Вторая часть устанавливает референциальное значение понятия, то есть его аналог в реальном или возможном мире».

Модель расширения

Экстенсиональная модель — это модель, которая сопоставляется с элементами конкретной методологии или технологии и, таким образом, является «моделью, специфичной для платформы». Спецификация UML прямо заявляет, что ассоциации в моделях классов являются экстенсиональными, и это фактически самоочевидно, если принять во внимание обширный набор дополнительных «украшений», предоставляемых спецификацией сверх тех, которые предоставляются любым из предыдущих кандидатов «языков семантического моделирования». «UML как нотация моделирования данных, часть 2»

Происхождение сущности-отношения

Питер Чен, отец ER-моделирования, сказал в своей основополагающей статье:

« Модель сущность-связь принимает более естественную точку зрения, согласно которой реальный мир состоит из сущностей и отношений. Она включает в себя некоторую важную семантическую информацию о реальном мире » . ^[2]

В своей оригинальной статье 1976 года Чен явно противопоставляет диаграммы сущность-связь методам моделирования записей:

« Диаграмма структуры данных представляет собой представление организации записей, а не точное представление сущностей и отношений » .

Несколько других авторов также поддерживают программу Чена: ^[19]^[20]^[21]^[22]^[23]

Философский расклад

Чэнь соответствует философским традициям времен древнегреческих философов: Платона и Аристотеля . ^[24] Сам Платон связывает знание с пониманием неизменных Форм (а именно, архетипов или абстрактных представлений многих типов вещей и свойств) и их отношений друг к другу.

Ограничения

Модель ER в первую очередь концептуальна и представляет собой онтологию, выражающую предикаты в области знаний.
Модели ER легко используются для представления структур реляционных баз данных (после Кодда и Дейта), но не так часто для представления других типов структур данных (хранилищ данных, хранилищ документов и т. д.).
Некоторые обозначения модели ER включают символы, показывающие отношения суперподтипа и взаимное исключение между отношениями; некоторые нет.
Модель ER не показывает историю жизни объекта (как его атрибуты и/или отношения изменяются со временем в ответ на события). Для многих систем такие изменения состояния нетривиальны и достаточно важны, чтобы гарантировать явную спецификацию.
Некоторые ^{[ кто? ]} расширили ER-моделирование с помощью конструкций для представления изменений состояния - подход, поддерживаемый первоначальным автором; ^[25] примером является Anchor Modeling .
Другие моделируют изменения состояний отдельно, используя диаграммы переходов состояний или какой-либо другой метод моделирования процессов .
Многие другие виды диаграмм рисуются для моделирования других аспектов систем, включая 14 типов диаграмм, предлагаемых UML . ^[26]
Сегодня даже там, где ER-моделирование может быть полезным, оно встречается редко, поскольку многие используют инструменты, поддерживающие аналогичные типы моделей, в частности диаграммы классов для объектно-ориентированного программирования и модели данных для систем управления реляционными базами данных . Некоторые из этих инструментов могут генерировать код из диаграмм и реконструировать диаграммы из кода.
В ходе опроса Броди и Лью ^[27] не смогли найти ни одного примера моделирования сущностей и связей в выборке из десяти компаний из списка Fortune 100. Бадиа и Лемир ^[28] винят в этом неиспользовании отсутствие руководства, а также отсутствие преимуществ, таких как отсутствие поддержки интеграции данных.
Расширенная модель «сущность-связь» (моделирование EER) вводит несколько концепций, не связанных с ER-моделированием, но тесно связанных с объектно-ориентированным проектированием, например, отношения is-a .
Для моделирования темпоральных баз данных были рассмотрены многочисленные расширения ER. ^[29] Точно так же модель ER оказалась непригодной для многомерных баз данных (используемых в приложениях OLAP ); В этой области еще не появилось доминирующей концептуальной модели, хотя они обычно вращаются вокруг концепции куба OLAP (также известного как куб данных в этой области). ^[30]

Смотрите также

Ассоциативная сущность
Карта понятий - диаграмма, показывающая взаимосвязи между понятиями.
Проектирование базы данных . Проектирование способа хранения данных в базе данных.
Диаграмма структуры данных — визуальное представление модели данных определенного типа, которая содержит объекты, их отношения и наложенные на них ограничения.
Расширенная модель «сущность-связь» — модель данных
Структура архитектуры предприятия . Структура, в которой определяется архитектура компании.
Модель Entity Data – платформа объектно-реляционного сопоставления с открытым исходным кодом.
Структурные диаграммы диапазона значений
Сравнение инструментов моделирования данных . Сравнение известных инструментов моделирования данных.
Онтология - спецификация концептуализации.
Объектно-ролевое моделирование – Техника программирования
Трехсхемный подход – Подход к построению информационных систем
Структурированная модель отношений сущностей
Базы данных, не зависящие от схемы - тип банка данных

дальнейшее чтение

Чен, Питер (2002). «Моделирование сущностей и связей: исторические события, будущие тенденции и извлеченные уроки» (PDF) . Пионеры программного обеспечения . Спрингер-Верлаг. стр. 296–310. ISBN 978-3-540-43081-0.
Баркер, Ричард (1990). CASE-метод: моделирование отношений сущностей. Аддисон-Уэсли. ISBN 978-0201416961.
Баркер, Ричард (1990). CASE-метод: задачи и результаты. Аддисон-Уэсли. ISBN 978-0201416978.
Маннила, Хейкки ; Райха, Кари-Йуко (1992). Проектирование реляционных баз данных . Аддисон-Уэсли. ISBN 978-0201565232.
Тальхайм, Бернхард (2000). Моделирование сущностей и связей: основы технологии баз данных . Спрингер. ISBN 978-3-540-65470-4.
Баги, Сикха; Эрп, Ричард Уолш (2022). Проектирование базы данных с использованием диаграмм «сущность-связь» . Публикации Ауэрбаха . ISBN 978-1-032-01718-1.

Внешние ссылки

В Wikimedia Commons есть медиафайлы, связанные с моделями Entity-Relationship .

«Модель отношений сущностей: к единому представлению данных»
Моделирование отношений сущностей
Логические структуры данных (LDS) — Тони Дрюри «Начало работы».
Обозначение «гусиной лапки»
Виды моделей данных и как их называть, презентация Дэвида Хэя