stringtranslate.com

Соответствие схемы

Термины сопоставление схемы и отображение часто используются взаимозаменяемо для процесса базы данных . В этой статье мы различаем их следующим образом: сопоставление схемы — это процесс определения того, что два объекта семантически связаны (область действия этой статьи), в то время как отображение относится к преобразованиям между объектами. Например, в двух схемах DB1.Student (Имя, SSN, Уровень, Специальность, Оценки) и DB2.Grad-Student (Имя, ID, Специальность, Оценки); возможными соответствиями будут: DB1.Student ≈ DB2.Grad-Student; DB1.SSN = DB2.ID и т. д., а возможными преобразованиями или отображениями будут: DB1.Marks в DB2.Grades (100–90 A; 90–80 B: и т. д.).

Автоматизация этих двух подходов была одной из основных задач интеграции данных . В общем случае невозможно полностью автоматически определить различные соответствия между двумя схемами — в первую очередь из-за различной и часто не объясненной или не документированной семантики двух схем.

Препятствия

Среди прочего, общие проблемы автоматизации сопоставления и отображения были ранее классифицированы в [1] , особенно для схем реляционных БД; и в [2] – довольно полный список неоднородностей, не ограничивающийся реляционной моделью, распознающей схематические и семантические различия/неоднородность. Большинство этих неоднородностей существуют, потому что схемы используют разные представления или определения для представления одной и той же информации (конфликты схем); ИЛИ разные выражения, единицы измерения и точность приводят к конфликтующим представлениям одних и тех же данных (конфликты данных). [1] Исследования в области сопоставления схем стремятся обеспечить автоматизированную поддержку процесса поиска семантических соответствий между двумя схемами. Этот процесс усложняется из-за неоднородностей на следующих уровнях [3]

Соответствие схемы

[4] [5] [6] [7] [8]

Методология

Обсуждается общая методология для задачи интеграции схем или задействованных видов деятельности. [5] По мнению авторов, можно просмотреть интеграцию.

Подходы

Подходы к интеграции схем можно в целом классифицировать как те, которые используют либо только информацию схемы, либо информацию схемы и уровня экземпляра. [4] [5]

Сопоставители на уровне схемы учитывают только информацию схемы, а не данные экземпляра. Доступная информация включает обычные свойства элементов схемы, такие как имя, описание, тип данных, типы отношений (часть-из, является-а и т. д.), ограничения и структуру схемы. Работая на уровне элемента (атомарные элементы, такие как атрибуты объектов) или структуры (сопоставление комбинаций элементов, которые появляются вместе в структуре), эти свойства используются для идентификации соответствующих элементов в двух схемах. Сопоставители на основе языка или лингвистики используют имена и текст (т. е. слова или предложения) для поиска семантически схожих элементов схемы. Сопоставители на основе ограничений используют ограничения, часто содержащиеся в схемах. Такие ограничения используются для определения типов данных и диапазонов значений, уникальности, необязательности, типов отношений и кардинальностей и т. д. Ограничения в двух входных схемах сопоставляются для определения схожести элементов схемы.

Сопоставители уровня экземпляра используют данные уровня экземпляра для сбора важной информации о содержании и значении элементов схемы. Обычно они используются в дополнение к сопоставлениям уровня схемы для повышения уверенности в результатах сопоставления, особенно когда информации, доступной на уровне схемы, недостаточно. Сопоставители на этом уровне используют лингвистическую и основанную на ограничениях характеристику экземпляров. Например, используя лингвистические методы, можно рассмотреть экземпляры Dept, DeptName и EmpName, чтобы сделать вывод, что DeptName является лучшим кандидатом на соответствие для Dept, чем EmpName. Ограничения, такие как почтовые индексы, должны быть длиной в 5 цифр, или формат телефонных номеров может позволить сопоставлять такие типы данных экземпляра. [9]

Гибридные сопоставители напрямую объединяют несколько подходов к сопоставлению для определения кандидатов на соответствие на основе нескольких критериев или источников информации. Большинство этих методов также используют дополнительную информацию, такую ​​как словари, тезаурусы и предоставленную пользователем информацию о совпадениях или несовпадениях [10]

Повторное использование информации о сопоставлении Другая инициатива заключалась в повторном использовании предыдущей информации о сопоставлении в качестве вспомогательной информации для будущих задач сопоставления. Мотивацией для этой работы является то, что структуры или подструктуры часто повторяются, например, в схемах в домене электронной коммерции. Однако такое повторное использование предыдущих сопоставлений должно быть тщательным выбором. Возможно, что такое повторное использование имеет смысл только для некоторой части новой схемы или только в некоторых доменах. Например, Salary и Income могут считаться идентичными в приложении для расчета заработной платы, но не в приложении для налоговой отчетности. В таком повторном использовании есть несколько открытых проблем, которые заслуживают дальнейшей проработки.

Примеры прототипов Обычно реализация таких методов сопоставления может быть классифицирована как основанная на правилах или основанная на обучающем устройстве система. Взаимодополняющая природа этих различных подходов побудила ряд приложений, использующих комбинацию методов в зависимости от характера рассматриваемой области или приложения. [4] [5]

Выявленные связи

Типы отношений между объектами, которые идентифицируются в конце процесса сопоставления, обычно являются типами с заданной семантикой, такой как перекрытие, непересекаемость, исключение, эквивалентность или подчинение. Логические кодировки этих отношений — это то, что они означают. Среди прочего, была представлена ​​ранняя попытка использовать логику описания для интеграции схем и идентификации таких отношений. [11] Несколько современных инструментов сопоставления сегодня [4] [7] и те, которые были протестированы в Инициативе по оценке сопоставления онтологий [12], способны идентифицировать множество таких простых (совпадения на уровне элементов 1:1 / 1:n / n:1) и сложных совпадений (совпадения на уровне элементов или структур n:1 / n:m).

Оценка качества

Качество сопоставления схем обычно измеряется точностью и полнотой . В то время как точность измеряет количество правильно сопоставленных пар из всех сопоставленных пар, полнота измеряет, сколько фактически сопоставленных пар.

Смотрите также

Ссылки

  1. ^ ab Kim, W. & Seo, J. (декабрь 1991 г.). «Классификация схем и неоднородности данных в системах с несколькими базами данных». Computer 24, 12 .
  2. ^ Шет, А. П. и Кашьяп, В. (1993). «Так далеко (схематически), но так близко (семантически)». В трудах конференции IFIP WG 2.6 по семантике баз данных, посвященной взаимодействующим системам баз данных .
  3. ^ Sheth, AP (1999). «Изменение фокуса на интероперабельности в информационных системах: от системы, синтаксиса, структуры к семантике». В Interoperating Geographic Information Systems. MF Goodchild, MJ Egenhofer, R. Fegeas и CA Kottman (ред.), Kluwer, Academic Publishers .
  4. ^ abcd Рам, Э. и Бернстайн, П. (2001). «Обзор подходов к автоматическому сопоставлению схем». Журнал VLDB 10, 4 .
  5. ^ abcd Батини, К., Лензерини, М. и Навате, С.Б. (1986). «Сравнительный анализ методологий интеграции схем баз данных». ACM Comput. Surv. 18, 4 .{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  6. ^ Доан, А. и Халеви, А. (2005). «Исследования семантической интеграции в сообществе баз данных». AI Mag. 26, 1 .
  7. ^ ab Калфоглу, И. и Шорлеммер, М. (2003). «Отображение онтологий: современное состояние». Knowl. Eng. Rev. 18, 1 .
  8. ^ Чой, Н., Сонг, И. и Хан, Х. (2006). «Обзор отображения онтологий». SIGMOD Rec. 35, 3 .{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  9. ^ Перейра Нунес, Бернардо; Мера, Александр; Касанова, Марко Антонио; П. Паес Леме, Луис Андре; Дитце, Стефан (2013). «Комплексное сопоставление свойств типов данных RDF». Приложения баз данных и экспертных систем . Конспект лекций по информатике. Том 8055. С. 195–208. doi :10.1007/978-3-642-40285-2_18. ISBN 978-3-642-40284-5.
  10. ^ Хамдака, Мохаммад; Тахвилдари, Ладан (2014). «Побег из тюрьмы: решение проблемы привязки к поставщику облачных услуг с помощью универсальной схемы». 8-й международный симпозиум IEEE 2014 года по обслуживанию и развитию сервисно-ориентированных и облачных систем . стр. 37–46. doi :10.1109/MESOCA.2014.13. ISBN 978-1-4799-6152-8. S2CID  14499875.
  11. ^ Ашока Савасере; Амит П. Шет; Сунит К. Гала; Шамкант Б. Навате; Х. Маркус (1993). «О применении классификации к интеграции схем». RIDE-IMS .
  12. ^ Инициатива по оценке выравнивания онтологий::2006

Внешние ссылки