Термины сопоставление схемы и отображение часто используются взаимозаменяемо для процесса базы данных . В этой статье мы различаем их следующим образом: сопоставление схемы — это процесс определения того, что два объекта семантически связаны (область действия этой статьи), в то время как отображение относится к преобразованиям между объектами. Например, в двух схемах DB1.Student (Имя, SSN, Уровень, Специальность, Оценки) и DB2.Grad-Student (Имя, ID, Специальность, Оценки); возможными соответствиями будут: DB1.Student ≈ DB2.Grad-Student; DB1.SSN = DB2.ID и т. д., а возможными преобразованиями или отображениями будут: DB1.Marks в DB2.Grades (100–90 A; 90–80 B: и т. д.).
Автоматизация этих двух подходов была одной из основных задач интеграции данных . В общем случае невозможно полностью автоматически определить различные соответствия между двумя схемами — в первую очередь из-за различной и часто не объясненной или не документированной семантики двух схем.
Среди прочего, общие проблемы автоматизации сопоставления и отображения были ранее классифицированы в [1] , особенно для схем реляционных БД; и в [2] – довольно полный список неоднородностей, не ограничивающийся реляционной моделью, распознающей схематические и семантические различия/неоднородность. Большинство этих неоднородностей существуют, потому что схемы используют разные представления или определения для представления одной и той же информации (конфликты схем); ИЛИ разные выражения, единицы измерения и точность приводят к конфликтующим представлениям одних и тех же данных (конфликты данных). [1] Исследования в области сопоставления схем стремятся обеспечить автоматизированную поддержку процесса поиска семантических соответствий между двумя схемами. Этот процесс усложняется из-за неоднородностей на следующих уровнях [3]
[4] [5] [6] [7] [8]
Обсуждается общая методология для задачи интеграции схем или задействованных видов деятельности. [5] По мнению авторов, можно просмотреть интеграцию.
Подходы к интеграции схем можно в целом классифицировать как те, которые используют либо только информацию схемы, либо информацию схемы и уровня экземпляра. [4] [5]
Сопоставители на уровне схемы учитывают только информацию схемы, а не данные экземпляра. Доступная информация включает обычные свойства элементов схемы, такие как имя, описание, тип данных, типы отношений (часть-из, является-а и т. д.), ограничения и структуру схемы. Работая на уровне элемента (атомарные элементы, такие как атрибуты объектов) или структуры (сопоставление комбинаций элементов, которые появляются вместе в структуре), эти свойства используются для идентификации соответствующих элементов в двух схемах. Сопоставители на основе языка или лингвистики используют имена и текст (т. е. слова или предложения) для поиска семантически схожих элементов схемы. Сопоставители на основе ограничений используют ограничения, часто содержащиеся в схемах. Такие ограничения используются для определения типов данных и диапазонов значений, уникальности, необязательности, типов отношений и кардинальностей и т. д. Ограничения в двух входных схемах сопоставляются для определения схожести элементов схемы.
Сопоставители уровня экземпляра используют данные уровня экземпляра для сбора важной информации о содержании и значении элементов схемы. Обычно они используются в дополнение к сопоставлениям уровня схемы для повышения уверенности в результатах сопоставления, особенно когда информации, доступной на уровне схемы, недостаточно. Сопоставители на этом уровне используют лингвистическую и основанную на ограничениях характеристику экземпляров. Например, используя лингвистические методы, можно рассмотреть экземпляры Dept, DeptName и EmpName, чтобы сделать вывод, что DeptName является лучшим кандидатом на соответствие для Dept, чем EmpName. Ограничения, такие как почтовые индексы, должны быть длиной в 5 цифр, или формат телефонных номеров может позволить сопоставлять такие типы данных экземпляра. [9]
Гибридные сопоставители напрямую объединяют несколько подходов к сопоставлению для определения кандидатов на соответствие на основе нескольких критериев или источников информации. Большинство этих методов также используют дополнительную информацию, такую как словари, тезаурусы и предоставленную пользователем информацию о совпадениях или несовпадениях [10]
Повторное использование информации о сопоставлении Другая инициатива заключалась в повторном использовании предыдущей информации о сопоставлении в качестве вспомогательной информации для будущих задач сопоставления. Мотивацией для этой работы является то, что структуры или подструктуры часто повторяются, например, в схемах в домене электронной коммерции. Однако такое повторное использование предыдущих сопоставлений должно быть тщательным выбором. Возможно, что такое повторное использование имеет смысл только для некоторой части новой схемы или только в некоторых доменах. Например, Salary и Income могут считаться идентичными в приложении для расчета заработной платы, но не в приложении для налоговой отчетности. В таком повторном использовании есть несколько открытых проблем, которые заслуживают дальнейшей проработки.
Примеры прототипов Обычно реализация таких методов сопоставления может быть классифицирована как основанная на правилах или основанная на обучающем устройстве система. Взаимодополняющая природа этих различных подходов побудила ряд приложений, использующих комбинацию методов в зависимости от характера рассматриваемой области или приложения. [4] [5]
Типы отношений между объектами, которые идентифицируются в конце процесса сопоставления, обычно являются типами с заданной семантикой, такой как перекрытие, непересекаемость, исключение, эквивалентность или подчинение. Логические кодировки этих отношений — это то, что они означают. Среди прочего, была представлена ранняя попытка использовать логику описания для интеграции схем и идентификации таких отношений. [11] Несколько современных инструментов сопоставления сегодня [4] [7] и те, которые были протестированы в Инициативе по оценке сопоставления онтологий [12], способны идентифицировать множество таких простых (совпадения на уровне элементов 1:1 / 1:n / n:1) и сложных совпадений (совпадения на уровне элементов или структур n:1 / n:m).
Качество сопоставления схем обычно измеряется точностью и полнотой . В то время как точность измеряет количество правильно сопоставленных пар из всех сопоставленных пар, полнота измеряет, сколько фактически сопоставленных пар.
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка )