В вычислительной технике связанные данные — это структурированные данные, которые взаимосвязаны с другими данными, поэтому они становятся более полезными через семантические запросы . Они основаны на стандартных веб- технологиях, таких как HTTP , RDF и URI , но вместо того, чтобы использовать их для обслуживания веб-страниц только для людей-читателей, они расширяют их для обмена информацией таким образом, чтобы ее могли автоматически читать компьютеры. Частью видения связанных данных является то, что Интернет должен стать глобальной базой данных . [1]
Для того чтобы эти данные можно было искать, интерпретировать и впоследствии «разыменовывать», следует использовать HTTP URI.
Полезная информация о том, что идентифицирует имя, должна предоставляться посредством открытых стандартов, таких как RDF , SPARQL и т. д.
При публикации данных в Интернете следует ссылаться на другие объекты, используя их имена на основе HTTP URI.
Тим Бернерс-Ли позднее перефразировал эти принципы на конференции TED в 2009 году , снова перефразировав их следующим образом: [4]
Все концептуальные вещи должны иметь имя, начинающееся с HTTP .
Поиск HTTP-имени должен возвращать полезные данные о рассматриваемом объекте в стандартном формате.
Всему остальному, с чем эта же вещь связана посредством своих данных, также следует дать имя, начинающееся с HTTP.
Компоненты
Таким образом, мы можем выделить следующие компоненты, которые являются существенными для глобальной системы связанных данных, как она задумана, и для любого фактического подмножества связанных данных в ее составе:
Связанные открытые данные — это связанные данные, которые являются открытыми данными . [5] [6] [7] Тим Бернерс-Ли дает наиболее четкое определение связанных открытых данных в отличие от связанных данных.
Связанные открытые данные (LOD) — это связанные данные, которые выпускаются по открытой лицензии, что не препятствует их бесплатному повторному использованию.
— Тим Бернерс-Ли, Связанные данные [2] [8]
Крупные связанные открытые наборы данных включают DBpedia , Wikibase , Wikidata и Open ICEcat [uk; nl] .
5-звездочные связанные открытые данные
В 2010 году Тим Бернерс-Ли предложил 5-звездочную схему оценки качества открытых данных в Интернете, в которой наивысший рейтинг имеют связанные открытые данные: [10]
1 звезда: данные доступны в открытом доступе в каком-либо формате.
4 звезды: данные соответствуют стандартам W3C , таким как использование RDF и применение URI .
5 звезд: все остальные, а также ссылки на другие источники связанных открытых данных.
История
Термин «связанные открытые данные» используется по крайней мере с февраля 2007 года, когда был создан список рассылки «Связывание открытых данных» [11] . [12] Первоначально список рассылки поддерживался проектом SIMILE [ 13] в Массачусетском технологическом институте .
Связывание проекта сообщества Open Data
Целью проекта сообщества Linking Open Data группы W3C Semantic Web Education and Outreach является расширение сети с помощью общих данных путем публикации различных открытых наборов данных в виде RDF в сети и установки ссылок RDF между элементами данных из разных источников данных. В октябре 2007 года наборы данных состояли из более чем двух миллиардов RDF- триплетов , которые были связаны между собой более чем двумя миллионами ссылок RDF. [15] [16] К сентябрю 2011 года это число выросло до 31 миллиарда RDF-триплетов, связанных между собой примерно 504 миллионами ссылок RDF. Подробная статистическая разбивка была опубликована в 2014 году. [17]
Проекты Европейского Союза
Существует ряд проектов Европейского Союза , связанных с связанными данными. К ним относятся проект связанных открытых данных круглосуточно (LATC), [18] проект AKN4EU для машиночитаемых законодательных данных, [19] проект PlanetData, [20] проект DaPaaS (Data-and-Platform-as-a-Service) [21] и проект Linked Open Data 2 (LOD2). [22] [23] [24] Связывание данных является одной из основных целей портала открытых данных ЕС , который делает доступными тысячи наборов данных для повторного использования и связывания.
Онтологии
Онтологии — это формальные описания структур данных. Некоторые из наиболее известных онтологий:
FOAF – онтология, описывающая персон, их свойства и отношения
UMBEL – облегченная справочная структура из 20 000 классов концепций субъектов и их связей, полученных из OpenCyc , которые могут выступать в качестве классов привязки к внешним данным; также имеет ссылки на 1,5 миллиона именованных сущностей из DBpedia и YAGO
Наборы данных
DBpedia – набор данных, содержащий извлеченные данные из Википедии; он содержит около 3,4 миллионов концепций, описанных 1 миллиардом троек , включая аннотации на 11 разных языках.
GeoNames – предоставляет RDF-описания более 7 500 000 географических объектов по всему миру.
Wikidata — совместно созданный связанный набор данных, который выступает в качестве центрального хранилища структурированных данных родственных проектов Wikimedia Foundation.
Глобальная база данных идентификаторов исследований ( GRID ) – международная база данных из 89 506 учреждений, занимающихся академическими исследованиями, с 14 401 связью. GRID моделирует два типа связей: родительско-дочерние связи, которые определяют подчиненную связь, и связанные связи, которые описывают другие связи [25] [26]
KnowWhereGraph [27] – интегрированный 12 миллиардов триплетов графа знаний из 30 слоев данных на пересечении между людьми и их средой, использующий технологии семантической паутины и связанных данных. [28]
Отношения между экземпляром набора данных и классом
Доступны интерактивные диаграммы, которые показывают отдельные наборы данных и их взаимосвязи в созданном DBpedia облаке LOD (как на рисунках справа). [29] [30]
Смотрите также
American Art Collaborative — консорциум художественных музеев США, стремящийся создать критическую массу связанных открытых данных об американском искусстве.
^ "Связанные данные как JSON". Связанные данные как JSON . Получено 2020-12-04 .
^ abc Тим Бернерс-Ли (2006-07-27). "Связанные данные". Проблемы проектирования . W3C . Получено 2010-12-18 .
^ "Что такое связанные данные и связанные открытые данные?". Ontotext . Получено 2019-05-08 .
^ "Тим Бернерс-Ли о следующем Интернете". Архивировано из оригинала 2011-04-10 . Получено 2009-03-15 .
^ "Часто задаваемые вопросы (FAQ) - Связанные данные - Подключение распределенных данных через Интернет". Архивировано из оригинала 2015-11-18 . Получено 2014-12-29 .
^ "COAR » 7 вещей, которые вы должны знать о… связанных данных". Архивировано из оригинала 2015-11-18 . Получено 2015-12-29 .
^ "Основы связанных данных для технарей". Архивировано из оригинала 2021-05-05 . Получено 2015-12-29 .
^ Макс. «Состояние облака LOD». linkeddatacatalog.dws.informatik.uni-mannheim.de . Получено 22 марта 2018 г. .
^ "Связанные открытые данные круглосуточно (LATC)". latc-project.eu . Архивировано из оригинала 19 сентября 2018 года . Получено 22 марта 2018 года .
^ Флэтт, Амели; Лангнер, Арне; Лепс, Олоф (2022), «Разработка профилей приложений AKN на основе моделей: предпосылки и требования», Разработка профилей приложений Akoma Ntoso на основе моделей , Cham: Springer International Publishing, стр. 5–12, doi : 10.1007/978-3-031-14132-4_2, ISBN978-3-031-14131-7, получено 2023-01-07
^ "Welcome to PlanetData! - PlanetData". planet-data.eu . Архивировано из оригинала 21 апреля 2021 г. . Получено 22 марта 2018 г. .
^ "DaPaaS". project.dapaas.eu . Архивировано из оригинала 18 декабря 2020 г. Получено 22 марта 2018 г.
^ Кшиштоф Янович; Паскаль Хитцлер ; Вэньвэнь Ли; Дин Рехбергер; Марк Шильдхауэр; Руй Чжу; Коган Шимизу; Колби К. Фишер; Лин Кай; Гэнчэнь Май; Джозеф Залевски; Лу Чжоу; Ширли Стивен; Сейла Гонсалес Эстреча; Брайс Д. Мекум; Анна Лопес-Карр; Эндрю Шредер; Дэйв Смит; Дон Дж. Райт; Сычжэ Ван; Юаньюань Тянь; Цзылун Лю; Мейлинь Ши; Энтони Д'Онофрио; Чжинин Г; Китти Карриер (2022). «Знай, знай где, знай гдеграф: плотно связанный, междоменный граф знаний и стек геообогащения для приложений в области экологической разведки». Журнал AI . 43 (1): 30–39. дои : 10.1609/aimag.v43i1.19120 . hdl : 1983/be176aba-9dec-456c-9615-01a0e8556b7b .
^ "Связи экземпляров между наборами данных". fu-berlin.de . Архивировано из оригинала 2012-10-17 . Получено 22 марта 2018 .
^ "Связи классов между наборами данных". Архивировано из оригинала 28 августа 2011 г. Получено 22 марта 2018 г.
Дальнейшее чтение
Ахмет Сойлу, Феликс Мёдричер и Патрик Де Каусмеккер. 2012. «Повсеместная веб-навигация посредством сбора встроенных семантических данных: мобильный сценарий». Архивировано 19 сентября 2018 г. в Wayback Machine Integrated Computer-Aided Engineering 19 (1): 93–109.
Связанные данные: превращение Интернета в глобальное пространство данных (2011) Тома Хита и Кристиана Бизера, Синтезирующие лекции по семантической паутине: теория и технология, Морган и Клейпул
Как публиковать связанные данные в Интернете. Архивировано 19 апреля 2021 г. на Wayback Machine , Крис Бизер, Ричард Сиганиак и Том Хит, Учебное пособие по связанным данным в Свободном университете Берлина, Германия, 27 июля 2007 г.
Вебу исполняется 20 лет: связанные данные дают людям власть, часть 1 из 4, Марк Фишетти, Scientific American 2010 23 октября
Связанные данные — это просто еще больше данных — Пратик Джейн, Паскаль Хитцлер , Питер З. Йе, Кунал Верма и Амит П. Шет. В: Дэн Брикли, Винай К. Чаудхри, Гарри Хэлпин и Дебора МакГиннесс: Связанные данные встречают искусственный интеллект . Технический отчет SS-10-07, AAAI Press, Менло-Парк, Калифорния, 2010, стр. 82–86.
Выходя за рамки sameAs с PLATO: обнаружение партономии для связанных данных – Пратик Джейн, Паскаль Хитцлер , Кунал Верма, Питер З. Йе, Амит Шет. В: Труды 23-й конференции ACM Hypertext and Social Media (HT 2012), Милуоки, Висконсин, США, 25–28 июня 2012 г.
Фрейтас, Андре, Эдвард Карри, Жоау Габриэль Оливейра и Шон О'Риайн. 2012. «Запрос к гетерогенным наборам данных в сети связанных данных: проблемы, подходы и тенденции». IEEE Интернет-вычисления 16 (1): 24–33.
Связывание открытых данных в Интернете – Крис Бизер, Том Хит, Дэнни Айерс, Ив Раймонд. В постерах докладов, ESWC2007, Инсбрук, Австрия
Выравнивание онтологии для связанных открытых данных – Пратик Джейн, Паскаль Хитцлер , Амит Шет, Кунал Верма, Питер З. Йе. В трудах 9-й Международной конференции по семантической паутине, ISWC 2010, Шанхай, Китай
Связанные открытые данные о лекарственных средствах для фармацевтических исследований и разработок - J Cheminform. 2011; 3: 19. Самвальд, Йенч, Бутон, Каллесё, Виллигхаген, Хаджагос, Маршалл, Прюдоммо, Хассензаде, Пихлер и Стивенс (май 2011 г.)
Интервью с Сёреном Ауэром, руководителем проекта LOD2, о продолжении LOD2 в 2011 году, июнь 2011 г.
Связанные открытые данные: основы — Флориан Бауэр и Мартин Кальтенбёк (январь 2012 г.)
Взмах крыла бабочки - semanticweb.com Ричард Уоллис (февраль 2012 г.)
Внешние ссылки
В Scholia есть тематический профиль для связанных данных .
LinkedData на W3C Wiki
LinkedData.org
Технические документы по программному обеспечению OpenLink