stringtranslate.com

Викиданные

Викиданные — это совместно редактируемый многоязычный график знаний, размещенный Фондом Викимедиа . [2] Это общий источник открытых данных , который проекты Викимедиа, такие как Википедия , [3] [4] и кто-либо еще, могут использовать в соответствии с лицензией общественного достояния CC0 . Wikidata — это вики, работающая на базе программного обеспечения MediaWiki , включая его расширение для полуструктурированных данных — Wikibase .

Концепция

На этой диаграмме показаны наиболее важные термины, используемые в Викиданных.

Викиданные — это документально-ориентированная база данных , ориентированная на элементы, которые представляют любую тему, концепцию или объект. Каждому элементу присваивается уникальный постоянный идентификатор — положительное целое число с префиксом заглавной буквы Q, известное как «QID». Q — имя Камарнисо Врандечич (урожденная Исмоилова), узбекского викимедиа, женатого на соразработчике Викиданных Денни Врандечиче . [5] Это позволяет перевести основную информацию, необходимую для определения темы, охватываемой элементом, без предпочтения какого-либо языка.

Примеры предметов: Летние Олимпийские игры 1988 года (Q8470), любовь (Q316), Джонни Кэш (Q42775), Элвис Пресли (Q303) и Горилла (Q36611).

Ярлыки элементов не обязательно должны быть уникальными. Например, есть два предмета с названием «Элвис Пресли»: Элвис Пресли (Q303), который представляет американского певца и актера , и Элвис Пресли (Q610926), который представляет его одноименный альбом . Однако сочетание метки и ее описания должно быть уникальным. Поэтому , чтобы избежать двусмысленности, уникальный идентификатор элемента ( QID ) связан с этой комбинацией.

Главные части

Скриншот Викиданных


Схема четырех основных компонентов страницы Викиданных фазы 1: метка, описание, псевдонимы и межъязыковые ссылки.

По сути, предмет состоит из:

Заявления

Скриншот Викиданных
Три утверждения из статьи Викиданных о планете Марс (Q111). Значения включают ссылки на другие элементы и на Wikimedia Commons .

Заявления — это то, как любая информация, известная об объекте, записывается в Викиданные. Формально они состоят из пар ключ-значение , которые сопоставляют свойство (например, «автор» или «дата публикации») с одним или несколькими значениями сущности (например, « Сэр Артур Конан Дойл » или «1902»). Например, неформальное английское утверждение «молоко белое» будет закодировано оператором, объединяющим свойство цвет (P462) со значением белый (Q23444) под элементом молоко (Q8495).

Операторы могут сопоставлять свойство более чем с одним значением. Например, свойство «профессия» Марии Кюри могло быть связано с ценностями «физик» и «химик», чтобы отразить тот факт, что она занималась обеими профессиями. [6]

Значения могут принимать разные типы, включая другие элементы Викиданных, строки, числа или медиафайлы. Свойства предписывают, с какими типами значений они могут быть связаны. Например, официальный веб-сайт объекта недвижимости (P856) может быть связан только со значениями типа «URL». [7]

При желании можно использовать квалификаторы для уточнения значения утверждения путем предоставления дополнительной информации. Например, оператор «население» может быть изменен с помощью квалификатора, такого как «момент времени (P585): 2011» (в качестве собственной пары ключ-значение). Значения в операторах также могут быть помечены ссылками , указывающими на источник, поддерживающий содержимое оператора. [8] Как и в случае с утверждениями, все квалификаторы и ссылки представляют собой пары свойство-значение.

Характеристики

Пример простого утверждения, состоящего из одной пары свойство-значение

Каждое свойство имеет числовой идентификатор с префиксом заглавной буквы P и страницу в Викиданных с необязательной меткой, описанием, псевдонимами и утверждениями. Таким образом, существуют свойства, единственной целью которых является описание других свойств, например подсвойство (P1647).

Свойства также могут определять более сложные правила их предполагаемого использования, называемые ограничениями . Например, свойство «столица» (P36) включает «ограничение одного значения», отражающее тот факт, что (обычно) территории имеют только одну столицу. Ограничения рассматриваются как предупреждения и подсказки при тестировании, а не как незыблемые правила. [9]

Прежде чем будет создан новый объект недвижимости, он должен пройти процесс обсуждения. [10] [11]

Наиболее часто используемое свойство — «цитирует работу» (P2860), которое по состоянию на ноябрь 2023 года используется на более чем 290 000 000 страницах элементов. [12]

Лексемы

В лингвистике лексема – это единица лексического значения. Точно так же лексемы Викиданных представляют собой элементы, структура которых делает их более подходящими для хранения лексикографических данных. Помимо хранения языка, к которому относится лексема, у них есть раздел для форм и раздел для значений . [13]

EntitySchemas

В январе 2019 года началась разработка нового расширения для MediaWiki, позволяющего хранить выражения формы в отдельном пространстве имен. [14] [15]

Это расширение с тех пор было установлено в Викиданных [16] и позволяет участникам использовать выражения формы для проверки и описания данных структуры описания ресурсов в элементах и ​​лексемах. Любой элемент или лексема в Викиданных может быть проверена на соответствие Entity Schema, и это делает ее важным инструментом обеспечения качества.

Разработка

Создание проекта финансировалось за счет пожертвований Института искусственного интеллекта Аллена , Фонда Гордона и Бетти Мур и Google, Inc. на общую сумму 1,3 миллиона евро . [17] [18] Разработка проекта в основном осуществляется Wikimedia Deutschland под руководством Лидии Пинчер и первоначально была разделена на три этапа: [19]

  1. Централизация межъязыковых ссылок – связей между статьями Википедии по одной и той же теме на разных языках.
  2. Обеспечение центрального места для данных информационных боксов для всех Википедий.
  3. Создание и обновление статей списков на основе данных Викиданных и ссылок на другие дочерние проекты Викимедиа, включая Мета-Вики и собственные Викиданные (интервики-ссылки).

Начальное внедрение

Викиданные были запущены 29 октября 2012 года и стали первым новым проектом Фонда Викимедиа с 2006 года. [3] [20] [21] В то время была доступна только централизация языковых ссылок. Это позволило создавать элементы и наполнять их основной информацией: метка — имя или заголовок, псевдонимы — альтернативные термины для метки, описание и ссылки на статьи по теме во всех языковых изданиях Википедии (ссылки на интервикипедию). .

Исторически статья в Википедии включала список межъязыковых ссылок (ссылки на статьи по той же теме в других выпусках Википедии, если они существовали). Викиданные изначально представляли собой автономное хранилище межъязыковых ссылок. [22] Языковые издания Википедии по-прежнему не имели доступа к Викиданным, поэтому им приходилось продолжать вести собственные списки межъязыковых ссылок. [ нужна цитата ]

14 января 2013 года венгерская Википедия стала первой, которая позволила предоставлять межъязыковые ссылки через Викиданные. [23] Эта функциональность была распространена на еврейскую и итальянскую Википедии 30 января, на английскую Википедию 13 февраля и на все остальные Википедии 6 марта. [24] [25] [26] [27] После того, как не было достигнуто консенсуса по поводу предложения ограничить удаление языковых ссылок из английской Википедии, [28] они были автоматически удалены ботами . 23 сентября 2013 года на Wikimedia Commons появились межъязыковые ссылки. [29]

Заявления и доступ к данным

4 февраля 2013 г. в записи Викиданных были внесены утверждения. Возможные значения свойств изначально были ограничены двумя типами данных (элементы и изображения на Wikimedia Commons), а позже появятся дополнительные типы данных (например, координаты и даты). Первый новый тип, струнный, был развернут 6 марта. [30]

Возможность доступа к данным из Викиданных для различных языковых изданий Википедии постепенно предоставлялась в период с 27 марта по 25 апреля 2013 года. [31] [32] 16 сентября 2015 года Викиданные начали разрешать так называемый произвольный доступ или доступ из данная статья Википедии относится к высказываниям об элементах Викиданных, не связанных с ней напрямую. Например, из берлинской статьи стало возможным читать данные о Германии, что раньше было невозможно. [33] 27 апреля 2016 г. на Wikimedia Commons был активирован произвольный доступ. [34]

Согласно исследованию 2020 года, большая часть данных в Викиданных состоит из записей, массово импортированных из других баз данных интернет-ботами , что помогает «разрушить стены» хранилищ данных . [35]

Служба запросов и другие улучшения

7 сентября 2015 года Фонд Викимедиа объявил о выпуске Службы запросов Викиданных, [36] которая позволяет пользователям выполнять запросы к данным, содержащимся в Викиданных. [37] В качестве языка запросов сервис использует SPARQL . По состоянию на ноябрь 2018 года существует как минимум 26 различных инструментов, позволяющих запрашивать данные разными способами. [38] Он использует Blazegraph в качестве базы данных тройного хранилища и графа . [39] [40]

В 2021 году Wikimedia Deutschland выпустила Query Builder, [41] «построитель запросов на основе форм, позволяющий людям, не знающим, как использовать SPARQL», написать запрос.

Логотип

Полоски логотипа содержат слово «WIKI», закодированное азбукой Морзе . [42] Он был создан Аруном Ганешем и выбран по решению сообщества. [43]

Прием

В ноябре 2014 года Викиданные получили Премию издателя открытых данных от Института открытых данных «за огромный масштаб и встроенную открытость». [44]

В декабре 2014 года Google объявил, что закроет Freebase в пользу Викиданных. [45]

По состоянию на ноябрь 2018 года информация Викиданных использовалась в 58,4% всех статей англоязычной Википедии, в основном для внешних идентификаторов или координат местоположений. В совокупности данные из Викиданных показаны на 64% всех страниц Википедии , 93% всех статей Wikivoyage , 34% всех Викицитат , 32% всех Викиисточников и 27% Wikimedia Commons. Использование в других проектах Фонда Викимедиа является свидетельством. [46]

По состоянию на декабрь 2020 года данные Викиданных были визуализированы как минимум 20 другими внешними инструментами [47] , и о Викиданных было опубликовано более 300 статей. [48]

Структурированный набор данных Викиданных использовался виртуальными помощниками, такими как Apple Siri и Amazon Alexa . [49]

Приложения

В 2019 году был проведен систематический обзор литературы по использованию Викиданных в исследованиях. [55]

Смотрите также

Рекомендации

  1. ^ «Революция Викиданных уже здесь: создание структурированных данных в Википедии» . 25 апреля 2013 года . Проверено 12 июня 2022 г. С момента запуска Wikidata.org 30 октября 2012 г.
  2. Чалаби, Мона (26 апреля 2013 г.). «Добро пожаловать в Викиданные! Что теперь?». Архивировано из оригинала 2 октября 2021 года . Проверено 2 октября 2021 г.
  3. ^ ab Wikidata (Архивировано 29 октября 2012 г. в Wayback Machine )
  4. ^ «Революция данных для Википедии» . Викимедиа Германия. 30 марта 2012 г. Архивировано из оригинала 23 октября 2012 г. Проверено 11 сентября 2012 г.
  5. ^ Врандечич, Денни; Пинчер, Лидия; Креч, Маркус (30 апреля 2023 г.). «Викиданные: создание». Сопутствующие материалы веб-конференции ACM 2023 . стр. 615–624. дои : 10.1145/3543873.3585579. ISBN 9781450394192. S2CID  258377705.
  6. ^ «Справка: Заявления - Викиданные» . www.wikidata.org . Архивировано из оригинала 25 марта 2019 года . Проверено 20 февраля 2019 г.
  7. ^ «Справка: Тип данных - Викиданные» . www.wikidata.org . Архивировано из оригинала 23 марта 2019 года . Проверено 20 февраля 2019 г.
  8. ^ «Справка: Источники - Викиданные» . www.wikidata.org . Архивировано из оригинала 17 апреля 2019 года . Проверено 20 февраля 2019 г.
  9. ^ «Справка: Портал ограничений свойств» . Викиданные . Архивировано из оригинала 1 июня 2019 года . Проверено 20 февраля 2019 г.
  10. Кокрейн, Юан (30 сентября 2016 г.). «Викиданные как база знаний по цифровому сохранению». openpreservation.org . Архивировано из оригинала 5 января 2022 года . Проверено 5 января 2022 г.
  11. Сэмюэл, Джон (15 августа 2018 г.). «Экспериментальный МО сочетает многоязычие, мультимодальность и взаимодействие». Экспериментальный МО сочетает многоязычие, мультимодальность и взаимодействие . CLEF 2018. Конспекты лекций по информатике. Том. 11018. с. 129. дои : 10.1007/978-3-319-98932-7_12. ISBN 978-3-319-98931-0.
  12. ^ «Викиданные: Отчеты базы данных/Список свойств/Top100» . Архивировано из оригинала 24 февраля 2023 года . Проверено 18 ноября 2023 г.
  13. ^ «Викиданные: Лексикографические данные/Документация – Викиданные» . www.wikidata.org . Архивировано из оригинала 13 ноября 2018 года . Проверено 13 ноября 2018 г.
  14. ^ «Расширение:EntitySchema - MediaWiki» . mediawiki.org . Архивировано из оригинала 25 июня 2021 года . Проверено 10 сентября 2021 г.
  15. ^ «Начальный пустой репозиторий». Геррит . 15 января 2019 года. Архивировано из оригинала 19 марта 2022 года . Проверено 12 июня 2022 г.
  16. ^ "Версия - Викиданные" . Wikidata.org . Архивировано из оригинала 19 октября 2021 года . Проверено 10 сентября 2021 г.
  17. Дикинсон, Бунсри (30 марта 2012 г.). «Пол Аллен инвестирует в масштабный проект, направленный на улучшение Википедии». Бизнес-инсайдер . Архивировано из оригинала 23 декабря 2017 года . Проверено 11 сентября 2012 г.
  18. Перес, Сара (30 марта 2012 г.). «Следующее большое событие Википедии: Викиданные, машиночитаемая и редактируемая пользователем база данных, финансируемая Google, Полом Алленом и другими». ТехКранч . Архивировано из оригинала 5 октября 2012 года . Проверено 11 сентября 2012 г.
  19. ^ "Викиданные - Мета" . мета.викимедиа.орг . Архивировано из оригинала 7 апреля 2012 года . Проверено 8 ноября 2015 г.
  20. Пинчер, Лидия (30 октября 2012 г.). «wikidata.org работает (с некоторыми оговорками)». wikidata-l (список рассылки) . Проверено 3 ноября 2012 г.
  21. Рот, Мэтью (30 марта 2012 г.). «Революция данных в Википедии». Фонд Викимедиа. Архивировано из оригинала 11 сентября 2012 года . Проверено 11 сентября 2012 г.
  22. Лейтч, Томас (1 ноября 2014 г.). Wikipedia U: Знания, авторитет и гуманитарное образование в эпоху цифровых технологий . Издательство Университета Джонса Хопкинса . п. 120. ИСБН 978-1-4214-1550-5.
  23. Пинчер, Лидия (14 января 2013 г.). «Первые шаги Викиданных в венгерской Википедии». Викимедиа Германия. Архивировано из оригинала 14 декабря 2015 года . Проверено 17 декабря 2015 г.
  24. Пинчер, Лидия (30 января 2013 г.). «Викиданные появятся в следующих двух Википедиях». Викимедиа Германия. Архивировано из оригинала 4 октября 2018 года . Проверено 31 января 2013 г.
  25. Пинчер, Лидия (13 февраля 2013 г.). «Викиданные живут в английской Википедии». Викимедиа Германия. Архивировано из оригинала 19 февраля 2013 года . Проверено 15 февраля 2013 г.
  26. Пинчер, Лидия (6 марта 2013 г.). «Викиданные теперь живут во всех Википедиях». Викимедиа Германия. Архивировано из оригинала 14 апреля 2013 года . Проверено 8 марта 2013 г.
  27. ^ «Викиданные для всех Википедий» (на немецком языке). Golem.de. Архивировано из оригинала 6 ноября 2018 года . Проверено 29 января 2014 г.
  28. ^ "Обсуждение в Википедии: Интервики Викиданных RFC" . 29 марта 2013 г. Архивировано из оригинала 18 октября 2021 г. Проверено 30 марта 2013 г.
  29. Пинчер, Лидия (23 сентября 2013 г.). «Викиданные здесь!». Commons: Деревенский насос. Архивировано из оригинала 6 декабря 2021 года . Проверено 30 августа 2016 г.
  30. ^ Пинчер, Лидия. «Викиданные/Обновления статуса/2013 03 01». Викимедиа Мета-Вики . Фонд Викимедиа. Архивировано из оригинала 12 апреля 2013 года . Проверено 3 марта 2013 г.
  31. Пинчер, Лидия (27 марта 2013 г.). «Вы можете иметь все данные!». Викимедиа Германия. Архивировано из оригинала 29 марта 2013 года . Проверено 28 марта 2013 г.
  32. ^ «Викиданные становятся доступными по всему миру» . H. 25 апреля 2013 г. Архивировано из оригинала 1 января 2014 г.
  33. ^ Пинчер, Лидия (16 сентября 2015 г.). «Викиданные: доступ к данным из произвольных элементов здесь». Википедия: Деревенский насос (технический) . Архивировано из оригинала 27 сентября 2016 года . Проверено 30 августа 2016 г.
  34. Пинчер, Лидия (27 апреля 2016 г.). «Поддержка Викиданных: произвольный доступ здесь». Commons: Деревенский насос. Архивировано из оригинала 5 февраля 2017 года . Проверено 30 августа 2016 г.
  35. ^ Ваагмеестер, Андра; Ступп, Грегори; Бургшталлер-Мюльбахер, Себастьян; и другие. (17 марта 2020 г.). «Викиданные как граф знаний для наук о жизни». электронная жизнь . 9 . дои : 10.7554/ELIFE.52614 . ISSN  2050-084X. ПМК 7077981 . PMID  32180547. Викиданные  Q87830400. 
  36. ^ «Дом». query.wikidata.org . Архивировано из оригинала 7 ноября 2016 года . Проверено 30 января 2019 г.
  37. ^ «[Викиданные] Объявляем о выпуске Службы запросов Викиданных - Викиданные - lists.wikimedia.org» . Архивировано из оригинала 10 ноября 2015 года . Проверено 13 ноября 2018 г.
  38. ^ «Викиданные: Инструменты/Данные запроса – Викиданные» . www.wikidata.org . Архивировано из оригинала 31 мая 2020 года . Проверено 13 ноября 2018 г.
  39. ^ «[Wikidata-tech] Обновление серверной части запросов Викиданных (взять два!)» . lists.wikimedia.org . Архивировано из оригинала 6 января 2021 года . Проверено 29 августа 2018 г. .(В сообщении также содержится ссылка на сравнение графовых баз данных, выполненное Wikimedia.)
  40. ^ 86 на GitHub
  41. ^ «Построитель запросов к Викиданным» . query.wikidata.org .
  42. ^ commons:Обсуждение файла:Wikidata-logo-en.svg#Hybrid. Проверено 6 октября 2016 г.
  43. ^ «Und der Gewinner ist...» 13 июля 2012 г. Архивировано из оригинала 21 января 2021 г. . Проверено 16 июня 2020 г.
  44. ^ «Первая премия ODI за открытые данные, врученная сэрами Тимом Бернерсом-Ли и Найджелом Шедболтом» . Архивировано из оригинала 24 марта 2016 года.
  45. ^ "Фрибаза". Гугл плюс . 16 декабря 2014 г. Архивировано из оригинала 20 марта 2019 г.
  46. ^ «Процент статей, использующих данные из Викиданных» . Архивировано из оригинала 15 ноября 2018 года . Проверено 15 ноября 2018 г.
  47. ^ «Викиданные:Инструменты/Визуализация данных – Викиданные» . www.wikidata.org . Архивировано из оригинала 15 ноября 2018 года . Проверено 15 ноября 2018 г.
  48. ^ "Схолия". Схолия . Архивировано из оригинала 30 сентября 2021 года . Проверено 2 августа 2021 г.
  49. Симонит, Том (18 февраля 2019 г.). «Внутри дружественного к Alexa мира Викиданных». Проводной . ISSN  1059-1028 . Проверено 25 декабря 2020 г.
  50. ^ "Роб Барри / Mwnci - Глубокие электронные таблицы" . ГитЛаб . Архивировано из оригинала 21 сентября 2019 года . Проверено 21 сентября 2019 г.
  51. ^ «Проблемы общественного рассмотрения». Архивировано из оригинала 20 ноября 2019 года . Проверено 30 октября 2019 г.
  52. Краузе, Волкер (12 января 2020 г.), KDE Itinerary - Помощник по путешествиям, созданный по принципу конфиденциальности, заархивировано из оригинала 26 июня 2020 г. , получено 10 ноября 2020 г.
  53. ^ слинг на GitHub
  54. ^ Шарпф, П. Шуботц, М. Гипп, Б. Анализ математических документов для ответов на вопросы с помощью неконтролируемой маркировки формул. Архивировано 10 февраля 2023 г. на совместной конференции Wayback Machine ACM/IEEE по цифровым библиотекам, 2022 г.
  55. ^ Мора-Канталопс, Марсал; Санчес-Алонсо, Сальвадор; Гарсиа-Барриоканал, Елена (2 сентября 2019 г.). «Систематический обзор литературы по Викиданным». Технологии обработки данных и приложения . 53 (3): 250–268. doi : 10.1108/DTA-12-2018-0110. S2CID  202036639.

дальнейшее чтение

Внешние ссылки