Поскольку Викисловарь не ограничен размерами печатного пространства, большинство языковых версий Викисловаря содержат определения и переводы терминов со многих языков, а некоторые версии предлагают дополнительную информацию, обычно встречающуюся в тезаурусах .
Данные Викисловаря часто используются в различных задачах обработки естественного языка.
История и развитие
Викисловарь был выведен в онлайн 12 декабря 2002 года [2] по предложению Дэниела Олстона и идее Ларри Сэнгера , соучредителя Википедии. [3] 28 марта 2004 года были начаты первые неанглийские Викисловари на французском и польском языках . С тех пор были начаты Викисловари на многих других языках. Викисловарь размещался на временном доменном имени (wiktionary.wikipedia.org) до 1 мая 2004 года, когда он перешел на текущее доменное имя. [a] По состоянию на июль 2021 года [ссылка]Викисловарь содержит более 30 миллионов статей (и даже больше записей) во всех своих редакциях. [4] Самым крупным из языковых редакций является Английский Викисловарь с более чем 7,5 миллионами записей, за ним следует Французский Викисловарь с более чем 4,7 миллионами и Малагасийский Викисловарь с более чем 3,5 миллионами записей. Сорок три языковых издания Викисловаря содержат более 100 000 записей каждое. [b]
Многие определения в крупнейших языковых изданиях проекта были созданы ботами , которые нашли креативные способы генерировать записи или (редко) автоматически импортировали тысячи записей из ранее опубликованных словарей. Семь из 18 ботов, зарегистрированных в английском Викисловаре в 2007 году [c], создали там 163 000 записей. [5]
Другой из этих ботов, «ThirdPersBot», отвечал за добавление ряда спряжений третьего лица , которые не получили бы своих собственных записей в стандартных словарях; например, он определил «smoulders» как «третье лицо единственного числа простого настоящего времени от smoulder». Из 1 269 938 определений, которые Английский Викисловарь предоставляет для 996 450 английских слов, 478 068 являются «формами» определений такого рода. [6] Это означает, что даже без таких записей его охват английского языка значительно больше, чем у основных одноязычных печатных словарей. Третий новый международный словарь английского языка Merriam-Webster , Unabridged , например, содержит 475 000 записей (со множеством дополнительных встроенных заглавных слов); Оксфордский словарь английского языка содержит 615 000 заглавных слов, но включает также среднеанглийский язык , для которого в Английском Викисловаре есть дополнительные 34 234 определения в глоссарии. Подробная статистика показывает, сколько существует записей различных видов.
Английский Викисловарь не полагается на ботов в той степени, в какой это делают некоторые другие издания. Французский и вьетнамский Викисловари , например, импортировали большие разделы Free Vietnamese Dictionary Project (FVDP), который предоставляет бесплатный контент двуязычных словарей на вьетнамский и с вьетнамского языка. [d] Эти импортированные записи составляют практически все содержимое вьетнамского издания. Как и английское издание, французский Викисловарь импортировал около 20 000 записей из базы данных Unihan китайских, японских, корейских и индийских иероглифов . Французский Викисловарь быстро рос в 2006 году во многом благодаря ботам, копировавшим многие записи из старых, свободно лицензированных словарей, таких как восьмое издание Dictionnaire de l'Académie française (1935, около 35 000 слов), и использованию ботов для добавления слов из других изданий Викисловаря с французскими переводами. Русское издание выросло почти на 80 000 записей , поскольку «LXbot» добавил шаблонные записи (с заголовками, но без определений) для слов на английском и немецком языках . [7]
По состоянию на июль 2021 года в англоязычном Викисловаре содержится более 791 870 определений в толкованиях и более 1 269 938 общих определений (включая различные формы) только для английских статей, а общее количество определений на всех языках составляет более 9 928 056. [8]
Логотипы
Викисловарь исторически не имел единого логотипа в своих многочисленных языковых изданиях. Некоторые издания используют логотипы, которые изображают словарную статью о термине «Викисловарь», основанную на предыдущем логотипе английского Викисловаря, который был разработан Брук Виббер, разработчиком MediaWiki . [9] Поскольку чисто текстовый логотип должен значительно отличаться от языка к языку, в Wikimedia Meta-Wiki с сентября по октябрь 2006 года проводился четырехэтапный конкурс на принятие единого логотипа. [e] Некоторые сообщества приняли победившую запись «Smurrayinchester», сетку 3×3 из деревянных плиток, на каждой из которых был изображен символ из другой системы письма. Однако опрос не вызвал такого большого участия со стороны сообщества Викисловаря, как надеялись некоторые члены сообщества, и ряд крупных вики в конечном итоге сохранили свои текстовые логотипы. [e]
В апреле 2009 года проблема была возрождена с новым конкурсом. На этот раз изображение открытого словаря в твердом переплете от "AAEngelman" победило в голосовании лицом к лицу с логотипом 2006 года, но процесс доработки и принятия нового логотипа затем застопорился. [10] В последующие годы некоторые вики заменили свои текстовые логотипы одним из двух новых логотипов. В 2012 году 55 вики, которые использовали логотип английского Викисловаря, получили локализованные версии дизайна 2006 года от "Smurrayinchester". [f] В июле 2016 года английский Викисловарь принял вариант этого логотипа. [11] По состоянию на 4 июля 2016 года [обновлять]135 вики, что составляет 61 % записей Викисловаря, используют логотип, основанный на дизайне 2006 года от "Smurrayinchester", 33 вики (36 %) используют текстовый логотип, а три вики (3 %) используют дизайн 2009 года от "AAEngelman". [12]
Многоязычный
По состоянию на октябрь 2024 года сайты Викисловаря существуют на 194 языках, из которых 170 являются активными, а 24 закрытыми. [1] Активные сайты содержат 41 715 349 статей, а закрытые сайты содержат 339 статей. [13] Зарегистрировано 7 389 146 пользователей, из которых 6 109 недавно активны. [13]
Десять лучших языковых проектов Викисловаря по количеству статей в основных разделах: [13]
Полный список с общими данными см. в статистике Wikimedia: [14]
Критический прием
Критический прием Викисловаря был неоднозначным. В 2006 году Джилл Лепор написала в статье «Ноев ковчег» для The New Yorker , [g]
В Викисловаре нет ни одного поднятия рук . Даже редакции нет. «Будьте своим собственным лексикографом!» — таков мог бы быть девиз Викисловаря . Кому нужны эксперты? Зачем платить хорошие деньги за словарь, написанный лексикографами, если мы можем слепить его сами?
Есть ли место для Викисловаря? Несомненно. Трудолюбие и энтузиазм его многочисленных создателей доказывают, что рынок есть. И замечательно иметь еще один надежный источник для поиска странных терминов, которые появляются в сегодняшнем быстро меняющемся мире и онлайн-среде. Но, как и в случае со многими веб-источниками (включая эту колонку), его лучше всего использовать опытным пользователям в сочетании с более авторитетными источниками. [ требуется ссылка ]
Ссылки в других публикациях мимолетны и являются частью более обширных обсуждений Википедии, не продвигаясь дальше определения, хотя Дэвид Брукс в The Nashua Telegraph описал ее как «дикую и неряшливую». [16] Одним из препятствий для независимого освещения Викисловаря является продолжающаяся путаница, что это всего лишь расширение Википедии. [h]
Мера правильности склонений для подмножества польских слов в Английском Викисловаре показала, что эти грамматические данные очень стабильны (исследование показало, что только для 131 из 4748 польских слов данные по склонениям были исправлены). [17]
Начиная с 2016 года [обновлять], Викисловарь стал пользоваться растущей популярностью в академических кругах . [18]
Данные Викисловаря в обработке естественного языка
JWKTL ( библиотека Java Wiktionary): [29] предоставляет доступ к дампам английского и немецкого Викисловарей через API Java Wiktionary . [30] Данные включают язык, части речи, определения, цитаты, семантические отношения, этимологии и переводы. JWKTL распространяется по лицензии Apache .
Создание машиночитаемого словаря с помощью парсера NULEX, который объединяет открытые лингвистические ресурсы: английский Викисловарь, WordNet и VerbNet . [37] Парсер NULEX извлекает из английского Викисловаря информацию о времени (глаголы), форме множественного числа и частях речи (существительные).
Распознавание и синтез речи , где Викисловарь использовался для автоматического создания словарей произношений. [38] Пары слово-произношение были получены из 6 языковых изданий Викисловаря ( чешского , английского, французского, испанского , польского и немецкого). Произношения указаны в терминах Международного фонетического алфавита . [k] Система ASR , основанная на английском Викисловаре, имеет самый высокий уровень ошибок в словах, где приходится менять каждую третью фонему . [40]
Упрощение текста . Медеро и Остендорф [44] оценили сложность словаря ( определение уровня чтения ) с помощью данных Викисловаря. Были исследованы свойства слов, извлеченных из записей Викисловаря (длина определения и POS , смысл и количество переводов). Медеро и Остендорф ожидали, что
(1) очень распространенные слова, скорее всего, будут иметь несколько частей речи,
(2) распространенные слова, скорее всего, будут иметь несколько значений,
(3) распространенные слова, скорее всего, будут переведены на несколько языков. Эти особенности, извлеченные из записей Викисловаря, были полезны для различения типов слов, которые появляются в статьях Википедии на простом английском, от слов, которые появляются только в сопоставимых статьях на стандартном английском.
« Викиданные : лексикографические данные» были запущены в 2018 году для обеспечения поддержки структурированных данных для викисловарей. Он хранит данные слов всех языков в машиночитаемой модели данных в специальном пространстве имен « Лексема » в Викиданных. По состоянию на октябрь 2021 года в проекте собрано более 600 000 лексемных статей на разных языках. [47]
^ [Translators-l] 56 Викисловарей получили локализованный логотип
↑ Полная версия статьи недоступна в сети. [15]
^ В этой цитате автор ссылается на Викисловарь как на часть сайта Википедии: Адаптировано из статьи Наоми ДеТуллио (2006). «Вики для библиотекарей» (PDF) . NETLS News #142 . Северо-восточная техасская библиотечная система. стр. 15. Архивировано из оригинала (PDF-бюллетень) 5 июня 2007 г. . Получено 21 апреля 2007 г. .
^ Например, сравните структуру записи и правила форматирования в английском и русском Викисловарях.
↑ Цитаты взяты только из русского Викисловаря. [33]
^ Если на странице Викисловаря имеется несколько записей МФА — либо для разных языков, либо для вариантов произношения, то извлекается первое произношение. [39]
^ Исходный код и результаты POS-тегирования доступны по адресу https://code.google.com/p/wikily-supervised-pos-tagger
Ссылки
Цитаты
^ ab Wikimedia 's MediaWiki API: Sitematrix. Получено в октябре 2024 г. из данных: Статистика Википедии/meta.tab.
^ "Обсуждение архива рассылки Википедии, объявляющее об открытии проекта Викисловарь". 12 декабря 2002 г. Архивировано из оригинала 20 июня 2014 г. Получено 3 мая 2011 г.
↑ Архивное обсуждение списка рассылки Википедии, где Ларри Сэнгер высказал идею о Викисловаре. Архивировано 20 июня 2014 г. на Wayback Machine – Получено 3 мая 2011 г.
^ "Wiktionary". www.wiktionary.org . Архивировано из оригинала 13 сентября 2008 г. . Получено 28 октября 2021 г. .
^ TheDaveBot Архивировано 11 октября 2007 г. на Wayback Machine , TheCheatBot Архивировано 11 октября 2007 г. на Wayback Machine , Websterbot Архивировано 11 октября 2007 г. на Wayback Machine , PastBot Архивировано 11 октября 2007 г. на Wayback Machine , NanshuBot Архивировано 11 октября 2007 г. на Wayback Machine
^ Подробная статистика Архивировано 23 июля 2021 г., на Wayback Machine по состоянию на 21 июля 2021 г.
^ "LXbot". Архивировано из оригинала 24 мая 2008 года.
^ "Wiktionary:Statistics". 29 марта 2022 г. Архивировано из оригинала 6 марта 2023 г. Получено 6 марта 2023 г. – через Wiktionary.
^ «Обсуждение Викисловаря:Логотип Викисловаря», Английский Викисловарь, Фонд Викимедиа.
^ «Wiktionary/logo/refresh/voting», Meta-Wiki, Фонд Викимедиа.
^ phab:T139255
^ m:Wiktionary/logo#Статистика использования логотипа.
^ API MediaWiki abc Wikimedia : Siteinfo. Получено в октябре 2024 г. из данных: Статистика Википедии/data.tab.
^ "Статистика Викисловаря". Meta.Wikimedia.org . Архивировано из оригинала 2 сентября 2020 г. . Получено 11 сентября 2020 г. .
^ Лепор 2006.
↑ Дэвид Брукс, «Интерактивная онлайн-энциклопедия больше не только для гиков, потому что, похоже, она нужна всем, больше, чем когда-либо!» The Nashua Telegraph (4 августа 2004 г.)
^ Хеллманн, Брекле и Ауэр 2012, стр. 3, Таблица 1.
^ "DBpedia Wiktionary". Архивировано из оригинала 4 мая 2013 года.
^ Хеллманн, Брекле и Ауэр 2012, стр. 8–9.
^ Хеллманн, Брекле и Ауэр 2012, стр. 10.
^ Хеллманн, Брекле и Ауэр 2012, стр. 11.
^ "Welcome". DKPro JWKTL . Архивировано из оригинала 23 января 2021 г. . Получено 23 июня 2019 г. .
^ Зеш, Мюллер и Гуревич 2008.
^ "Wikokit - Машиночитаемый Викисловарь". 19 декабря 2022 г. Архивировано из оригинала 2 октября 2020 г. Получено 7 ноября 2015 г. – через GitHub.
^ Крижановский, Трансформация 2010.
^ ab Смирнов и др. 2012.
^ Крижановский, Сравнение 2010.
^ "Исследования Жерара де Мело в ИКСИ, Беркли". gerard.demelo.org . Архивировано из оригинала 27 марта 2023 г. . Получено 6 марта 2023 г. .
^ Отте и Тайерс 2011.
^ МакФейт и Форбус 2011.
^ Шлиппе, Охс и Шульц 2012.
^ Шлиппе, Охс и Шульц 2012, стр. 4802.
^ Шлиппе, Окс и Шульц 2012, стр. 4804.
^ Мейер и Гуревич 2012.
^ "ConceptNet 5". conceptnet5.media.mit.edu . Архивировано из оригинала 19 октября 2011 г. Получено 23 сентября 2023 г.
^ Лин и Крижановски 2011.
^ Медеро и Остендорф 2009.
^ Ли, Граса и Таскар 2012.
^ Чесли и др. 2006.
^ "Wikidata:Wiktionary". Архивировано из оригинала 3 января 2023 г. Получено 12 октября 2012 г.
Источники
Чесли, Паула; Винсент, Брюс; Сюй, Ли; Шрихари, Рохини К. (2006). «Использование глаголов и прилагательных для автоматической классификации настроений в блогах» (PDF) . Обучение . 580 : 233–235. Архивировано из оригинала (PDF) 24 февраля 2021 г. . Получено 9 мая 2013 г. .
Хеллманн, Себастьян; Брекле, Йонас; Ауэр, Сёрен (2012). «Использование краудсорсинга лексических ресурсов для загрузки облака лингвистических данных» (PDF) . Труды Совместной международной конференции по семантическим технологиям (JIST) . Нара, Япония.
Hellmann, S.; Auer, S. (2013). "Towards Web-Scale Collaborative Knowledge Extraction" (PDF) . В Gurevych, Iryna; Kim, Jungi (ред.). The People's Web Meets NLP . Теория и применение обработки естественного языка. Springer-Verlag . стр. 287–313. ISBN 978-3-642-35084-9. Архивировано (PDF) из оригинала 27 октября 2014 г. . Получено 10 мая 2013 г. .
Крижановский, Эндрю (2010). «Преобразование структуры записи Викисловаря в таблицы и отношения в схеме реляционной базы данных». arXiv : 1011.1368 [cs].
Курмас, Захари (июль 2010 г.). Zawilinski: библиотека для изучения грамматики в Викисловаре. Труды 6-го Международного симпозиума по вики и открытому сотрудничеству. Гданьск, Польша . Получено 29 июля 2011 г.
Ли, Шен; Граса, Жоао В.; Таскар, Бен (2012). «Wiki-ly supervisord part-of-speech tagging» (PDF) . Труды Объединенной конференции 2012 года по эмпирическим методам обработки естественного языка и компьютерному обучению естественному языку . Остров Чеджудо, Корея: Ассоциация компьютерной лингвистики. стр. 1389–1398. Архивировано из оригинала (PDF) 22 мая 2013 г. . Получено 10 мая 2013 г. .
Лепор, Джилл (6 ноября 2006 г.). «Ноев ковчег». The New Yorker (Аннотация) . Получено 21 апреля 2007 г.
Линь, Фэйюй; Крижановский, Эндрю (2011). «Многоязычное сопоставление онтологий на основе данных Викисловаря, доступных через конечную точку SPARQL». Труды 13-й Российской конференции по электронным библиотекам RCDL'2011 . Воронеж, Россия. С. 19–26. arXiv : 1109.0732 . Bibcode :2011arXiv1109.0732L.
McFate, Clifton J.; Forbus, Kenneth D. (2011). "NULEX: an open-license broad coverage lexicon" (PDF) . 49-е ежегодное заседание Ассоциации компьютерной лингвистики: Human Language Technologies, Труды конференции . Портленд, Орегон, США: Ассоциация компьютерной лингвистики. стр. 363–367. ISBN 978-1-932432-88-6.
Медеро, Джули; Остендорф, Мари (2009). "Анализ словарной сложности с использованием викисловаря" (PDF) . Proc. SLaTE Workshop . Архивировано из оригинала (PDF) 24 апреля 2014 г. . Получено 10 мая 2013 г. .
Meyer, CM; Gurevych, I. (2010). «Worth its Weight in Gold or Yet Another Resource — A Comparative Study of Wiktionary, OpenThesaurus and GermaNet» (PDF) . Proc. 11th International Conference on Intelligent Text Processing and Computational Linguistics, Iasi, Romania . pp. 38–49. Архивировано из оригинала (PDF) 1 декабря 2017 г. . Получено 10 мая 2013 г. .
Мейер, CM; Гуревич, И. (2012). "OntoWiktionary – Построение онтологии из совместного онлайн-словаря Wiktionary" (PDF) . В Pazienza, MT; Stellato, A. (ред.). Полуавтоматическая разработка онтологии: процессы и ресурсы . IGI Global. стр. 131–161. ISBN 978-1-4666-0188-8. Архивировано из оригинала (PDF) 9 октября 2013 г.
Отте, Пим; Тайерс, Ф.М. (2011). «Быстрый машинный перевод на основе правил между голландским и африкаанс» (PDF) . В Forcada, Микель Л.; Депретере, Хайди; Вандегинсте, Винсент (ред.). 16-я ежегодная конференция Европейской ассоциации машинного перевода, EAMT11 . Лёвен, Бельгия. стр. 153–160. Архивировано из оригинала (PDF) 25 февраля 2021 г. . Получено 10 мая 2013 г. .
Sascha, Wolfer; Müller-Spitzer, Carolin (2016). «Сколько людей составляют толпу и что они делают? Количественный анализ редакций в англоязычных и немецкоязычных изданиях Викисловаря». Lexikos . 26 : 347–371. ISSN 1684-4904. OCLC 7211535994. Архивировано из оригинала 9 мая 2023 г. Получено 27 августа 2021 г. – через ProQuest.
Schlippe, Tim; Ochs, Sebastian; Schultz, Tanja (2012). "Генерация модели графема-фонема для индоевропейских языков" (PDF) . Акустика, речь и обработка сигналов (ICASSP) . Киото, Япония. стр. 4801–4804. Архивировано из оригинала (PDF) 6 октября 2014 г. . Получено 10 мая 2013 г. .
Смирнов А, Левашова Т, Карпов А, Кипяткова И, Ронжин А, Крижановский А, Крижановский Н (2012). «Анализ цитатного корпуса Русского Викисловаря». Исследования в области вычислительной техники . 56 : 101–112. arXiv : 2002.00734 . CiteSeerX 10.1.1.694.9627 . doi :10.13053/rcs-56-1-11 (неактивен 17 сентября 2024 г.). S2CID 10726045.{{cite journal}}: CS1 maint: DOI неактивен по состоянию на сентябрь 2024 г. ( ссылка )
Зеш, Торстен; Мюллер, Кристоф; Гуревич, Ирина (2008). «Извлечение лексико-семантических знаний из Википедии и Викисловаря» (PDF) . Труды конференции по языковым ресурсам и оценке (LREC) . Марракеш, Марокко.
"Викисловарь". 101 лучших веб-сайтов. Журнал PC Magazine . Ziff Davis. 6 апреля 2005 г. Архивировано из оригинала 21 декабря 2005 г. Получено 16 декабря 2005 г.
Внешние ссылки
Найдите Викисловарь в Викисловаре, бесплатном словаре.