stringtranslate.com

Викисловарь

Викисловарь ( Великобритания : / ˈ w ɪ k ʃ ən ər i / ,ВИК-shə-nər-ee;США:/ ˈ w ɪ k ʃ ə n ɛr i / ,WIK-shə-nerr-ee; рифмуется со словом «словарь») — многоязычныйвеб-проект по созданиюбесплатного словарятерминов (включаяслова,фразы,пословицы,лингвистические реконструкциии т. д.) на всехестественных языкахи на рядеискусственных языков. Эти записи могут содержатьопределения,изображениядля иллюстраций,произношения,этимологии,склонения, примеры использования,цитаты, связанные термины ипереводытерминов на другие языки, среди прочих функций. Онсовместно редактируетсячерезвики. Его название — этословосочетаниесловwikiиdictionary. Он доступен на 195 языках и напростом английском языке. Как и его родственный проектWikipedia, Wiktionary управляется ФондомВикимедиаи пишется совместнодобровольцами, которых называют «викиционариями».Программное обеспечение викиMediaWikiпозволяет,имеющему доступ к веб-сайту, создавать и редактировать записи.

Поскольку Викисловарь не ограничен размерами печатного пространства, большинство языковых версий Викисловаря содержат определения и переводы терминов со многих языков, а некоторые версии предлагают дополнительную информацию, обычно встречающуюся в тезаурусах .

Данные Викисловаря часто используются в различных задачах обработки естественного языка.

История и развитие

Викисловарь был выведен в онлайн 12 декабря 2002 года [2] по предложению Дэниела Олстона и идее Ларри Сэнгера , соучредителя Википедии. [3] 28 марта 2004 года были начаты первые неанглийские Викисловари на французском и польском языках . С тех пор были начаты Викисловари на многих других языках. Викисловарь размещался на временном доменном имени (wiktionary.wikipedia.org) до 1 мая 2004 года, когда он перешел на текущее доменное имя. [a] По состоянию на июль 2021 года Викисловарь содержит более 30 миллионов статей (и даже больше записей) во всех своих редакциях. [4] Самым крупным из языковых редакций является Английский Викисловарь с более чем 7,5 миллионами записей, за ним следует Французский Викисловарь с более чем 4,7 миллионами и Малагасийский Викисловарь с более чем 3,5 миллионами записей. Сорок три языковых издания Викисловаря содержат более 100 000 записей каждое. [b]

Использование ботов для создания большого количества статей можно увидеть в виде «скачков роста» на этом графике количества статей в восьми крупнейших редакциях Викисловаря. (Данные по состоянию на декабрь 2009 г. )

Многие определения в крупнейших языковых изданиях проекта были созданы ботами , которые нашли креативные способы генерировать записи или (редко) автоматически импортировали тысячи записей из ранее опубликованных словарей. Семь из 18 ботов, зарегистрированных в English Wiktionary в 2007 году [c], создали там 163 000 записей. [5]

Другой из этих ботов, «ThirdPersBot», отвечал за добавление ряда спряжений третьего лица , которые не получили бы своих собственных записей в стандартных словарях; например, он определил «smoulders» как «третье лицо единственного числа простого настоящего времени от smoulder». Из 1 269 938 определений, которые Английский Викисловарь предоставляет для 996 450 английских слов, 478 068 являются «формами» определений такого рода. [6] Это означает, что даже без таких записей его охват английского языка значительно больше, чем у основных одноязычных печатных словарей. Третий новый международный словарь английского языка Merriam-Webster , Unabridged , например, содержит 475 000 записей (со множеством дополнительных встроенных заглавных слов); Оксфордский словарь английского языка содержит 615 000 заглавных слов, но включает также среднеанглийский язык , для которого в Английском Викисловаре есть дополнительные 34 234 определения в глоссарии. Подробная статистика показывает, сколько существует записей различных видов.

Английский Викисловарь не полагается на ботов в той степени, в какой это делают некоторые другие издания. Французский и вьетнамский Викисловари , например, импортировали большие разделы Free Vietnamese Dictionary Project (FVDP), который предоставляет бесплатный контент двуязычных словарей на вьетнамский и с вьетнамского языка. [d] Эти импортированные записи составляют практически все содержимое вьетнамского издания. Как и английское издание, французский Викисловарь импортировал около 20 000 записей из базы данных Unihan китайских, японских, корейских и индийских иероглифов . Французский Викисловарь быстро рос в 2006 году во многом благодаря ботам, копировавшим многие записи из старых, свободно лицензированных словарей, таких как восьмое издание Dictionnaire de l'Académie française (1935, около 35 000 слов), и использованию ботов для добавления слов из других изданий Викисловаря с французскими переводами. Русское издание выросло почти на 80 000 записей , поскольку «LXbot» добавил шаблонные записи (с заголовками, но без определений) для слов на английском и немецком языках . [7]

По состоянию на июль 2021 года в англоязычном Викисловаре содержится более 791 870 определений в толкованиях и более 1 269 938 общих определений (включая различные формы) только для английских статей, а общее количество определений на всех языках составляет более 9 928 056. [8]

Логотипы

Викисловарь исторически не имел единого логотипа в своих многочисленных языковых изданиях. Некоторые издания используют логотипы, которые изображают словарную статью о термине «Викисловарь», основанную на предыдущем логотипе английского Викисловаря, который был разработан Брук Виббер, разработчиком MediaWiki . [9] Поскольку чисто текстовый логотип должен значительно отличаться от языка к языку, в Wikimedia Meta-Wiki с сентября по октябрь 2006 года проводился четырехэтапный конкурс на принятие единого логотипа. [e] Некоторые сообщества приняли победившую запись «Smurrayinchester», сетку 3×3 из деревянных плиток, на каждой из которых был изображен символ из другой системы письма. Однако опрос не вызвал такого большого участия со стороны сообщества Викисловаря, как надеялись некоторые члены сообщества, и ряд крупных вики в конечном итоге сохранили свои текстовые логотипы. [e]

В апреле 2009 года проблема была возрождена с новым конкурсом. На этот раз изображение открытого словаря в твердом переплете от "AAEngelman" победило в голосовании лицом к лицу с логотипом 2006 года, но процесс доработки и принятия нового логотипа затем застопорился. [10] В последующие годы некоторые вики заменили свои текстовые логотипы одним из двух новых логотипов. В 2012 году 55 вики, которые использовали логотип английского Викисловаря, получили локализованные версии дизайна 2006 года от "Smurrayinchester". [f] В июле 2016 года английский Викисловарь принял вариант этого логотипа. [11] По состоянию на 4 июля 2016 года 135 вики, что составляет 61 % записей Викисловаря, используют логотип, основанный на дизайне 2006 года от "Smurrayinchester", 33 вики (36 %) используют текстовый логотип, а три вики (3 %) используют дизайн 2009 года от "AAEngelman". [12]

Многоязычный

По состоянию на ноябрь 2024 года сайты Викисловаря существуют на 195 языках, из которых 171 активен, а 24 закрыты. [1] Активные сайты содержат 41 861 090 статей, а закрытые — 339 статей. [13] Зарегистрировано 7 395 315 пользователей, из которых 5 885 недавно активны. [13]

Десять лучших языковых проектов Викисловаря по количеству статей в основных разделах: [13]

Полный список с общими данными см. в статистике Wikimedia: [14]

Критический прием

Критический прием Викисловаря был неоднозначным. В 2006 году Джилл Лепор написала в статье «Ноев ковчег» для The New Yorker , [g]

В Викисловаре нет ни одного поднятия рук . Даже редакции нет. «Будьте своим собственным лексикографом!» — таков мог бы быть девиз Викисловаря . Кому нужны эксперты? Зачем платить хорошие деньги за словарь, написанный лексикографами, если мы можем слепить его сами?

Викисловарь не столько республиканский или демократический , сколько маоистский . И он хорош ровно настолько, насколько хороши книги с истекшим сроком действия авторских прав , из которых он ворует.

Рецензия Кейра Граффа на Booklist была менее критичной:

Есть ли место для Викисловаря? Несомненно. Трудолюбие и энтузиазм его многочисленных создателей доказывают, что рынок есть. И замечательно иметь еще один надежный источник для поиска странных терминов, которые появляются в сегодняшнем быстро меняющемся мире и онлайн-среде. Но, как и в случае со многими веб-источниками (включая эту колонку), его лучше всего использовать опытным пользователям в сочетании с более авторитетными источниками. [ требуется ссылка ]

Ссылки в других публикациях мимолетны и являются частью более обширных обсуждений Википедии, не продвигаясь дальше определения, хотя Дэвид Брукс в The Nashua Telegraph описал ее как «дикую и неряшливую». [16] Одним из препятствий для независимого освещения Викисловаря является продолжающаяся путаница, что это всего лишь расширение Википедии. [h]

Мера правильности склонений для подмножества польских слов в Английском Викисловаре показала, что эти грамматические данные очень стабильны (исследование показало, что только для 131 из 4748 польских слов данные по склонениям были исправлены). [17]

Начиная с 2016 года , Викисловарь стал пользоваться растущей популярностью в академических кругах . [18]

Данные Викисловаря в обработке естественного языка

Викисловарь содержит полуструктурированные данные . [19] Лексикографические данные Викисловаря могут быть преобразованы в машиночитаемый формат для использования в задачах обработки естественного языка . [20] [21] [22]

Добыча данных Викисловаря — сложная задача. Существуют следующие трудности: [23]

Существует несколько парсеров для различных языковых редакций Викисловаря: [24]

Примеры задач обработки естественного языка , которые были решены с помощью данных Викисловаря:

« Викиданные : лексикографические данные» были запущены в 2018 году для обеспечения поддержки структурированных данных для викисловарей. Он хранит словесные данные всех языков в машиночитаемой модели данных в специальном пространстве имен « Лексема » в Викиданных. По состоянию на октябрь 2021 года в проекте собрано более 600 000 лексемных статей на разных языках. [47]

Смотрите также

Примечания

  1. Текущий URL-адрес Викисловаря — www.wiktionary.org.
  2. ^ Общее количество статей Викисловаря здесь. Подробная статистика по типу слова доступна здесь [1].
  3. ^ Список пользователей в Английском Викисловаре содержит учетные записи, которым был присвоен «статус бота».
  4. ^ Hồ Ngọc Đức, Проект бесплатного вьетнамского словаря. Подробности во вьетнамском Викисловаре.
  5. ^ ab "Викисловарь/логотип", Meta-Wiki, Фонд Викимедиа .
  6. ^ [Translators-l] 56 Викисловарей получили локализованный логотип
  7. Полная версия статьи недоступна в сети. [15]
  8. ^ В этой цитате автор ссылается на Викисловарь как на часть сайта Википедии: Адаптировано из статьи Наоми ДеТуллио (2006). «Вики для библиотекарей» (PDF) . NETLS News #142 . Северо-восточная техасская библиотечная система. стр. 15. Архивировано из оригинала (PDF-бюллетень) 5 июня 2007 г. . Получено 21 апреля 2007 г. .
  9. ^ Например, сравните структуру записи и правила форматирования в английском и русском Викисловарях.
  10. Цитаты взяты только из русского Викисловаря. [33]
  11. ^ Если на странице Викисловаря имеется несколько записей МФА — либо для разных языков, либо для вариантов произношения, то извлекается первое произношение. [39]
  12. ^ Исходный код и результаты POS-тегирования доступны по адресу https://code.google.com/p/wikily-supervised-pos-tagger

Ссылки

Цитаты

  1. ^ ab Wikimedia 's MediaWiki API: Sitematrix. Получено в ноябре 2024 г. из данных: Статистика Википедии/meta.tab.
  2. ^ "Обсуждение архива рассылки Википедии, объявляющее об открытии проекта Викисловарь". 12 декабря 2002 г. Архивировано из оригинала 20 июня 2014 г. Получено 3 мая 2011 г.
  3. Обсуждение архива списка рассылки Википедии от Ларри Сэнгера, выдвинувшего идею в Викисловаре. Архивировано 20 июня 2014 г. на Wayback Machine – Получено 3 мая 2011 г.
  4. ^ "Wiktionary". www.wiktionary.org . Архивировано из оригинала 13 сентября 2008 г. . Получено 28 октября 2021 г. .
  5. ^ TheDaveBot Архивировано 11 октября 2007 г. на Wayback Machine , TheCheatBot Архивировано 11 октября 2007 г. на Wayback Machine , Websterbot Архивировано 11 октября 2007 г. на Wayback Machine , PastBot Архивировано 11 октября 2007 г. на Wayback Machine , NanshuBot Архивировано 11 октября 2007 г. на Wayback Machine
  6. ^ Подробная статистика Архивировано 23 июля 2021 г., на Wayback Machine по состоянию на 21 июля 2021 г.
  7. ^ "LXbot". Архивировано из оригинала 24 мая 2008 года.
  8. ^ "Wiktionary:Statistics". 29 марта 2022 г. Архивировано из оригинала 6 марта 2023 г. Получено 6 марта 2023 г. – через Wiktionary.
  9. ^ «Обсуждение Викисловаря:Логотип Викисловаря», Английский Викисловарь, Фонд Викимедиа.
  10. ^ «Wiktionary/logo/refresh/voting», Meta-Wiki, Фонд Викимедиа.
  11. ^ phab:T139255
  12. ^ m:Wiktionary/logo#Статистика использования логотипа.
  13. ^ API MediaWiki abc Wikimedia : Siteinfo. Получено в ноябре 2024 г. из данных: Статистика Википедии/data.tab.
  14. ^ "Статистика Викисловаря". Meta.Wikimedia.org . Архивировано из оригинала 2 сентября 2020 г. . Получено 11 сентября 2020 г. .
  15. ^ Лепор 2006.
  16. Дэвид Брукс, «Интерактивная онлайн-энциклопедия больше не только для гиков, потому что, похоже, она нужна всем, больше, чем когда-либо!» The Nashua Telegraph (4 августа 2004 г.)
  17. ^ Курмас 2010.
  18. ^ Саша и Мюллер-Спитцер 2016, с. 348
  19. ^ Мейер и Гуревич 2012, стр. 140.
  20. ^ Zesch, Müller & Gurevych 2008, стр. 4, Рисунок 1.
  21. ^ Мейер и Гуревич 2010, стр. 40.
  22. ^ Крижановский, Трансформация 2010, стр. 1.
  23. ^ Hellmann & Auer 2013, стр. 302, стр. 16 в формате PDF.
  24. ^ Хеллманн, Брекле и Ауэр 2012, стр. 3, Таблица 1.
  25. ^ "DBpedia Wiktionary". Архивировано из оригинала 4 мая 2013 года.
  26. ^ Хеллманн, Брекле и Ауэр 2012, стр. 8–9.
  27. ^ Хеллманн, Брекле и Ауэр 2012, стр. 10.
  28. ^ Хеллманн, Брекле и Ауэр 2012, стр. 11.
  29. ^ "Welcome". DKPro JWKTL . Архивировано из оригинала 23 января 2021 г. . Получено 23 июня 2019 г. .
  30. ^ Зеш, Мюллер и Гуревич 2008.
  31. ^ "Wikokit - Машиночитаемый Викисловарь". 19 декабря 2022 г. Архивировано из оригинала 2 октября 2020 г. Получено 7 ноября 2015 г. – через GitHub.
  32. ^ Крижановский, Трансформация 2010.
  33. ^ ab Смирнов и др. 2012.
  34. ^ Крижановский, Сравнение 2010.
  35. ^ "Исследования Жерара де Мело в ИКСИ, Беркли". gerard.demelo.org . Архивировано из оригинала 27 марта 2023 г. . Получено 6 марта 2023 г. .
  36. ^ Отте и Тайерс 2011.
  37. ^ МакФейт и Форбус 2011.
  38. ^ Шлиппе, Окс и Шульц 2012.
  39. ^ Шлиппе, Охс и Шульц 2012, стр. 4802.
  40. ^ Шлиппе, Охс и Шульц 2012, стр. 4804.
  41. ^ Мейер и Гуревич 2012.
  42. ^ "ConceptNet 5". conceptnet5.media.mit.edu . Архивировано из оригинала 19 октября 2011 г. Получено 23 сентября 2023 г.
  43. ^ Лин и Крижановски 2011.
  44. ^ Медеро и Остендорф 2009.
  45. ^ Ли, Граса и Таскар 2012.
  46. ^ Чесли и др. 2006.
  47. ^ "Wikidata:Wiktionary". Архивировано из оригинала 3 января 2023 г. Получено 12 октября 2012 г.

Источники

Внешние ссылки