stringtranslate.com

Викисловарь

Викисловарь ( Великобритания : / ˈ w ɪ k ʃ ən ər i / ,ВИК-shə-nər-ee;США:/ ˈ w ɪ k ʃ ə n ɛr i / ,ВИК-shə-нерр-ее; рифма со словом «словарь») — это многоязычныйвеб-проект по созданиюбесплатного содержания словарятерминов (включаяслова,фразы,пословицы,лингвистические реконструкциии т. д.) на всехестественных языкахи в рядеискусственных языков. Эти записи могут содержатьопределения,изображениядля иллюстрации,произношение,этимологию,флексию, примеры использования,цитаты, связанные термины ипереводытерминов на другие языки, а также другие функции. Онсовместно редактируетсячерезвики. Его название представляет собойсочетаниесловwikiисловарь. Он доступен на 193 языках и напростом английском языке. Как и его родственный проектWikipedia, Викисловарь находится в веденииФонда Викимедиаи пишется совместнодобровольцами, получившими название «Викисловарии». ПрограммноеобеспечениеWikiMediaWikiпозволяет практически любому, у кого есть доступ к веб-сайту, создавать и редактировать записи.

Поскольку Викисловарь не ограничен размером печатного пространства, большинство языковых изданий Викисловаря содержат определения и переводы терминов со многих языков, а некоторые издания предлагают дополнительную информацию, обычно встречающуюся в тезаурусах .

Данные Викисловаря часто используются в различных задачах обработки естественного языка.

История и развитие

Викисловарь был открыт 12 декабря 2002 года [2] по предложению Дэниела Олстона и идее Ларри Сэнгера , сооснователя Википедии. [3] 28 марта 2004 г. были созданы первые неанглоязычные викисловари на французском и польском языках . С тех пор были созданы викисловари на многих других языках. Викисловарь размещался на временном доменном имени (wiktionary.wikipedia.org) до 1 мая 2004 г., когда он переключился на текущее доменное имя. [a] По состоянию на июль 2021 года в Викисловаре содержится более 30 миллионов статей (и даже больше записей) во всех выпусках. [4] Самым крупным языковым изданием является английский Викисловарь с более чем 7,5 миллионами статей, за ним следуют французский Викисловарь с более чем 4,7 миллионами статей и малагасийский Викисловарь с более чем 3,5 миллионами статей. Сорок три языковых издания Викисловаря содержат более 100 000 статей каждое. [б]

Использование ботов для создания большого количества статей видно как «всплески роста» на этом графике статей, рассчитанных на восемь крупнейших изданий Викисловаря. (Данные на декабрь 2009 г. )

Многие определения в крупнейших языковых изданиях проекта были созданы ботами , которые нашли творческие способы создания статей или (редко) автоматически импортировали тысячи статей из ранее опубликованных словарей. Семь из 18 ботов, зарегистрированных в Английском Викисловаре в 2007 году [c], создали там 163 000 записей. [5]

Другой из этих ботов, «ThirdPersBot», отвечал за добавление ряда спряжений от третьего лица , которые не получили бы собственных записей в стандартных словарях; например, он определил «тлеющие» как «простую настоящую форму тления от третьего лица единственного числа». Из 1 269 938 определений в английском Викисловаре содержится 996 450 английских слов, 478 068 являются «формами» определений такого рода. [6] Это означает, что даже без таких статей охват английского языка значительно шире, чем в основных одноязычных печатных словарях. Например, Третий новый международный словарь английского языка Merriam-Webster , Unabridged, содержит 475 000 статей (со множеством дополнительных встроенных заглавных слов); Оксфордский словарь английского языка насчитывает 615 000 ключевых слов, но включает также среднеанглийский язык , для которого в английском Викисловаре есть дополнительные 34 234 глянцевых определения. Существует подробная статистика, показывающая, сколько существует записей различных типов.

Английский Викисловарь не полагается на ботов в такой степени, как некоторые другие издания. Например, французские и вьетнамские викисловари импортировали большие разделы проекта Free Vietnamese Dictionary Project (FVDP), который предоставляет бесплатные двуязычные словари на вьетнамском языке и обратно. [d] Эти импортированные записи составляют практически все содержание вьетнамского издания. Как и английское издание, французский Викисловарь импортировал около 20 000 статей из базы данных Unihan , содержащих китайские, японские, корейские и индийские иероглифы . Французский Викисловарь быстро рос в 2006 году, во многом благодаря ботам, копирующим многие статьи из старых, свободно лицензированных словарей, таких как восьмое издание Dictionnaire de l'Académie Frenchaise (1935, около 35 000 слов), и использованию ботов для добавления слова из других изданий Викисловаря с французскими переводами. Русское издание выросло почти на 80 000 статей, поскольку «LXbot» добавил шаблонные записи (с заголовками, но без определений) для слов на английском и немецком языках . [7]

По состоянию на июль 2021 года английский Викисловарь содержит более 791 870 толковых определений и более 1 269 938 определений (включая различные формы) только для статей на английском языке, в общей сложности более 9 928 056 определений на всех языках. [8]

Логотипы

В Викисловаре исторически не было единого логотипа во всех многочисленных языковых изданиях. В некоторых изданиях используются логотипы, изображающие словарную статью о термине «Викисловарь», основанные на предыдущем логотипе английского Викисловаря, разработанном Брук Виббер, разработчиком MediaWiki . [9] Поскольку чисто текстовый логотип должен значительно различаться от языка к языку, с сентября по октябрь 2006 года в Мета-Вики Викимедиа проводился четырехэтапный конкурс на принятие единого логотипа. [e] Некоторые сообщества приняли победившую заявку «Смуррейинчестер», сетка из деревянных плиток размером 3 × 3, каждая из которых несет символы из разных систем письма. Однако в опросе не было такого большого участия сообщества Викисловаря, как надеялись некоторые члены сообщества, и ряд крупных вики в конечном итоге сохранили свои текстовые логотипы. [э]

В апреле 2009 года проблема была возобновлена ​​с проведением нового конкурса. На этот раз изображение открытого словаря в твердом переплете, созданное А.А.Энгельманом, выиграло единоличное голосование против логотипа 2006 года, но затем процесс доработки и принятия нового логотипа застопорился. [10] В последующие годы некоторые вики заменили свои текстовые логотипы одним из двух новых логотипов. В 2012 году 55 вики-сайтов, использовавших логотип английского Викисловаря, получили локализованные версии дизайна 2006 года от «Smurrayinchester». [f] В июле 2016 года английский Викисловарь принял вариант этого логотипа. [11] По состоянию на 4 июля 2016 г. 135 вики, что составляет 61% статей Викисловаря, используют логотип, основанный на дизайне «Smurrayinchester» 2006 года, 33 вики (36%) используют текстовый логотип, а три вики (3%) используйте дизайн 2009 года от «А.А.Энгельмана». [12]

Многоязычный

По состоянию на август 2024 года существуют сайты Викисловарей на 193 языках, из которых 169 активных и 24 закрытых. [1] На активных сайтах — 40 649 134 статьи, на закрытых — 339 статей. [13] Всего зарегистрировано 7 340 488 пользователей, из которых 6 084 являются активными в последнее время. [13]

Десять лучших языковых проектов Викисловаря по количеству статей в Mainspace: [13]

Полный список с итоговыми данными см. В статистике Викимедиа: [14]

Критический прием

Критики восприняли Викисловарь неоднозначно. В 2006 году Джилл Лепор написала в статье «Ноев ковчег» для The New Yorker , [g]

В Викисловаре нет поднятия рук . Нет даже редакции. «Будь сам себе лексикографом!» — возможно, таков девиз Викисловаря . Кому нужны эксперты? Зачем платить хорошие деньги за словарь, написанный лексикографами, если мы можем собрать его сами?

Викисловарь не столько республиканский или демократический , сколько маоистский . И это настолько хорошо, насколько хороши книги с истекшим сроком действия авторских прав, из которых они воруют.

Рецензия Кейра Граффа для Booklist была менее критичной:

Есть ли место для Викисловаря? Несомненно. Индустрия и энтузиазм ее многочисленных создателей являются доказательством того, что рынок существует. И замечательно иметь еще один надежный источник, который можно использовать при поиске странных терминов, которые появляются в современном быстро меняющемся мире и онлайн-среде. Но, как и в случае со многими другими веб-источниками (включая эту колонку), опытным пользователям лучше всего использовать его в сочетании с более авторитетными источниками. [ нужна ссылка ]

Ссылки в других публикациях мимолетны и являются частью более широких дискуссий о Википедии, не продвигаясь дальше определения, хотя Дэвид Брукс в The Nashua Telegraph назвал ее «дикой и запутанной». [16] Одним из препятствий на пути независимого освещения Викисловаря является продолжающаяся путаница в том, что он является всего лишь продолжением Википедии. [час]

Измерение правильности флексий для подмножества польских слов в английском Викисловаре показало, что эти грамматические данные очень стабильны (исследование показало, что только в 131 из 4748 польских слов были исправлены данные по флексии). [17]

По состоянию на 2016 год Викисловарь стал широко использоваться в научных кругах . [18]

Данные викисловаря при обработке естественного языка

В Викисловаре есть полуструктурированные данные . [19] Лексикографические данные викисловаря можно преобразовать в машиночитаемый формат для использования в задачах обработки естественного языка . [20] [21] [22]

Анализ данных Викисловаря — сложная задача. Существуют следующие трудности: [23]

Существует несколько парсеров для разных языковых изданий Викисловаря: [24]

Примеры задач обработки естественного языка , которые были решены с помощью данных Викисловаря, включают:

« Викиданные : лексикографические данные» были запущены в 2018 году для обеспечения поддержки структурированных данных для викисловарей. Он хранит словесные данные всех языков в машиночитаемой модели данных в специальном пространстве имен « Лексема » в Викиданных. По состоянию на октябрь 2021 года в проекте собрано более 600 000 лексемных статей на разных языках. [47]

См. также

Примечания

  1. ^ Текущий URL-адрес Викисловаря: www.wiktionary.org.
  2. ^ Общее количество статей в Викисловаре здесь. Подробную статистику по типам слов можно найти здесь [1].
  3. ^ В списке пользователей английского Викисловаря указаны учетные записи, которым присвоен «статус бота».
  4. ^ Hồ Ngọc Đức, Проект бесплатного вьетнамского словаря. Подробности во вьетнамском Викисловаре.
  5. ^ ab «Викисловарь/логотип», Мета-Вики, Фонд Викимедиа .
  6. ^ [Переводчики-l] 56 викисловарей получили локализованный логотип
  7. ^ Полная статья недоступна в Интернете. [15]
  8. ^ В этой цитате автор ссылается на Викисловарь как часть сайта Википедии: адаптировано из статьи Наоми ДеТуллио (2006). «Вики для библиотекарей» (PDF) . Новости NETLS №142 . Библиотечная система Северо-Восточного Техаса. п. 15. Архивировано из оригинала (информационный бюллетень в формате PDF) 5 июня 2007 г. Проверено 21 апреля 2007 г.
  9. ^ Например, сравните структуру записи и правила форматирования в английском и русском Викисловарях.
  10. ^ Цитаты взяты только из русского Викисловаря. [33]
  11. ^ Если на странице Викисловаря есть несколько обозначений IPA - либо для разных языков, либо для вариантов произношения, то извлекается первое произношение. [39]
  12. ^ Исходный код и результаты POS-тегирования доступны по адресу https://code.google.com/p/wikily-supervised-pos-tagger.

Ссылки

Цитаты

  1. ^ ab MediaWiki API Викимедиа : Sitematrix. Получено в августе 2024 г. из данных: Статистика Википедии/meta.tab.
  2. ^ «Обсуждение архива списка рассылки Википедии, объявляющее об открытии проекта Викисловаря» . 12 декабря 2002 года. Архивировано из оригинала 20 июня 2014 года . Проверено 3 мая 2011 г.
  3. ^ Обсуждение архива списка рассылки Википедии от Ларри Сэнгера, излагающего идею в Викисловаре. Архивировано 20 июня 2014 г., в Wayback Machine - Проверено 3 мая 2011 г.
  4. ^ «Викисловарь». www.wiktionary.org . Архивировано из оригинала 13 сентября 2008 года . Проверено 28 октября 2021 г.
  5. ^ TheDaveBot. Архивировано 11 октября 2007 г., в Wayback Machine , TheCheatBot. Архивировано 11 октября 2007 г., в Wayback Machine , Websterbot. Архивировано 11 октября 2007 г., в Wayback Machine , PastBot. Архивировано 11 октября 2007 г., в Wayback Machine , NanshuBot. Архивировано 11 октября 2007 г. в Wayback Machine .
  6. Подробная статистика. Архивировано 23 июля 2021 г. на Wayback Machine по состоянию на 21 июля 2021 г.
  7. ^ "LXbot". Архивировано из оригинала 24 мая 2008 года.
  8. ^ «Викисловарь: Статистика». 29 марта 2022 года. Архивировано из оригинала 6 марта 2023 года . Проверено 6 марта 2023 г. - из Викисловаря.
  9. ^ «Обсуждение в Викисловаре: Логотип Викисловаря», английский Викисловарь, Фонд Викимедиа.
  10. ^ «Викисловарь/логотип/обновление/голосование», Мета-Вики, Фонд Викимедиа.
  11. ^ фаб: T139255
  12. ^ m:Викисловарь/лого#Статистика использования логотипа.
  13. ^ API MediaWiki abc Wikimedia : Siteinfo . Получено в августе 2024 г. из данных: Статистика Википедии/data.tab.
  14. ^ «Статистика Викисловаря». Мета.Викимедиа.орг . Архивировано из оригинала 2 сентября 2020 года . Проверено 11 сентября 2020 г.
  15. ^ Лепор 2006.
  16. ^ Дэвид Брукс, «Интерактивная онлайн-энциклопедия больше не только для компьютерных фанатов, потому что, похоже, она нужна всем сейчас, больше, чем когда-либо!» The Nashua Telegraph (4 августа 2004 г.)
  17. ^ Курмас 2010.
  18. ^ Саша и Мюллер-Спитцер 2016, с. 348
  19. ^ Мейер и Гуревич 2012, с. 140.
  20. ^ Зеш, Мюллер и Гуревич 2008, с. 4, рисунок 1.
  21. ^ Мейер и Гуревич 2010, с. 40.
  22. ^ Крижановский, Трансформация 2010, с. 1.
  23. ^ Хеллманн и Ауэр 2013, с. 302, с. 16 в PDF.
  24. ^ Хеллманн, Брекле и Ауэр 2012, стр. 3, таблица 1.
  25. ^ "Викисловарь DBpedia" . Архивировано из оригинала 4 мая 2013 года.
  26. ^ Хеллманн, Брекле и Ауэр 2012, стр. 8–9.
  27. ^ Хеллманн, Брекле и Ауэр 2012, стр. 10.
  28. ^ Хеллманн, Брекле и Ауэр 2012, стр. 11.
  29. ^ «Добро пожаловать». ДКПро JWKTL . Архивировано из оригинала 23 января 2021 года . Проверено 23 июня 2019 г.
  30. ^ Зеш, Мюллер и Гуревич 2008.
  31. ^ "Wikokit - Машиночитаемый Викисловарь" . 19 декабря 2022 года. Архивировано из оригинала 2 октября 2020 года . Получено 7 ноября 2015 г. - через GitHub.
  32. ^ Крижановский, Трансформация 2010.
  33. ^ аб Смирнов и др. 2012.
  34. ^ Крижановский, Сравнение 2010.
  35. ^ «Исследование Джерарда де Мело в ICSI, Беркли». gerard.demelo.org . Архивировано из оригинала 27 марта 2023 года . Проверено 6 марта 2023 г.
  36. ^ Отте и Тайерс 2011.
  37. ^ МакФейт и Форбус 2011.
  38. ^ Шлиппе, Охс и Шульц 2012.
  39. ^ Шлиппе, Охс и Шульц 2012, стр. 4802.
  40. ^ Шлиппе, Окс и Шульц 2012, стр. 4804.
  41. ^ Мейер и Гуревич 2012.
  42. ^ "Концептуальная сеть 5". Conceptnet5.media.mit.edu . Архивировано из оригинала 19 октября 2011 года . Проверено 23 сентября 2023 г.
  43. ^ Лин и Крижановский 2011.
  44. ^ Медеро и Остендорф 2009.
  45. ^ Ли, Граса и Таскар 2012.
  46. ^ Чесли и др. 2006.
  47. ^ "Викиданные: Викисловарь" . Архивировано из оригинала 3 января 2023 года . Проверено 12 октября 2012 г.

Источники

Внешние ссылки