Поскольку Викисловарь не ограничен размером печатного пространства, большинство языковых изданий Викисловаря содержат определения и переводы терминов со многих языков, а некоторые издания предлагают дополнительную информацию, обычно встречающуюся в тезаурусах .
Данные Викисловаря часто используются в различных задачах обработки естественного языка.
История и развитие
Викисловарь был открыт 12 декабря 2002 года [2] по предложению Дэниела Олстона и идее Ларри Сэнгера , сооснователя Википедии. [3] 28 марта 2004 г. были созданы первые неанглоязычные викисловари на французском и польском языках . С тех пор были созданы викисловари на многих других языках. Викисловарь размещался на временном доменном имени (wiktionary.wikipedia.org) до 1 мая 2004 г., когда он переключился на текущее доменное имя. [a] По состоянию на июль 2021 года [ссылка]в Викисловаре содержится более 30 миллионов статей (и даже больше записей) во всех выпусках. [4] Самым крупным языковым изданием является английский Викисловарь с более чем 7,5 миллионами статей, за ним следуют французский Викисловарь с более чем 4,7 миллионами статей и малагасийский Викисловарь с более чем 3,5 миллионами статей. Сорок три языковых издания Викисловаря содержат более 100 000 статей каждое. [б]
Многие определения в крупнейших языковых изданиях проекта были созданы ботами , которые нашли творческие способы создания статей или (редко) автоматически импортировали тысячи статей из ранее опубликованных словарей. Семь из 18 ботов, зарегистрированных в Английском Викисловаре в 2007 году [c], создали там 163 000 записей. [5]
Другой из этих ботов, «ThirdPersBot», отвечал за добавление ряда спряжений от третьего лица , которые не получили бы собственных записей в стандартных словарях; например, он определил «тлеющие» как «простую настоящую форму тления от третьего лица единственного числа». Из 1 269 938 определений в английском Викисловаре содержится 996 450 английских слов, 478 068 являются «формами» определений такого рода. [6] Это означает, что даже без таких статей охват английского языка значительно шире, чем в основных одноязычных печатных словарях. Например, Третий новый международный словарь английского языка Merriam-Webster , Unabridged, содержит 475 000 статей (со множеством дополнительных встроенных заглавных слов); Оксфордский словарь английского языка насчитывает 615 000 ключевых слов, но включает также среднеанглийский язык , для которого в английском Викисловаре есть дополнительные 34 234 глянцевых определения. Существует подробная статистика, показывающая, сколько существует записей различных типов.
Английский Викисловарь не полагается на ботов в такой степени, как некоторые другие издания. Например, французские и вьетнамские викисловари импортировали большие разделы проекта Free Vietnamese Dictionary Project (FVDP), который предоставляет бесплатные двуязычные словари на вьетнамском языке и обратно. [d] Эти импортированные записи составляют практически все содержание вьетнамского издания. Как и английское издание, французский Викисловарь импортировал около 20 000 статей из базы данных Unihan , содержащих китайские, японские, корейские и индийские иероглифы . Французский Викисловарь быстро рос в 2006 году, во многом благодаря ботам, копирующим многие статьи из старых, свободно лицензированных словарей, таких как восьмое издание Dictionnaire de l'Académie Frenchaise (1935, около 35 000 слов), и использованию ботов для добавления слова из других изданий Викисловаря с французскими переводами. Русское издание выросло почти на 80 000 статей, поскольку «LXbot» добавил шаблонные записи (с заголовками, но без определений) для слов на английском и немецком языках . [7]
По состоянию на июль 2021 года английский Викисловарь содержит более 791 870 толковых определений и более 1 269 938 определений (включая различные формы) только для статей на английском языке, в общей сложности более 9 928 056 определений на всех языках. [8]
Логотипы
В Викисловаре исторически не было единого логотипа во всех многочисленных языковых изданиях. В некоторых изданиях используются логотипы, изображающие словарную статью о термине «Викисловарь», основанные на предыдущем логотипе английского Викисловаря, разработанном Брук Виббер, разработчиком MediaWiki . [9] Поскольку чисто текстовый логотип должен значительно различаться от языка к языку, с сентября по октябрь 2006 года в Мета-Вики Викимедиа проводился четырехэтапный конкурс на принятие единого логотипа. [e] Некоторые сообщества приняли победившую заявку «Смуррейинчестер», сетка из деревянных плиток размером 3 × 3, каждая из которых несет символы из разных систем письма. Однако в опросе не было такого большого участия сообщества Викисловаря, как надеялись некоторые члены сообщества, и ряд крупных вики в конечном итоге сохранили свои текстовые логотипы. [э]
В апреле 2009 года проблема была возобновлена с проведением нового конкурса. На этот раз изображение открытого словаря в твердом переплете, созданное А.А.Энгельманом, выиграло единоличное голосование против логотипа 2006 года, но затем процесс доработки и принятия нового логотипа застопорился. [10] В последующие годы некоторые вики заменили свои текстовые логотипы одним из двух новых логотипов. В 2012 году 55 вики-сайтов, использовавших логотип английского Викисловаря, получили локализованные версии дизайна 2006 года от «Smurrayinchester». [f] В июле 2016 года английский Викисловарь принял вариант этого логотипа. [11] По состоянию на 4 июля 2016 г. [обновлять]135 вики, что составляет 61% статей Викисловаря, используют логотип, основанный на дизайне «Smurrayinchester» 2006 года, 33 вики (36%) используют текстовый логотип, а три вики (3%) используйте дизайн 2009 года от «А.А.Энгельмана». [12]
Многоязычный
По состоянию на август 2024 года существуют сайты Викисловарей на 193 языках, из которых 169 активных и 24 закрытых. [1] На активных сайтах — 40 649 134 статьи, на закрытых — 339 статей. [13] Всего зарегистрировано 7 340 488 пользователей, из которых 6 084 являются активными в последнее время. [13]
Десять лучших языковых проектов Викисловаря по количеству статей в Mainspace: [13]
Полный список с итоговыми данными см. В статистике Викимедиа: [14]
Критический прием
Критики восприняли Викисловарь неоднозначно. В 2006 году Джилл Лепор написала в статье «Ноев ковчег» для The New Yorker , [g]
В Викисловаре нет поднятия рук . Нет даже редакции. «Будь сам себе лексикографом!» — возможно, таков девиз Викисловаря . Кому нужны эксперты? Зачем платить хорошие деньги за словарь, написанный лексикографами, если мы можем собрать его сами?
Есть ли место для Викисловаря? Несомненно. Индустрия и энтузиазм ее многочисленных создателей являются доказательством того, что рынок существует. И замечательно иметь еще один надежный источник, который можно использовать при поиске странных терминов, которые появляются в современном быстро меняющемся мире и онлайн-среде. Но, как и в случае со многими другими веб-источниками (включая эту колонку), опытным пользователям лучше всего использовать его в сочетании с более авторитетными источниками. [ нужна ссылка ]
Ссылки в других публикациях мимолетны и являются частью более широких дискуссий о Википедии, не продвигаясь дальше определения, хотя Дэвид Брукс в The Nashua Telegraph назвал ее «дикой и запутанной». [16] Одним из препятствий на пути независимого освещения Викисловаря является продолжающаяся путаница в том, что он является всего лишь продолжением Википедии. [час]
Измерение правильности флексий для подмножества польских слов в английском Викисловаре показало, что эти грамматические данные очень стабильны (исследование показало, что только в 131 из 4748 польских слов были исправлены данные по флексии). [17]
По состоянию на 2016 год [обновлять]Викисловарь стал широко использоваться в научных кругах . [18]
Данные викисловаря при обработке естественного языка
JWKTL ( Библиотека Викисловаря Java ): [29] обеспечивает доступ к дампам Викисловаря английского и немецкого Викисловаря через API Викисловаря Java . [30] Данные включают язык, части речи, определения, цитаты, семантические отношения, этимологии и переводы. JWKTL распространяется по лицензии Apache .
Построение машиночитаемого словаря парсером NULEX, объединяющим открытые лингвистические ресурсы: английский Викисловарь, WordNet и VerbNet . [37] Парсер NULEX очищает английский Викисловарь на предмет информации о времени (глаголы), форме множественного числа и частях речи (существительные).
Распознавание и синтез речи , где Викисловарь использовался для автоматического создания словарей произношения. [38] Пары «слово-произношение» были получены из шести языковых изданий Викисловаря ( чешского , английского, французского, испанского , польского и немецкого). Произношение дано в соответствии с Международным фонетическим алфавитом . [k] Система ASR, основанная на английском Викисловаре, имеет самый высокий уровень ошибок в словах, где приходится менять каждую третью фонему . [40]
Упрощение текста . Медеро и Остендорф [44] оценивали словарный запас ( определение уровня чтения ) с помощью данных Викисловаря. Были исследованы свойства слов, извлеченных из статей Викисловаря (длина определения и POS , смысл и количество переводов). Медеро и Остендорф ожидали, что
(1) очень распространенные слова с большей вероятностью будут иметь несколько частей речи,
(2) общие слова с большей вероятностью будут иметь несколько значений,
(3) общие слова с большей вероятностью будут переведены на несколько языков. Эти функции, извлеченные из статей Викисловаря, были полезны для различения типов слов, которые появляются в статьях Simple English Wikipedia, от слов, которые появляются только в сопоставимых статьях Standard English.
« Викиданные : лексикографические данные» были запущены в 2018 году для обеспечения поддержки структурированных данных для викисловарей. Он хранит словесные данные всех языков в машиночитаемой модели данных в специальном пространстве имен « Лексема » в Викиданных. По состоянию на октябрь 2021 года в проекте собрано более 600 000 лексемных статей на разных языках. [47]
^ [Переводчики-l] 56 викисловарей получили локализованный логотип
^ Полная статья недоступна в Интернете. [15]
^ В этой цитате автор ссылается на Викисловарь как часть сайта Википедии: адаптировано из статьи Наоми ДеТуллио (2006). «Вики для библиотекарей» (PDF) . Новости NETLS №142 . Библиотечная система Северо-Восточного Техаса. п. 15. Архивировано из оригинала (информационный бюллетень в формате PDF) 5 июня 2007 г. Проверено 21 апреля 2007 г.
^ Например, сравните структуру записи и правила форматирования в английском и русском Викисловарях.
^ Цитаты взяты только из русского Викисловаря. [33]
^ Если на странице Викисловаря есть несколько обозначений IPA - либо для разных языков, либо для вариантов произношения, то извлекается первое произношение. [39]
^ Исходный код и результаты POS-тегирования доступны по адресу https://code.google.com/p/wikily-supervised-pos-tagger.
Ссылки
Цитаты
^ ab MediaWiki API Викимедиа : Sitematrix. Получено в августе 2024 г. из данных: Статистика Википедии/meta.tab.
^ «Обсуждение архива списка рассылки Википедии, объявляющее об открытии проекта Викисловаря» . 12 декабря 2002 года. Архивировано из оригинала 20 июня 2014 года . Проверено 3 мая 2011 г.
^ Обсуждение архива списка рассылки Википедии от Ларри Сэнгера, излагающего идею в Викисловаре. Архивировано 20 июня 2014 г., в Wayback Machine - Проверено 3 мая 2011 г.
^ «Викисловарь». www.wiktionary.org . Архивировано из оригинала 13 сентября 2008 года . Проверено 28 октября 2021 г.
^ TheDaveBot. Архивировано 11 октября 2007 г., в Wayback Machine , TheCheatBot. Архивировано 11 октября 2007 г., в Wayback Machine , Websterbot. Архивировано 11 октября 2007 г., в Wayback Machine , PastBot. Архивировано 11 октября 2007 г., в Wayback Machine , NanshuBot. Архивировано 11 октября 2007 г. в Wayback Machine .
↑ Подробная статистика. Архивировано 23 июля 2021 г. на Wayback Machine по состоянию на 21 июля 2021 г.
^ "LXbot". Архивировано из оригинала 24 мая 2008 года.
^ «Викисловарь: Статистика». 29 марта 2022 года. Архивировано из оригинала 6 марта 2023 года . Проверено 6 марта 2023 г. - из Викисловаря.
^ «Обсуждение в Викисловаре: Логотип Викисловаря», английский Викисловарь, Фонд Викимедиа.
^ «Викисловарь/логотип/обновление/голосование», Мета-Вики, Фонд Викимедиа.
^ фаб: T139255
^ m:Викисловарь/лого#Статистика использования логотипа.
^ API MediaWiki abc Wikimedia : Siteinfo . Получено в августе 2024 г. из данных: Статистика Википедии/data.tab.
^ «Статистика Викисловаря». Мета.Викимедиа.орг . Архивировано из оригинала 2 сентября 2020 года . Проверено 11 сентября 2020 г.
^ Лепор 2006.
^ Дэвид Брукс, «Интерактивная онлайн-энциклопедия больше не только для компьютерных фанатов, потому что, похоже, она нужна всем сейчас, больше, чем когда-либо!» The Nashua Telegraph (4 августа 2004 г.)
^ Курмас 2010.
^ Саша и Мюллер-Спитцер 2016, с. 348
^ Мейер и Гуревич 2012, с. 140.
^ Зеш, Мюллер и Гуревич 2008, с. 4, рисунок 1.
^ Мейер и Гуревич 2010, с. 40.
^ Крижановский, Трансформация 2010, с. 1.
^ Хеллманн и Ауэр 2013, с. 302, с. 16 в PDF.
^ Хеллманн, Брекле и Ауэр 2012, стр. 3, таблица 1.
^ "Викисловарь DBpedia" . Архивировано из оригинала 4 мая 2013 года.
^ Хеллманн, Брекле и Ауэр 2012, стр. 8–9.
^ Хеллманн, Брекле и Ауэр 2012, стр. 10.
^ Хеллманн, Брекле и Ауэр 2012, стр. 11.
^ «Добро пожаловать». ДКПро JWKTL . Архивировано из оригинала 23 января 2021 года . Проверено 23 июня 2019 г.
^ Зеш, Мюллер и Гуревич 2008.
^ "Wikokit - Машиночитаемый Викисловарь" . 19 декабря 2022 года. Архивировано из оригинала 2 октября 2020 года . Получено 7 ноября 2015 г. - через GitHub.
^ Крижановский, Трансформация 2010.
^ аб Смирнов и др. 2012.
^ Крижановский, Сравнение 2010.
^ «Исследование Джерарда де Мело в ICSI, Беркли». gerard.demelo.org . Архивировано из оригинала 27 марта 2023 года . Проверено 6 марта 2023 г.
^ Отте и Тайерс 2011.
^ МакФейт и Форбус 2011.
^ Шлиппе, Охс и Шульц 2012.
^ Шлиппе, Охс и Шульц 2012, стр. 4802.
^ Шлиппе, Окс и Шульц 2012, стр. 4804.
^ Мейер и Гуревич 2012.
^ "Концептуальная сеть 5". Conceptnet5.media.mit.edu . Архивировано из оригинала 19 октября 2011 года . Проверено 23 сентября 2023 г.
^ Лин и Крижановский 2011.
^ Медеро и Остендорф 2009.
^ Ли, Граса и Таскар 2012.
^ Чесли и др. 2006.
^ "Викиданные: Викисловарь" . Архивировано из оригинала 3 января 2023 года . Проверено 12 октября 2012 г.
Источники
Чесли, Паула; Винсент, Брюс; Сюй, Ли; Шрихари, Рохини К. (2006). «Использование глаголов и прилагательных для автоматической классификации настроений в блогах» (PDF) . Обучение . 580 : 233–235. Архивировано из оригинала (PDF) 24 февраля 2021 г. Проверено 9 мая 2013 г.
Хеллманн, Себастьян; Брекле, Йонас; Ауэр, Сорен (2012). «Использование краудсорсинга лексических ресурсов для создания облака лингвистических данных» (PDF) . Учеб. Совместный международный Конференция по семантическим технологиям (JIST) . Нара, Япония.
Хеллманн, С.; Ауэр, С. (2013). «На пути к совместному извлечению знаний в веб-масштабе» (PDF) . В Гуревич, Ирина; Ким, Юнги (ред.). People's Web встречается с НЛП . Теория и приложения обработки естественного языка. Спрингер-Верлаг . стр. 287–313. ISBN 978-3-642-35084-9. Архивировано (PDF) из оригинала 27 октября 2014 г. Проверено 10 мая 2013 г.
Крижановский, Андрей (2010). «Преобразование структуры записей Викисловаря в таблицы и отношения в схеме реляционной базы данных». arXiv : 1011.1368 [cs].
Крижановский, Андрей (2010). «Сравнение тезаурусов Викисловаря, преобразованных в машиночитаемый формат». arXiv : 1006.5040 [cs].
Курмас, Закари (июль 2010 г.). Завилинский: библиотека для изучения грамматики в Викисловаре. Материалы 6-го Международного симпозиума по вики и открытому сотрудничеству. Гданьск, Польша . Проверено 29 июля 2011 г.
Ли, Шен; Граса, Жоао В.; Таскар, Бен (2012). «Теги частей речи, контролируемые Wiki» (PDF) . Материалы совместной конференции 2012 года по эмпирическим методам обработки естественного языка и вычислительному изучению естественного языка . Остров Чеджу, Корея: Ассоциация компьютерной лингвистики. стр. 1389–1398. Архивировано из оригинала (PDF) 22 мая 2013 года . Проверено 10 мая 2013 г.
Лепор, Джилл (6 ноября 2006 г.). «Ноев ковчег». Житель Нью-Йорка (Резюме) . Проверено 21 апреля 2007 г.
Лин, Фейю; Крижановский, Андрей (2011). «Многоязычное сопоставление онтологий на основе данных Викисловаря, доступных через конечную точку SPARQL». Учеб. 13-й Российской конференции по электронным библиотекам RCDL'2011 . Воронеж, Россия. стр. 19–26. arXiv : 1109.0732 . Бибкод : 2011arXiv1109.0732L.
МакФейт, Клифтон Дж.; Форбус, Кеннет Д. (2011). «NULEX: широкий лексикон открытой лицензии» (PDF) . 49-е ежегодное собрание Ассоциации компьютерной лингвистики: технологии человеческого языка, материалы конференции . Портленд, Орегон, США: Ассоциация компьютерной лингвистики. стр. 363–367. ISBN 978-1-932432-88-6.
Медеро, Джули; Остендорф, Мари (2009). «Анализ словарных трудностей с использованием викисловаря» (PDF) . Учеб. Мастерская SLaTE . Архивировано из оригинала (PDF) 24 апреля 2014 года . Проверено 10 мая 2013 г.
Мейер, CM; Гуревич, И. (2010). «На вес золота или еще один ресурс - сравнительное исследование Викисловаря, OpenThesaurus и GermaNet» (PDF) . Учеб. 11-я Международная конференция по интеллектуальной обработке текста и компьютерной лингвистике, Яссы, Румыния . стр. 38–49. Архивировано из оригинала (PDF) 1 декабря 2017 года . Проверено 10 мая 2013 г.
Мейер, CM; Гуревич И. (2012). «OntoWiktionary — построение онтологии на основе совместного викисловаря онлайн-словаря» (PDF) . В Пазиенце, Монтана; Стеллато, А. (ред.). Полуавтоматическая разработка онтологий: процессы и ресурсы . IGI Global. стр. 131–161. ISBN 978-1-4666-0188-8. Архивировано из оригинала (PDF) 9 октября 2013 г.
Отте, Пим; Тайерс, FM (2011). «Быстрый машинный перевод на основе правил между голландским и африкаанс» (PDF) . В Форкаде Микель Л.; Депретер, Хайди; Вандегинсте, Винсент (ред.). 16-я ежегодная конференция Европейской ассоциации машинного перевода, EAMT11 . Левен, Бельгия. стр. 153–160. Архивировано из оригинала (PDF) 25 февраля 2021 г. Проверено 10 мая 2013 г.
Саша, Вулфер; Мюллер-Спитцер, Кэролин (2016). «Сколько людей составляют толпу и что они делают? Количественный анализ изменений в английских и немецких изданиях викисловаря». Лексикос . 26 : 347–371. ISSN 1684-4904. OCLC 7211535994. Архивировано из оригинала 9 мая 2023 года . Проверено 27 августа 2021 г. - через ProQuest.
Шлиппе, Тим; Окс, Себастьян; Шульц, Таня (2012). «Построение модели графемы-фонемы для индоевропейских языков» (PDF) . Акустика, речь и обработка сигналов (ICASSP) . Киото, Япония. стр. 4801–4804. Архивировано из оригинала (PDF) 6 октября 2014 г. Проверено 10 мая 2013 г.
Смирнов А, Левашова Т, Карпов А, Кипяткова И, Ронжин А, Крижановский А, Крижановский Н (2012). «Анализ цитатного корпуса Русского Викисловаря». Исследования в области вычислительной техники . 56 : 101–112. arXiv : 2002.00734 . CiteSeerX 10.1.1.694.9627 . doi :10.13053/rcs-56-1-11 (неактивен 3 февраля 2024 г.). S2CID 10726045.{{cite journal}}: CS1 maint: DOI неактивен по состоянию на февраль 2024 г. ( ссылка )
Зеш, Торстен; Мюллер, Кристоф; Гуревич, Ирина (2008). «Извлечение лексико-семантических знаний из Википедии и Викисловаря» (PDF) . Материалы конференции по языковым ресурсам и оценке (LREC) . Марракеш, Марокко.
«Викисловарь». 101 лучший веб-сайт. Журнал ПК . Зифф Дэвис. 6 апреля 2005 года. Архивировано из оригинала 21 декабря 2005 года . Проверено 16 декабря 2005 г.
Внешние ссылки
Поищите Викисловарь в Викисловаре, бесплатном словаре.