stringtranslate.com

Проект Моби

Проект Moby представляет собой коллекцию общедоступных лексических ресурсов, созданных Грейди Уордом . Ресурсы были переданы в общедоступное пользование и теперь зеркалируются в Project Gutenberg . По состоянию на 2007 год он содержит самую большую бесплатную фонетическую базу данных, содержащую 177 267 слов и соответствующие им произношения. [1]

Дефис

Moby Hyphenator II содержит переносы 187 175 слов и фраз (включая 9 752 записи, где переносы не указаны, например, through и avoir ). Кодировка символов, по-видимому, MacRoman , а переносы обозначены маркером ( ⟨•⟩ , десятичное значение символа 165 или шестнадцатеричное A5). Однако некоторые записи содержат комбинацию фактических дефисов и символа 165, например, "bar•ber-sur•geon".

Практически отсутствует документация по выбору переносов; следующие примеры могут дать некоторое представление об использованном стиле переносов: ат•м•сфера; в•нимательн•ость; в•местимость; не•окрашиваемость.

Языки

Moby Language II содержит списки слов для пяти языков: французский , немецкий , итальянский , японский и испанский . Их статистика:

Однако некоторые списки загрязнены: например, японский список содержит английские слова, такие как ненормальные и не-слова, такие как abcdefgh и m,./ . Также есть необычные особенности в сортировке этих списков, так как французский список содержит прямой алфавитный список, в то время как немецкий список содержит алфавитный список традиционно заглавных слов, а затем алфавитный список традиционно строчных слов. Однако список итальянских слов не содержит вообще ни одного заглавного слова.

В списках не используются символы с диакритическими знаками, поэтому «e^tre» — это то, как пользователь будет искать французское слово être («быть»).

Часть речи

Moby Part-of-Speech содержит 233 356 слов, полностью описанных по частям речи , перечисленных в порядке приоритета. Формат файла — word\parts-of-speech , при этом идентифицированы следующие части речи:

Произносящий

Moby Pronunciator II содержит 177 267 записей с соответствующими произношениями. Большинство записей описывают одно слово, но около 79 000 [2] содержат дефисные или многословные фразы, имена или лексемы . Дистрибутив Project Gutenberg также содержит копию cmudict v0.3 . Файл содержит строки формата word[/part-of-speech] pronunciation . Каждая строка заканчивается символом возврата каретки ASCII (CR, '\r', 0x0D, 13 в десятичном формате).

Поле слова может включать апострофы (например, isn't ), дефисы (например, able-bodied ) и несколько слов, разделенных подчеркиваниями (например, monkey_wrench ). Неанглийские слова обычно отображаются, как указано в документации, без ударений или других диакритических знаков. Однако в 36 записях (например, São_Miguel ) некоторые не-ASCII-символы с ударениями остаются, представленные с помощью кодировки Mac OS Roman .

Поле части речи используется для устранения неоднозначности 770 слов, которые имеют разное произношение в зависимости от их части речи. Например, для слов, написанных близко, глагол имеет произношение / ˈ k l z / , тогда как прилагательное - / ˈ k l s / . Частям речи были присвоены следующие коды:

Далее следует произношение. Присутствуют несколько специальных символов:

Остальные символы используются для представления символов IPA . Произношения в целом соответствуют общему американскому диалекту английского языка, в котором присутствуют слияния father-bother , rush-furry и lot-cloth split , но не присутствуют слияния cot-caught или wine-whine . Каждая фонема представлена ​​последовательностью из одного или нескольких символов. Некоторые из последовательностей разделены слэшем "/", как показано в следующей таблице, но обратите внимание, что последовательность для / ɔɪ / разделена двумя слэшами с обоих концов:

В эту коллекцию добавлено несколько дополнительных последовательностей, представляющих фонемы, найденные в нескольких других языках. Они используются для кодирования неанглийских слов, фраз и имен, включенных в базу данных. Следующая таблица содержит эти дополнительные фонемы, но следует отметить, что степень, в которой некоторые из них могут существовать из-за ошибок кодирования, не ясна.

Шекспир

Moby Shakespeare содержит полные несокращенные произведения Шекспира . Этот конкретный ресурс недоступен в Project Gutenberg, но он доступен в версии 1993 года в Интернете. [3]

Тезаурус

Moby Thesaurus II содержит 30 260 корневых слов с 2 520 264 синонимами и связанными терминами – в среднем 83,3 на одно корневое слово. Каждая строка состоит из списка значений, разделенных запятыми , где первый термин является корневым словом, а все последующие слова являются связанными терминами.

В 1996 году Грейди Уорд передал этот тезаурус в общественное достояние. Он также доступен в виде пакета Debian , хотя поддержка пакета была прекращена, начиная с Bullseye . [4]

Слова

Moby Words II — крупнейший список слов в мире. [1] [ необходимы дополнительные ссылки ] Дистрибутив состоит из следующих 16 файлов:

Ссылки

  1. ^ ab "ACL SIGLEX Resource Links". Специальная группа по лексикону Ассоциации компьютерной лингвистики. 13 августа 2004 г. Архивировано из оригинала 15 декабря 2018 г. Получено 9 мая 2022 г. Moby Words: более 610 000 слов и фраз. Самый большой список слов в мире
  2. ^ Получено путем запуска команды UNIX grep '.*[-_].* .*' mobypron.unc | wc -l после преобразования окончаний строк и исправления некоторых ошибок кодировки.
  3. ^ mobyshak.txt версия 1993 года
  4. ^ Тоси, Сандро (13 июля 2020 г.). "RM: dict-moby-thesaurus -- RoQA; мертвый апстрим (более 10 лет); только python2; нет внешних [sic] зависимостей; крайне низкий popcon". Журналы отчетов об ошибках Debian . Получено 10 мая 2022 г.

Внешние ссылки