н-грамм

n - грамма — это последовательность n соседних символов в определенном порядке. Символами могут быть n соседних букв (включая знаки препинания и пробелы), слоги или, реже, целые слова, встречающиеся в наборе языковых данных; или соседние фонемы , извлеченные из набора данных записи речи, или соседние пары оснований, извлеченные из генома. Они собираются из текстового корпуса или речевого корпуса . Если используются латинские числовые префиксы , то н -грамма размера 1 называется «униграммой», размера 2 — « биграммой » (или, реже, «диграммой») и т. д. Если вместо латинских используются английские далее используются количественные числа , тогда их называют «четырёхграммовыми», «пятиграммовыми» и т. д. Аналогично с использованием греческих числовых префиксов , таких как «мономер», «димер», «тример», «тетрамер», «пентамер». «и т. д., или английские кардинальные числа, «one-mer», «two-mer», «three-mer» и т. д. используются в вычислительной биологии для полимеров или олигомеров известного размера, называемых k -мерами . Если элементами являются слова, $n$ -граммы также можно называть черепицей . ^[1]

В контексте НЛП использование n -грамм позволяет моделям «мешка слов» улавливать такую информацию, как порядок слов, что было бы невозможно в традиционной настройке «мешка слов».

Примеры

(Шеннон 1951) ^[2] обсуждал n -граммные модели английского языка. Например:

3-граммовая модель персонажа: in no ist lat Whey cratict froure birs grocid pondenome демонстраций ретагина - regiactiona of cre
2-граммовая модель слова: голова и лобовая атака на английского писателя, что характер этой точки, следовательно, является еще одним методом для букв, который когда-либо говорил о проблеме для неожиданного

На рисунке 1 показано несколько примеров последовательностей и соответствующие последовательности из 1 грамма, 2 грамма и 3 грамма.

Вот еще примеры; это 3-граммы и 4-граммы на уровне слов (и количество раз, когда они появлялись) из корпуса n -грамм Google. ^[3]

3 грамма

предметы коллекционирования керамики предметы коллекционирования (55)
коллекционная керамика (130)
керамика собрана (52)
керамика коллекционная керамика (50)
керамика, коллекционная кулинария (45)

4 грамма

служить входящим (92)
служить инкубатором (99)
служить независимым (794)
служить индексом (223)
служить индикатором (72)
служить индикатором (120)

дальнейшее чтение

Кристофер Д. Мэннинг, Хинрих Шютце, Основы статистической обработки естественного языка , MIT Press: 1999. ISBN 0-262-13360-1 .
Уайт, Оуэн; Даннинг, Тед; Саттон, Грейнджер; Адамс, Марк; Вентер, Дж. Крейг; Филдс, Крис (1993). «Алгоритм контроля качества проектов секвенирования ДНК». Исследования нуклеиновых кислот . 21 (16): 3829–3838. дои : 10.1093/нар/21.16.3829. ПМК 309901 . ПМИД 8367301.
Фредерик Дж. Дамерау, Марковские модели и лингвистическая теория . Мутон. Гаага, 1971 год.
Фигероа, Алехандро; Аткинсон, Джон (2012). «Контекстные языковые модели для ранжирования ответов на вопросы определения естественного языка». Вычислительный интеллект . 28 (4): 528–548. дои : 10.1111/j.1467-8640.2012.00426.x. S2CID 27378409.
Брокардо, Марсело Луис; Исса Траоре; Шериф Саад; Исаак Вунганг (2013). Проверка авторства коротких сообщений с использованием стилометрии (PDF) . IEEE международный. Конференция по компьютерным, информационным и телекоммуникационным системам (CITS).

Смотрите также

Просмотрщик Google Ngram

Внешние ссылки

Ngram Extractor: определяет вес n-грамм в зависимости от их частоты.
Программа просмотра n-грамм Google Books и база данных n-грамм в Интернете (сентябрь 2006 г.)
Проект STATOPERATOR N-grams Взвешенный просмотрщик n-грамм для каждого домена в Alexa Top 1M
1 000 000 наиболее частых 2,3,4,5-грамм из 425 миллионов слов корпуса современного американского английского языка
Программа просмотра музыкальных файлов Peachnote
Спецификация стохастических языковых моделей (n-грамм) (W3C)
Заметки Майкла Коллинза о n-граммовых языковых моделях
OpenRefine: глубокая кластеризация

н-грамм

Примеры

Рекомендации

дальнейшее чтение

Смотрите также

Внешние ссылки