stringtranslate.com

n-грамм

Шесть n -грамм, часто встречающихся в заголовках публикаций о коронавирусной болезни 2019 года (COVID-19), по состоянию на 7 мая 2020 г.

N - грамма — это последовательность из n смежных символов в определенном порядке. Символами могут быть n смежных букв (включая знаки препинания и пробелы), слоги или редко целые слова, найденные в наборе языковых данных; или смежные фонемы, извлеченные из набора данных записей речи, или смежные пары оснований, извлеченные из генома. Они собираются из текстового корпуса или речевого корпуса . Если используются латинские числовые префиксы , то n -грамм размера 1 называется «униграммой», размера 2 — « биграммой » (или, реже, «диграммой») и т. д. Если вместо латинских дополнительно используются английские количественные числительные , то они называются «четырехграммовыми», «пятиграммовыми» и т. д. Аналогично, используя греческие числовые префиксы, такие как «мономер», «димер», «тример», «тетрамер», «пентамер» и т. д., или английские количественные числительные, «одномер», «двухмер», «трехмер» и т. д. используются в вычислительной биологии для полимеров или олигомеров известного размера, называемых k- мерами . Когда элементы являются словами, n -граммы также могут называться шинглами . [1]

В контексте обработки естественного языка (NLP) использование n -грамм позволяет моделям «мешка слов» улавливать такую ​​информацию, как порядок слов, что было бы невозможно в традиционной настройке «мешка слов».

Примеры

(Шеннон 1951) [2] обсуждали n -граммные модели английского языка. Например:

На рисунке 1 показано несколько примеров последовательностей и соответствующие им 1-граммовые, 2-граммовые и 3-граммовые последовательности.

Вот еще примеры: это 3-граммы и 4-граммы на уровне слов (и количество раз, когда они встречаются) из корпуса n -грамм Google. [3]

3-грамма

4-грамма

Ссылки

  1. ^ Бродер, Андрей З.; Глассман, Стивен К.; Манассе, Марк С.; Цвейг, Джеффри (1997). «Синтаксическая кластеризация сети». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. doi :10.1016/s0169-7552(97)00031-7. S2CID  9022773.
  2. ^ Шеннон, Клод Э. «Избыточность английского языка». Кибернетика; Труды 7-й конференции, Нью-Йорк: Фонд Джозайи Мэйси-младшего . 1951.
  3. ^ Франц, Алекс; Брантс, Торстен (2006). «Все наши N-граммы принадлежат вам». Блог Google Research . Архивировано из оригинала 17 октября 2006 года . Получено 16 декабря 2011 года .

Дальнейшее чтение

Смотрите также

Внешние ссылки