stringtranslate.com

н-грамм

Шесть n -грамм часто встречаются в заголовках публикаций о коронавирусной болезни 2019 (COVID-19) по состоянию на 7 мая 2020 г.

n - грамма — это последовательность n соседних символов в определенном порядке. Символами могут быть n соседних букв (включая знаки препинания и пробелы), слоги или, реже, целые слова, встречающиеся в наборе языковых данных; или соседние фонемы , извлеченные из набора данных записи речи, или соседние пары оснований, извлеченные из генома. Они собираются из текстового корпуса или речевого корпуса . Если используются латинские числовые префиксы , то н -грамма размера 1 называется «униграммой», размера 2 — « биграммой » (или, реже, «диграммой») и т. д. Если вместо латинских используются английские далее используются количественные числа , тогда их называют «четырёхграммовыми», «пятиграммовыми» и т. д. Аналогично с использованием греческих числовых префиксов , таких как «мономер», «димер», «тример», «тетрамер», «пентамер». «и т. д., или английские кардинальные числа, «one-mer», «two-mer», «three-mer» и т. д. используются в вычислительной биологии для полимеров или олигомеров известного размера, называемых k -мерами . Если элементами являются слова, n -граммы также можно называть черепицей . [1]

В контексте НЛП использование n -грамм позволяет моделям «мешка слов» улавливать такую ​​информацию, как порядок слов, что было бы невозможно в традиционной настройке «мешка слов».

Примеры

(Шеннон 1951) [2] обсуждал n -граммные модели английского языка. Например:

На рисунке 1 показано несколько примеров последовательностей и соответствующие последовательности из 1 грамма, 2 грамма и 3 грамма.

Вот еще примеры; это 3-граммы и 4-граммы на уровне слов (и количество раз, когда они появлялись) из корпуса n -грамм Google. [3]

3 грамма

4 грамма

Рекомендации

  1. ^ Бродер, Андрей З.; Глассман, Стивен С.; Манасс, Марк С.; Цвейг, Джеффри (1997). «Синтаксическая кластеризация сети». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. дои : 10.1016/s0169-7552(97)00031-7. S2CID  9022773.
  2. ^ Шеннон, Клод Э. «Избыточность английского языка». Кибернетика; Труды 7-й конференции, Нью-Йорк: Фонд Джозайи Мэйси-младшего . 1951.
  3. ^ Алекс Франц и Торстен Бранц (2006). «Все наши N-граммы принадлежат вам». Блог исследований Google . Архивировано из оригинала 17 октября 2006 года . Проверено 16 декабря 2011 г.

дальнейшее чтение

Смотрите также

Внешние ссылки