Последовательности элементов в компьютерной лингвистике
Шесть n -грамм часто встречаются в заголовках публикаций о коронавирусной болезни 2019 (COVID-19) по состоянию на 7 мая 2020 г.
n - грамма — это последовательность n соседних символов в определенном порядке. Символами могут быть n соседних букв (включая знаки препинания и пробелы), слоги или, реже, целые слова, встречающиеся в наборе языковых данных; или соседние фонемы , извлеченные из набора данных записи речи, или соседние пары оснований, извлеченные из генома. Они собираются из текстового корпуса или речевого корпуса . Если используются латинские числовые префиксы , то н -грамма размера 1 называется «униграммой», размера 2 — « биграммой » (или, реже, «диграммой») и т. д. Если вместо латинских используются английские далее используются количественные числа , тогда их называют «четырёхграммовыми», «пятиграммовыми» и т. д. Аналогично с использованием греческих числовых префиксов , таких как «мономер», «димер», «тример», «тетрамер», «пентамер». «и т. д., или английские кардинальные числа, «one-mer», «two-mer», «three-mer» и т. д. используются в вычислительной биологии для полимеров или олигомеров известного размера, называемых k -мерами . Если элементами являются слова, n -граммы также можно называть черепицей . [1]
В контексте НЛП использование n -грамм позволяет моделям «мешка слов» улавливать такую информацию, как порядок слов, что было бы невозможно в традиционной настройке «мешка слов».
Примеры
(Шеннон 1951) [2] обсуждал n -граммные модели английского языка. Например:
3-граммовая модель персонажа: in no ist lat Whey cratict froure birs grocid pondenome демонстраций ретагина - regiactiona of cre
2-граммовая модель слова: голова и лобовая атака на английского писателя, что характер этой точки, следовательно, является еще одним методом для букв, который когда-либо говорил о проблеме для неожиданного
На рисунке 1 показано несколько примеров последовательностей и соответствующие последовательности из 1 грамма, 2 грамма и 3 грамма.
Вот еще примеры; это 3-граммы и 4-граммы на уровне слов (и количество раз, когда они появлялись) из корпуса n -грамм Google. [3]
^ Бродер, Андрей З.; Глассман, Стивен С.; Манасс, Марк С.; Цвейг, Джеффри (1997). «Синтаксическая кластеризация сети». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. дои : 10.1016/s0169-7552(97)00031-7. S2CID 9022773.
^ Шеннон, Клод Э. «Избыточность английского языка». Кибернетика; Труды 7-й конференции, Нью-Йорк: Фонд Джозайи Мэйси-младшего . 1951.
^ Алекс Франц и Торстен Бранц (2006). «Все наши N-граммы принадлежат вам». Блог исследований Google . Архивировано из оригинала 17 октября 2006 года . Проверено 16 декабря 2011 г.
дальнейшее чтение
Кристофер Д. Мэннинг, Хинрих Шютце, Основы статистической обработки естественного языка , MIT Press: 1999. ISBN 0-262-13360-1 .
Уайт, Оуэн; Даннинг, Тед; Саттон, Грейнджер; Адамс, Марк; Вентер, Дж. Крейг; Филдс, Крис (1993). «Алгоритм контроля качества проектов секвенирования ДНК». Исследования нуклеиновых кислот . 21 (16): 3829–3838. дои : 10.1093/нар/21.16.3829. ПМК 309901 . ПМИД 8367301.
Фредерик Дж. Дамерау, Марковские модели и лингвистическая теория . Мутон. Гаага, 1971 год.
Фигероа, Алехандро; Аткинсон, Джон (2012). «Контекстные языковые модели для ранжирования ответов на вопросы определения естественного языка». Вычислительный интеллект . 28 (4): 528–548. дои : 10.1111/j.1467-8640.2012.00426.x. S2CID 27378409.
Брокардо, Марсело Луис; Исса Траоре; Шериф Саад; Исаак Вунганг (2013). Проверка авторства коротких сообщений с использованием стилометрии (PDF) . IEEE международный. Конференция по компьютерным, информационным и телекоммуникационным системам (CITS).