stringtranslate.com

Биграм

Биграмма или биграмма это последовательность двух соседних элементов из строки токенов , которые обычно представляют собой буквы, слоги или слова . Биграмма — это n -грамма для n =2.

Частотное распределение каждого биграмма в строке обычно используется для простого статистического анализа текста во многих приложениях, в том числе в компьютерной лингвистике , криптографии и распознавании речи .

Биграммы с пробелами или пропускаемые биграммы — это пары слов, которые допускают пробелы (возможно, избегая соединения слов или позволяя моделировать зависимости, как в грамматике зависимостей ).

Приложения

Биграммы, наряду с другими n-граммами, используются в большинстве успешных языковых моделей распознавания речи . [1]

Биграммные частотные атаки могут использоваться в криптографии для решения криптограмм . См. частотный анализ .

Частота биграмм — один из подходов к статистической идентификации языка .

Некоторые виды деятельности в области логологии или развлекательной лингвистики связаны с биграммами. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм, [2] или слова, содержащие строку повторяющихся биграмм, например logogogue . [3]

Частота биграмм в английском языке

Частота наиболее распространенных буквенных биграмм в большом корпусе английского языка составляет: [4]

3,56% из 1,17% и 0,83%он 3,07% из 1,17% ле 0,83%в 2,43% это 1,13% и 0,83%эээ 2,05% это 1,12% или 0,79%ан 1,99% аль 1,09% я 0,79%от 1,85% до 1,07% от 0,76%на 1,76% 1,05% привет 0,76%от 1,49% до 1,05% или 0,73%en 1,45% nt 1,04% ro 0,73%nd 1,35% ng 0,95% ic 0,70%ti 1,34% se 0,93% ne 0,69%es 1,34% га 0,93% шт 0,69%или 1,28% как 0,87% или 0,69%te 1,20% или 0,87% ce 0,65%

Смотрите также

Рекомендации

  1. ^ Коллинз, Майкл Джон (24 июня 1996 г.). «Новый статистический парсер, основанный на биграммных лексических зависимостях». Материалы 34-го ежегодного собрания Ассоциации компьютерной лингвистики . Ассоциация компьютерной лингвистики. стр. 184–191. arXiv : cmp-lg/9605012 . дои : 10.3115/981863.981888. S2CID  12615602 . Проверено 9 октября 2018 г.
  2. ^ Коэн, Филип М. (1975). «Начальные биграммы». Словесные пути . 8 (2) . Проверено 11 сентября 2016 г.
  3. ^ Корбин, Кайл (1989). «Двойные, тройные и четверные биграммы». Словесные пути . 22 (3) . Проверено 11 сентября 2016 г.
  4. ^ «Подсчет частоты английских букв: Возвращение к Майзнеру или ETAOIN SRLLDCU» . norvig.com . Проверено 28 октября 2019 г.