Биграмма

Биграмма или диграмма — это последовательность двух смежных элементов из строки токенов , которые обычно являются буквами, слогами или словами. Биграмма — это n -грамма для n = 2 .

Частотное распределение каждой биграммы в строке обычно используется для простого статистического анализа текста во многих приложениях, в том числе в компьютерной лингвистике , криптографии и распознавании речи .

Биграммы с пропусками или пропускаемые биграммы — это пары слов, которые допускают пропуски (возможно, избегая соединительных слов или допуская некоторую имитацию зависимостей, как в грамматике зависимостей ).

Приложения

Биграммы, наряду с другими n-граммами, используются в большинстве успешных языковых моделей для распознавания речи . ^[1]

Атаки с использованием биграммной частоты могут использоваться в криптографии для решения криптограмм . См. частотный анализ .

Частота биграмм — один из подходов к статистической идентификации языка .

Некоторые виды деятельности в логологии или развлекательной лингвистике включают биграммы. Они включают попытки найти английские слова, начинающиеся с каждой возможной биграммы, ^[2] или слова, содержащие строку повторяющихся биграмм, например, логогог . ^[3]

Частота биграмм в английском языке

Частота наиболее распространенных буквенных биграмм в большом корпусе английского языка составляет: ^[4]

th 3.56% от 1.17% io 0.83%он 3.07% ред 1.17% ле 0.83%в 2,43% составляет 1,13% и 0,83%er 2.05% it 1.12% co 0.79%1,99% al 1,09% me 0,79%относительно 1,85% ar 1,07% de 0,76%на 1,76% ст 1,05% хай 0,76%от 1,49% до 1,05% при 0,73%ru 1.45% nt 1.04% ro 0.73%nd 1,35% ng 0,95% ic 0,70%ti 1,34% se 0,93% ne 0,69%ес 1,34% га 0,93% еа 0,69%или 1,28% как 0,87% ra 0,69%te 1,20% или 0,87% ce 0,65%

Смотрите также

Ссылки

^ Коллинз, Майкл Джон (1996-06-24). "Новый статистический анализатор на основе лексических зависимостей биграмм". Труды 34-го ежегодного собрания Ассоциации компьютерной лингвистики - . Ассоциация компьютерной лингвистики. стр. 184–191. arXiv : cmp-lg/9605012 . doi :10.3115/981863.981888. S2CID 12615602 . Получено 09.10.2018 .
^ Коэн, Филип М. (1975). «Начальные биграммы». Word Ways . 8 (2) . Получено 11 сентября 2016 г.
^ Корбин, Кайл (1989). «Двойные, тройные и четверные биграммы». Word Ways . 22 (3) . Получено 11 сентября 2016 г.
^ "Частота английских букв: Mayzner Revisited или ETAOIN SRHLDCU". norvig.com . Получено 28.10.2019 .