Биграмма или диграмма — это последовательность двух смежных элементов из строки токенов , которые обычно являются буквами, слогами или словами. Биграмма — это n -грамма для n = 2 .
Частотное распределение каждой биграммы в строке обычно используется для простого статистического анализа текста во многих приложениях, в том числе в компьютерной лингвистике , криптографии и распознавании речи .
Биграммы с пропусками или пропускаемые биграммы — это пары слов, которые допускают пропуски (возможно, избегая соединительных слов или допуская некоторую имитацию зависимостей, как в грамматике зависимостей ).
Биграммы, наряду с другими n-граммами, используются в большинстве успешных языковых моделей для распознавания речи . [1]
Атаки с использованием биграммной частоты могут использоваться в криптографии для решения криптограмм . См. частотный анализ .
Частота биграмм — один из подходов к статистической идентификации языка .
Некоторые виды деятельности в логологии или развлекательной лингвистике включают биграммы. Они включают попытки найти английские слова, начинающиеся с каждой возможной биграммы, [2] или слова, содержащие строку повторяющихся биграмм, например, логогог . [3]
Частота наиболее распространенных буквенных биграмм в большом корпусе английского языка составляет: [4]
th 3.56% от 1.17% io 0.83%он 3.07% ред 1.17% ле 0.83%в 2,43% составляет 1,13% и 0,83%er 2.05% it 1.12% co 0.79%1,99% al 1,09% me 0,79%относительно 1,85% ar 1,07% de 0,76%на 1,76% ст 1,05% хай 0,76%от 1,49% до 1,05% при 0,73%ru 1.45% nt 1.04% ro 0.73%nd 1,35% ng 0,95% ic 0,70%ti 1,34% se 0,93% ne 0,69%ес 1,34% га 0,93% еа 0,69%или 1,28% как 0,87% ra 0,69%te 1,20% или 0,87% ce 0,65%