Биграмма или биграмма — это последовательность двух соседних элементов из строки токенов , которые обычно представляют собой буквы, слоги или слова . Биграмма — это n -грамма для n =2.
Частотное распределение каждого биграмма в строке обычно используется для простого статистического анализа текста во многих приложениях, в том числе в компьютерной лингвистике , криптографии и распознавании речи .
Биграммы с пробелами или пропускаемые биграммы — это пары слов, которые допускают пробелы (возможно, избегая соединения слов или позволяя моделировать зависимости, как в грамматике зависимостей ).
Биграммы, наряду с другими n-граммами, используются в большинстве успешных языковых моделей распознавания речи . [1]
Биграммные частотные атаки могут использоваться в криптографии для решения криптограмм . См. частотный анализ .
Частота биграмм — один из подходов к статистической идентификации языка .
Некоторые виды деятельности в области логологии или развлекательной лингвистики связаны с биграммами. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм, [2] или слова, содержащие строку повторяющихся биграмм, например logogogue . [3]
Частота наиболее распространенных буквенных биграмм в большом корпусе английского языка составляет: [4]
3,56% из 1,17% и 0,83%он 3,07% из 1,17% ле 0,83%в 2,43% это 1,13% и 0,83%эээ 2,05% это 1,12% или 0,79%ан 1,99% аль 1,09% я 0,79%от 1,85% до 1,07% от 0,76%на 1,76% 1,05% привет 0,76%от 1,49% до 1,05% или 0,73%en 1,45% nt 1,04% ro 0,73%nd 1,35% ng 0,95% ic 0,70%ti 1,34% se 0,93% ne 0,69%es 1,34% га 0,93% шт 0,69%или 1,28% как 0,87% или 0,69%te 1,20% или 0,87% ce 0,65%