Биграм

Биграмма или биграмма — это последовательность двух соседних элементов из строки токенов , которые обычно представляют собой буквы, слоги или слова . Биграмма — это n -грамма для n =2.

Частотное распределение каждого биграмма в строке обычно используется для простого статистического анализа текста во многих приложениях, в том числе в компьютерной лингвистике , криптографии и распознавании речи .

Биграммы с пробелами или пропускаемые биграммы — это пары слов, которые допускают пробелы (возможно, избегая соединения слов или позволяя моделировать зависимости, как в грамматике зависимостей ).

Приложения

Биграммы, наряду с другими n-граммами, используются в большинстве успешных языковых моделей распознавания речи . ^[1]

Биграммные частотные атаки могут использоваться в криптографии для решения криптограмм . См. частотный анализ .

Частота биграмм — один из подходов к статистической идентификации языка .

Некоторые виды деятельности в области логологии или развлекательной лингвистики связаны с биграммами. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм, ^[2] или слова, содержащие строку повторяющихся биграмм, например logogogue . ^[3]

Частота биграмм в английском языке

Частота наиболее распространенных буквенных биграмм в большом корпусе английского языка составляет: ^[4]

3,56% из 1,17% и 0,83%он 3,07% из 1,17% ле 0,83%в 2,43% это 1,13% и 0,83%эээ 2,05% это 1,12% или 0,79%ан 1,99% аль 1,09% я 0,79%от 1,85% до 1,07% от 0,76%на 1,76% 1,05% привет 0,76%от 1,49% до 1,05% или 0,73%en 1,45% nt 1,04% ro 0,73%nd 1,35% ng 0,95% ic 0,70%ti 1,34% se 0,93% ne 0,69%es 1,34% га 0,93% шт 0,69%или 1,28% как 0,87% или 0,69%te 1,20% или 0,87% ce 0,65%

Биграм

Приложения

Частота биграмм в английском языке

Смотрите также

Рекомендации