Частота букв — это среднее количество раз, которое буквы алфавита встречаются в письменной речи . Анализ частоты букв восходит к арабскому математику Аль-Кинди ( ок. 801–873 гг. н. э.), который официально разработал метод взлома шифров . Анализ частоты букв приобрел значение в Европе с развитием подвижного шрифта в 1450 г. н. э., когда необходимо оценить количество шрифта, требуемое для каждой формы буквы . Лингвисты используют анализ частоты букв как элементарный метод идентификации языка , где он особенно эффективен в качестве указания на то, является ли неизвестная система письма алфавитной, слоговой или идеографической .
Использование частот букв и частотного анализа играет фундаментальную роль в криптограммах и нескольких играх-головоломках, включая Hangman , Scrabble , Wordle [2] и телевизионное игровое шоу Wheel of Fortune . Одно из самых ранних описаний в классической литературе применения знания частоты английских букв для решения криптограммы можно найти в знаменитом рассказе Эдгара Аллана По « Золотой жук », где этот метод успешно применяется для расшифровки сообщения, в котором указано местонахождение сокровища, спрятанного капитаном Киддом . [3] [ необходима цитата ]
Герберт С. Зим в своем классическом вводном тексте по криптографии « Коды и секретное письмо » приводит последовательность частот английских букв как « ETAON RISHD LFCMU GYPWB VKJXZQ », наиболее распространенные пары букв как «TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO», а наиболее распространенные двойные буквы как «LL EE SS OO TT FF RR NN PP CC». [4] Различные способы подсчета могут давать несколько разные порядки.
Частоты букв также оказывают сильное влияние на дизайн некоторых раскладок клавиатуры . Наиболее часто встречающиеся буквы располагаются на начальном ряду пишущей машинки Blickensderfer , раскладки клавиатуры Dvorak , Colemak и других оптимизированных раскладок.
Частота букв в тексте изучалась для использования в криптоанализе , и частотном анализе в частности, начиная с арабского математика аль-Кинди (ок. 801–873 гг. н. э.), который формально разработал этот метод (шифры, которые можно было взломать с помощью этой техники, восходят по крайней мере к шифру Цезаря , который использовался Юлием Цезарем , [ необходима ссылка ], поэтому этот метод мог быть исследован в классические времена). Анализ частоты букв приобрел дополнительное значение в Европе с развитием подвижного шрифта в 1450 г. н. э., когда необходимо было оценить количество шрифта, требуемое для каждой формы буквы, о чем свидетельствуют различия в размере отсеков для букв в типографских наборных шкафах.
Никакое точное распределение частот букв не лежит в основе данного языка, поскольку все авторы пишут немного по-разному. Однако большинство языков имеют характерное распределение, которое сильно проявляется в более длинных текстах. Даже такие экстремальные языковые изменения, как от древнеанглийского к современному английскому (считающемуся взаимно непонятным), показывают сильные тенденции в связанных частотах букв: на небольшой выборке библейских отрывков, от наиболее частого к наименее частому, enaid sorhm tgþlwu æcfy ðbpxz древнеанглийского сравнивается с eotha sinrd luymw fgcbp kvjqxz современного английского, при этом самые экстремальные различия, касающиеся форм букв, не являются общими. [5]
Линотипы для английского языка предполагали порядок букв, от наиболее часто встречающихся к наименее встречающимся, как etaoin shrdlu cmfwyp vbgkqj xz на основе опыта и привычек ручных наборщиков. Эквивалент для французского языка был elaoin sdrétu cmfhyp vbgwqj xz .
Разделив алфавит азбуки Морзе на группы букв, передача которых занимает одинаковое время, а затем отсортировав эти группы в порядке возрастания, получим e it san hurdm wgvlfbk opxcz jyq . [a] Частота букв использовалась и другими телеграфными системами, такими как код Мюррея .
Похожие идеи используются в современных методах сжатия данных, таких как кодирование Хаффмана .
Частоты букв, как и частоты слов , имеют тенденцию меняться как в зависимости от автора, так и от предмета. Например, ⟨d⟩ встречается в художественной литературе чаще, так как большая часть художественной литературы написана в прошедшем времени, и поэтому большинство глаголов будут заканчиваться на суффикс -ed / -d . Невозможно написать эссе о рентгеновских лучах, не используя часто ⟨x⟩ . У разных авторов есть привычки, которые могут отражаться в использовании ими букв. Например, стиль письма Хемингуэя заметно отличается от стиля Фолкнера. Буквы, биграммы , триграммы , частоты слов, длина слова и длина предложения могут быть рассчитаны для конкретных авторов и использованы для доказательства или опровержения авторства текстов, даже для авторов, чьи стили не так уж расходятся.
Точные средние частоты букв можно получить только путем анализа большого количества репрезентативного текста. С появлением современных вычислений и коллекций больших текстовых корпусов такие расчеты легко сделать. Примеры можно взять из различных источников (пресс-релизы, религиозные тексты, научные тексты и общая художественная литература), и существуют различия, особенно для общей художественной литературы с позицией ⟨h⟩ и ⟨i⟩ , причем ⟨h⟩ становится все более распространенным.
Различные диалекты языка также повлияют на частоту буквы. Например, автор в Соединенных Штатах напишет что-то, в чем буква ⟨z⟩ встречается чаще, чем автор в Соединенном Королевстве, пишущий на ту же тему: такие слова, как «analyze», «apologize» и «recognize» содержат эту букву в американском английском, тогда как те же слова пишутся как «analyse», «apologise» и «recognize» в британском английском. Это сильно повлияет на частоту буквы ⟨z⟩ , так как она редко используется британскими писателями в английском языке. [6]
«Верхние двенадцать» букв составляют около 80% от общего использования. «Верхние восемь» букв составляют около 65% от общего использования. Частота букв как функция ранга может быть хорошо подобрана несколькими ранговыми функциями, причем лучшей является двухпараметрическая ранговая функция Cocho/Beta . [7] Другая ранговая функция без настраиваемого свободного параметра также достаточно хорошо подходит для распределения частоты букв [8] (та же функция использовалась для подгонки частоты аминокислот в белковых последовательностях. [9] ) Шпион, использующий шифр VIC или какой-либо другой шифр, основанный на шахматной доске, обычно использует мнемонику, такую как «грех ошибиться» (отбрасывание второй «r») [10] [11] или «в один сэр» [12], чтобы запомнить восемь верхних символов.
Существует три способа подсчета частоты букв, которые приводят к очень разным диаграммам для распространенных букв. Первый метод, используемый в таблице ниже, заключается в подсчете частоты букв в леммах словаря. Лемма — это слово в его канонической форме. Второй метод заключается в том, чтобы включить все варианты слов при подсчете, такие как «abstracts», «abstracted» и «abstracting», а не только лемму «abstract». Этот второй метод приводит к тому, что буквы типа ⟨s⟩ появляются гораздо чаще, например, при подсчете букв из списков наиболее используемых английских слов в Интернете. ⟨s⟩ особенно часто встречается в склоняемых словах (формах, не являющихся леммами), потому что она добавляется для образования множественного числа и глаголов третьего лица единственного числа настоящего времени. Последний метод заключается в подсчете букв на основе частоты их использования в реальных текстах, в результате чего определенные сочетания букв, такие как ⟨th⟩, становятся более распространенными из-за частого использования таких общих слов, как «the», «then», «both», «this» и т. д. Подобные абсолютные показатели частоты использования используются при создании раскладок клавиатуры или частот букв в старомодных печатных станках.
Анализ записей в Кратком Оксфордском словаре, игнорирующий частоту использования слов, дает порядок «EARIOTNSLCUDPMMHGBFYWKVXZJQ» [13] .
Таблица частот букв, представленная ниже, взята с сайта Павла Мички, который ссылается на «Криптологическую математику» Роберта Леванда . [14]
По словам Леванда, буквы расположены от наиболее к наименее распространенным по внешнему виду: etaoinshrdlcumwfgypbvkjxqz . Порядок Леванда немного отличается от других, таких как проект Cornell University Math Explorer, который создал таблицу после измерения 40 000 слов. [15]
В английском языке пробел встречается почти в два раза чаще, чем верхняя буква ( ⟨e⟩ ) [16] , а неалфавитные символы (цифры, знаки препинания и т. д.) в совокупности занимают четвертую позицию (уже включая пробел) между ⟨t⟩ и ⟨a⟩ . [17]
Частота первых букв слов или имен полезна для предварительного назначения пространства в физических файлах и индексах. [18] Учитывая 26 ящиков картотечного шкафа , вместо назначения одного ящика одной букве алфавита в соотношении 1:1, часто бывает полезно использовать более равночастотный буквенный код, назначая несколько низкочастотных букв одному и тому же ящику (часто один ящик обозначается как VWXYZ), и разбить наиболее часто встречающиеся начальные буквы ( ⟨s, a, c⟩ ) на несколько ящиков (часто 6 ящиков Aa-An, Ao-Az, Ca-Cj, Ck-Cz, Sa-Si, Sj-Sz). Та же система используется в некоторых многотомных работах, таких как некоторые энциклопедии . В некоторых библиотеках используются номера резцов , другое сопоставление имен с более равночастотным кодом.
Как общее распределение букв, так и распределение начальных букв слова приблизительно соответствуют распределению Ципфа и даже более точно соответствуют распределению Юла . [19]
Частотное распределение первой цифры в каждом элементе данных часто существенно отличается от общей частоты всех цифр в наборе числовых данных. Это наблюдение известно как закон Бенфорда .
Анализ Питером Норвигом слов, которые встречаются 100 000 раз или более в данных Google Books, транскрибированных с использованием оптического распознавания символов (OCR), определил, среди прочего, частоту первых букв английских слов. [20]
*См. İ и I без точки .
Рисунок ниже иллюстрирует распределение частот 26 наиболее распространенных латинских букв в некоторых языках. Все эти языки используют похожий алфавит из 25+ символов.
На основании этих таблиц эквивалент « etaoin shrdlu » для каждого языка выглядит следующим образом:
Источник: Leland, Robert. Cryptological mathematics. [sl]: The Mathematical Association of America, 2000. 199 стр. ISBN 0-88385-719-7
Полезные таблицы частот отдельных букв, биграмм, триграмм, тетраграмм и пентаграмм на основе 20 000 слов, которые учитывают длину слова и комбинации расположения букв для слов длиной от 3 до 7 букв: