stringtranslate.com

Частота букв

Частота букв — это среднее количество раз, которое буквы алфавита встречаются в письменной речи . Анализ частоты букв восходит к арабскому математику Аль-Кинди ( ок.  801–873 гг. н. э.), который официально разработал метод взлома шифров . Анализ частоты букв приобрел значение в Европе с развитием подвижного шрифта в 1450 г. н. э., когда необходимо оценить количество шрифта, требуемое для каждой формы буквы . Лингвисты используют анализ частоты букв как элементарный метод идентификации языка , где он особенно эффективен в качестве указания на то, является ли неизвестная система письма алфавитной, слоговой или идеографической .

Использование частот букв и частотного анализа играет фундаментальную роль в криптограммах и нескольких играх-головоломках, включая Hangman , Scrabble , Wordle [2] и телевизионное игровое шоу Wheel of Fortune . Одно из самых ранних описаний в классической литературе применения знания частоты английских букв для решения криптограммы можно найти в знаменитом рассказе Эдгара Аллана По « Золотой жук », где этот метод успешно применяется для расшифровки сообщения, в котором указано местонахождение сокровища, спрятанного капитаном Киддом . [3] [ необходима цитата ]

Герберт С. Зим в своем классическом вводном тексте по криптографии « Коды и секретное письмо » приводит последовательность частот английских букв как « ETAON RISHD LFCMU GYPWB VKJXZQ », наиболее распространенные пары букв как «TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO», а наиболее распространенные двойные буквы как «LL EE SS OO TT FF RR NN PP CC». [4] Различные способы подсчета могут давать несколько разные порядки.

Частоты букв также оказывают сильное влияние на дизайн некоторых раскладок клавиатуры . Наиболее часто встречающиеся буквы располагаются на начальном ряду пишущей машинки Blickensderfer , раскладки клавиатуры Dvorak , Colemak и других оптимизированных раскладок.

Фон

California Job Case — это разделенная на отсеки коробка для типографских работ, использовавшаяся в XIX веке и имевшая размеры, соответствующие общности букв.

Частота букв в тексте изучалась для использования в криптоанализе , и частотном анализе в частности, начиная с арабского математика аль-Кинди (ок. 801–873 гг. н. э.), который формально разработал этот метод (шифры, которые можно было взломать с помощью этой техники, восходят по крайней мере к шифру Цезаря , который использовался Юлием Цезарем , [ необходима ссылка ], поэтому этот метод мог быть исследован в классические времена). Анализ частоты букв приобрел дополнительное значение в Европе с развитием подвижного шрифта в 1450 г. н. э., когда необходимо было оценить количество шрифта, требуемое для каждой формы буквы, о чем свидетельствуют различия в размере отсеков для букв в типографских наборных шкафах.

Никакое точное распределение частот букв не лежит в основе данного языка, поскольку все авторы пишут немного по-разному. Однако большинство языков имеют характерное распределение, которое сильно проявляется в более длинных текстах. Даже такие экстремальные языковые изменения, как от древнеанглийского к современному английскому (считающемуся взаимно непонятным), показывают сильные тенденции в связанных частотах букв: на небольшой выборке библейских отрывков, от наиболее частого к наименее частому, enaid sorhm tgþlwu æcfy ðbpxz древнеанглийского сравнивается с eotha sinrd luymw fgcbp kvjqxz современного английского, при этом самые экстремальные различия, касающиеся форм букв, не являются общими. [5]

Линотипы для английского языка предполагали порядок букв, от наиболее часто встречающихся к наименее встречающимся, как etaoin shrdlu cmfwyp vbgkqj xz на основе опыта и привычек ручных наборщиков. Эквивалент для французского языка был elaoin sdrétu cmfhyp vbgwqj xz .

Разделив алфавит азбуки Морзе на группы букв, передача которых занимает одинаковое время, а затем отсортировав эти группы в порядке возрастания, получим e it san hurdm wgvlfbk opxcz jyq . [a] Частота букв использовалась и другими телеграфными системами, такими как код Мюррея .

Похожие идеи используются в современных методах сжатия данных, таких как кодирование Хаффмана .

Частоты букв, как и частоты слов , имеют тенденцию меняться как в зависимости от автора, так и от предмета. Например, ⟨d⟩ встречается в художественной литературе чаще, так как большая часть художественной литературы написана в прошедшем времени, и поэтому большинство глаголов будут заканчиваться на суффикс -ed / -d . Невозможно написать эссе о рентгеновских лучах, не используя часто ⟨x⟩ . У разных авторов есть привычки, которые могут отражаться в использовании ими букв. Например, стиль письма Хемингуэя заметно отличается от стиля Фолкнера. Буквы, биграммы , триграммы , частоты слов, длина слова и длина предложения могут быть рассчитаны для конкретных авторов и использованы для доказательства или опровержения авторства текстов, даже для авторов, чьи стили не так уж расходятся.

Точные средние частоты букв можно получить только путем анализа большого количества репрезентативного текста. С появлением современных вычислений и коллекций больших текстовых корпусов такие расчеты легко сделать. Примеры можно взять из различных источников (пресс-релизы, религиозные тексты, научные тексты и общая художественная литература), и существуют различия, особенно для общей художественной литературы с позицией ⟨h⟩ и ⟨i⟩ , причем ⟨h⟩ становится все более распространенным.

Различные диалекты языка также повлияют на частоту буквы. Например, автор в Соединенных Штатах напишет что-то, в чем буква ⟨z⟩ встречается чаще, чем автор в Соединенном Королевстве, пишущий на ту же тему: такие слова, как «analyze», «apologize» и «recognize» содержат эту букву в американском английском, тогда как те же слова пишутся как «analyse», «apologise» и «recognize» в британском английском. Это сильно повлияет на частоту буквы ⟨z⟩ , так как она редко используется британскими писателями в английском языке. [6]

«Верхние двенадцать» букв составляют около 80% от общего использования. «Верхние восемь» букв составляют около 65% от общего использования. Частота букв как функция ранга может быть хорошо подобрана несколькими ранговыми функциями, причем лучшей является двухпараметрическая ранговая функция Cocho/Beta . [7] Другая ранговая функция без настраиваемого свободного параметра также достаточно хорошо подходит для распределения частоты букв [8] (та же функция использовалась для подгонки частоты аминокислот в белковых последовательностях. [9] ) Шпион, использующий шифр VIC или какой-либо другой шифр, основанный на шахматной доске, обычно использует мнемонику, такую ​​как «грех ошибиться» (отбрасывание второй «r») [10] [11] или «в один сэр» [12], чтобы запомнить восемь верхних символов.

Относительные частоты букв в английском языке

Клавиатура, используемая в течение длительного времени носителем английского языка: буквы E, O, T, H, A, S, I, N и R имеют значительный износ; некоторый износ виден на клавишах D, L, U, Y, M, W, F, G, C, B и P; и незначительный износ или его отсутствие видны на клавишах K, V, J, Q, X или Z.

Существует три способа подсчета частоты букв, которые приводят к очень разным диаграммам для распространенных букв. Первый метод, используемый в таблице ниже, заключается в подсчете частоты букв в леммах словаря. Лемма — это слово в его канонической форме. Второй метод заключается в том, чтобы включить все варианты слов при подсчете, такие как «abstracts», «abstracted» и «abstracting», а не только лемму «abstract». Этот второй метод приводит к тому, что буквы типа ⟨s⟩ появляются гораздо чаще, например, при подсчете букв из списков наиболее используемых английских слов в Интернете. ⟨s⟩ особенно часто встречается в склоняемых словах (формах, не являющихся леммами), потому что она добавляется для образования множественного числа и глаголов третьего лица единственного числа настоящего времени. Последний метод заключается в подсчете букв на основе частоты их использования в реальных текстах, в результате чего определенные сочетания букв, такие как ⟨th⟩, становятся более распространенными из-за частого использования таких общих слов, как «the», «then», «both», «this» и т. д. Подобные абсолютные показатели частоты использования используются при создании раскладок клавиатуры или частот букв в старомодных печатных станках.

Анализ записей в Кратком Оксфордском словаре, игнорирующий частоту использования слов, дает порядок «EARIOTNSLCUDPMMHGBFYWKVXZJQ» [13] .

Таблица частот букв, представленная ниже, взята с сайта Павла Мички, который ссылается на «Криптологическую математику» Роберта Леванда . [14]

По словам Леванда, буквы расположены от наиболее к наименее распространенным по внешнему виду: etaoinshrdlcumwfgypbvkjxqz . Порядок Леванда немного отличается от других, таких как проект Cornell University Math Explorer, который создал таблицу после измерения 40 000 слов. [15]

В английском языке пробел встречается почти в два раза чаще, чем верхняя буква ( ⟨e⟩ ) [16] , а неалфавитные символы (цифры, знаки препинания и т. д.) в совокупности занимают четвертую позицию (уже включая пробел) между ⟨t⟩ и ⟨a⟩ . [17]

Относительные частоты первых букв слова в английском языке

Частота первых букв слов или имен полезна для предварительного назначения пространства в физических файлах и индексах. [18] Учитывая 26  ящиков картотечного шкафа , вместо назначения одного ящика одной букве алфавита в соотношении 1:1, часто бывает полезно использовать более равночастотный буквенный код, назначая несколько низкочастотных букв одному и тому же ящику (часто один ящик обозначается как VWXYZ), и разбить наиболее часто встречающиеся начальные буквы ( ⟨s, a, c⟩ ) на несколько ящиков (часто 6 ящиков Aa-An, Ao-Az, Ca-Cj, Ck-Cz, Sa-Si, Sj-Sz). Та же система используется в некоторых многотомных работах, таких как некоторые энциклопедии . В некоторых библиотеках используются номера резцов , другое сопоставление имен с более равночастотным кодом.

Как общее распределение букв, так и распределение начальных букв слова приблизительно соответствуют распределению Ципфа и даже более точно соответствуют распределению Юла . [19]

Частотное распределение первой цифры в каждом элементе данных часто существенно отличается от общей частоты всех цифр в наборе числовых данных. Это наблюдение известно как закон Бенфорда .

Анализ Питером Норвигом слов, которые встречаются 100 000 раз или более в данных Google Books, транскрибированных с использованием оптического распознавания символов (OCR), определил, среди прочего, частоту первых букв английских слов. [20]

Относительные частоты букв в других языках

*См. İ и I без точки .

Рисунок ниже иллюстрирует распределение частот 26 наиболее распространенных латинских букв в некоторых языках. Все эти языки используют похожий алфавит из 25+ символов.

На основании этих таблиц эквивалент « etaoin shrdlu » для каждого языка выглядит следующим образом:

Смотрите также

Пояснительные записки

  1. ^ Американская азбука Морзе была разработана в 1830-х годах Альфредом Вейлом на основе частот букв английского языка для кодирования наиболее частых букв с помощью самых коротких символов. Некоторая эффективность была потеряна в реформированной версии, используемой сейчас: Международная азбука Морзе.

Ссылки

  1. ^ Mička, Pavel. "Letter frequency (English)". Algoritmy.net . Архивировано из оригинала 4 марта 2021 г. Получено 14 июня 2022 г. Источник: Leland, Robert. Cryptological mathematics. [sl]: The Mathematical Association of America, 2000. 199 стр. ISBN 0-88385-719-7
  2. ^ Гиннесс, Гарри. «Лучшие начальные слова для победы в Wordle». Wired . ISSN  1059-1028 . Получено 12.02.2022 .
  3. ^ По, Эдгар Аллан. «Произведения Эдгара Аллана По в пяти томах». Проект Гутенберг.
  4. ^ Зим, Герберт Спенсер (1961). Коды и тайнопись: Авторизованное сокращение . Scholastic Book Services. OCLC  317853773.
  5. ^ Морено, Марша Линн (весна 2005 г.). «Анализ частот в свете языковых инноваций» (PDF) . Математика. Калифорнийский университет – Сан-Диего . Получено 19 февраля 2015 г. .
  6. ^ "Британская и американская орфография - Оксфордские словари". Оксфордские словари - английский язык . Архивировано из оригинала 28 декабря 2011 года . Получено 18 апреля 2018 года .
  7. ^ Ли, Вэньтянь; Мирамонтес, Педро (2011). «Подгонка ранжированного распределения частот английских и испанских букв в речах президентов США и Мексики». Журнал количественной лингвистики . 18 (4): 359. arXiv : 1103.2950 . doi : 10.1080/09296174.2011.608606. S2CID  1716455.
  8. ^ Гусейн-Заде, С. М. (1988). «Частотное распределение букв в русском языке». Проблемы передачи информ . 24 (4): 102–107.
  9. ^ Гамов, Джордж; Икас, Мартинас (1955). «Статистическая корреляция состава белка и рибонуклеиновой кислоты». Proc. Natl. Acad. Sci . 41 (12): 1011–1019. Bibcode :1955PNAS...41.1011G. doi : 10.1073/pnas.41.12.1011 . PMC 528190 . PMID  16589789. 
  10. ^ Бауэр, Фридрих Л. (2006). Расшифрованные секреты: Методы и принципы криптологии. Springer. стр. 57. ISBN 9783540481218– через Google Книги.
  11. ^ Гебель, Грег (2009). Расцвет полевых шифров: шифры с широкими шахматными границами.
  12. ^ Рейменанц, Дирк. «Одноразовый блокнот».
  13. ^ «Какова частота букв алфавита в английском языке?». Оксфордский словарь . Oxford University Press. Архивировано из оригинала 24 декабря 2011 г. Получено 29 декабря 2012 г.
  14. ^ Мичка, Павел. «Частота букв (английский)». Algoritmy.net.
  15. ^ "Частота употребления английских букв (на основе выборки из 40 000 слов)". cornell.edu . Получено 24.01.2021 .
  16. ^ "Статистическое распределение английского текста". data-compression.com . Архивировано из оригинала 2017-09-18.
  17. ^ Ли, Э. Стюарт. «Очерки о компьютерной безопасности» (PDF) . Компьютерная лаборатория Кембриджского университета. стр. 181.
  18. ^ Олман, Герберт Марвин (1959). Частоты букв в связке «подлежащее-слово» с применением к суперпозиционному кодированию. Труды Международной конференции по научной информации. doi : 10.17226/10866. ISBN 978-0-309-57421-1.
  19. ^ Панде, Хемлата; Дхами, Х.С. «Математическое моделирование встречаемости букв и начальных букв слов в текстах языка хинди» (PDF) . JTL . 16 .
  20. ^ "English Letter Frequency Counts: Mayzner revisited or ETAOIN SRHLDCU". norvig.com . Получено 18 апреля 2018 г. .
  21. ^ "Corpus de Thomas Tempé". Архивировано из оригинала 30 сентября 2007 года . Получено 15 июня 2007 года .
  22. ^ Бойтельспехер, Альбрехт (2005). Криптология (7-е изд.). Висбаден: Просмотрег. п. 10. ISBN 3-8348-0014-7.
  23. ^ Пратт, Флетчер (1942). Секретно и срочно: история кодов и шифров . Гарден-Сити, Нью-Йорк: Blue Ribbon Books. стр. 254–5. OCLC  795065.
  24. ^ "Частота исправления португальских букв" . Архивировано из оригинала 3 августа 2009 года . Проверено 16 июня 2009 г.
  25. ^ Сингх, Саймон; Галли, Стефано (1999). Codici e Segreti (на итальянском языке). Милан: Риццоли. ISBN 978-8-817-86213-4. OCLC  535461359.
  26. ^ Серенгил, Сефик Илькин; Акин, Мурат (20–22 февраля 2011 г.). Атака турецких текстов, зашифрованных омофоническим шифром (PDF) . Труды 10-й Международной конференции WSEAS по электронике, оборудованию, беспроводной и оптической связи. Кембридж, Великобритания. С. 123–126.
  27. ^ "Практическая криптография" . Получено 30 октября 2013 г.
  28. ^ "Frekwencja liter w polskich tekstach - Poradnia językowa PWN" .
  29. ^ ab "Частоты букв". Genootschap OnzeTaal . Проверено 17 мая 2009 г.
  30. ^ "Частоты датских букв". Практическая криптография . Получено 24 октября 2013 г.
  31. ^ "Частоты исландских букв". Практическая криптография . Получено 24 октября 2013 г.
  32. ^ "Частоты финских букв". Практическая криптография . Получено 24 октября 2013 г.
  33. ^ "Частоты венгерских символов". Сайт Wolfram Alpha . Получено 25 марта 2023 г.
  34. ^ Перек, Жорж; Алфавиты ; Издания Галилея, 1976 г.

Внешние ссылки

Полезные таблицы

Полезные таблицы частот отдельных букв, биграмм, триграмм, тетраграмм и пентаграмм на основе 20 000 слов, которые учитывают длину слова и комбинации расположения букв для слов длиной от 3 до 7 букв: