stringtranslate.com

Закон Ципфа

Закон Ципфа о войне и мире . [1] Нижний график показывает остаток, когда закон Ципфа делится. Он показывает, что остается значительная закономерность, не соответствующая закону Ципфа.
График частоты каждого слова как функции его ранга частоты для двух текстов на английском языке: « Полный травник» Калпепера (1652) и «Война миров » Герберта Уэллса (1898) в логарифмической шкале. Пунктирная линия — идеальный закон y  1 / х

Закон Ципфа ( / zɪf / , нем. [t͡sɪpf] ) — эмпирический закон, гласящий , что при сортировке списка измеренных значений в порядке убывания значение n-  го  элемента часто приблизительно обратно пропорционально n .

Самый известный пример закона Ципфа применяется к таблице частотности слов в тексте или корпусе естественного языка : обычно обнаруживается, что самое распространенное слово встречается примерно в два раза чаще, чем следующее по частоте, в три раза чаще, чем третье по частоте, и так далее. Например, в Корпусе американского английского языка Брауна слово « the » является наиболее часто встречающимся словом и само по себе составляет почти 7% всех появлений слов (69 971 из чуть более 1 миллиона). В соответствии с законом Ципфа, второе по частоте слово « of » составляет чуть более 3,5% слов (36 411 появлений), за ним следует « and » (28 852). [2] Он часто используется в следующей форме, называемой законом Ципфа-Мандельброта : где и являются подобранными параметрами, причем и [1]

Этот закон назван в честь американского лингвиста Джорджа Кингсли Ципфа , [3] [4] [5] и до сих пор является важной концепцией в количественной лингвистике . Было обнаружено, что он применим ко многим другим типам данных, изучаемых в физических и социальных науках.

В математической статистике эта концепция была формализована как распределение Ципфа : семейство связанных дискретных распределений вероятностей, распределение рангов и частот которых является обратной степенной зависимостью . Они связаны с законом Бенфорда и распределением Парето .

Некоторые наборы эмпирических данных, зависящих от времени, несколько отклоняются от закона Ципфа. Такие эмпирические распределения называются квази-Ципфовыми .

История

В 1913 году немецкий физик Феликс Ауэрбах наблюдал обратную пропорциональность между численностью населения городов и их рангами при сортировке по убыванию этой переменной. [6]

Закон Ципфа был открыт до Ципфа, [a] впервые французским стенографистом Жаном-Батистом Эступом в 1916 году, [8] [7], а также Дж. Дьюи в 1923 году, [9] и Э. Кондоном в 1928 году. [10]

Такое же соотношение частот слов в текстах на естественном языке наблюдал Джордж Ципф в 1932 году [4] , но он никогда не утверждал, что является его создателем. На самом деле, Ципф не любил математику. В своей публикации 1932 года [11] автор с пренебрежением отзывается о математическом участии в лингвистике, ao ibidem , стр. 21:

... позвольте мне здесь сказать для любого математика, который может планировать сформулировать последующие данные более точно, способность высокоинтенсивного положительного значения становиться высокоинтенсивным отрицательным значением, по моему мнению, вносит дьявола в формулу в виде

Единственное математическое выражение, которое использовал Ципф, выглядит как a . b 2 =   константа, которое он «позаимствовал» из публикации Альфреда Дж. Лотки 1926 года. [12]

Такая же связь была обнаружена во многих других контекстах и ​​для других переменных, помимо частоты. [1] Например, когда корпорации ранжируются по убыванию размера, их размеры оказываются обратно пропорциональными рангу. [13] Такая же связь обнаружена для личных доходов (где она называется принципом Парето [14] ), количества людей, смотрящих один и тот же телеканал, [15] нот в музыке, [16] транскриптомов клеток , [17] [18] и многого другого.

В 1992 году биоинформатик Вэньтянь Ли опубликовал короткую статью [19], показывающую, что закон Ципфа возникает даже в случайно сгенерированных текстах. Она включала доказательство того, что степенная форма закона Ципфа была побочным продуктом упорядочивания слов по рангу.

Формальное определение

Формально распределение Ципфа на N элементах присваивает элементу ранга k (считая от 1) вероятность

где H N — константа нормировки: Номер N- й гармоники :

Распределение иногда обобщается до обратного степенного закона с показателем s вместо 1. [20] А именно,

где H N , sобобщенное гармоническое число

Обобщенное распределение Ципфа может быть расширено до бесконечного числа элементов ( N = ∞) только если показатель s превышает 1. В этом случае константа нормализации H N , s становится дзета-функцией Римана ,

Случай бесконечного числа элементов характеризуется распределением Дзета и называется законом Лотки . Если показатель s равен 1 или меньше, константа нормализации H N , s расходится при стремлении N к бесконечности.

Эмпирическое тестирование

Эмпирически набор данных можно проверить, применим ли закон Ципфа, проверив степень соответствия эмпирического распределения предполагаемому степенному распределению с помощью теста Колмогорова-Смирнова , а затем сравнив (логарифмическое) отношение правдоподобия степенного распределения с альтернативными распределениями, такими как экспоненциальное распределение или логнормальное распределение. [21]

Закон Ципфа можно визуализировать, построив график частоты элементов в логарифмическом масштабе , где осями являются логарифм ранга и логарифм частоты. Данные соответствуют закону Ципфа с показателем s в той степени, в которой график аппроксимирует линейную (точнее, аффинную ) функцию с наклоном −s . Для показателя s = 1 можно также построить график обратной величины частоты (среднего межсловного интервала) против ранга или обратной величины ранга против частоты и сравнить результат с линией, проходящей через начало координат с наклоном 1. [3]

Статистические пояснения

Хотя закон Ципфа справедлив для большинства естественных языков и даже для некоторых неестественных языков, таких как эсперанто [22] и токипона , [23] причина до сих пор не до конца понятна. [24] Недавние обзоры генеративных процессов для закона Ципфа включают Mitzenmacher , "A Brief History of Generative Models for Power Law and Lognormal Distributions", [25] и Simkin, "Re-inventing Willis". [26]

Однако это может быть частично объяснено статистическим анализом случайно сгенерированных текстов. Вэньтянь Ли показал, что в документе, в котором каждый символ был выбран случайным образом из равномерного распределения всех букв (плюс пробел), «слова» с разной длиной следуют макротенденции закона Ципфа (более вероятные слова являются самыми короткими и имеют равную вероятность). [27] В 1959 году Витольд Белевич заметил, что если любое из большого класса хорошо ведущих себя статистических распределений (не только нормальное распределение ) выразить в терминах ранга и разложить в ряд Тейлора , то усечение первого порядка ряда приводит к закону Ципфа. Кроме того, усечение второго порядка ряда Тейлора приводит к закону Мандельброта . [28] [29]

Принцип наименьшего усилия является еще одним возможным объяснением: сам Ципф предположил, что ни говорящие, ни слушающие, использующие данный язык, не хотят прилагать больше усилий, чем необходимо, для достижения понимания, а процесс, который приводит к приблизительно равному распределению усилий, приводит к наблюдаемому распределению Ципфа. [5] [30]

Минимальное объяснение предполагает, что слова генерируются обезьянами, печатающими случайным образом . Если язык генерируется одной обезьяной, печатающей случайным образом, с фиксированной и ненулевой вероятностью нажатия каждой клавиши с буквой или пробела, то слова (строки букв, разделенные пробелами), созданные обезьяной, следуют закону Ципфа. [31]

Другой возможной причиной распределения Ципфа является предпочтительный процесс прикрепления, в котором значение x элемента имеет тенденцию расти со скоростью, пропорциональной x (интуитивно, « богатые становятся богаче » или «успех порождает успех»). Такой процесс роста приводит к распределению Юла–Саймона , которое, как было показано, лучше соответствует частоте слов в сравнении с рангом в языке [32] и населению в сравнении с рангом города [33], чем закон Ципфа. Первоначально он был выведен для объяснения населения в сравнении с рангом в виде Юлом и применен к городам Саймоном.

Аналогичное объяснение основано на моделях атласа, системах взаимозаменяемых положительно-значных диффузионных процессов с параметрами дрейфа и дисперсии, которые зависят только от ранга процесса. Было показано математически, что закон Ципфа справедлив для моделей атласа, которые удовлетворяют определенным естественным условиям регулярности. [34] [35]

Сопутствующие законы

Обобщением закона Ципфа является закон Ципфа–Мандельброта , предложенный Бенуа Мандельбротом , частоты которого равны:

[ требуется разъяснение ]

Константа C — это дзета-функция Гурвица, вычисленная при s .

Распределения Ципфа могут быть получены из распределений Парето путем замены переменных. [20]

Распределение Ципфа иногда называют дискретным распределением Парето [36], поскольку оно аналогично непрерывному распределению Парето таким же образом, как дискретное равномерное распределение аналогично непрерывному равномерному распределению .

Частоты хвоста распределения Юла-Саймона приблизительно равны

для любого выбора ρ > 0 .

В параболическом фрактальном распределении логарифм частоты является квадратичным полиномом логарифма ранга. Это может значительно улучшить соответствие простому степенному закону. [37] Подобно фрактальной размерности, можно вычислить размерность Ципфа, которая является полезным параметром при анализе текстов. [38]

Утверждалось, что закон Бенфорда является особым ограниченным случаем закона Ципфа, [37] причем связь между этими двумя законами объясняется тем, что оба они происходят из масштабно-инвариантных функциональных соотношений из статистической физики и критических явлений. [39] Отношения вероятностей в законе Бенфорда не являются постоянными. Первые цифры данных, удовлетворяющих закону Ципфа с s = 1 , удовлетворяют закону Бенфорда.

Происшествия

Размеры города

После наблюдения Ауэрбаха 1913 года было проведено существенное исследование закона Ципфа для размеров городов. [40] Однако более поздние эмпирические [41] [42] и теоретические [43] исследования поставили под сомнение релевантность закона Ципфа для городов.

Частоты слов в естественных языках

График закона Ципфа для первых 10 миллионов слов в 30 Википедиях (по состоянию на октябрь 2015 г.) в двойном логарифмическом масштабе

Во многих текстах на человеческих языках частоты слов приблизительно следуют распределению Ципфа с показателем s, близким к 1  ; то есть наиболее распространенное слово встречается примерно n раз чаще, чем n -е наиболее распространенное слово.

Фактический график ранг-частота текста на естественном языке в некоторой степени отклоняется от идеального распределения Ципфа, особенно на двух концах диапазона. Отклонения могут зависеть от языка, темы текста, автора, от того, был ли текст переведен с другого языка, и от используемых правил правописания. [ необходима цитата ] Некоторые отклонения неизбежны из-за ошибки выборки .

На низкочастотном конце, где ранг приближается к N , график принимает форму лестницы, поскольку каждое слово может встречаться только целое число раз.

График частоты слов в двойном логарифмическом масштабе в английской Википедии (27 ноября 2006 г.). «Самые популярные слова — «the», «of» и «and», как и ожидалось. Закон Ципфа соответствует средней линейной части кривой, примерно следующей за зеленой ( 1/х ) ​​линия,в то время как ранняя часть ближе к пурпурному (1/х ) ​​линия, а более поздняя часть ближе к голубому (1/х 2 ) ​​линия.Эти линии соответствуют трем различным параметризациям распределения Ципфа–Мандельброта, в целомломаного степенного законас тремя сегментами: голова, середина и хвост.[ необходима цитата ]Другие описания вместо этого выделяют два сегмента или «режима».[44][45]

.

В некоторых романских языках частоты примерно дюжины наиболее употребительных слов значительно отклоняются от идеального распределения Ципфа, поскольку эти слова включают артикли, склоняемые по грамматическому роду и числу . [ требуется ссылка ]

Во многих восточноазиатских языках, таких как китайский , лхасский тибетский и вьетнамский , каждое «слово» состоит из одного слога ; слово английского языка часто переводится как соединение из двух таких слогов. Таблица рангов и частот для этих «слов» значительно отклоняется от идеального закона Ципфа на обоих концах диапазона. [ требуется цитата ]

Даже в английском языке отклонения от идеального закона Ципфа становятся более очевидными при изучении больших коллекций текстов. Анализ корпуса из 30 000 английских текстов показал, что только около 15% текстов в нем хорошо соответствуют закону Ципфа. Небольшие изменения в определении закона Ципфа могут увеличить этот процент почти до 50%. [46]

В этих случаях наблюдаемое отношение частоты к рангу может быть смоделировано более точно с помощью отдельных распределений законов Ципфа-Мандельброта для различных подмножеств или подтипов слов. Это касается графика частоты к рангу первых 10 миллионов слов английской Википедии. В частности, частоты замкнутого класса функциональных слов в английском языке лучше описываются с s ниже 1, в то время как открытый рост словарного запаса с размером документа и размером корпуса требует s больше 1 для сходимости обобщенного гармонического ряда . [3]

«Война миров» Уэллса открытым текстом, в книжном коде и в шифре Виженера

Когда текст зашифрован таким образом, что каждое вхождение каждого отдельного открытого слова всегда отображается на одно и то же зашифрованное слово (как в случае простых шифров подстановки , таких как шифры Цезаря или простые шифры кодовой книги ), распределение частоты и ранга не изменяется. С другой стороны, если отдельные вхождения одного и того же слова могут быть отображены на два или более разных слова (как это происходит с шифром Виженера ), распределение Ципфа, как правило, будет иметь плоскую часть на высокочастотном конце. [ необходима цитата ]

Приложения

Закон Ципфа использовался для извлечения параллельных фрагментов текстов из сопоставимых корпусов. [47] Лоренс Дойл и другие предложили применять закон Ципфа для обнаружения инопланетного языка при поиске внеземного разума . [48] [49]

Частотно-ранговое распределение слов часто является характеристикой автора и мало меняется со временем. Эта особенность использовалась при анализе текстов для установления авторства. [50] [51]

Было обнаружено, что группы знаков, похожие на слова, в кодексе Войнича XV века удовлетворяют закону Ципфа, что позволяет предположить, что текст, скорее всего, не является подделкой, а написан на непонятном языке или зашифрован. [52] [53]

Смотрите также

Примечания

  1. ^ как признал Ципф [5] : 546 

Ссылки

  1. ^ abc Piantadosi, Steven (25 марта 2014 г.). «Закон частоты слов Ципфа в естественном языке: критический обзор и будущие направления». Psychon Bull Rev. 21 ( 5): 1112–1130. doi :10.3758/s13423-014-0585-6. PMC 4176592. PMID  24664880 . 
  2. ^ Фаган, Стивен; Генсэй, Рамазан (2010). «Введение в текстовую эконометрику». В Улла, Аман; Джайлс, Дэвид EA (ред.). Справочник по эмпирической экономике и финансам . CRC Press. стр. 133–153, в частности, 139. ISBN 9781420070361. Например, в Корпусе Брауна, состоящем из более чем миллиона слов, половина словарного объема состоит из повторных употреблений всего лишь 135 слов.
  3. ^ abc Powers, David MW (1998). Applications and Explains of Zipf's law. Совместная конференция по новым методам в обработке языка и вычислительном обучении естественному языку. Ассоциация компьютерной лингвистики. С. 151–160. Архивировано из оригинала 10 сентября 2015 г. Получено 2 февраля 2015 г. – через aclweb.org.
  4. ^ ab Zipf, GK (1935). Психобиология языка . Нью-Йорк, Нью-Йорк: Houghton-Mifflin.
  5. ^ abc Zipf, George K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley. стр. 1 – через archive.org.
  6. ^ Ауэрбах, Ф. (1913). «Das Gesetz der Bevölkerungskonzentration». Geographische Mitteilungen Петермана (на немецком языке). 59 : 74–76.
  7. ^ аб Мэннинг, Кристофер Д.; Шютце, Хинрих (1999). Основы статистической обработки естественного языка . МТИ Пресс. п. 24. ISBN 978-0-262-13360-9.
  8. ^ Эступ, Ж.-Б. (1916). Gammes Stenographiques (4-е изд.).Цитируется в Manning & Schütze (1999). [7]
  9. ^ Дьюи, Годфри (1923). Относительная частота звуков английской речи. Издательство Гарвардского университета – через Интернет-архив.
  10. ^ Кондон, Э. У. (1928). «Статистика словарного запаса». Science . 67 (1733): 300. Bibcode :1928Sci....67..300C. doi :10.1126/science.67.1733.300. PMID  17782935.
  11. ^ Ципф, Г. К. (1932). Избранные исследования принципа относительной частоты в языке . Гарвард, Массачусетс: Издательство Гарвардского университета.
  12. ^ Zipf, George Kingsley (1942). «Единство природы, наименьшего действия и естественной социальной науки». Sociometry . 5 (1): 48–62. doi :10.2307/2784953. ISSN  0038-0431. JSTOR  2784953. Архивировано из оригинала 20 ноября 2022 г. . Получено 20 ноября 2022 г. .
  13. ^ Axtell, Robert L. (2001). «Распределение Ципфа по размерам фирм в США». Science . 293 (5536): 1818–1820. Bibcode :2001Sci...293.1818A. doi :10.1126/science.1062081. PMID  11546870. Архивировано из оригинала 17 октября 2023 г. – через science.org.
  14. ^ Sandmo, Agnar (январь 2015 г.). «Глава 1 — Основная проблема политической экономии: распределение доходов в истории экономической мысли». В Atkinson, Anthony B.; Bourguignon, François (ред.). Handbook of Income Distribution . Vol. 2. Elsevier. pp. 3–65. doi :10.1016/B978-0-444-59428-0.00002-3. ISBN 978-0-444-59430-3. Архивировано из оригинала 29 октября 2023 г. . Получено 11 июля 2023 г. – через Elsevier (sciencedirect.com).
  15. ^ M. Eriksson, SM Hasibur Rahman, F. Fraille, M. Sjöström, Эффективная интерактивная многоадресная передача по DVB-T2 - использование динамических SFN и PARPS. Архивировано 2 мая 2014 г. на Wayback Machine , Международная конференция IEEE по компьютерам и информационным технологиям 2013 г. (BMSB'13), Лондон, Великобритания, июнь 2013 г. Предлагает гетерогенную модель выбора телевизионных каналов по закону Ципфа.
  16. ^ Занетт, Дамиан Х. (7 июня 2004 г.). «Закон Ципфа и создание музыкального контекста». arXiv : cs/0406015 .
  17. ^ Лаццарди, Сильвия; Валле, Филиппо; Маццолини, Андреа; Скиалдоне, Антонио; Казелле, Мишель; Оселла, Маттео (17 июня 2021 г.). «Новые статистические законы в транскриптомных данных одноклеточных». bioRxiv : 2021–16.06.448706. дои : 10.1101/2021.06.16.448706. S2CID  235482777. Архивировано из оригинала 17 июня 2021 года . Проверено 18 июня 2021 г.
  18. ^ Ченна, Раму; Гибсон, Тоби (2011). Оценка пригодности модели зазора Ципфа для парного выравнивания последовательностей (PDF) . Международная конференция по вычислительной биологии биоинформатики. BIC 4329. Архивировано из оригинала (PDF) 6 марта 2014 г.
  19. ^ Ли, Вэньтянь (1992). «Случайные тексты демонстрируют распределение частот слов, подобное закону Ципфа». Труды IEEE по теории информации . 38 (6): 1842–1845. doi :10.1109/18.165464 – через IEEE Xplore.
  20. ^ ab Adamic, Lada A. (2000). Zipf, power-laws, and Pareto – a ranking tutorial (Report) (переиздание). Hewlett-Packard Company. Архивировано из оригинала 1 апреля 2023 года . Получено 12 октября 2023 года . "оригинальная публикация". www.parc.xerox.com . Xerox Corporation . Архивировано из оригинала 7 ноября 2001 г. . Получено 23 февраля 2016 г. .
  21. ^ Clauset, A.; Shalizi, CR; Newman, MEJ (2009). «Степенные распределения в эмпирических данных». SIAM Review . 51 (4): 661–703. arXiv : 0706.1062 . Bibcode : 2009SIAMR..51..661C. doi : 10.1137/070710111.
  22. ^ Манарис, Билл; Пелликоро, Лука; Потеринг, Джордж; Ходжес, Харланд (13 февраля 2006 г.). Исследование статистических пропорций эсперанто по отношению к другим языкам с использованием нейронных сетей и закона Ципфа (PDF) . Искусственный интеллект и приложения. Инсбрук, Австрия. стр. 102–108. Архивировано из оригинала (PDF) 5 марта 2016 г. – через cs.cofc.edu.
  23. ^ Скотэрек, Дариуш (12–14 октября 2020 г.). Закон Ципфа в Toki Pona (PDF) . ExLing 2020: 11-я Международная конференция экспериментальной лингвистики. Афины, Греция: ExLing Society. doi : 10.36505/ExLing-2020/11/0047/000462. ISBN 978-618-84585-1-2– через exlingsociety.com.
  24. ^ Бриллюэн, Леон (2004) [1959, 1988]. La science et la théorie de l'information [ Наука и теория информации ] (на французском языке). повторен в 1988 г., английский перевод повторен в 2004 г.
  25. ^ Митценмахер, Майкл (январь 2004 г.). «Краткая история генеративных моделей для степенного закона и логнормальных распределений». Internet Mathematics . 1 (2): 226–251. doi : 10.1080/15427951.2004.10129088 . ISSN  1542-7951. S2CID  1671059. Архивировано из оригинала 22 июля 2023 г. . Получено 25 июля 2023 г. .
  26. ^ Simkin, MV; Roychowdhury, VP (май 2011 г.). «Re-inventing Willis». Physics Reports . 502 (1): 1–35. arXiv : physics/0601192 . Bibcode : 2011PhR...502....1S. doi : 10.1016/j.physrep.2010.12.004. ISSN  0370-1573. S2CID  88517297. Архивировано из оригинала 29 января 2012 г. Получено 25 июля 2023 г.
  27. ^ Ли, Вэньтянь (1992). «Случайные тексты демонстрируют распределение частот слов, подобное закону Ципфа». Труды IEEE по теории информации . 38 (6): 1842–1845. CiteSeerX 10.1.1.164.8422 . doi :10.1109/18.165464. 
  28. Белевич, В. (18 декабря 1959 г.). «О статистических законах лингвистических распределений» (PDF) . Анналы научного общества Брюсселя . 73 : 310–326. Архивировано (PDF) из оригинала 15 декабря 2020 года . Проверено 24 апреля 2020 г.
  29. ^ Neumann, PG (ок. 2022). Статистическая металингвистика и Ципф / Парето / Мандельброт (Отчет). Computer Science Laboratory. Vol. 12A. Menlo Park, CA: SRI International . Архивировано из оригинала 5 июня 2011 г. Получено 29 мая 2011 г. – через sri.com.
  30. ^ Ferrer i Cancho, Ramon & Sole, Ricard V. (2003). «Наименьшие усилия и истоки масштабирования в человеческом языке». Труды Национальной академии наук Соединенных Штатов Америки . 100 (3): 788–791. Bibcode :2003PNAS..100..788C. doi : 10.1073/pnas.0335980100 . PMC 298679 . PMID  12540826. 
  31. ^ Conrad, B.; Mitzenmacher, M. (июль 2004 г.). «Степень законов для обезьян, печатающих случайно: случай неравных вероятностей». IEEE Transactions on Information Theory . 50 (7): 1403–1414. doi :10.1109/TIT.2004.830752. ISSN  1557-9654. S2CID  8913575. Архивировано из оригинала 17 октября 2022 г. Получено 20 августа 2023 г.
  32. ^ Линь, Руокуан; Ма, Цяньли DY; Бянь, Чуньхуа (2014). «Законы масштабирования в человеческой речи, уменьшение появления новых слов и обобщенная модель». arXiv : 1412.4846 [cs.CL].
  33. ^ Витанов, Николай К.; Ауслоос, Марсель; Бянь, Чуньхуа (2015). «Проверка двух гипотез, объясняющих размер населения в системе городов». Журнал прикладной статистики . 42 (12): 2686–2693. arXiv : 1506.08535 . Bibcode :2015JApSt..42.2686V. doi :10.1080/02664763.2015.1047744. S2CID  10599428.
  34. ^ Рикардо Т. Фернхольц; Роберт Фернхольц (декабрь 2020 г.). «Закон Ципфа для моделей атласа». Journal of Applied Probability . 57 (4): 1276–1297. doi :10.1017/jpr.2020.64. S2CID  146808080. Архивировано из оригинала 29 января 2021 г. Получено 26 марта 2021 г.
  35. ^ Теренс Тао (2012). «E Pluribus Unum: От сложности к универсальности». Дедал . 141 (3): 23–34. дои : 10.1162/DAED_a_00158 . S2CID  14535989. Архивировано из оригинала 5 августа 2021 года . Проверено 26 марта 2021 г.
  36. ^ Джонсон, Н. Л.; Коц, С. и Кемп, AW (1992). Одномерные дискретные распределения (второе изд.). Нью-Йорк: John Wiley & Sons, Inc. стр. 466. ISBN 978-0-471-54897-3.
  37. ^ ab van der Galien, Johan Gerard (8 ноября 2003 г.). "Факторная случайность: законы Бенфорда и Ципфа относительно распределения первых цифр факторной последовательности из натуральных чисел". zonnet.nl . Архивировано из оригинала 5 марта 2007 г. . Получено 8 июля 2016 г. .
  38. ^ Эфтехари, Али (2006). «Фрактальная геометрия текстов: первоначальное применение к произведениям Шекспира». Журнал количественной лингвистики . 13 (2–3): 177–193. doi :10.1080/09296170600850106. S2CID  17657731.
  39. ^ Pietronero, L.; Tosatti, E.; Tosatti, V.; Vespignani, A. (2001). «Объяснение неравномерного распределения чисел в природе: законы Бенфорда и Ципфа». Physica A. 293 ( 1–2): 297–304. arXiv : cond-mat/9808305 . Bibcode : 2001PhyA..293..297P. doi : 10.1016/S0378-4371(00)00633-6.
  40. ^ Габэ, Ксавье (1999). «Закон Ципфа для городов: объяснение». The Quarterly Journal of Economics . 114 (3): 739–767. doi : 10.1162/003355399556133. ISSN  0033-5533. JSTOR  2586883. Архивировано из оригинала 26 октября 2021 г. Получено 26 октября 2021 г. – через jstor.org.
  41. ^ Arshad, Sidra; Hu, Shougeng; Ashraf, Badar Nadeem (15 февраля 2018 г.). «Закон Ципфа и распределение размеров городов: обзор литературы и будущая исследовательская программа». Physica A: Statistical Mechanics and Its Applications . 492 : 75–92. Bibcode :2018PhyA..492...75A. doi :10.1016/j.physa.2017.10.005. ISSN  0378-4371. Архивировано из оригинала 29 октября 2023 г. . Получено 26 октября 2021 г. .
  42. ^ Gan, Li; Li, Dong; Song, Shunfeng (1 августа 2006 г.). «Является ли закон Ципфа ложным при объяснении распределений по размеру городов?». Economics Letters . 92 (2): 256–262. doi :10.1016/j.econlet.2006.03.004. ISSN  0165-1765. Архивировано из оригинала 13 апреля 2019 г. . Получено 26 октября 2021 г. .
  43. ^ Verbavatz, Vincent; Barthelemy, Marc (ноябрь 2020 г.). «Уравнение роста городов». Nature . 587 (7834): 397–401. arXiv : 2011.09403 . Bibcode :2020Natur.587..397V. doi :10.1038/s41586-020-2900-x. ISSN  1476-4687. PMID  33208958. S2CID  227012701. Архивировано из оригинала 29 октября 2021 г. . Получено 26 октября 2021 г. .
  44. ^ Феррер Канчо, Рамон; Соле, Рикар В. (декабрь 2001 г.). «Два режима в частоте слов и происхождение сложных лексиконов: пересмотр закона Ципфа». Журнал количественной лингвистики . 8 (3): 165–173. doi : 10.1076/jqul.8.3.165.4101. hdl : 2117/180381. ISSN  0929-6174.
  45. ^ Дороговцев, СН; Мендес, Дж. Ф. Ф. (22 декабря 2001 г.). «Язык как развивающаяся сеть слов». Труды Лондонского королевского общества. Серия B: Биологические науки . 268 (1485): 2603–2606. doi :10.1098/rspb.2001.1824. ISSN  0962-8452. PMC 1088922. PMID 11749717  . 
  46. ^ Moreno-Sánchez, I.; Font-Clos, F.; Corral, A. (2016). «Масштабный анализ закона Ципфа в английских текстах». PLOS ONE . 11 (1): e0147073. arXiv : 1509.04486 . Bibcode : 2016PLoSO..1147073M. doi : 10.1371/journal.pone.0147073 . PMC 4723055. PMID  26800025 . 
  47. ^ Мохаммади, Мехди (2016). «Параллельная идентификация документов с использованием закона Ципфа» (PDF) . Труды Девятого семинара по созданию и использованию сопоставимых корпусов . LREC 2016. Порторож, Словения. стр. 21–25. Архивировано (PDF) из оригинала 23 марта 2018 г.
  48. ^ Дойл, ЛР (18 ноября 2016 г.). «Почему инопланетный язык выделяется среди всего шума вселенной». Nautilus Quarterly . Архивировано из оригинала 29 июля 2020 г. Получено 30 августа 2020 г.
  49. ^ Кершенбаум, Арик (16 марта 2021 г.). Путеводитель зоолога по Галактике: что животные на Земле рассказывают об инопланетянах — и о нас самих . Penguin. С. 251–256. ISBN 978-1-9848-8197-7. OCLC  1242873084.
  50. ^ van Droogenbroeck, Frans J. (2016). Обработка распределения Ципфа в компьютеризированной атрибуции авторства (Отчет). Архивировано из оригинала 4 октября 2023 г. – через academia.edu.
  51. ^ van Droogenbroeck, Frans J. (2019). Существенная перефразировка закона Ципфа-Мандельброта для решения задач атрибуции авторства с помощью гауссовой статистики (Отчет). Архивировано из оригинала 30 сентября 2023 г. – через academia.edu.
  52. ^ Бойл, Ребекка. «Языкоподобные узоры таинственного текста могут быть тщательно продуманной мистификацией». New Scientist . Архивировано из оригинала 18 мая 2022 г. Получено 25 февраля 2022 г.
  53. ^ Монтемурро, Марсело А.; Занетт, Дамиан Х. (21 июня 2013 г.). «Ключевые слова и закономерности совместного появления в рукописи Войнича: информационно-теоретический анализ». PLoS One . 8 (6): e66344. Bibcode :2013PLoSO...866344M. doi : 10.1371/journal.pone.0066344 . ISSN  1932-6203. PMC 3689824 . PMID  23805215. 

Дальнейшее чтение

Внешние ссылки