stringtranslate.com

Закон Ципфа

Закон Ципфа о войне и мире . [1] На нижнем графике показан остаток от разделения по закону Ципфа. Это показывает, что сохраняется значительная закономерность, не подпадающая под закон Ципфа.
График частоты каждого слова в зависимости от его частотного ранга для двух англоязычных текстов: « Полные травы » Калпепера (1652 г.) и «Война миров » Герберта Уэллса (1898 г.) в логарифмической шкале. Пунктирная линия — идеальный закон y ∝ 1/ x .

Закон Ципфа ( / z ɪ f / , немецкий: [ts͡ɪpf] ) — это эмпирический закон , который часто приблизительно соблюдается, когда список измеренных значений отсортирован в порядке убывания. Он утверждает, что значение n -й записи обратно пропорционально n .

Самый известный пример закона Ципфа применим к таблице частот слов в тексте или корпусе естественного языка :

коричневом корпусеtheofи[2]законом Ципфа-Мандельброта
[1]

Этот закон назван в честь американского лингвиста Джорджа Кингсли Зипфа , [3] [4] [5] и до сих пор является важной концепцией в количественной лингвистике . Было обнаружено, что это применимо ко многим другим типам данных, изучаемых в физических и социальных науках.

В математической статистике эта концепция была формализована как распределение Ципфа : семейство связанных дискретных распределений вероятностей , чье частотно-ранговое распределение является соотношением обратного степенного закона . Они связаны с законом Бенфорда и распределением Парето .

Некоторые наборы эмпирических данных, зависящих от времени, несколько отклоняются от закона Ципфа. Такие эмпирические распределения называются квазизипфовыми .

История

В 1913 году немецкий физик Феликс Ауэрбах заметил обратную пропорциональность между численностью населения городов и их рангами при сортировке по убыванию этой переменной. [6]

Закон Ципфа был открыт раньше Зипфа, [а] французским стенографистом Жаном-Батистом Эступом ' Gammes Stenographiques (4-е изд.) в 1916 г., [7] совместно с Г. Дьюи в 1923 г., [8] и с Э. Кондоном в 1928 г. [9]

Такое же соотношение частот слов в текстах на естественном языке наблюдал Джордж Ципф в 1932 году [4] , но он никогда не утверждал, что создал его. На самом деле Ципф не любил математику. В своей публикации 1932 года [10] автор с пренебрежением отзывается о причастности математики к лингвистике, ao ibidem, p. 21: (…) позвольте мне сказать здесь ради любого математика, который может запланировать более точно сформулировать последующие данные, способность высокоинтенсивного положительного стать высокоинтенсивным отрицательным, по моему мнению, привносит дьявола в формулу в виде √(-i) . Единственное математическое выражение, которое использовал Зипф, выглядит как . b 2 = константа, которую он «позаимствовал» из публикации Альфреда Дж. Лотки 1926 года. [11]

Было обнаружено, что такая же взаимосвязь наблюдается во многих других контекстах и ​​для других переменных, помимо частоты. [1] Например, когда корпорации ранжируются по убыванию размера, оказывается, что их размеры обратно пропорциональны рангу. [12] Такая же зависимость наблюдается для личных доходов (где она называется принципом Парето [13] ), количества людей, смотрящих один и тот же телеканал, [14] нот в музыке, [15] транскриптомов клеток [16] [17] и более.

В 1992 году биоинформатик Вэньтянь Ли опубликовал небольшую статью [18] , в которой показано, что закон Ципфа проявляется даже в случайно сгенерированных текстах. Он включал доказательство того, что степенная форма закона Ципфа была побочным продуктом упорядочивания слов по рангу.

Формальное определение

Формально распределение Ципфа на N элементах сопоставляет элементу ранга k (считая с 1) вероятность

где H N — нормировочная константа, номер N- й гармоники :

Распределение иногда обобщают до обратно-степенного закона с показателем s вместо 1. [19] А именно,

где H N , sномер обобщенной гармоники

Обобщенное распределение Ципфа можно расширить до бесконечного числа элементов ( N = ∞), только если показатель степени s превышает 1. В этом случае константа нормализации H N , s становится дзета-функцией Римана ,

Если показатель степени s равен 1 или меньше, константа нормализации H N , s расходится, когда N стремится к бесконечности.

Эмпирическое тестирование

Эмпирически набор данных можно проверить, чтобы увидеть, применим ли закон Ципфа, проверив степень соответствия эмпирического распределения гипотетическому степенному закону распределения с помощью теста Колмогорова-Смирнова , а затем сравнив (логарифмическое) отношение правдоподобия степенного закона. распределение на альтернативные распределения, такие как экспоненциальное распределение или логнормальное распределение. [20]

Закон Ципфа можно визуализировать, нанеся данные о частоте элементов на логарифмический график, где оси представляют собой логарифм рангового порядка и логарифм частоты. Данные соответствуют закону Ципфа с показателем степени s в той степени, в которой график аппроксимирует линейную (точнее, аффинную ) функцию с наклоном - s . Для показателя степени s = 1 можно также построить график зависимости обратной частоты (среднего межсловного интервала) от ранга или обратной величины ранга от частоты и сравнить результат с линией, проходящей через начало координат, с наклоном 1. [3]

Статистические объяснения

Хотя закон Ципфа справедлив для большинства естественных языков, даже для некоторых неестественных, таких как эсперанто , [21] причина этого до сих пор не совсем понятна. [22] Недавние обзоры порождающих процессов для закона Ципфа включают: [23] [24]

Однако частично это можно объяснить статистическим анализом случайно сгенерированных текстов. Вэньтянь Ли показал, что в документе, в котором каждый символ выбирается случайным образом из равномерного распределения всех букв (плюс пробел), «слова» разной длины следуют макротенденции закона Ципфа (более вероятный слова с равной вероятностью самые короткие). [25] В 1959 году Витольд Белевич заметил, что если какое-либо из большого класса статистических распределений с хорошим поведением (не только нормальное распределение ) выражается через ранги и разлагается в ряд Тейлора , то усечение ряда первого порядка приводит к закону Ципфа. Далее, усечение ряда Тейлора во втором порядке привело к закону Мандельброта . [26] [27]

Другим возможным объяснением является принцип наименьшего усилия : сам Ципф предположил, что ни говорящие, ни слушающие, использующие данный язык, не хотят работать больше, чем необходимо, чтобы достичь понимания, и процесс, который приводит к примерно равному распределению усилий, приводит к наблюдаемому распределению Ципфа. . [5] [28]

Минимальное объяснение предполагает, что слова генерируются обезьянами, печатающими случайным образом . Если язык генерируется случайным набором текста одной обезьяной с фиксированной и ненулевой вероятностью нажатия каждой буквенной клавиши или пробела, то слова (строки букв, разделенные пробелами), создаваемые обезьяной, подчиняются закону Ципфа. [29]

Другой возможной причиной распределения Ципфа является процесс предпочтительной привязанности , при котором ценность x предмета имеет тенденцию расти со скоростью, пропорциональной x (интуитивно понятно, что «богатые становятся богаче» или «успех порождает успех»). Такой процесс роста приводит к распределению Юла-Саймона , которое, как было показано, лучше соответствует частоте слов в зависимости от ранга в языке [30] и численности населения в зависимости от ранга города [31] , чем закон Ципфа. Первоначально он был выведен Юлом для объяснения численности населения в зависимости от ранга вида, а Саймоном применен к городам.

Подобное объяснение основано на моделях атласов — системах сменных положительнозначных диффузионных процессов с параметрами дрейфа и дисперсии, зависящими только от ранга процесса. Математически было показано, что закон Ципфа справедлив для моделей Атласа, удовлетворяющих определенным естественным условиям регулярности. [32] [33] Квазизипфовы распределения могут быть результатом моделей квазиАтласа. [ нужна цитата ]

Связанные законы

Обобщением закона Ципфа является закон Ципфа-Мандельброта , предложенный Бенуа Мандельбротом , частоты которого составляют:

[ нужны разъяснения ]

Константа C представляет собой дзета-функцию Гурвица , оцениваемую в s .

Распределения Зипфа можно получить из распределений Парето путем замены переменных. [19]

Распределение Ципфа иногда называют дискретным распределением Парето [34] , поскольку оно аналогично непрерывному распределению Парето точно так же, как дискретное равномерное распределение аналогично непрерывному равномерному распределению .

Хвостовые частоты распределения Юла – Саймона примерно равны

для любого выбора ρ > 0.

В параболическом фрактальном распределении логарифм частоты представляет собой квадратичный многочлен от логарифма ранга. Это может заметно улучшить соответствие по сравнению с простым степенным соотношением. [35] Как и фрактальная размерность, можно вычислить размерность Ципфа, которая является полезным параметром при анализе текстов. [36]

Утверждалось, что закон Бенфорда представляет собой частный ограниченный случай закона Ципфа [35] , причем связь между этими двумя законами объясняется тем, что оба они происходят из масштабно-инвариантных функциональных соотношений статистической физики и критических явлений. [37] Отношения вероятностей в законе Бенфорда не являются постоянными. Старшие цифры данных, удовлетворяющих закону Ципфа с s = 1, удовлетворяют закону Бенфорда.

События

Размеры города

После наблюдения Ауэрбаха 1913 года было проведено тщательное исследование закона Ципфа для размеров городов. [38] Однако более поздние эмпирические [39] [40] и теоретические [41] исследования поставили под сомнение актуальность закона Ципфа для городов.

Частоты слов в естественных языках

График закона Ципфа для первых 10 миллионов слов в 30 Википедиях (по состоянию на октябрь 2015 г.) в логарифмическом масштабе.

Во многих текстах на человеческих языках частота слов примерно соответствует распределению Ципфа с показателем степени, близким к 1: то есть наиболее распространенное слово встречается примерно в n раз чаще, чем n- е наиболее распространенное.

Фактический график ранг-частоты текста на естественном языке в некоторой степени отклоняется от идеального распределения Ципфа, особенно на двух концах диапазона. Отклонения могут зависеть от языка, темы текста, автора, от того, был ли текст переведен с другого языка, от используемых правил правописания. [ необходима ссылка ] Некоторые отклонения неизбежны из-за ошибки выборки .

На низкочастотном конце, где ранг приближается к N , график принимает форму лестницы, поскольку каждое слово может встречаться только целое число раз.

Логарифмический график частоты слов в Википедии (27 ноября 2006 г.). «Самыми популярными словами являются «the», «of» и «and», как и ожидалось. Закон Ципфа соответствует средней линейной части кривой, примерно следующей зеленой (1/ x ) линии, тогда как ранняя часть ближе к пурпурной (1/ x 0,5 ), а последняя часть ближе к голубой (1 / x 0,5 ). /( k  +  x ) 2.0 ) строка. Эти линии соответствуют трем различным параметризациям распределения Ципфа – Мандельброта, в целом нарушенному степенному закону с тремя сегментами: головой, серединой и хвостом.

В некоторых романских языках частоты примерно дюжины наиболее частых слов значительно отклоняются от идеального распределения Ципфа, поскольку эти слова включают артикли, склоняемые по грамматическому роду и числу . [ нужна цитата ]

Во многих восточноазиатских языках, таких как китайский , лхасский тибетский и вьетнамский , каждое «слово» состоит из одного слога ; это английское слово часто переводится как соединение двух таких слогов. Таблица рангов и частот для этих «слов» значительно отклоняется от идеального закона Ципфа на обоих концах диапазона. [ нужна цитата ]

Даже в английском языке отклонения от идеального закона Ципфа становятся более очевидными при изучении больших коллекций текстов. Анализ корпуса из 30 000 английских текстов показал, что только около 15% текстов в нем хорошо соответствуют закону Ципфа. Небольшие изменения в определении закона Ципфа могут увеличить этот процент почти до 50%. [42]

В этих случаях наблюдаемое частотно-ранговое соотношение можно более точно смоделировать с помощью отдельных распределений законов Ципфа – Мандельброта для разных подмножеств или подтипов слов. Так обстоит дело с графиком частотного ранга первых 10 миллионов слов английской Википедии. В частности, частоты закрытого класса служебных слов в английском языке лучше описываются значениями s ниже 1, в то время как рост открытого словарного запаса с увеличением размера документа и корпуса требует s больше 1 для сходимости Обобщенного гармонического ряда . [3]

Уэллса «Война миров» в открытом тексте, в книжном коде и в шифре Виженера .

Когда текст шифруется таким образом, что каждое появление каждого отдельного слова открытого текста всегда отображается в одно и то же зашифрованное слово (как в случае шифров простой замены , таких как шифры Цезаря , или простых шифров кодовой книги ), частотный ранг распространение не затронуто. С другой стороны, если отдельные вхождения одного и того же слова могут быть сопоставлены с двумя или более разными словами (как это происходит с шифром Виженера ), распределение Ципфа обычно будет иметь плоскую часть на высокочастотном конце. [ нужна цитата ]

Приложения

Закон Ципфа использовался для извлечения параллельных фрагментов текстов из сопоставимых корпусов. [43] Лоранс Дойл и другие предложили применить закон Ципфа для обнаружения инопланетного языка в поисках внеземного разума . [44] [45]

Частотно-ранговое распределение слов часто свойственно автору и мало меняется с течением времени. Эта особенность была использована при анализе текстов на предмет установления авторства. [46] [47]

Было обнаружено, что группы словоподобных знаков в рукописи Войнича XV века удовлетворяют закону Ципфа, предполагая, что текст, скорее всего, не является мистификацией, а скорее написан на непонятном языке или зашифрован. [48] ​​[49]

Смотрите также

Примечания

  1. ^ как признал Ципф [5] : 546 

Рекомендации

  1. ↑ abc Piantadosi, Стивен (25 марта 2014 г.). «Закон частоты слов Ципфа на естественном языке: критический обзор и будущие направления». Психон Булл преп . 21 (5): 1112–1130. дои : 10.3758/s13423-014-0585-6. ПМЦ  4176592 . ПМИД  24664880.
  2. ^ Фэган, Стивен; Генчай, Рамазан (2010), «Введение в текстовую эконометрику», в Улле, Аман; Джайлз, Дэвид Э.А. (ред.), Справочник по эмпирической экономике и финансам , CRC Press, стр. 133–153, ISBN 9781420070361. Стр. 139: «Например, в Коричневом корпусе, состоящем из более чем миллиона слов, половина объема слов состоит из повторяющихся употреблений всего 135 слов».
  3. ^ abc Powers, Дэвид М.В. (1998). Применение и объяснение закона Ципфа. Совместная конференция по новым методам обработки речи и компьютерному изучению естественного языка. Ассоциация компьютерной лингвистики. стр. 151–160. Архивировано из оригинала 10 сентября 2015 г. Проверено 2 февраля 2015 г.
  4. ^ ab Джордж К. Зипф (1935): Психобиология языка . Хоутон-Миффлин.
  5. ^ abc Джордж К. Зипф (1949). Человеческое поведение и принцип наименьшего усилия. Кембридж, Массачусетс: Аддисон-Уэсли. п. 1.
  6. ^ Ауэрбах Ф. (1913) Das Gesetz der Bevölkerungskonzentration. Geographische Mitteilungen Петермана 59, 74–76.
  7. ^ Кристофер Д. Мэннинг, Хинрих Шютце Основы статистической обработки естественного языка , MIT Press (1999), ISBN 978-0-262-13360-9 , стр. 24 
  8. ^ Дьюи, Годфри. Относительная частота звуков английской речи . Издательство Гарвардского университета, 1923.
  9. ^ Кондон, ЭДВАРД У. «Статистика словарного запаса». Наука 67.1733 (1928): 300–300.
  10. ^ Джордж К. Зипф (1932): Избранные исследования принципа относительной частоты в языке. Гарвард, Массачусетс: Издательство Гарвардского университета.
  11. ^ Зипф, Джордж Кингсли (1942). «Единство природы, наименьшее действие и естественные социальные науки». Социометрия . 5 (1): 48–62. дои : 10.2307/2784953. ISSN  0038-0431. JSTOR  2784953. Архивировано из оригинала 20 ноября 2022 г. Проверено 20 ноября 2022 г.
  12. ^ Экстелл, Роберт Л. (2001): Распределение размеров фирм США по Ципфу. Архивировано 17 октября 2023 г. в Wayback Machine , Science, 293, 5536, 1818, Американская ассоциация содействия развитию науки.
  13. ^ Сандмо, Агнар (01 января 2015 г.), Аткинсон, Энтони Б.; Бургиньон, Франсуа (ред.), Глава 1 - Основная проблема политической экономии: распределение доходов в истории экономической мысли, Справочник по распределению доходов, том. 2, Elsevier, стр. 3–65, doi : 10.1016/B978-0-444-59428-0.00002-3, заархивировано из оригинала 29 октября 2023 г. , получено 11 июля 2023 г.
  14. ^ М. Эрикссон, С. М. Хасибур Рахман, Ф. Фрайль, М. Сьёстрем, Эффективная интерактивная многоадресная рассылка через DVB-T2 - использование динамических SFN и PARPS. Архивировано 2 мая 2014 г. на Wayback Machine , Международная конференция IEEE по компьютерным и информационным технологиям, 2013 г. (BMSB'13), Лондон, Великобритания, июнь 2013 г. Предлагается гетерогенная модель выбора телеканалов по закону Ципфа.
  15. Занетт, Дамиан Х. (7 июня 2004 г.). «Закон Ципфа и создание музыкального контекста». arXiv : cs/0406015 .
  16. ^ Лаццарди, Сильвия; Валле, Филиппо; Маццолини, Андреа; Скиалдоне, Антонио; Казелле, Мишель; Оселла, Маттео (17 июня 2021 г.). «Новые статистические законы в транскриптомных данных одноклеточных». bioRxiv : 2021–16.06.448706. дои : 10.1101/2021.06.16.448706. S2CID  235482777. Архивировано из оригинала 17 июня 2021 г. Проверено 18 июня 2021 г.
  17. ^ Раму Ченна, Тоби Гибсон; Оценка пригодности модели Зипфиана для парного выравнивания последовательностей. Архивировано 6 марта 2014 г. на Wayback Machine , Международная конференция по биоинформатике, вычислительной биологии: 2011.
  18. ^ Ли, Вэньтянь (1992). «Случайные тексты демонстрируют распределение частот слов, подобное закону Ципфа». EEE Транзакции по теории информации . 38 (6): 1842–1845 - через IEEE Xplore.
  19. ^ аб Адамик, Лада А. (2000). Зипф, степенные законы и Парето - руководство по ранжированию (Отчет). Компания Хьюлетт-Паккард . Архивировано из оригинала 1 апреля 2023 г. Проверено 12 октября 2023 г. «первоначально опубликовано». www.parc.xerox.com . Корпорация Ксерокс . Архивировано из оригинала 7 ноября 2001 г. Проверено 23 февраля 2016 г.
  20. ^ Клаузет, А., Шализи, CR, и Ньюман, MEJ (2009). Степенные распределения в эмпирических данных. Обзор СИАМ, 51 (4), 661–703. дои : 10.1137/070710111
  21. ^ Билл Манарис; Лука Пелликоро; Джордж Потеринг; Харланд Ходжес (13 февраля 2006 г.). Исследование статистических пропорций эсперанто по сравнению с другими языками с использованием нейронных сетей и закона Ципфа (PDF) . Искусственный интеллект и его приложения . Инсбрук, Австрия. стр. 102–108. Архивировано из оригинала (PDF) 5 марта 2016 года.
  22. ^ Леон Бриллюэн , La science et la theorie de l'information , 1959, повторен в 1988 году, английский перевод переведен в 2004 году.
  23. ^ Митценмахер, Майкл (январь 2004 г.). «Краткая история генеративных моделей для степенного закона и логнормального распределения». Интернет-математика . 1 (2): 226–251. дои : 10.1080/15427951.2004.10129088 . ISSN  1542-7951. S2CID  1671059. Архивировано из оригинала 22 июля 2023 г. Проверено 25 июля 2023 г.
  24. ^ Симкин, М.В.; Ройчоудхури, вице-президент (1 мая 2011 г.). «Заново изобретая Уиллис». Отчеты по физике . 502 (1): 1–35. arXiv : физика/0601192 . Бибкод : 2011PhR...502....1S. doi :10.1016/j.physrep.2010.12.004. ISSN  0370-1573. S2CID  88517297. Архивировано из оригинала 29 января 2012 г. Проверено 25 июля 2023 г.
  25. ^ Вэньтянь Ли (1992). «Случайные тексты демонстрируют распределение частот слов, подобное закону Ципфа». Транзакции IEEE по теории информации . 38 (6): 1842–1845. CiteSeerX 10.1.1.164.8422 . дои : 10.1109/18.165464. 
  26. ^ Белевич V (18 декабря 1959 г.). «О статистических законах лингвистических распределений» (PDF) . Анналы научного общества Брюсселя . 73 : 310–326. Архивировано (PDF) из оригинала 15 декабря 2020 года . Проверено 24 апреля 2020 г.
  27. ^ Нойманн, Питер Г. «Статистическая металингвистика и Ципф / Парето / Мандельброт», Международная лаборатория компьютерных наук SRI , доступ и архивирование 29 мая 2011 г.
  28. ^ Рамон Феррер и Канчо и Рикар В. Соле (2003). «Наименьшее усилие и истоки масштабирования на человеческом языке». Труды Национальной академии наук Соединенных Штатов Америки . 100 (3): 788–791. Бибкод : 2003PNAS..100..788C. дои : 10.1073/pnas.0335980100 . ПМЦ 298679 . ПМИД  12540826. 
  29. ^ Конрад, Б.; Митценмахер, М. (июль 2004 г.). «Степенные законы для обезьян, печатающих случайным образом: случай неравных вероятностей». Транзакции IEEE по теории информации . 50 (7): 1403–1414. дои : 10.1109/TIT.2004.830752. ISSN  1557-9654. S2CID  8913575. Архивировано из оригинала 17 октября 2022 г. Проверено 20 августа 2023 г.
  30. ^ Линь, Жуокуан; Ма, Цяньли Д.Ю.; Бянь, Чуньхуа (2014). «Законы масштабирования в человеческой речи, уменьшение появления новых слов и обобщенной модели». arXiv : 1412.4846 [cs.CL].
  31. ^ Витанов, Николай К.; Ауслос, Марсель; Бянь, Чуньхуа (2015). «Проверка двух гипотез, объясняющих численность населения в системе городов». Журнал прикладной статистики . 42 (12): 2686–2693. arXiv : 1506.08535 . Бибкод : 2015JApSt..42.2686V. дои : 10.1080/02664763.2015.1047744. S2CID  10599428.
  32. ^ Рикардо Т. Фернхольц; Роберт Фернхольц (декабрь 2020 г.). «Закон Ципфа для моделей атласов». Журнал прикладной вероятности . 57 (4): 1276–1297. дои : 10.1017/июля 2020.64. S2CID  146808080. Архивировано из оригинала 29 января 2021 г. Проверено 26 марта 2021 г.
  33. ^ Теренс Тао (2012). «E Pluribus Unum: От сложности к универсальности». Дедал . 141 (3): 23–34. дои : 10.1162/DAED_a_00158 . S2CID  14535989. Архивировано из оригинала 5 августа 2021 г. Проверено 26 марта 2021 г.
  34. ^ Н.Л. Джонсон; С. Коц и А. В. Кемп (1992). Одномерные дискретные распределения (второе изд.). Нью-Йорк: ISBN John Wiley & Sons, Inc. 978-0-471-54897-3., п. 466.
  35. ^ аб Йохан Жерар ван дер Галиен (8 ноября 2003 г.). «Факториальная случайность: законы Бенфорда и Ципфа относительно распределения первых цифр факторной последовательности натуральных чисел». Архивировано из оригинала 5 марта 2007 г. Проверено 8 июля 2016 г.
  36. ^ Эфтехари, Али (2006). «Фрактальная геометрия текстов: первоначальное приложение к произведениям Шекспира». Журнал количественной лингвистики . 13 (2–3): 177–193. дои : 10.1080/09296170600850106. S2CID  17657731.
  37. ^ Пьетронеро, Л.; Тосатти, Э.; Тосатти, В.; Веспиньяни, А. (2001). «Объяснение неравномерного распределения чисел в природе: законы Бенфорда и Ципфа». Физика А. 293 (1–2): 297–304. arXiv : cond-mat/9808305 . Бибкод : 2001PhyA..293..297P. дои : 10.1016/S0378-4371(00)00633-6.
  38. ^ Габай, Ксавье (1999). «Закон Ципфа для городов: объяснение». Ежеквартальный экономический журнал . 114 (3): 739–767. дои : 10.1162/003355399556133. ISSN  0033-5533. JSTOR  2586883. Архивировано из оригинала 26 октября 2021 г. Проверено 26 октября 2021 г.
  39. ^ Аршад, Сидра; Ху, Сёгенг; Ашраф, Бадар Надим (15 февраля 2018 г.). «Закон Ципфа и распределение городов по размерам: обзор литературы и программа будущих исследований». Физика А: Статистическая механика и ее приложения . 492 : 75–92. Бибкод : 2018PhyA..492...75A. doi :10.1016/j.physa.2017.10.005. ISSN  0378-4371. Архивировано из оригинала 29 октября 2023 г. Проверено 26 октября 2021 г.
  40. ^ Ган, Ли; Ли, Донг; Сун, Шуньфэн (1 августа 2006 г.). «Является ли закон Ципфа ложным для объяснения распределения городов по размерам?». Письма по экономике . 92 (2): 256–262. doi :10.1016/j.econlet.2006.03.004. ISSN  0165-1765. Архивировано из оригинала 13 апреля 2019 г. Проверено 26 октября 2021 г.
  41. ^ Вербавац, Винсент; Бартелеми, Марк (ноябрь 2020 г.). «Уравнение роста городов». Природа . 587 (7834): 397–401. arXiv : 2011.09403 . Бибкод : 2020Natur.587..397V. дои : 10.1038/s41586-020-2900-x. ISSN  1476-4687. PMID  33208958. S2CID  227012701. Архивировано из оригинала 29 октября 2021 г. Проверено 26 октября 2021 г.
  42. ^ Морено-Санчес, И.; Фон-Кло, Ф.; Коррал, А. (2016). «Масштабный анализ закона Ципфа в английских текстах». ПЛОС ОДИН . 11 (1): e0147073. arXiv : 1509.04486 . Бибкод : 2016PLoSO..1147073M. дои : 10.1371/journal.pone.0147073 . ПМЦ 4723055 . ПМИД  26800025. 
  43. ^ Мохаммади, Мехди (2016). «Параллельная идентификация документов с использованием закона Ципфа» (PDF) . Материалы девятого семинара по построению и использованию сопоставимых корпораций . LREC 2016. Порторож, Словения. стр. 21–25. Архивировано (PDF) из оригинала 23 марта 2018 г.
  44. ^ Дойл, Лоуренс Р. (18 ноября 2016 г.). «Почему инопланетный язык выделяется среди всего шума Вселенной». Наутилус Ежеквартально . Архивировано из оригинала 29 июля 2020 г. Проверено 30 августа 2020 г.
  45. ^ Кершенбаум, Арик (16 марта 2021 г.). Путеводитель зоолога по Галактике: что животные на Земле рассказывают об инопланетянах и нас самих . Пингвин. стр. 251–256. ISBN 978-1-9848-8197-7. OCLC  1242873084.
  46. ^ Франс Дж. Ван Дрогенброк (2016): Управление распространением Zipf при компьютеризированном установлении авторства. Архивировано 4 октября 2023 г. в Wayback Machine.
  47. ^ Франс Дж. Ван Дрогенброк (2019): Существенная перефразировка закона Ципфа-Мандельброта для решения приложений об установлении авторства с помощью гауссовой статистики. Архивировано 30 сентября 2023 г. в Wayback Machine.
  48. ^ Бойл, Ребекка. «Языковые модели загадочного текста могут быть тщательно продуманной мистификацией». Новый учёный . Архивировано из оригинала 18 мая 2022 г. Проверено 25 февраля 2022 г.
  49. ^ Монтемурро, Марсело А.; Занетт, Дамиан Х. (21 июня 2013 г.). «Ключевые слова и закономерности совпадения в рукописи Войнича: теоретико-информационный анализ». ПЛОС ОДИН . 8 (6): e66344. Бибкод : 2013PLoSO...866344M. дои : 10.1371/journal.pone.0066344 . ISSN  1932-6203. ПМЦ 3689824 . ПМИД  23805215. 

дальнейшее чтение

Внешние ссылки