Закон Ципфа

Закон Ципфа ( / zɪf / , нем. [t͡sɪpf] ) — эмпирический закон, гласящий , что при сортировке списка измеренных значений в порядке убывания значение $n-$ $го$ элемента часто приблизительно обратно пропорционально n .

Самый известный пример закона Ципфа применяется к таблице частотности слов в тексте или корпусе естественного языка : обычно обнаруживается, что самое распространенное слово встречается примерно в два раза чаще, чем следующее по частоте, в три раза чаще, чем третье по частоте, и так далее. Например, в Корпусе американского английского языка Брауна слово « the » является наиболее часто встречающимся словом и само по себе составляет почти 7% всех появлений слов (69 971 из чуть более 1 миллиона). В соответствии с законом Ципфа, второе по частоте слово « of » составляет чуть более 3,5% слов (36 411 появлений), за ним следует « and » (28 852). ^[2] Он часто используется в следующей форме, называемой законом Ципфа-Мандельброта : где и являются подобранными параметрами, причем и ^[1] $\ {\mathsf {частота\ слова}}\ \propto \ {\frac {1}{\ {\mathsf {ранг\ слова}}\ }}~.$ $\ {\mathsf {частота}}\ \propto \ {\frac {1}{\ \left(\ {\mathsf {ранг}}+b\ \right)^{a}\ }}\$ $\ а\$ $\ б\$ $\ а\приблизительно 1\ ,$ $\ b\приблизительно 2,7~.$

Этот закон назван в честь американского лингвиста Джорджа Кингсли Ципфа , ^[3]^[4]^[5] и до сих пор является важной концепцией в количественной лингвистике . Было обнаружено, что он применим ко многим другим типам данных, изучаемых в физических и социальных науках.

В математической статистике эта концепция была формализована как распределение Ципфа : семейство связанных дискретных распределений вероятностей, распределение рангов и частот которых является обратной степенной зависимостью . Они связаны с законом Бенфорда и распределением Парето .

Некоторые наборы эмпирических данных, зависящих от времени, несколько отклоняются от закона Ципфа. Такие эмпирические распределения называются квази-Ципфовыми .

История

В 1913 году немецкий физик Феликс Ауэрбах наблюдал обратную пропорциональность между численностью населения городов и их рангами при сортировке по убыванию этой переменной. ^[6]

Закон Ципфа был открыт до Ципфа, ^[a] впервые французским стенографистом Жаном-Батистом Эступом в 1916 году, ^[8]^[7], а также Дж. Дьюи в 1923 году, ^[9] и Э. Кондоном в 1928 году. ^[10]

Такое же соотношение частот слов в текстах на естественном языке наблюдал Джордж Ципф в 1932 году ^[4] , но он никогда не утверждал, что является его создателем. На самом деле, Ципф не любил математику. В своей публикации 1932 года ^[11] автор с пренебрежением отзывается о математическом участии в лингвистике, ao ibidem , стр. 21:

... позвольте мне здесь сказать для любого математика, который может планировать сформулировать последующие данные более точно, способность высокоинтенсивного положительного значения становиться высокоинтенсивным отрицательным значением, по моему мнению, вносит дьявола в формулу в виде

\ {\sqrt {-i\;}}~.

Единственное математическое выражение, которое использовал Ципф, выглядит как $a . b 2 =$ константа, которое он «позаимствовал» из публикации Альфреда Дж. Лотки 1926 года. ^[12]

Такая же связь была обнаружена во многих других контекстах и для других переменных, помимо частоты. ^[1] Например, когда корпорации ранжируются по убыванию размера, их размеры оказываются обратно пропорциональными рангу. ^[13] Такая же связь обнаружена для личных доходов (где она называется принципом Парето ^[14] ), количества людей, смотрящих один и тот же телеканал, ^[15] нот в музыке, ^[16]транскриптомов клеток , ^[17]^[18] и многого другого.

В 1992 году биоинформатик Вэньтянь Ли опубликовал короткую статью ^[19], показывающую, что закон Ципфа возникает даже в случайно сгенерированных текстах. Она включала доказательство того, что степенная форма закона Ципфа была побочным продуктом упорядочивания слов по рангу.

Формальное определение

Формально распределение Ципфа на $N$ элементах присваивает элементу ранга $k$ (считая от 1) вероятность

\ f(k;N)~=~{\begin{cases}{\frac {1}{\ H_{N}}}\ {\frac {1}{\ k\ }}\ ,&\ {\mbox{ если }}\ 1\leq k\leq N~,\\{}\\~~0~~,&\ {\mbox{ если }}\ k<1\ {\mbox{ или }}\ N<k~.\end{cases}}

где $H$ _$N$ — константа нормировки: Номер $N-$ й гармоники :

H_{N}\equiv \sum _{k=1}^{N}{\frac {\ 1\ }{k}}~.

Распределение иногда обобщается до обратного степенного закона с показателем $s$ вместо $1.$ ^[20] А именно,

f(k;N,s)={\frac {1}{H_{N,s}}}\,{\frac {1}{k^{s}}}

где $H$ _{$N$ , $s$} — обобщенное гармоническое число

H_{N,s}=\sum _{k=1}^{N}{\frac {1}{k^{s}}}~.

Обобщенное распределение Ципфа может быть расширено до бесконечного числа элементов ( $N$ = ∞) только если показатель $s$ превышает $1.$ В этом случае константа нормализации $H$ _{$N$ , $s$} становится дзета-функцией Римана ,

\zeta (s)=\sum _{k=1}^{\infty }{\frac {1}{k^{s}}}<\infty ~.

Случай бесконечного числа элементов характеризуется распределением Дзета и называется законом Лотки . Если показатель $s$ равен $1$ или меньше, константа нормализации $H$ _{$N$ , $s$} расходится при стремлении $N$ к бесконечности.

Эмпирическое тестирование

Эмпирически набор данных можно проверить, применим ли закон Ципфа, проверив степень соответствия эмпирического распределения предполагаемому степенному распределению с помощью теста Колмогорова-Смирнова , а затем сравнив (логарифмическое) отношение правдоподобия степенного распределения с альтернативными распределениями, такими как экспоненциальное распределение или логнормальное распределение. ^[21]

Закон Ципфа можно визуализировать, построив график частоты элементов в логарифмическом масштабе , где осями являются логарифм ранга и логарифм частоты. Данные соответствуют закону Ципфа с показателем $s$ в той степени, в которой график аппроксимирует линейную (точнее, аффинную ) функцию с наклоном $-s$ . Для показателя $s$ $= 1$ можно также построить график обратной величины частоты (среднего межсловного интервала) против ранга или обратной величины ранга против частоты и сравнить результат с линией, проходящей через начало координат с наклоном $1.$ ^[3]

Статистические пояснения

Хотя закон Ципфа справедлив для большинства естественных языков и даже для некоторых неестественных языков, таких как эсперанто ^[22] и токипона , ^[23] причина до сих пор не до конца понятна. ^[24] Недавние обзоры генеративных процессов для закона Ципфа включают Mitzenmacher , "A Brief History of Generative Models for Power Law and Lognormal Distributions", ^[25] и Simkin, "Re-inventing Willis". ^[26]

Однако это может быть частично объяснено статистическим анализом случайно сгенерированных текстов. Вэньтянь Ли показал, что в документе, в котором каждый символ был выбран случайным образом из равномерного распределения всех букв (плюс пробел), «слова» с разной длиной следуют макротенденции закона Ципфа (более вероятные слова являются самыми короткими и имеют равную вероятность). ^[27] В 1959 году Витольд Белевич заметил, что если любое из большого класса хорошо ведущих себя статистических распределений (не только нормальное распределение ) выразить в терминах ранга и разложить в ряд Тейлора , то усечение первого порядка ряда приводит к закону Ципфа. Кроме того, усечение второго порядка ряда Тейлора приводит к закону Мандельброта . ^[28]^[29]

Принцип наименьшего усилия является еще одним возможным объяснением: сам Ципф предположил, что ни говорящие, ни слушающие, использующие данный язык, не хотят прилагать больше усилий, чем необходимо, для достижения понимания, а процесс, который приводит к приблизительно равному распределению усилий, приводит к наблюдаемому распределению Ципфа. ^[5]^[30]

Минимальное объяснение предполагает, что слова генерируются обезьянами, печатающими случайным образом . Если язык генерируется одной обезьяной, печатающей случайным образом, с фиксированной и ненулевой вероятностью нажатия каждой клавиши с буквой или пробела, то слова (строки букв, разделенные пробелами), созданные обезьяной, следуют закону Ципфа. ^[31]

Другой возможной причиной распределения Ципфа является предпочтительный процесс прикрепления, в котором значение $x$ элемента имеет тенденцию расти со скоростью, пропорциональной $x$ (интуитивно, « богатые становятся богаче » или «успех порождает успех»). Такой процесс роста приводит к распределению Юла–Саймона , которое, как было показано, лучше соответствует частоте слов в сравнении с рангом в языке ^[32] и населению в сравнении с рангом города ^[33], чем закон Ципфа. Первоначально он был выведен для объяснения населения в сравнении с рангом в виде Юлом и применен к городам Саймоном.

Аналогичное объяснение основано на моделях атласа, системах взаимозаменяемых положительно-значных диффузионных процессов с параметрами дрейфа и дисперсии, которые зависят только от ранга процесса. Было показано математически, что закон Ципфа справедлив для моделей атласа, которые удовлетворяют определенным естественным условиям регулярности. ^[34]^[35]

Сопутствующие законы

Обобщением закона Ципфа является закон Ципфа–Мандельброта , предложенный Бенуа Мандельбротом , частоты которого равны:

f(k;N,q,s)={\frac {1}{\ C\ }}\ {\frac {1}{\ \left(k+q\right)^{s}}}~.

^{[ требуется разъяснение ]}

Константа $C$ — это дзета-функция Гурвица, вычисленная при $s$ .

Распределения Ципфа могут быть получены из распределений Парето путем замены переменных. ^[20]

Распределение Ципфа иногда называют дискретным распределением Парето ^[36], поскольку оно аналогично непрерывному распределению Парето таким же образом, как дискретное равномерное распределение аналогично непрерывному равномерному распределению .

Частоты хвоста распределения Юла-Саймона приблизительно равны

f(k;\rho )\approx {\frac {\ [{\mathsf {constant}}]\ }{k^{(\rho +1)}}}

для любого выбора $ρ$ $> 0$ .

В параболическом фрактальном распределении логарифм частоты является квадратичным полиномом логарифма ранга. Это может значительно улучшить соответствие простому степенному закону. ^[37] Подобно фрактальной размерности, можно вычислить размерность Ципфа, которая является полезным параметром при анализе текстов. ^[38]

Утверждалось, что закон Бенфорда является особым ограниченным случаем закона Ципфа, ^[37] причем связь между этими двумя законами объясняется тем, что оба они происходят из масштабно-инвариантных функциональных соотношений из статистической физики и критических явлений. ^[39] Отношения вероятностей в законе Бенфорда не являются постоянными. Первые цифры данных, удовлетворяющих закону Ципфа с $s = 1$ , удовлетворяют закону Бенфорда.

Происшествия

Размеры города

После наблюдения Ауэрбаха 1913 года было проведено существенное исследование закона Ципфа для размеров городов. ^[40] Однако более поздние эмпирические ^[41]^[42] и теоретические ^[43] исследования поставили под сомнение релевантность закона Ципфа для городов.

Частоты слов в естественных языках

Во многих текстах на человеческих языках частоты слов приблизительно следуют распределению Ципфа с показателем $s,$ близким к $1$ ; то есть наиболее распространенное слово встречается примерно $n$ раз чаще, чем $n$ -е наиболее распространенное слово.

Фактический график ранг-частота текста на естественном языке в некоторой степени отклоняется от идеального распределения Ципфа, особенно на двух концах диапазона. Отклонения могут зависеть от языка, темы текста, автора, от того, был ли текст переведен с другого языка, и от используемых правил правописания. ^{[ необходима цитата ]} Некоторые отклонения неизбежны из-за ошибки выборки .

На низкочастотном конце, где ранг приближается $к N$ , график принимает форму лестницы, поскольку каждое слово может встречаться только целое число раз.

Графики закона Ципфа для нескольких языков
Тексты на немецком (1669), русском (1972), французском (1865), итальянском (1840) и средневековом английском (1460) языках
« Дон Кихот, часть I» Сервантеса ( испанский , 1605 г.) и « Дом Касмурро» Ассиса ( португальский , 1899 г.)
Геэз (14 век), арабский (~650), иврит (500-800), все с гласными
Лхасский тибетский , китайский , вьетнамский , все с раздельными слогами
Библейские тексты: Пятикнижие из латинской Вульгаты и русской Синодальной Библии , четыре Евангелия из византийской греческой версии большинства.
«Дон Кихот» Сервантеса, часть I (1605) и часть II (1615)
Первые пять книг Ветхого Завета ( Торы ) на иврите, с гласными
Первые пять книг Ветхого Завета ( Пятикнижие ) в латинской версии Вульгаты
Первые четыре книги Нового Завета ( Евангелия ) в латинской версии Вульгаты

График частоты слов в двойном логарифмическом масштабе в английской Википедии (27 ноября 2006 г.). «Самые популярные слова — «the», «of» и «and», как и ожидалось. Закон Ципфа соответствует средней линейной части кривой, примерно следующей за **зеленой** ( $⁠$ $1 / х ⁠$ ) линия,в то время как ранняя часть ближе к **пурпурному** ( $⁠$ $1 / \sqrt х ⁠$ ) линия, а более поздняя часть ближе к **голубому** ( $⁠$ $1 / х 2 ⁠$ ) линия.Эти линии соответствуют трем различным параметризациям распределения Ципфа–Мандельброта, в целом представляющего собойломаный степенной законс тремя сегментами: голова, середина и хвост.

В некоторых романских языках частоты примерно дюжины наиболее употребительных слов значительно отклоняются от идеального распределения Ципфа, поскольку эти слова включают артикли, склоняемые по грамматическому роду и числу . ^{[ требуется ссылка ]}

Во многих восточноазиатских языках, таких как китайский , лхасский тибетский и вьетнамский , каждое «слово» состоит из одного слога ; слово английского языка часто переводится как соединение из двух таких слогов. Таблица рангов и частот для этих «слов» значительно отклоняется от идеального закона Ципфа на обоих концах диапазона. ^{[ требуется цитата ]}

Даже в английском языке отклонения от идеального закона Ципфа становятся более очевидными при изучении больших коллекций текстов. Анализ корпуса из 30 000 английских текстов показал, что только около 15% текстов в нем хорошо соответствуют закону Ципфа. Небольшие изменения в определении закона Ципфа могут увеличить этот процент почти до 50%. ^[44]

В этих случаях наблюдаемое отношение частоты к рангу может быть смоделировано более точно с помощью отдельных распределений законов Ципфа-Мандельброта для различных подмножеств или подтипов слов. Это касается графика частоты к рангу первых 10 миллионов слов английской Википедии. В частности, частоты замкнутого класса функциональных слов в английском языке лучше описываются с $s$ ниже $1,$ в то время как открытый рост словарного запаса с размером документа и размером корпуса требует $s$ больше 1 для сходимости обобщенного гармонического ряда . ^[3]

Когда текст зашифрован таким образом, что каждое вхождение каждого отдельного открытого слова всегда отображается на одно и то же зашифрованное слово (как в случае простых шифров подстановки , таких как шифры Цезаря или простые шифры кодовой книги ), распределение частоты и ранга не изменяется. С другой стороны, если отдельные вхождения одного и того же слова могут быть отображены на два или более разных слова (как это происходит с шифром Виженера ), распределение Ципфа, как правило, будет иметь плоскую часть на высокочастотном конце. ^{[ необходима цитата ]}

Приложения

Закон Ципфа использовался для извлечения параллельных фрагментов текстов из сопоставимых корпусов. ^[45] Лоренс Дойл и другие предложили применять закон Ципфа для обнаружения инопланетного языка при поиске внеземного разума . ^[46]^[47]

Частотно-ранговое распределение слов часто является характеристикой автора и мало меняется со временем. Эта особенность использовалась при анализе текстов для установления авторства. ^[48]^[49]

Было обнаружено, что группы знаков, похожих на слова, в рукописи Войнича XV века удовлетворяют закону Ципфа, что позволяет предположить, что текст, скорее всего, не является подделкой, а написан на непонятном языке или зашифрован. ^[50]^[51]

Смотрите также

Правило 1% (Интернет-культура) – Гипотеза о том, что больше людей будут скрываться в виртуальном сообществе, чем участвовать в нем.
Закон Бенфорда – наблюдение, что во многих реальных наборах данных первая цифра, скорее всего, будет маленькой.
Закон Брэдфорда – Модель ссылок в научных журналах
Закон краткости – Закон о лингвистике
Демографическое тяготение – Социальный эффект
Список частот – краткий список слов языка в корпусной лингвистике.
Закон Жибрата – Экономический принцип
Hapax legomenon – Слово, которое встречается в данном тексте или записи только один раз.
Закон Хипса – Эвристика для отдельных слов в документе
Эффект Кинга – явление в статистике, при котором точки данных с наивысшим рейтингом являются выбросами.
Длинный хвост – особенность некоторых статистических распределений
Кривая Лоренца – графическое представление распределения дохода или богатства.
Закон Лотки – применение закона Ципфа, описывающее частоту публикаций авторов в любой заданной области.
Закон Менцерата – Лингвистический закон
Распределение Парето – Распределение вероятностей
Принцип Парето – статистический принцип соотношения следствий и причин, также известный как «правило 80–20».
Закон Прайса – Физик и историк науки (1922–1983)
Принцип наименьших усилий – идея о том, что агенты предпочитают делать то, что проще всего
Распределение ранг-размер – распределение размера по рангу
Закон эпонимии Стиглера – наблюдение, что ни одно научное открытие не названо в честь его первооткрывателя.
Частота букв
Наиболее распространенные слова в английском языке

Примечания

^ как признал Ципф ^[5]^{: 546}

Ссылки

^ abc Piantadosi, Steven (25 марта 2014 г.). «Закон частоты слов Ципфа в естественном языке: критический обзор и будущие направления». Psychon Bull Rev. 21 ( 5): 1112–1130. doi :10.3758/s13423-014-0585-6. PMC 4176592. PMID 24664880 .
^ Фаган, Стивен; Генсэй, Рамазан (2010). «Введение в текстовую эконометрику». В Улла, Аман; Джайлс, Дэвид EA (ред.). Справочник по эмпирической экономике и финансам . CRC Press. стр. 133–153, в частности, 139. ISBN 9781420070361. Например, в Корпусе Брауна, состоящем из более чем миллиона слов, половина словарного объема состоит из повторных употреблений всего лишь 135 слов.
^ abc Powers, David MW (1998). Applications and Explains of Zipf's law. Совместная конференция по новым методам в обработке языка и вычислительном обучении естественному языку. Ассоциация компьютерной лингвистики. С. 151–160. Архивировано из оригинала 10 сентября 2015 г. Получено 2 февраля 2015 г. – через aclweb.org.
^ ab Zipf, GK (1935). Психобиология языка . Нью-Йорк, Нью-Йорк: Houghton-Mifflin.
^ abc Zipf, George K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley. стр. 1 – через archive.org.
^ Ауэрбах, Ф. (1913). «Das Gesetz der Bevölkerungskonzentration». Geographische Mitteilungen Петермана (на немецком языке). 59 : 74–76.
^ аб Мэннинг, Кристофер Д.; Шютце, Хинрих (1999). Основы статистической обработки естественного языка . МТИ Пресс. п. 24. ISBN 978-0-262-13360-9.
^ Эступ, Ж.-Б. (1916). Gammes Stenographiques (4-е изд.).Цитируется в Manning & Schütze (1999). ^[7]
^ Дьюи, Годфри (1923). Относительная частота звуков английской речи. Издательство Гарвардского университета – через Интернет-архив.
^ Кондон, Э.У. (1928). «Статистика словарного запаса». Наука . 67 (1733): 300.
^ Ципф, Г. К. (1932). Избранные исследования принципа относительной частоты в языке . Гарвард, Массачусетс: Издательство Гарвардского университета.
^ Zipf, George Kingsley (1942). «Единство природы, наименьшего действия и естественной социальной науки». Sociometry . 5 (1): 48–62. doi :10.2307/2784953. ISSN 0038-0431. JSTOR 2784953. Архивировано из оригинала 20 ноября 2022 г. . Получено 20 ноября 2022 г. .
^ Экстелл, Роберт Л. (2001). «Распределение Ципфа по размерам фирм в США». Science . 293 (5536): 1818. Архивировано из оригинала 17 октября 2023 г. – через science.org.
^ Sandmo, Agnar (январь 2015 г.). «Глава 1 — Основная проблема политической экономии: распределение доходов в истории экономической мысли». В Atkinson, Anthony B.; Bourguignon, François (ред.). Handbook of Income Distribution . Vol. 2. Elsevier. pp. 3–65. doi :10.1016/B978-0-444-59428-0.00002-3. ISBN 978-0-444-59430-3. Архивировано из оригинала 29 октября 2023 г. . Получено 11 июля 2023 г. – через Elsevier (sciencedirect.com).
^ M. Eriksson, SM Hasibur Rahman, F. Fraille, M. Sjöström, Эффективная интерактивная многоадресная передача по DVB-T2 - использование динамических SFN и PARPS. Архивировано 2 мая 2014 г. на Wayback Machine , Международная конференция IEEE по компьютерам и информационным технологиям 2013 г. (BMSB'13), Лондон, Великобритания, июнь 2013 г. Предлагает гетерогенную модель выбора телевизионных каналов по закону Ципфа.
^ Занетт, Дамиан Х. (7 июня 2004 г.). «Закон Ципфа и создание музыкального контекста». arXiv : cs/0406015 .
^ Лаццарди, Сильвия; Валле, Филиппо; Маццолини, Андреа; Скиалдоне, Антонио; Казелле, Мишель; Оселла, Маттео (17 июня 2021 г.). «Новые статистические законы в транскриптомных данных одноклеточных». bioRxiv : 2021–16.06.448706. дои : 10.1101/2021.06.16.448706. S2CID 235482777. Архивировано из оригинала 17 июня 2021 года . Проверено 18 июня 2021 г.
^ Ченна, Раму; Гибсон, Тоби (2011). Оценка пригодности модели зазора Ципфа для парного выравнивания последовательностей (PDF) . Международная конференция по вычислительной биологии биоинформатики. BIC 4329. Архивировано из оригинала (PDF) 6 марта 2014 г.
^ Ли, Вэньтянь (1992). «Случайные тексты демонстрируют распределение частот слов, подобное закону Ципфа». Труды IEEE по теории информации . 38 (6): 1842–1845. doi :10.1109/18.165464 – через IEEE Xplore.
^ ab Adamic, Lada A. (2000). Zipf, power-laws, and Pareto – a ranking tutorial (Report) (переиздание). Hewlett-Packard Company. Архивировано из оригинала 1 апреля 2023 года . Получено 12 октября 2023 года . "оригинальная публикация". www.parc.xerox.com . Xerox Corporation . Архивировано из оригинала 7 ноября 2001 г. . Получено 23 февраля 2016 г. .
^ Clauset, A.; Shalizi, CR; Newman, MEJ (2009). «Степенные распределения в эмпирических данных». SIAM Review . 51 (4): 661–703. doi :10.1137/070710111.
^ Манарис, Билл; Пелликоро, Лука; Потеринг, Джордж; Ходжес, Харланд (13 февраля 2006 г.). Исследование статистических пропорций эсперанто по отношению к другим языкам с использованием нейронных сетей и закона Ципфа (PDF) . Искусственный интеллект и приложения. Инсбрук, Австрия. стр. 102–108. Архивировано из оригинала (PDF) 5 марта 2016 г. – через cs.cofc.edu.
^ Скотэрек, Дариуш (12–14 октября 2020 г.). Закон Ципфа в Toki Pona (PDF) . ExLing 2020: 11-я Международная конференция экспериментальной лингвистики. Афины, Греция: ExLing Society. doi : 10.36505/ExLing-2020/11/0047/000462. ISBN 978-618-84585-1-2– через exlingsociety.com.
^ Бриллюэн, Леон (2004) [1959, 1988]. La science et la théorie de l'information [ Наука и теория информации ] (на французском языке). повторен в 1988 г., английский перевод повторен в 2004 г.
^ Митценмахер, Майкл (январь 2004 г.). «Краткая история генеративных моделей для степенного закона и логнормальных распределений». Internet Mathematics . 1 (2): 226–251. doi : 10.1080/15427951.2004.10129088 . ISSN 1542-7951. S2CID 1671059. Архивировано из оригинала 22 июля 2023 г. . Получено 25 июля 2023 г. .
^ Simkin, MV; Roychowdhury, VP (май 2011 г.). «Re-inventing Willis». Physics Reports . 502 (1): 1–35. arXiv : physics/0601192 . Bibcode : 2011PhR...502....1S. doi : 10.1016/j.physrep.2010.12.004. ISSN 0370-1573. S2CID 88517297. Архивировано из оригинала 29 января 2012 г. Получено 25 июля 2023 г.
^ Ли, Вэньтянь (1992). «Случайные тексты демонстрируют распределение частот слов, подобное закону Ципфа». Труды IEEE по теории информации . 38 (6): 1842–1845. CiteSeerX 10.1.1.164.8422 . doi :10.1109/18.165464.
↑ Белевич, В. (18 декабря 1959 г.). «О статистических законах лингвистических распределений» (PDF) . Анналы научного общества Брюсселя . 73 : 310–326. Архивировано (PDF) из оригинала 15 декабря 2020 года . Проверено 24 апреля 2020 г.
^ Neumann, PG (ок. 2022). Статистическая металингвистика и Ципф / Парето / Мандельброт (Отчет). Computer Science Laboratory. Vol. 12A. Menlo Park, CA: SRI International . Архивировано из оригинала 5 июня 2011 г. Получено 29 мая 2011 г. – через sri.com.
^ Ferrer i Cancho, Ramon & Sole, Ricard V. (2003). «Наименьшие усилия и истоки масштабирования в человеческом языке». Труды Национальной академии наук Соединенных Штатов Америки . 100 (3): 788–791. Bibcode :2003PNAS..100..788C. doi : 10.1073/pnas.0335980100 . PMC 298679 . PMID 12540826.
^ Conrad, B.; Mitzenmacher, M. (июль 2004 г.). «Степень законов для обезьян, печатающих случайно: случай неравных вероятностей». IEEE Transactions on Information Theory . 50 (7): 1403–1414. doi :10.1109/TIT.2004.830752. ISSN 1557-9654. S2CID 8913575. Архивировано из оригинала 17 октября 2022 г. Получено 20 августа 2023 г.
^ Линь, Руокуан; Ма, Цяньли DY; Бянь, Чуньхуа (2014). «Законы масштабирования в человеческой речи, уменьшение появления новых слов и обобщенная модель». arXiv : 1412.4846 [cs.CL].
^ Витанов, Николай К.; Ауслоос, Марсель; Бянь, Чуньхуа (2015). «Проверка двух гипотез, объясняющих размер населения в системе городов». Журнал прикладной статистики . 42 (12): 2686–2693. arXiv : 1506.08535 . Bibcode :2015JApSt..42.2686V. doi :10.1080/02664763.2015.1047744. S2CID 10599428.
^ Рикардо Т. Фернхольц; Роберт Фернхольц (декабрь 2020 г.). «Закон Ципфа для моделей атласа». Journal of Applied Probability . 57 (4): 1276–1297. doi :10.1017/jpr.2020.64. S2CID 146808080. Архивировано из оригинала 29 января 2021 г. Получено 26 марта 2021 г.
^ Теренс Тао (2012). «E Pluribus Unum: От сложности к универсальности». Дедал . 141 (3): 23–34. дои : 10.1162/DAED_a_00158 . S2CID 14535989. Архивировано из оригинала 5 августа 2021 года . Проверено 26 марта 2021 г.
^ Джонсон, Н. Л.; Коц, С. и Кемп, AW (1992). Одномерные дискретные распределения (второе изд.). Нью-Йорк: John Wiley & Sons, Inc. стр. 466. ISBN 978-0-471-54897-3.
^ ab van der Galien, Johan Gerard (8 ноября 2003 г.). "Факторная случайность: законы Бенфорда и Ципфа относительно распределения первых цифр факторной последовательности из натуральных чисел". zonnet.nl . Архивировано из оригинала 5 марта 2007 г. . Получено 8 июля 2016 г. .
^ Эфтехари, Али (2006). «Фрактальная геометрия текстов: первоначальное применение к произведениям Шекспира». Журнал количественной лингвистики . 13 (2–3): 177–193. doi :10.1080/09296170600850106. S2CID 17657731.
^ Pietronero, L.; Tosatti, E.; Tosatti, V.; Vespignani, A. (2001). «Объяснение неравномерного распределения чисел в природе: законы Бенфорда и Ципфа». Physica A. 293 ( 1–2): 297–304. arXiv : cond-mat/9808305 . Bibcode : 2001PhyA..293..297P. doi : 10.1016/S0378-4371(00)00633-6.
^ Габэ, Ксавье (1999). «Закон Ципфа для городов: объяснение». The Quarterly Journal of Economics . 114 (3): 739–767. doi : 10.1162/003355399556133. ISSN 0033-5533. JSTOR 2586883. Архивировано из оригинала 26 октября 2021 г. Получено 26 октября 2021 г. – через jstor.org.
^ Arshad, Sidra; Hu, Shougeng; Ashraf, Badar Nadeem (15 февраля 2018 г.). «Закон Ципфа и распределение размеров городов: обзор литературы и будущая исследовательская программа». Physica A: Statistical Mechanics and Its Applications . 492 : 75–92. Bibcode :2018PhyA..492...75A. doi :10.1016/j.physa.2017.10.005. ISSN 0378-4371. Архивировано из оригинала 29 октября 2023 г. . Получено 26 октября 2021 г. .
^ Gan, Li; Li, Dong; Song, Shunfeng (1 августа 2006 г.). «Является ли закон Ципфа ложным при объяснении распределений по размеру городов?». Economics Letters . 92 (2): 256–262. doi :10.1016/j.econlet.2006.03.004. ISSN 0165-1765. Архивировано из оригинала 13 апреля 2019 г. . Получено 26 октября 2021 г. .
^ Verbavatz, Vincent; Barthelemy, Marc (ноябрь 2020 г.). «Уравнение роста городов». Nature . 587 (7834): 397–401. arXiv : 2011.09403 . Bibcode :2020Natur.587..397V. doi :10.1038/s41586-020-2900-x. ISSN 1476-4687. PMID 33208958. S2CID 227012701. Архивировано из оригинала 29 октября 2021 г. . Получено 26 октября 2021 г. .
^ Moreno-Sánchez, I.; Font-Clos, F.; Corral, A. (2016). «Масштабный анализ закона Ципфа в английских текстах». PLOS ONE . 11 (1): e0147073. arXiv : 1509.04486 . Bibcode : 2016PLoSO..1147073M. doi : 10.1371/journal.pone.0147073 . PMC 4723055. PMID 26800025 .
^ Мохаммади, Мехди (2016). «Параллельная идентификация документов с использованием закона Ципфа» (PDF) . Труды Девятого семинара по созданию и использованию сопоставимых корпусов . LREC 2016. Порторож, Словения. стр. 21–25. Архивировано (PDF) из оригинала 23 марта 2018 г.
^ Дойл, ЛР (18 ноября 2016 г.). «Почему инопланетный язык выделяется среди всего шума вселенной». Nautilus Quarterly . Архивировано из оригинала 29 июля 2020 г. Получено 30 августа 2020 г.
^ Кершенбаум, Арик (16 марта 2021 г.). Путеводитель зоолога по Галактике: что животные на Земле рассказывают об инопланетянах — и о нас самих . Penguin. С. 251–256. ISBN 978-1-9848-8197-7. OCLC 1242873084.
^ van Droogenbroeck, Frans J. (2016). Обработка распределения Ципфа в компьютеризированной атрибуции авторства (Отчет). Архивировано из оригинала 4 октября 2023 г. – через academia.edu.
^ van Droogenbroeck, Frans J. (2019). Существенная перефразировка закона Ципфа-Мандельброта для решения задач атрибуции авторства с помощью гауссовой статистики (Отчет). Архивировано из оригинала 30 сентября 2023 г. – через academia.edu.
^ Бойл, Ребекка. «Языкоподобные узоры таинственного текста могут быть тщательно продуманной мистификацией». New Scientist . Архивировано из оригинала 18 мая 2022 г. Получено 25 февраля 2022 г.
^ Монтемурро, Марсело А.; Занетт, Дамиан Х. (21 июня 2013 г.). «Ключевые слова и закономерности совместного появления в рукописи Войнича: информационно-теоретический анализ». PLoS One . 8 (6): e66344. Bibcode :2013PLoSO...866344M. doi : 10.1371/journal.pone.0066344 . ISSN 1932-6203. PMC 3689824 . PMID 23805215.

Дальнейшее чтение

Александр Гельбух и Григорий Сидоров (2001) «Коэффициенты законов Ципфа и Хипса зависят от языка». Proc. CICLing -2001, Конференция по интеллектуальной обработке текста и компьютерной лингвистике , 18–24 февраля 2001 г., Мехико. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0 , Springer-Verlag: 332–335.
Кали Р. (2003) «Город как гигантский компонент: подход случайного графа к закону Ципфа», Письма в журнал «Applied Economics» 10 : 717–720(4)
Шикло А. (2017); Простое объяснение загадки Ципфа с помощью нового распределения рангов и долей, полученного из комбинаторики процесса ранжирования, доступно на SSRN: https://ssrn.com/abstract=2918642.
Клара Московиц , Джен Кристиансен и Ни-Ка Форд, «Клетки по количеству и размеру: чем больше тип клеток, тем реже он встречается в организме — и наоборот», Scientific American , т. 330, № 1 (январь 2024 г.), стр. 94–95. «“Если удвоить объем клетки, частота клеток такого размера уменьшится вдвое”, — говорит Хаттон, эколог Ян А. Хаттон из Университета Макгилла и его коллеги, исследователи закона Ципфа. — Крошечные безъядерные эритроциты — самые распространенные клетки в нашем организме, тогда как сравнительно гигантские мышечные клетки в наших руках и ногах — самые редкие. Возможность использовать размер клетки для оценки ее частоты в организме может помочь врачам лучше понять определенные системы организма и трудно поддающиеся подсчету типы клеток... Исследование предполагает, например, что иммунные клетки, называемые лимфоцитами, встречаются гораздо чаще, чем предполагали биологи». (стр. 94.)

Внешние ссылки

Библиотечные ресурсы о
законе Ципфа

Ресурсы в вашей библиотеке
Ресурсы в других библиотеках

На Викискладе есть медиафайлы по теме «Закон Ципфа» .

Строгац, Стивен (29 мая 2009 г.). "Гостевая колонка: Математика и город". The New York Times . Архивировано из оригинала 27 сентября 2015 г. Получено 29 мая 2009 г.—Статья о законе Ципфа, применяемом к городскому населению
Взгляд за угол (Искусственные общества открывают закон Ципфа)
Статья PlanetMath о законе Ципфа
Распределения типа "fractal parabolique" в Nature (на французском языке с кратким изложением на английском языке) Архивировано 24 октября 2004 г. на Wayback Machine
Анализ распределения доходов
Список французских слов Zipf Архивировано 23 июня 2007 г. на Wayback Machine
Список Zipf для английского, французского, испанского, итальянского, шведского, исландского, латинского, португальского и финского языков от проекта Gutenberg и онлайн-калькулятор для ранжирования слов в текстах. Архивировано 08.04.2011 на Wayback Machine
Цитаты и закон Ципфа-Мандельброта
Примеры и моделирование закона Ципфа (1985)
Сложные системы: Расшифровка закона Ципфа (2011)
Закон Бенфорда, закон Ципфа и распределение Парето Теренса Тао.
«Закон Ципфа», Энциклопедия математики , EMS Press , 2001 [1994]