Распределение ранг-размер

Распределение ранг–размер — это распределение размера по рангу в порядке убывания размера. Например, если набор данных состоит из элементов размером 5, 100, 5 и 8, распределение ранг–размер будет 100, 8, 5, 5 (ранги от 1 до 4). Это также известно как распределение ранг–частота , когда исходные данные взяты из распределения частоты . Они особенно интересны, когда данные значительно различаются по масштабам, например, размер города или частота слова. Эти распределения часто следуют распределению степенного закона или менее известным, таким как растянутая экспоненциальная функция или параболическое фрактальное распределение , по крайней мере приблизительно для определенных диапазонов рангов; см. ниже.

Распределение ранг-размер не является распределением вероятностей или кумулятивной функцией распределения . Скорее, это дискретная форма квантильной функции (обратного кумулятивного распределения) в обратном порядке, дающая размер элемента в данном ранге.

Простые распределения ранг-размер

В случае городского населения, результирующее распределение в стране, регионе или мире будет характеризоваться крупнейшим городом, а другие города будут уменьшаться в размерах относительно него, сначала быстрыми темпами, а затем медленнее. Это приводит к нескольким крупным городам и гораздо большему количеству городов на порядки меньше. Например, город ранга 3 будет иметь одну треть населения крупнейшего города страны, город ранга 4 будет иметь одну четвертую населения крупнейшего города и так далее. ^[2]

Сегментация

График частоты употребления слов в Википедии, показывающий три сегмента с различным поведением.

Распределение ранг-размер (или ранг-частота) часто сегментируется в диапазоны. Это часто делается несколько произвольно или из-за внешних факторов, особенно для сегментации рынка , но также может быть из-за различного поведения, поскольку ранг меняется.

Наиболее просто и часто распределение можно разделить на две части, называемые головой и хвостом . Если распределение разбито на три части, третья (средняя) часть имеет несколько терминов, в общем смысле middle , ^[3] также belly , ^[4] torso , ^[5] и body . ^[6] К ним часто добавляются некоторые прилагательные, наиболее значимые long tail , также fat belly , ^[4] chunky middle и т. д. В более традиционных терминах их можно назвать top-tier , mid-tier и bottom-tier .

Относительные размеры и веса этих сегментов (сколько рангов в каждом сегменте и какая доля от общей численности населения находится в данном сегменте) качественно характеризуют распределение, аналогично асимметрии или эксцессу распределения вероятностей. А именно: доминируют ли в нем несколько верхних членов (тяжелые в голове, как прибыль в индустрии звукозаписи), или в нем доминируют многие мелкие члены (тяжелые в хвосте, как поисковые запросы в Интернете), или оно распределено каким-то другим образом? Практически это определяет стратегию: на чем следует сосредоточить внимание?

Эти различия могут быть сделаны по разным причинам. Например, они могут возникнуть из-за различных свойств населения, как в принципе 90–9–1 , который утверждает, что в интернет-сообществе 90% участников сообщества только просматривают контент, 9% участников редактируют контент, а 1% участников активно создают новый контент. В качестве другого примера, в маркетинге можно прагматично рассматривать голову как всех участников, которые получают персонализированное внимание, например, личные телефонные звонки; в то время как хвост — это все остальное, что не получает персонализированного внимания, например, получение формальных писем ; и линия просто устанавливается в точке, которую позволяют ресурсы, или где имеет смысл остановиться с точки зрения бизнеса.

Чисто количественно, обычный способ разбиения распределения на голову и хвост заключается в том, чтобы считать голову первой p частью рангов, которые составляют всю совокупность, как в принципе Парето 80:20 , где верхние 20% (голова) составляют 80% всей совокупности. Точная граница зависит от распределения — каждое распределение имеет одну такую точку границы — и для мощности законы могут быть вычислены из индекса Парето . $1-п$

Сегменты могут возникать естественным образом из-за фактических изменений в поведении распределения по мере изменения ранга. Наиболее распространенным является эффект короля , когда поведение верхней горстки элементов не соответствует образцу остальных, как показано вверху для населения стран и выше для наиболее распространенных слов в английской Википедии. Для более высоких рангов поведение может измениться в какой-то момент и быть хорошо смоделировано различными отношениями в разных регионах; в целом кусочной функцией . Например, если два разных степенных закона лучше подходят для разных регионов, можно использовать ломаный степенной закон для общего отношения; частота слов в английской Википедии (выше) также демонстрирует это.

Распределение Юла-Саймона , которое является результатом предпочтительной привязанности (интуитивно, «богатые становятся еще богаче» и «успех порождает успех»), имитирует сломанный степенной закон и, как было показано, «очень хорошо фиксирует» частоту слов в зависимости от распределения рангов. ^[7] Оно возникло из попытки объяснить население в зависимости от ранга у разных видов. Также было показано, что оно лучше соответствует городскому населению в зависимости от ранга. ^[8]

Правило ранга-размера

Правило (или закон ) ранга -размера описывает замечательную закономерность во многих явлениях, включая распределение размеров городов, размеров предприятий, размеров частиц (например, песка), длины рек, частоты использования слов и богатства среди людей.

Все это реальные наблюдения, которые следуют степенным законам , таким как закон Ципфа , распределение Юла или распределение Парето . Если ранжировать численность населения городов в данной стране или во всем мире и вычислить натуральный логарифм ранга и численности населения города, то полученный график покажет линейную картину. Это распределение ранг-размер. ^[9]

Известные исключения из простых распределений ранг-размер

Хотя закон Ципфа хорошо работает во многих случаях, он, как правило, не подходит для крупнейших городов во многих странах; один тип отклонения известен как эффект Кинга . Исследование 2002 года показало, что закон Ципфа был отклонен в 53 из 73 стран, что намного больше, чем можно было бы ожидать на основе случайности. ^[10] Исследование также показало, что вариации показателя Парето лучше объясняются политическими переменными, чем переменными экономической географии, такими как прокси для экономии масштаба или транспортных расходов. ^[11] Исследование 2004 года показало, что закон Ципфа не работает хорошо для пяти крупнейших городов в шести странах. ^[12] В более богатых странах распределение было более пологим, чем прогнозировалось. Например, в Соединенных Штатах , хотя его крупнейший город, Нью-Йорк , имеет более чем в два раза больше населения, чем занимающий второе место Лос-Анджелес , агломерации двух городов (также двух крупнейших в стране) гораздо ближе по численности населения. По численности населения в мегаполисе Нью-Йорк всего в 1,3 раза больше Лос-Анджелеса. В других странах крупнейший город будет доминировать гораздо больше, чем ожидалось. Например, в Демократической Республике Конго столица Киншаса более чем в восемь раз больше второго по величине города Лубумбаши . При рассмотрении всего распределения городов, включая самые маленькие, правило ранга-размера не выполняется. Вместо этого распределение является логнормальным . Это следует из закона пропорционального роста Жибрата .

Поскольку исключения найти так легко, функция правила для анализа городов сегодня заключается в сравнении городских систем в разных странах. Правило ранга-размера является общим стандартом, по которому устанавливается городское первенство. Распределение, такое как в Соединенных Штатах или Китае, не демонстрирует закономерности первенства, но страны с доминирующим « городом-приматом » явно отличаются от правила ранга-размера противоположным образом. Таким образом, правило помогает классифицировать национальные (или региональные) городские системы в соответствии со степенью доминирования, демонстрируемой крупнейшим городом. Например, страны с городом-приматом обычно имели колониальную историю, которая объясняет эту городскую закономерность. Если ожидается, что нормальная схема распределения городов будет следовать правилу ранга-размера (т. е. если принцип ранга-размера коррелирует с теорией центрального места), то это предполагает, что те страны или регионы с распределениями, которые не следуют правилу, испытали некоторые условия, которые изменили нормальную схему распределения. Например, наличие нескольких регионов в крупных странах, таких как Китай и США, имеет тенденцию благоприятствовать модели, в которой появляется больше крупных городов, чем предсказывалось бы правилом. Напротив, небольшие страны, которые были связаны (например, колониально/экономически) с гораздо большими территориями, будут демонстрировать распределение, в котором крупнейший город намного больше, чем соответствовало бы правилу, по сравнению с другими городами — чрезмерный размер города теоретически вытекает из его связи с более крупной системой, а не из естественной иерархии, которую теория центрального места предсказывала бы в пределах одной страны или региона.

Смотрите также

Ссылки

^ "Растянутые экспоненциальные распределения в природе и экономике: "толстые хвосты" с характерными масштабами", J. Laherrère и D. Sornette
^ "200 крупнейших городов США по численности населения в 2021 году". worldpopulationreview.com . Получено 28.03.2021 .
↑ Иллюстрируя «длинный хвост», Рэнд Фишкин, 24 ноября 2009 г.
^ ab Digg that Fat Belly!, Роберт Янг, 4 сентября 2006 г.
^ Руководство по оптимизации ключевых слов с длинным хвостом - Как получить прибыль от ключевых слов с длинным хвостом, 3 августа 2009 г., Том Демерс
^ Маленькая голова, среднее тело и длинный хвост... так где же Microsoft? Архивировано 17 ноября 2015 г. на Wayback Machine , 12 марта 2005 г., Отчет Лоуренса Лю изнутри
^ Линь, Руокуан; Ма, Цяньли DY; Бянь, Чуньхуа (2014). «Законы масштабирования в человеческой речи, уменьшение появления новых слов и обобщенная модель». arXiv : 1412.4846 [cs.CL].
^ Дейси, МФ (1 апреля 1979 г.). «Процесс роста законов Ципфа и Юла о размерах городов». Окружающая среда и планирование A. 11 ( 4): 361–372. doi :10.1068/a110361. S2CID 122325866.
^ Закон Ципфа, или распределение ранг-размер Архивировано 2007-02-13 в Wayback Machine Стивен Бракман, Гарри Гарретсен и Чарльз ван Марревийк
^ «Квок Тонг Су (2002)» (PDF) .
^ Закон Ципфа, или распределение ранг-размер Архивировано 2007-03-02 на Wayback Machine
^ Куберес, Дэвид, Расцвет и упадок городов, Чикагский университет, 29 сентября 2004 г.,

Дальнейшее чтение

Бракман, С.; Гарретсен, Х.; Ван Марревийк, К.; Ван Ден Берг, М. (1999). «Возвращение Ципфа: к дальнейшему пониманию распределения ранг–размер». Журнал региональной науки . 39 (1): 183–213. doi :10.1111/1467-9787.00129. S2CID 56011475.
Герен-Пейс, Ф. (1995). «Распределение рангов и размеров и процесс роста городов». Urban Studies . 32 (3): 551–562. doi :10.1080/00420989550012960. S2CID 154660734.
Рид, У. Дж. (2001). «Законы Парето, Ципфа и другие степенные законы». Economics Letters . 74 (1): 15–19. doi :10.1016/S0165-1765(01)00524-9.
Дуглас Р. Уайт , Лоран Тамбайонг и Наташа Кейжар . 2008. Колебательная динамика распределений по размеру городов в мировых исторических системах. Глобализация как эволюционный процесс: моделирование глобальных изменений . Ред. Джорджа Модельски , Тессалено Девезаса и Уильяма Р. Томпсона. Лондон: Routledge. ISBN 978-0-415-77361-4
Использование агентных моделей в региональной науке — агентное имитационное исследование, объясняющее распределение рангов и размеров.

Внешние ссылки

Медиа, связанные с распределением по рангам и размерам на Wikimedia Commons