stringtranslate.com

Параболическое фрактальное распределение

В теории вероятности и статистики параболическое фрактальное распределение — это тип дискретного распределения вероятностей , в котором логарифм частоты или размера сущностей в популяции является квадратичным полиномом логарифма ранга (при этом наибольший пример имеет ранг 1). Это может значительно улучшить соответствие по сравнению с простым степенным соотношением (см. ссылки ниже).

В статье Лаэррера/Дехёвеля ниже в качестве примеров приводятся размеры галактик (упорядоченные по светимости), города (в США, Франции и мире), разговорные языки (по числу носителей) в мире и нефтяные месторождения в мире (по размеру). Они также упоминают полезность этого распределения при подгонке сейсмических событий (пример отсутствует). Авторы утверждают, что преимущество этого распределения заключается в том, что его можно подогнать с использованием крупнейших известных примеров моделируемой популяции, которые часто легкодоступны и полны, затем найденные подобранные параметры можно использовать для вычисления размера всей популяции. Так, например, население ста крупнейших городов на планете можно отсортировать и подогнать, а найденные параметры использовать для экстраполяции на самые маленькие деревни, чтобы оценить население планеты. Другим примером является оценка общих мировых запасов нефти с использованием крупнейших месторождений.

В ряде приложений существует так называемый эффект короля , когда элементы с самым высоким рейтингом имеют значительно большую частоту или размер, чем предсказывает модель на основе других элементов. В статье Лаэррера/Деёвеля показан пример Парижа при сортировке размеров городов во Франции. Когда была написана статья, Париж был крупнейшим городом с населением около десяти миллионов человек, но в следующем по величине городе проживало всего около 1,5 миллиона человек. Города во Франции, за исключением Парижа, близко следуют параболическому распределению, достаточно хорошо, чтобы 56 крупнейших дали очень хорошую оценку населения страны. Но это распределение предсказывало бы, что в самом большом городе будет около двух миллионов жителей, а не 10 миллионов. Эффект короля назван в честь представления о том, что король должен победить всех соперников за трон и забрать их богатство, поместья и власть, тем самым создав буфер между собой и следующим по богатству из своих подданных. Этот конкретный эффект (намеренно созданный) может применяться к корпоративным размерам, когда крупнейшие предприятия используют свое богатство для скупки более мелких конкурентов. При отсутствии намерения эффект короля может возникнуть в результате некоторого постоянного преимущества роста из-за масштаба или какого-то уникального преимущества. Более крупные города являются более эффективными соединителями людей, талантов и других ресурсов. Уникальные преимущества могут включать в себя статус портового города или столицы, где создается закон, или центра активности, где физическая близость увеличивает возможности и создает обратную связь. Примером может служить киноиндустрия; где актеры, писатели и другие работники переезжают туда, где больше всего студий, а новые студии основываются в том же месте, потому что именно там находится больше всего талантов.

Для проверки эффекта Кинга распределение должно быть подобранно без учета элементов с самым высоким рейтингом 'k', но без присвоения новых ранговых номеров оставшимся членам популяции. Например, во Франции ранги следующие (по состоянию на 2010 год):

  1. Париж, 12.09M
  2. Лион, 2,12 млн.
  3. Марсель, 1,72 млн.
  4. Тулуза, 1,20 млн.
  5. Лилль, 1,15 млн.

Алгоритм подгонки обработает пары {(1,12.09), (2,2.12), (3,1.72), (4,1.20), (5,1.15)} и найдет параметры для наилучшего параболического соответствия через эти точки. Чтобы проверить эффект Кинга, мы просто исключаем первую пару (или первые 'k' пары) и находим параболические параметры, которые соответствуют оставшимся точкам. Так, для Франции мы подгоним четыре точки {(2,2.12), (3,1.72), (4,1.20), (5,1.15)}. Затем мы можем использовать эти параметры для оценки размера городов, ранжированных [1,k], и определить, являются ли они членами эффекта Кинга или обычными членами.

Для сравнения, закон Ципфа подбирает линию через точки (также используя логарифм ранга и логарифм значения). Парабола (с еще одним параметром) подойдет лучше, но вдали от вершины парабола также почти линейна. Таким образом, хотя это и является решением для статистика, если подобранные параметры помещают вершину далеко от подобранных точек или если параболическая кривая не является значительно лучшей подгонкой, чем линия, это может быть симптомом переподгонки (т. е. чрезмерной параметризации). Линия (с двумя параметрами вместо трех), вероятно, является лучшим обобщением. Больше параметров всегда подходит лучше, но ценой добавления необъясненных параметров или неоправданных предположений (например, предположения, что небольшая параболическая кривая является более подходящей моделью, чем линия).

В качестве альтернативы можно принудительно сделать так, чтобы вершина подобранной параболы находилась в позиции ранга 1. В этом случае нет уверенности, что парабола будет подходить лучше (иметь меньшую ошибку), чем прямая линия; и выбор может быть сделан между двумя вариантами на основе того, какой из них имеет наименьшую ошибку.

Определение

Функция массы вероятности определяется как функция ранга n следующим образом:

где b и c — параметры распределения.

Смотрите также

Ссылки