В статистике степенной закон — это функциональная связь между двумя величинами, при которой относительное изменение одной величины приводит к относительному изменению другой величины, пропорциональному степени изменения, независимо от первоначального размера этих величин: одна величина изменяется. как сила другого. Например, если рассматривать площадь квадрата через длину его стороны, то если длину увеличить вдвое, площадь умножится в четыре раза. [1] Скорость изменения, проявляющаяся в этих отношениях, называется мультипликативной.
Распределение широкого спектра физических, биологических и антропогенных явлений примерно подчиняется степенному закону в широком диапазоне величин: к ним относятся размеры кратеров на Луне и солнечных вспышек , [2] размеры облаков, [3] ] характер питания различных видов, [4] размеры моделей активности популяций нейронов, [5] частоты слов в большинстве языков, частоты фамилий , видовое богатство в кладах организмов, [6] размеры перебои в подаче электроэнергии , извержения вулканов, [7] человеческие суждения об интенсивности стимулов [8] [9] и многие другие величины. [10] Эмпирические распределения могут соответствовать степенному закону только для ограниченного диапазона значений, поскольку чистый степенной закон допускает сколь угодно большие или малые значения. Акустическое затухание подчиняется частотно-степенному закону в широких полосах частот для многих сложных сред. Аллометрические законы масштабирования для отношений между биологическими переменными являются одними из наиболее известных степенных функций в природе.
Одним из свойств степенных законов является их масштабная инвариантность . Учитывая отношение , масштабирование аргумента с помощью постоянного коэффициента вызывает только пропорциональное масштабирование самой функции. То есть,
где обозначает прямую пропорциональность . То есть масштабирование с помощью константы просто умножает исходное степенное соотношение на константу . Таким образом, из этого следует, что все степенные законы с определенным показателем масштабирования эквивалентны с точностью до постоянных коэффициентов, поскольку каждый из них представляет собой просто масштабированную версию других. Именно такое поведение создает линейную зависимость, когда логарифмируются оба и , а прямую линию на логарифмическом графике часто называют сигнатурой степенного закона. В случае реальных данных такая прямолинейность является необходимым, но не достаточным условием для того, чтобы данные подчинялись степенному закону. Фактически, существует множество способов генерировать конечные объемы данных, которые имитируют это поведение сигнатуры, но в своем асимптотическом пределе не являются истинными степенными законами. [ нужна цитата ] Таким образом, точная установка и проверка степенных моделей является активной областью исследований в статистике; см. ниже.
Степенной закон имеет четко определенное среднее значение только в том случае, если , и имеет конечную дисперсию, только если ; Большинство выявленных степенных законов в природе имеют такие показатели степени, что среднее значение четко определено, а дисперсия - нет, что означает, что они способны к поведению черного лебедя . [2] Это можно увидеть в следующем мысленном эксперименте: [11] представьте себе комнату с друзьями и оцените средний ежемесячный доход в комнате. А теперь представьте, что в комнату входит самый богатый человек в мире с ежемесячным доходом около 1 миллиарда долларов США. Что происходит со средним доходом в комнате? Доход распределяется по степенному закону, известному как распределение Парето (например, собственный капитал американцев распределяется по степенному закону с показателем степени 2).
С одной стороны, это делает некорректным применение традиционной статистики, основанной на дисперсии и стандартном отклонении (например, регрессионного анализа ). [12] С другой стороны, это также позволяет проводить экономически эффективные вмешательства. [11] Например, учитывая, что выхлопные газы распределяются между автомобилями по степенному закону (очень немногие автомобили вносят наибольший вклад в загрязнение окружающей среды), было бы достаточно устранить эти очень немногие автомобили с дороги, чтобы существенно снизить общее количество выхлопных газов. [13]
Однако медиана существует: для степенного закона x – k с показателем степени она принимает значение 2 1/( k – 1) x min , где x min – минимальное значение, для которого выполняется степенной закон. [2]
Эквивалентность степенных законов с определенным показателем масштабирования может иметь более глубокое происхождение в динамических процессах, которые порождают степенное соотношение. В физике, например, фазовые переходы в термодинамических системах связаны с возникновением степенных распределений некоторых величин, показатели степени которых называются критическими показателями системы. С помощью теории ренормгруппы можно показать, что различные системы с одинаковыми критическими показателями, то есть которые демонстрируют идентичное масштабируемое поведение при приближении к критичности , имеют одну и ту же фундаментальную динамику. Например, поведение воды и CO 2 при температуре кипения попадает в один и тот же класс универсальности, поскольку они имеют одинаковые критические показатели. [ нужна цитация ] [ нужны разъяснения ] Фактически, почти все материальные фазовые переходы описываются небольшим набором классов универсальности. Подобные наблюдения были сделаны, хотя и не столь подробно, для различных самоорганизующихся критических систем, где критическая точка системы является аттрактором . Формально такое разделение динамики называется универсальностью , и говорят, что системы с одинаковыми критическими показателями принадлежат к одному и тому же классу универсальности .
Научный интерес к степенно-правовым отношениям частично проистекает из той легкости, с которой некоторые общие классы механизмов порождают их. [14] Демонстрация степенной зависимости в некоторых данных может указывать на конкретные виды механизмов, которые могут лежать в основе рассматриваемого природного явления, и может указывать на глубокую связь с другими, на первый взгляд несвязанными системами; [15] см. также универсальность выше. Повсеместное распространение степенных отношений в физике частично обусловлено размерными ограничениями , тогда как в сложных системах степенные законы часто считаются признаками иерархии или конкретных случайных процессов . Несколько ярких примеров степенных законов — это закон распределения доходов Парето , структурное самоподобие фракталов и законы масштабирования в биологических системах . Исследования происхождения степенно-законных отношений, а также усилия по наблюдению и подтверждению их в реальном мире являются активной темой исследований во многих областях науки, включая физику , информатику , лингвистику , геофизику , нейробиологию , систематику , социологию , экономика и многое другое.
Однако большая часть недавнего интереса к степенным законам связана с изучением вероятностных распределений : распределения самых разных величин, по-видимому, следуют степенной форме, по крайней мере, в их верхней части (крупные события). Поведение этих крупных событий связывает эти величины с изучением теории больших отклонений (также называемой теорией экстремальных значений ), которая учитывает частоту чрезвычайно редких событий, таких как крахи фондового рынка и крупные стихийные бедствия . В первую очередь при изучении статистических распределений используется название «степенной закон».
В эмпирическом контексте аппроксимация степенного закона часто включает в себя член отклонения , который может отражать неопределенность в наблюдаемых значениях (возможно, ошибки измерения или выборки) или обеспечивать простой способ отклонения наблюдений от степенной функции (возможно, для стохастические причины):
Математически строгий степенной закон не может быть распределением вероятностей, но возможно распределение, представляющее собой усеченную степенную функцию : где показатель степени (греческая буква альфа , не путать с использованным выше коэффициентом масштабирования) больше 1 (в противном случае хвост имеет бесконечную площадь), необходимо минимальное значение, в противном случае распределение будет иметь бесконечную площадь, когда x приближается к 0, а константа C является коэффициентом масштабирования, гарантирующим, что общая площадь равна 1, как того требует распределение вероятностей. Чаще используют асимптотический степенной закон, который верен только в пределе; подробности см. ниже по степенным распределениям вероятностей. Обычно показатель степени попадает в диапазон , хотя и не всегда. [10]
В физике (например, песчаные лавины), биологии (например, вымирание видов и масса тела) и социальных науках (например, размеры городов и доходы) выявлено более сотни степенных распределений. [16] Среди них:
Нарушенный степенной закон — это кусочная функция , состоящая из двух или более степенных законов, объединенных с порогом. Например, с двумя степенными законами: [46]
Части нарушенного степенного закона можно плавно соединить вместе, чтобы построить гладко нарушенный степенной закон.
Существуют различные возможные способы объединения степенных законов. Одним из примеров является следующий: [47]
Когда функция отображается в виде логарифмического графика с горизонтальной осью и вертикальной осью , график состоит из линейных сегментов с наклонами , разделенных точками , плавно соединенных вместе. Размер определяет остроту сращивания сегментов .
Степенной закон с экспоненциальным обрезанием — это просто степенной закон, умноженный на показательную функцию: [10]
В более широком смысле степенное распределение вероятностей представляет собой распределение, функция плотности которого (или функция массы в дискретном случае ) имеет вид для больших значений [49]
где , и – медленно меняющаяся функция , которая представляет собой любую функцию, удовлетворяющую любому положительному фактору . Это свойство непосредственно следует из требования асимптотической масштабной инвариантности; таким образом, форма контролирует только форму и конечную протяженность нижнего хвоста. Например, если – постоянная функция, то у нас есть степенной закон, который справедлив для всех значений . Во многих случаях удобно предположить нижнюю границу, при которой закон выполняется. Объединяя эти два случая, где – непрерывная переменная, степенной закон имеет форму распределения Парето.
где предварительный множитель to — это нормализующая константа . Теперь мы можем рассмотреть некоторые свойства этого распределения. Например, его моменты определяются выражением
который хорошо определен только для . То есть все моменты расходятся: при , среднее и все моменты высшего порядка бесконечны; когда среднее значение существует, но дисперсия и моменты более высокого порядка бесконечны и т. д. Для выборок конечного размера, взятых из такого распределения, такое поведение означает, что оценки центрального момента (например, среднего и дисперсии) для расходящихся моментов никогда не будут сходятся – по мере накопления большего количества данных они продолжают расти. Эти степенные распределения вероятностей также называются распределениями типа Парето, распределениями с хвостами Парето или распределениями с регулярно меняющимися хвостами.
Модификация, которая не удовлетворяет приведенной выше общей форме, с экспоненциальным обрезанием, [10] :
В этом распределении член экспоненциального затухания в конечном итоге подавляет степенное поведение при очень больших значениях . Это распределение не масштабируется [ необходимо дальнейшее объяснение ] и, следовательно, не является асимптотически степенным законом; однако он приблизительно масштабируется в конечной области до отсечки. Чистая форма, приведенная выше, является подмножеством этого семейства с . Это распределение является распространенной альтернативой асимптотическому степенному распределению, поскольку оно естественным образом учитывает эффекты конечного размера.
Распределения Твиди представляют собой семейство статистических моделей, характеризующихся замыканием при аддитивной и репродуктивной свертке, а также при масштабном преобразовании. Следовательно, все эти модели выражают степенную зависимость между дисперсией и средним значением. Эти модели играют фундаментальную роль в качестве фокусов математической сходимости, аналогичную роли, которую нормальное распределение играет в качестве фокуса в центральной предельной теореме . Этот эффект конвергенции объясняет, почему степенной закон дисперсии к среднему так широко проявляется в природных процессах, например, в законе Тейлора в экологии и в флуктуационном масштабировании [50] в физике. Можно также показать, что этот закон отклонения от средней степени, продемонстрированный методом расширения интервалов , подразумевает наличие шума 1/ f и что шум 1/ f может возникнуть как следствие этого эффекта конвергенции Твиди. [51]
Хотя были предложены более сложные и надежные методы, наиболее часто используемыми графическими методами определения степенных распределений вероятностей с использованием случайных выборок являются графики квантилей-квантилей Парето (или графики Парето Q–Q ), [ нужна ссылка ] графики среднего остаточного срока службы [ 52] [53] и логарифмические графики . Другой, более надежный графический метод использует наборы остаточных квантильных функций. [54] (Имейте в виду, что степенные распределения также называются распределениями типа Парето.) Здесь предполагается, что случайная выборка получена из распределения вероятностей, и что мы хотим знать, следует ли хвост распределения степенной закон (другими словами, мы хотим знать, имеет ли распределение «хвост Парето»). Здесь случайная выборка называется «данными».
Графики Парето Q–Q сравнивают квантили логарифмически преобразованных данных с соответствующими квантилями экспоненциального распределения со средним значением 1 (или с квантилями стандартного распределения Парето), отображая первое в сравнении со вторым. Если результирующая диаграмма рассеяния предполагает, что нанесенные точки «асимптотически сходятся» к прямой линии, то следует заподозрить степенное распределение. Ограничением графиков Парето Q–Q является то, что они ведут себя плохо, когда индекс хвоста (также называемый индексом Парето) близок к 0, поскольку графики Парето Q–Q не предназначены для выявления распределений с медленно меняющимися хвостами. [54]
С другой стороны, в своей версии для определения степенного распределения вероятностей график среднего остаточного срока службы состоит из сначала логарифмического преобразования данных, а затем построения среднего значения тех логарифмически преобразованных данных, которые выше i-го порядка . статистика по сравнению со статистикой i -го порядка для i = 1,..., n , где n — размер случайной выборки. Если результирующая диаграмма рассеяния предполагает, что нанесенные точки имеют тенденцию «стабилизироваться» вокруг горизонтальной прямой линии, то следует заподозрить степенное распределение. Поскольку график среднего остаточного срока службы очень чувствителен к выбросам (он не является устойчивым), он обычно дает графики, которые трудно интерпретировать; по этой причине такие сюжеты обычно называют сюжетами ужасов Хилла [55]
Логарифмические графики — это альтернативный способ графического исследования хвоста распределения с использованием случайной выборки. Однако следует проявлять осторожность, поскольку логарифмический график необходим, но недостаточен для доказательства степенной зависимости, поскольку многие нестепенные распределения будут выглядеть как прямые линии на логарифмическом графике. [10] [56] Этот метод состоит в построении графика логарифма оценки вероятности того, что определенное число распределения произойдет, в сравнении с логарифмом этого конкретного числа. Обычно эта оценка представляет собой долю раз, когда число встречается в наборе данных. Если точки на графике имеют тенденцию «сходиться» к прямой линии при больших числах по оси x, то исследователь приходит к выводу, что распределение имеет степенной хвост. Опубликованы примеры применения этих типов сюжетов. [57] Недостатком этих графиков является то, что для получения надежных результатов им требуются огромные объемы данных. Кроме того, они подходят только для дискретных (или сгруппированных) данных.
Предложен другой графический метод идентификации степенных распределений вероятностей с использованием случайных выборок. [54] Эта методология заключается в построении графика выборки с логарифмическим преобразованием . Первоначально предложенная как инструмент для изучения существования моментов и функции генерации момента с использованием случайных выборок, методология пакета основана на функциях остаточных квантилей (RQF), также называемых остаточными процентильными функциями, [58] [59] [60] [61] ] [62] [63] [64] которые дают полную характеристику поведения хвоста многих известных распределений вероятностей, включая степенные распределения, распределения с другими типами тяжелых хвостов и даже распределения без тяжелых хвостов. Пакетные графики лишены упомянутых выше недостатков графиков Парето Q–Q, графиков среднего остаточного ресурса и логарифмических графиков (они устойчивы к выбросам, позволяют визуально идентифицировать степенные законы при малых значениях и не требуют сбора большого количества данных). данные). [ нужна цитация ] Кроме того, другие типы поведения хвоста могут быть идентифицированы с помощью групповых графиков.
В целом степенные распределения строятся на дважды логарифмических осях, что подчеркивает верхнюю область хвоста. Самый удобный способ сделать это — использовать (дополнительное) кумулятивное распределение (ccdf), то есть функцию выживания , ,
CDF также является степенной функцией, но с меньшим показателем масштабирования. Для данных эквивалентной формой cdf является ранг-частотный подход, при котором мы сначала сортируем наблюдаемые значения в порядке возрастания и сопоставляем их с вектором .
Хотя может быть удобно регистрировать данные или иным образом напрямую сглаживать функцию плотности вероятности (массы), эти методы вносят неявное смещение в представление данных, и поэтому их следует избегать. [10] [65] С другой стороны, функция выживания более устойчива к таким искажениям данных (но не без них) и сохраняет линейную сигнатуру на дважды логарифмических осях. Хотя представление функции выживания предпочтительнее представления в формате PDF при подгонке степенного закона к данным с помощью линейного метода наименьших квадратов, оно не лишено математической неточности. Таким образом, при оценке показателей степенного распределения рекомендуется использовать оценку максимального правдоподобия.
Существует много способов оценки значения показателя масштабирования для степенного хвоста, однако не все из них дают объективные и последовательные ответы . Некоторые из наиболее надежных методов часто основаны на методе максимального правдоподобия . Альтернативные методы часто основаны на построении линейной регрессии либо на логарифмической вероятности, либо на логарифмической кумулятивной функции распределения, либо на логарифмических данных, но этих подходов следует избегать, поскольку все они могут привести к сильно смещенным оценкам. показатель масштабирования. [10]
Для вещественных, независимых и одинаково распределенных данных мы подгоняем степенное распределение вида
к данным , куда включен коэффициент , обеспечивающий нормализацию распределения . При выборе для функция логарифмического правдоподобия принимает вид:
Максимум этой вероятности находится путем дифференцирования по параметру , приравнивая результат к нулю. После перестановки это дает уравнение оценки:
где находятся точки данных . [2] [66] Эта оценка демонстрирует небольшое смещение конечного размера выборки порядка , которое мало, когда n > 100. Кроме того, стандартная ошибка оценки составляет . Этот оценщик эквивалентен популярному оценщику Хилла из количественных финансов и теории экстремальных значений . [ нужна цитата ]
Для набора из n целочисленных точек данных , где каждая , показатель максимального правдоподобия является решением трансцендентного уравнения
где – неполная дзета-функция . Неопределенность в этой оценке определяется той же формулой, что и для непрерывного уравнения. Однако два уравнения для не эквивалентны, и непрерывную версию не следует применять к дискретным данным, и наоборот.
Кроме того, обе эти оценки требуют выбора . Для функций с нетривиальной функцией выбор слишком маленького значения приводит к значительному смещению в , тогда как выбор слишком большого увеличивает неопределенность и снижает статистическую мощность нашей модели. В общем, лучший выбор сильно зависит от конкретной формы нижнего хвоста, представленной выше.
Подробнее об этих методах и условиях, при которых их можно использовать, можно прочитать в . [10] Кроме того, в этой подробной обзорной статье представлен полезный код (Matlab, Python, R и C++) для процедур оценки и тестирования степенных распределений.
Другой метод оценки показателя степени степенного закона, который не предполагает независимых и одинаково распределенных (iid) данных , использует минимизацию статистики Колмогорова-Смирнова между кумулятивными функциями распределения данных и степенным законом:
с
где и обозначают CDF данных и степенной закон с показателем соответственно. Поскольку этот метод не предполагает данные iid, он предоставляет альтернативный способ определения показателя степени для наборов данных, в которых нельзя игнорировать временную корреляцию. [5]
Этот критерий [67] может применяться для оценки показателя степени в случае безмасштабных распределений и обеспечивает более сходящуюся оценку, чем метод максимального правдоподобия. Он был применен для изучения вероятностных распределений отверстий трещин. В некоторых контекстах распределение вероятностей описывается не кумулятивной функцией распределения , а кумулятивной частотой свойства X , определяемой как количество элементов на метр (или единицу площади, секунду и т. д.), к которым применяется X > x , где x — переменное действительное число. Например, [ нужна ссылка ] совокупное распределение апертуры трещин X для выборки из N элементов определяется как «количество трещин на метр с апертурой больше x ». Использование кумулятивной частоты имеет некоторые преимущества, например, оно позволяет помещать на одну и ту же диаграмму данные, собранные из линий отбора проб разной длины и в разных масштабах (например, из обнажения породы и с помощью микроскопа).
Хотя степенные отношения привлекательны по многим теоретическим причинам, для демонстрации того, что данные действительно подчиняются степенным отношениям, требуется нечто большее, чем просто подгонка конкретной модели к данным. [30] Это важно для понимания механизма, который приводит к такому распределению: внешне схожие распределения могут возникать по существенно разным причинам, а разные модели дают разные прогнозы, например, экстраполяция.
Например, логнормальное распределение часто ошибочно принимают за степенное распределение: [68] набор данных, полученный из логнормального распределения, будет приблизительно линейным для больших значений (что соответствует тому, что верхний хвост логнормального распределения близок к степенному закону). [ нужны разъяснения ] , но для малых значений логарифмически нормальное значение будет значительно падать (наклоняться вниз), что соответствует малому нижнему хвосту логнормального значения (в степенном законе очень мало малых значений, а не много малых значений). [ нужна цитата ]
Например, закон Гибрата о процессах пропорционального роста дает логнормальные распределения, хотя их логарифмические графики выглядят линейными в ограниченном диапазоне. Объяснение этого заключается в том, что, хотя логарифм логнормальной функции плотности квадратичен по log( x ) , что дает «изогнутую» форму на логарифмическом графике, если квадратичный член мал по сравнению с линейным членом, тогда результат может кажутся почти линейными, а логнормальное поведение видно только тогда, когда доминирует квадратичный член, что может потребовать значительно больше данных. Следовательно, логарифмический график, слегка «наклоненный» вниз, может отражать логарифмически нормальное распределение, а не степенной закон.
В целом, многие альтернативные функциональные формы могут в некоторой степени следовать степенной форме. [69] Штумпф и Портер (2012) предложили построить график эмпирической кумулятивной функции распределения в логарифмической области и заявили, что кандидатный степенной закон должен охватывать как минимум два порядка величины. [70] Кроме того, исследователям обычно приходится сталкиваться с проблемой принятия решения о том, следует ли реальное распределение вероятностей степенному закону. В качестве решения этой проблемы Диас [54] предложил графическую методологию, основанную на случайных выборках, позволяющую визуально различать различные типы поведения хвоста. В этой методологии используются наборы функций остаточного квантиля, также называемые процентильными функциями остаточного срока службы, которые характеризуют множество различных типов хвостов распределения, включая как тяжелые, так и нетяжелые хвосты. Однако Штумпф и Портер (2012) заявили о необходимости как статистической, так и теоретической основы для поддержки степенного закона в основном механизме, управляющем процессом генерации данных. [70]
Один из методов проверки степенного соотношения проверяет множество ортогональных предсказаний конкретного генеративного механизма на основе данных. Простая установка степенного отношения к определенному типу данных не считается рациональным подходом. Таким образом, проверка утверждений степенного закона остается очень активной областью исследований во многих областях современной науки. [10]
Примечания
Библиография