В статистике центральная тенденция (или мера центральной тенденции ) является центральным или типичным значением распределения вероятностей . [1]
В разговорной речи меры центральной тенденции часто называют средними значениями . Термин «центральная тенденция» появился в конце 1920-х годов. [2]
Наиболее распространенными мерами центральной тенденции являются среднее арифметическое , медиана и мода . Средняя тенденция может быть рассчитана либо для конечного набора значений, либо для теоретического распределения, такого как нормальное распределение . Иногда авторы используют центральную тенденцию для обозначения «тенденции количественных данных группироваться вокруг некоторого центрального значения». [2] [3]
Центральной тенденции распределения обычно противопоставляют его дисперсию или изменчивость ; дисперсия и центральная тенденция — часто характеризуемые свойства распределений. Анализ может судить о том, имеют ли данные сильную или слабую центральную тенденцию, основываясь на их дисперсии.
Следующее может быть применено к одномерным данным. В зависимости от обстоятельств может оказаться целесообразным преобразовать данные перед вычислением центральной тенденции. Примеры: возведение значений в квадрат или логарифмирование. Уместно ли преобразование и каким оно должно быть, во многом зависит от анализируемых данных.
Любое из вышеперечисленного может быть применено к каждому измерению многомерных данных, но результаты могут не быть инвариантными к вращениям многомерного пространства.
Некоторые меры центральной тенденции можно охарактеризовать как решение вариационной проблемы в смысле вариационного исчисления , а именно минимизацию отклонения от центра. То есть, учитывая меру статистической дисперсии , требуется мера центральной тенденции, которая минимизирует вариацию: такая, чтобы отклонение от центра было минимальным среди всех вариантов выбора центра. Как пошутило, «рассеивание предшествует местонахождению». Эти меры изначально определяются в одном измерении, но могут быть обобщены на несколько измерений. Этот центр может быть уникальным, а может и не быть уникальным. В смысле пространств Lp соответствие таково :
Соответствующие функции называются p -нормами : соответственно 0-норма, 1-норма, 2-норма и ∞-норма. Функция, соответствующая пространству L 0 , не является нормой, поэтому ее часто называют в кавычках: 0-"норма".
В уравнениях для данного (конечного) набора данных X , рассматриваемого как вектор x = ( x 1 ,…, x n ) , дисперсия вокруг точки c представляет собой «расстояние» от x до постоянного вектора c = ( c ,…, c ) в p -норме (нормированной на количество точек n ):
Для p = 0 и p = ∞ эти функции определяются путем установления пределов соответственно при p → 0 и p → ∞ . Для p = 0 предельные значения равны 0 0 = 0 и a 0 = 0 или a ≠ 0 , поэтому разница становится просто равенством, поэтому 0-норма подсчитывает количество неравных точек. При p = ∞ доминирует наибольшее число, и, следовательно, ∞-норма является максимальной разницей.
Среднее значение ( центр L 2 ) и средний диапазон ( центр L ∞ ) уникальны (если они существуют), тогда как медиана ( центр L 1 ) и мода ( центр L 0 ) в целом не уникальны. Это можно понять с точки зрения выпуклости ассоциированных функций ( коэрцитивных функций ).
2-норма и ∞-норма строго выпуклы , и поэтому (путем выпуклой оптимизации) минимизатор уникален (если он существует) и существует для ограниченных распределений. Таким образом, стандартное отклонение среднего значения ниже, чем стандартное отклонение любой другой точки, а максимальное отклонение среднего диапазона ниже максимального отклонения любой другой точки.
1-норма не является строго выпуклой, тогда как строгая выпуклость необходима для обеспечения единственности минимизатора. Соответственно, медиана (в этом смысле минимизации) в целом не уникальна, и фактически любая точка между двумя центральными точками дискретного распределения минимизирует среднее абсолютное отклонение.
0-«норма» не является выпуклой (следовательно, не является нормой). Соответственно, мода не уникальна – например, в равномерном распределении модой является любая точка.
Вместо одной центральной точки можно запросить несколько точек, чтобы отклонение от этих точек было минимальным. Это приводит к кластерному анализу , при котором каждая точка набора данных кластеризуется с ближайшим «центром». Чаще всего использование 2-нормы обобщает среднее значение до кластеризации k -средних , а использование 1-нормы обобщает (геометрическую) медиану до кластеризации k -медианов . Использование 0-нормы просто обобщает режим (наиболее распространенное значение) до использования k наиболее распространенных значений в качестве центров.
В отличие от одноцентровой статистики, эту многоцентровую кластеризацию вообще нельзя вычислить в выражении замкнутой формы , а вместо этого ее необходимо вычислять или аппроксимировать итеративным методом ; один общий подход — алгоритмы ожидания-максимизации .
Понятие «центра» как минимизирующего вариации можно обобщить в информационной геометрии как распределение, которое минимизирует расхождение (обобщенное расстояние) от набора данных. Наиболее распространенным случаем является оценка максимального правдоподобия , где оценка максимального правдоподобия (MLE) максимизирует правдоподобие (минимизирует ожидаемое удивление ), что можно интерпретировать геометрически, используя энтропию для измерения вариации: MLE минимизирует перекрестную энтропию (эквивалент относительной энтропии , Кульбака) . – дивергенция Лейблера).
Простым примером этого является центр номинальных данных: вместо использования моды (единственный однозначный «центр») в качестве «центра» часто используется эмпирическая мера ( частотное распределение , разделенное на размер выборки ). . Например, для двоичных данных , скажем, орла или решки, если набор данных состоит из 2 орлов и 1 решки, то режим — «орёл», но эмпирическая мера — 2/3 орла, 1/3 решки, что минимизирует перекрестная энтропия (полная неожиданность) из набора данных. Эта перспектива также используется в регрессионном анализе , где метод наименьших квадратов находит решение, которое минимизирует расстояния от него, и аналогично в логистической регрессии , оценка максимального правдоподобия минимизирует неожиданность (информационное расстояние).
Для унимодальных распределений известны и точны следующие оценки: [4]
где μ — среднее значение, ν — медиана, θ — мода, а σ — стандартное отклонение.
Для каждого распределения [5] [6]