В статистике центральная тенденция (или мера центральной тенденции ) — это центральное или типичное значение для распределения вероятностей . [1]
В разговорной речи меры центральной тенденции часто называют средними . Термин «центральная тенденция» появился в конце 1920-х годов. [2]
Наиболее распространенными мерами центральной тенденции являются среднее арифметическое , медиана и мода . Средняя тенденция может быть рассчитана либо для конечного набора значений, либо для теоретического распределения, такого как нормальное распределение . Иногда авторы используют центральную тенденцию для обозначения «тенденции количественных данных группироваться вокруг некоторого центрального значения». [2] [3]
Центральная тенденция распределения обычно противопоставляется его дисперсии или изменчивости ; дисперсия и центральная тенденция являются часто характеризуемыми свойствами распределений. Анализ может судить о том, имеют ли данные сильную или слабую центральную тенденцию на основе их дисперсии.
К одномерным данным можно применить следующее. В зависимости от обстоятельств может быть целесообразно преобразовать данные перед вычислением центральной тенденции. Примерами являются возведение значений в квадрат или взятие логарифмов. Уместно ли преобразование и каким оно должно быть, во многом зависит от анализируемых данных.
Любое из вышеперечисленного может быть применено к каждому измерению многомерных данных, но результаты могут быть неинвариантными к вращениям многомерного пространства.
Несколько мер центральной тенденции можно охарактеризовать как решение вариационной проблемы в смысле исчисления вариаций , а именно минимизации вариации от центра. То есть, имея меру статистической дисперсии , запрашивается мера центральной тенденции, которая минимизирует вариацию: такая, что вариация от центра минимальна среди всех выборов центра. В шутке, «дисперсия предшествует местоположению». Эти меры изначально определены в одном измерении, но могут быть обобщены на несколько измерений. Этот центр может быть или не быть уникальным. В смысле пространств L p соответствие таково:
Связанные функции называются p -нормами : соответственно 0-"норма", 1-норма, 2-норма и ∞-норма. Функция, соответствующая пространству L 0, не является нормой, поэтому ее часто называют в кавычках: 0-"норма".
В уравнениях для заданного (конечного) набора данных X , рассматриваемого как вектор x = ( x 1 ,…, x n ) , дисперсия относительно точки c представляет собой «расстояние» от x до постоянного вектора c = ( c ,…, c ) в p -норме (нормализованной по числу точек n ):
Для p = 0 и p = ∞ эти функции определяются путем взятия пределов, соответственно, при p → 0 и p → ∞ . Для p = 0 предельными значениями являются 0 0 = 0 и a 0 = 0 или a ≠ 0 , поэтому разность становится просто равенством, поэтому 0-норма учитывает количество неравных точек. Для p = ∞ наибольшее число доминирует, и, таким образом, ∞-норма является максимальной разностью.
Среднее значение ( центр L 2 ) и середина диапазона ( центр L ∞ ) являются уникальными (когда они существуют), тогда как медиана ( центр L 1 ) и мода ( центр L 0 ) в общем случае не являются уникальными. Это можно понять с точки зрения выпуклости связанных функций ( коэрцитивных функций ).
2-норма и ∞-норма строго выпуклы , и, таким образом (по выпуклой оптимизации), минимизатор уникален (если он существует) и существует для ограниченных распределений. Таким образом, стандартное отклонение относительно среднего значения ниже стандартного отклонения относительно любой другой точки, а максимальное отклонение относительно середины диапазона ниже максимального отклонения относительно любой другой точки.
1-норма не является строго выпуклой, тогда как строгая выпуклость необходима для обеспечения уникальности минимизатора. Соответственно, медиана (в этом смысле минимизации) в общем случае не является уникальной, и фактически любая точка между двумя центральными точками дискретного распределения минимизирует среднее абсолютное отклонение.
0-"норма" не выпукла (следовательно, не является нормой). Соответственно, мода не единственна – например, в равномерном распределении любая точка является модой.
Вместо одной центральной точки можно запросить несколько точек, чтобы минимизировать отклонение от этих точек. Это приводит к кластерному анализу , где каждая точка в наборе данных кластеризуется с ближайшим «центром». Чаще всего использование 2-нормы обобщает среднее значение до кластеризации k -средних , тогда как использование 1-нормы обобщает (геометрическую) медиану до кластеризации k -медиан . Использование 0-нормы просто обобщает моду (наиболее распространенное значение) до использования k наиболее распространенных значений в качестве центров.
В отличие от одноцентровой статистики, многоцентровая кластеризация в общем случае не может быть вычислена в замкнутом выражении , а вместо этого должна быть вычислена или аппроксимирована итеративным методом ; одним из общих подходов являются алгоритмы максимизации ожидания .
Понятие «центра» как минимизирующего вариацию может быть обобщено в информационной геометрии как распределение, которое минимизирует расхождение (обобщенное расстояние) от набора данных. Наиболее распространенным случаем является оценка максимального правдоподобия , где оценка максимального правдоподобия (MLE) максимизирует правдоподобие (минимизирует ожидаемый сюрприз ), что можно интерпретировать геометрически, используя энтропию для измерения вариации: MLE минимизирует перекрестную энтропию (эквивалентно, относительную энтропию , расхождение Кульбака–Лейблера).
Простой пример этого — центр номинальных данных: вместо использования моды (единственного однозначного «центра») часто используют эмпирическую меру ( частотное распределение, деленное на размер выборки ) в качестве «центра». Например, если даны бинарные данные , скажем, орел или решка, если набор данных состоит из 2 орлов и 1 решки, то мода — «орел», но эмпирическая мера — 2/3 орла, 1/3 решки, что минимизирует перекрестную энтропию (общую неожиданность) из набора данных. Эта перспектива также используется в регрессионном анализе , где наименьшие квадраты находят решение, которое минимизирует расстояния от него, и аналогично в логистической регрессии оценка максимального правдоподобия минимизирует неожиданность (информационное расстояние).
Для унимодальных распределений известны и являются точными следующие границы: [4]
где μ — среднее значение, ν — медиана, θ — мода, а σ — стандартное отклонение.
Для каждого распределения, [5] [6]