stringtranslate.com

Главная тенденция

В статистике центральная тенденция (или мера центральной тенденции ) является центральным или типичным значением распределения вероятностей . [1]

В разговорной речи меры центральной тенденции часто называют средними значениями . Термин «центральная тенденция» появился в конце 1920-х годов. [2]

Наиболее распространенными мерами центральной тенденции являются среднее арифметическое , медиана и мода . Средняя тенденция может быть рассчитана либо для конечного набора значений, либо для теоретического распределения, такого как нормальное распределение . Иногда авторы используют центральную тенденцию для обозначения «тенденции количественных данных группироваться вокруг некоторого центрального значения». [2] [3]

Центральной тенденции распределения обычно противопоставляют его дисперсию или изменчивость ; дисперсия и центральная тенденция — часто характеризуемые свойства распределений. Анализ может судить о том, имеют ли данные сильную или слабую центральную тенденцию, основываясь на их дисперсии.

Меры

Следующее может быть применено к одномерным данным. В зависимости от обстоятельств может оказаться целесообразным преобразовать данные перед вычислением центральной тенденции. Примеры: возведение значений в квадрат или логарифмирование. Уместно ли преобразование и каким оно должно быть, во многом зависит от анализируемых данных.

Среднее арифметическое или просто среднее
сумма всех измерений, деленная на количество наблюдений в наборе данных.
медиана
среднее значение, отделяющее верхнюю половину от нижней половины набора данных. Медиана и мода — единственные меры центральной тенденции, которые можно использовать для порядковых данных , в которых значения ранжируются относительно друг друга, но не измеряются абсолютно.
Режим
наиболее частое значение в наборе данных. Это единственная мера центральной тенденции, которую можно использовать с номинальными данными , имеющими чисто качественные категории.
Обобщенное среднее
Обобщение пифагорейских средних , заданное показателем степени.
Среднее геометрическое
корень n- й степени из произведения значений данных, где их n . Эта мера справедлива только для данных, измеряемых абсолютно по строго положительной шкале.
Гармоническое среднее
обратное среднее арифметическое обратного значения данных . Эта мера также справедлива только для данных, которые измеряются абсолютно по строго положительной шкале.
Средневзвешенное арифметическое
среднее арифметическое, включающее взвешивание определенных элементов данных.
Усеченное среднее или усеченное среднее
среднее арифметическое значений данных после того, как определенное количество или доля самых высоких и самых низких значений данных были отброшены.
Межквартильное среднее
усеченное среднее значение, основанное на данных в пределах межквартильного диапазона .
Средний уровень
среднее арифметическое максимального и минимального значений набора данных.
Мидхиндж
среднее арифметическое первого и третьего квартилей .
Среднее квазиарифметическое
Обобщение обобщенного среднего , заданное непрерывной инъективной функцией .
Тримен
среднее арифметическое взвешенное медианы и двух квартилей.
Винсоризованное среднее
среднее арифметическое, в котором крайние значения заменяются значениями, близкими к медиане.

Любое из вышеперечисленного может быть применено к каждому измерению многомерных данных, но результаты могут не быть инвариантными к вращениям многомерного пространства.

Геометрическая медиана
точка, минимизирующая сумму расстояний до набора точек выборки. Это то же самое, что медиана применительно к одномерным данным, но это не то же самое, что независимое взятие медианы каждого измерения. Он не инвариантен к разным масштабам разных измерений.
Среднее квадратичное (часто известное как среднеквадратичное )
полезен в технике, но не часто используется в статистике. Это связано с тем, что распределение, включающее отрицательные значения, не является хорошим индикатором центра распределения.
Симплициальная глубина
вероятность того, что случайно выбранный симплекс с вершинами из данного распределения будет содержать данный центр
Медиана Тьюки
точка, свойство которой состоит в том, что каждое содержащее ее полупространство также содержит множество точек выборки

Решения вариационных задач

Некоторые меры центральной тенденции можно охарактеризовать как решение вариационной проблемы в смысле вариационного исчисления , а именно минимизацию отклонения от центра. То есть, учитывая меру статистической дисперсии , требуется мера центральной тенденции, которая минимизирует вариацию: такая, чтобы отклонение от центра было минимальным среди всех вариантов выбора центра. Как пошутило, «рассеивание предшествует местонахождению». Эти меры изначально определяются в одном измерении, но могут быть обобщены на несколько измерений. Этот центр может быть уникальным, а может и не быть уникальным. В смысле пространств Lp соответствие таково :

Соответствующие функции называются p -нормами : соответственно 0-норма, 1-норма, 2-норма и ∞-норма. Функция, соответствующая пространству L 0 , не является нормой, поэтому ее часто называют в кавычках: 0-"норма".

В уравнениях для данного (конечного) набора данных X , рассматриваемого как вектор x = ( x 1 ,…, x n ) , дисперсия вокруг точки c представляет собой «расстояние» от x до постоянного вектора c = ( c ,…, c ) в p -норме (нормированной на количество точек n ):

Для p = 0 и p = ∞ эти функции определяются путем установления пределов соответственно при p → 0 и p → ∞ . Для p = 0 предельные значения равны 0 0 = 0 и a 0 = 0 или a ≠ 0 , поэтому разница становится просто равенством, поэтому 0-норма подсчитывает количество неравных точек. При p = ∞ доминирует наибольшее число, и, следовательно, ∞-норма является максимальной разницей.

Уникальность

Среднее значение ( центр L 2 ) и средний диапазон ( центр L ) уникальны (если они существуют), тогда как медиана ( центр L 1 ) и мода ( центр L 0 ) в целом не уникальны. Это можно понять с точки зрения выпуклости ассоциированных функций ( коэрцитивных функций ).

2-норма и ∞-норма строго выпуклы , и поэтому (путем выпуклой оптимизации) минимизатор уникален (если он существует) и существует для ограниченных распределений. Таким образом, стандартное отклонение среднего значения ниже, чем стандартное отклонение любой другой точки, а максимальное отклонение среднего диапазона ниже максимального отклонения любой другой точки.

1-норма не является строго выпуклой, тогда как строгая выпуклость необходима для обеспечения единственности минимизатора. Соответственно, медиана (в этом смысле минимизации) в целом не уникальна, и фактически любая точка между двумя центральными точками дискретного распределения минимизирует среднее абсолютное отклонение.

0-«норма» не является выпуклой (следовательно, не является нормой). Соответственно, мода не уникальна – например, в равномерном распределении модой является любая точка.

Кластеризация

Вместо одной центральной точки можно запросить несколько точек, чтобы отклонение от этих точек было минимальным. Это приводит к кластерному анализу , при котором каждая точка набора данных кластеризуется с ближайшим «центром». Чаще всего использование 2-нормы обобщает среднее значение до кластеризации k -средних , а использование 1-нормы обобщает (геометрическую) медиану до кластеризации k -медианов . Использование 0-нормы просто обобщает режим (наиболее распространенное значение) до использования k наиболее распространенных значений в качестве центров.

В отличие от одноцентровой статистики, эту многоцентровую кластеризацию вообще нельзя вычислить в выражении замкнутой формы , а вместо этого ее необходимо вычислять или аппроксимировать итеративным методом ; один общий подход — алгоритмы ожидания-максимизации .

Информационная геометрия

Понятие «центра» как минимизирующего вариации можно обобщить в информационной геометрии как распределение, которое минимизирует расхождение (обобщенное расстояние) от набора данных. Наиболее распространенным случаем является оценка максимального правдоподобия , где оценка максимального правдоподобия (MLE) максимизирует правдоподобие (минимизирует ожидаемое удивление ), что можно интерпретировать геометрически, используя энтропию для измерения вариации: MLE минимизирует перекрестную энтропию (эквивалент относительной энтропии , Кульбака) . – дивергенция Лейблера).

Простым примером этого является центр номинальных данных: вместо использования моды (единственный однозначный «центр») в качестве «центра» часто используется эмпирическая мера ( частотное распределение , разделенное на размер выборки ). . Например, для двоичных данных , скажем, орла или решки, если набор данных состоит из 2 орлов и 1 решки, то режим — «орёл», но эмпирическая мера — 2/3 орла, 1/3 решки, что минимизирует перекрестная энтропия (полная неожиданность) из набора данных. Эта перспектива также используется в регрессионном анализе , где метод наименьших квадратов находит решение, которое минимизирует расстояния от него, и аналогично в логистической регрессии , оценка максимального правдоподобия минимизирует неожиданность (информационное расстояние).

Отношения между средним значением, медианой и модой

Для унимодальных распределений известны и точны следующие оценки: [4]

где μ — среднее значение, ν — медиана, θ — мода, а σ — стандартное отклонение.

Для каждого распределения [5] [6]

Смотрите также

Примечания

  1. ^ В отличие от других мер, этот режим не требует какой-либо геометрии в наборе и, таким образом, одинаково применим в одном измерении, в нескольких измерениях или даже для категориальных переменных .
  2. ^ Медиана определяется только в одном измерении; геометрическая медиана является многомерным обобщением.
  3. ^ Среднее значение может быть определено одинаково для векторов в нескольких измерениях, как и для скаляров в одном измерении; многомерную форму часто называют центроидом.
  4. ^ В нескольких измерениях средний диапазон можно определить по координатам (взять средний диапазон каждой координаты), хотя это не является распространенным явлением.

Рекомендации

  1. ^ Weisberg HF (1992) Центральная тенденция и изменчивость , Серия статей Университета Сейджа о количественных приложениях в социальных науках, ISBN  0-8039-4007-6 стр.2
  2. ^ аб Аптон, Г.; Кук, И. (2008) Оксфордский статистический словарь , OUP ISBN 978-0-19-954145-4 (запись «центральная тенденция») 
  3. ^ Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP для Международного статистического института . ISBN 0-19-920613-9 (запись «центральная тенденция») 
  4. ^ Джонсон Н.Л., Роджерс Калифорния (1951) «Проблема моментов для унимодальных распределений». Анналы математической статистики , 22 (3) 433–439.
  5. ^ Хотеллинг Х, Соломонс Л.М. (1932) Пределы меры асимметрии. Анналы Математическая статистика 3, 141–114
  6. ^ Гарвер (1932) О пределах меры асимметрии. Энн Математическая статистика 3 (4) 141–142