В статистике средний диапазон или средний экстремум — это мера центральной тенденции выборки , определяемая как среднее арифметическое максимального и минимального значений набора данных : [1]
Средний диапазон тесно связан с диапазоном , мерой статистической дисперсии, определяемой как разница между максимальным и минимальным значениями. Эти две меры являются взаимодополняющими в том смысле, что если известен средний диапазон и диапазон, можно найти максимальные и минимальные значения выборки.
Средний диапазон редко используется в практическом статистическом анализе, поскольку он неэффективен в качестве оценщика для большинства интересующих распределений , поскольку игнорирует все промежуточные точки, и не обладает надежностью, поскольку выбросы значительно его изменяют. Действительно, для многих распределений это одна из наименее эффективных и наименее надежных статистик. Тем не менее, он находит некоторое применение в особых случаях: это максимально эффективный оценщик для центра равномерного распределения, усеченные средние диапазоны учитывают надежность, и как L-оценщик он прост для понимания и вычисления.
Средний диапазон очень чувствителен к выбросам и игнорирует все, кроме двух точек данных. Поэтому это очень ненадежная статистика , имеющая точку разбивки 0, что означает, что одно наблюдение может изменить ее произвольно. Кроме того, на нее сильно влияют выбросы: увеличение максимума выборки или уменьшение минимума выборки на x изменяет средний диапазон на , в то время как это изменяет выборочное среднее, которое также имеет точку разбивки 0, только на Таким образом, он малопригоден для практической статистики, если выбросы уже не обработаны.
Обрезанный средний диапазон известен какmidsummary –n% усеченный средний диапазон является средним значениемn% и (100−n)% процентилей и является более надежным, имеяточкуразбивкиn%. Посередине между ними находитсяmidhinge, который является 25% средним значением.Медиануможно интерпретировать как полностью усеченный (50%) средний диапазон; это соответствует соглашению, что медиана четного числа точек является средним значением двух средних точек.
Эти усеченные средние значения также представляют интерес как описательная статистика или как L-оценки центрального положения или асимметрии : разности средних значений, такие как средний угол минус медиана, дают показатели асимметрии в различных точках хвоста. [2]
Несмотря на свои недостатки, в некоторых случаях он полезен: среднечастотный диапазон является высокоэффективным оценщиком μ при наличии небольшой выборки достаточно плоскокуртового распределения, но он неэффективен для мезокуртовых распределений, таких как нормальное.
Например, для непрерывного равномерного распределения с неизвестными максимумом и минимумом, средний диапазон является оценкой равномерно минимальной дисперсии несмещенной оценки (UMVU) для среднего значения. Максимум и минимум выборки вместе с размером выборки являются достаточной статистикой для максимума и минимума совокупности — распределение других выборок, обусловленное заданным максимумом и минимумом, является просто равномерным распределением между максимумом и минимумом и, таким образом, не добавляет никакой информации. См. задачу о немецком танке для дальнейшего обсуждения. Таким образом, средний диапазон, который является несмещенной и достаточной оценкой среднего значения совокупности, на самом деле является UMVU: использование среднего выборки просто добавляет шум, основанный на неинформативном распределении точек в пределах этого диапазона.
Наоборот, для нормального распределения выборочное среднее является оценкой UMVU среднего. Таким образом, для распределений платикуртика, которые часто можно рассматривать как промежуточные между равномерным и нормальным распределениями, информативность средних точек выборки по сравнению с экстремальными значениями варьируется от «равной» для нормального до «неинформативной» для равномерного, и для различных распределений одно или другое (или их комбинация) может быть наиболее эффективным. Надежным аналогом является тримеан , который усредняет середину (25% усеченного среднего диапазона) и медиану.
Для небольших размеров выборки ( n от 4 до 20), взятых из достаточно платикуртического распределения (отрицательный избыточный эксцесс , определяемый как γ 2 = (μ 4 /(μ 2 )²) − 3), средний диапазон является эффективной оценкой среднего μ . В следующей таблице суммированы эмпирические данные, сравнивающие три оценки среднего для распределений с различным эксцессом; модифицированное среднее является усеченным средним , где максимум и минимум исключены. [3] [4]
Для n = 1 или 2 средний диапазон и среднее равны (и совпадают с медианой) и являются наиболее эффективными для всех распределений. Для n = 3 модифицированное среднее является медианой, а вместо этого среднее является наиболее эффективной мерой центральной тенденции для значений γ 2 от 2,0 до 6,0, а также от −0,8 до 2,0.
Для выборки размера n из стандартного нормального распределения средний диапазон M является несмещенным и имеет дисперсию, определяемую следующим образом: [5]
Для выборки размера n из стандартного распределения Лапласа средний диапазон M является несмещенным и имеет дисперсию, определяемую следующим образом: [6]
и, в частности, дисперсия не уменьшается до нуля по мере увеличения размера выборки.
Для выборки размера n из равномерного распределения с центром на нуле средний диапазон M является несмещенным, nM имеет асимптотическое распределение , которое является распределением Лапласа . [7]
В то время как среднее значение набора значений минимизирует сумму квадратов отклонений , а медиана минимизирует среднее абсолютное отклонение , середина диапазона минимизирует максимальное отклонение (определяемое как ): это решение вариационной задачи .