stringtranslate.com

Медиана

Вычисление медианы в наборах данных нечетных (выше) и четных (ниже) наблюдений

Медиана набора чисел — это значение, разделяющее верхнюю половину от нижней половины выборки данных , совокупности или распределения вероятностей . Для набора данных ее можно рассматривать как «среднее» значение. Основная особенность медианы при описании данных по сравнению со средним значением ( часто просто описываемым как «среднее») заключается в том, что она не искажена небольшой долей чрезвычайно больших или малых значений и, следовательно, обеспечивает лучшее представление центра. Например, медианный доход может быть лучшим способом описания центра распределения доходов, поскольку увеличение самых больших доходов само по себе не оказывает влияния на медиану. По этой причине медиана имеет центральное значение в надежной статистике .

Конечный набор чисел

Медиана конечного списка чисел — это «среднее» число, если эти числа перечислены в порядке от наименьшего к наибольшему.

Если набор данных имеет нечетное количество наблюдений, выбирается среднее (после упорядочивания по возрастанию). Например, следующий список из семи чисел,

1, 3, 3, 6 , 7, 8, 9

имеет медиану 6 , что является четвертым значением.

Если набор данных содержит четное количество наблюдений, то четкого среднего значения не существует, и медиана обычно определяется как среднее арифметическое двух средних значений. [1] [2] Например, этот набор данных из 8 чисел

1, 2, 3, 4, 5 , 6, 8, 9

имеет медианное значение 4,5 , то есть . (Выражаясь более техническими терминами, это интерпретирует медиану как полностью урезанный средний диапазон ).

В общем случае, следуя этому соглашению, медиану можно определить следующим образом: для набора данных элементов , упорядоченных от наименьшего к наибольшему,

если нечетное,
если четное,

Определение и обозначения

Формально медиана популяции — это любое значение, при котором по крайней мере половина популяции меньше или равна предложенной медиане и по крайней мере половина больше или равна предложенной медиане. Как показано выше, медианы могут быть не уникальными. Если каждый набор содержит более половины популяции, то некоторая часть популяции точно равна уникальной медиане.

Медиана четко определена для любых упорядоченных (одномерных) данных и не зависит от какой-либо метрики расстояния . Таким образом, медиану можно применять к школьным классам, которые ранжированы, но не числовые (например, вычисляя медианную оценку, когда результаты тестов учащихся ранжируются от F до A), хотя результат может быть посередине между классами, если есть четное количество классов. (Для нечетного количества классов один конкретный класс определяется как медиана.)

С другой стороны, геометрическая медиана определяется в любом количестве измерений. Связанная концепция, в которой результат принудительно соответствует члену выборки, — это медоид .

Не существует общепринятого стандартного обозначения для медианы, но некоторые авторы представляют медиану переменной x как med( x ), , [3] как μ 1/2 , [1] или как M . [3] [4] В любом из этих случаев использование этих или других символов для медианы должно быть явно определено при их введении.

Медиана — это частный случай других способов обобщения типичных значений, связанных со статистическим распределением : это 2-й квартиль , 5-й дециль и 50-й процентиль .

Использует

Медиану можно использовать в качестве меры местоположения , когда экстремальным значениям придается меньшее значение, как правило, из-за того, что распределение неравномерно , экстремальные значения неизвестны или выбросы не заслуживают доверия, т. е. могут быть ошибками измерения или транскрипции.

Например, рассмотрим мультимножество

1, 2, 2, 2, 3, 14.

Медиана в этом случае равна 2, как и мода , и ее можно рассматривать как лучшее указание на центр, чем среднее арифметическое 4, которое больше всех значений, кроме одного. Однако широко цитируемое эмпирическое соотношение, согласно которому среднее смещено «дальше в хвост» распределения, чем медиана, в целом неверно. Самое большее, можно сказать, что две статистики не могут быть «слишком далеки» друг от друга; см. § Неравенство, связывающее средние и медианы ниже. [5]

Поскольку медиана основана на средних данных в наборе, для ее вычисления не обязательно знать значение крайних результатов. Например, в психологическом тесте, исследующем время, необходимое для решения задачи, если небольшое количество людей вообще не смогли решить задачу за заданное время, медиану все равно можно вычислить. [6]

Поскольку медиана проста для понимания и расчета, а также является надежным приближением к среднему значению , медиана является популярной сводной статистикой в ​​описательной статистике . В этом контексте существует несколько вариантов для измерения изменчивости : размах , межквартильный размах , среднее абсолютное отклонение и медианное абсолютное отклонение .

Для практических целей различные меры местоположения и дисперсии часто сравниваются на основе того, насколько хорошо соответствующие значения популяции могут быть оценены из выборки данных. Медиана, оцененная с использованием выборочной медианы, имеет хорошие свойства в этом отношении. Хотя она обычно не оптимальна, если предполагается заданное распределение популяции, ее свойства всегда достаточно хороши. Например, сравнение эффективности кандидатов на оценку показывает, что выборочное среднее более эффективно статистически, когда — и только когда — данные не загрязнены данными из распределений с тяжелыми хвостами или из смесей распределений. [ необходима цитата ] Даже в этом случае медиана имеет 64% эффективность по сравнению со средним с минимальной дисперсией (для больших нормальных выборок), то есть дисперсия медианы будет примерно на 50% больше, чем дисперсия среднего. [7] [8]

Распределение вероятностей

Для любого действительного распределения вероятностей с кумулятивной функцией распределения  F медиана определяется как любое действительное число  m , которое удовлетворяет неравенствам (ср. рисунок в определении ожидаемого значения для произвольных действительных случайных величин ). Эквивалентная формулировка использует случайную величину X, распределенную в соответствии с F :

Мода , медиана и среднее ( ожидаемое значение ) функции плотности вероятности [9]

Обратите внимание, что это определение не требует, чтобы X имел абсолютно непрерывное распределение (которое имеет функцию плотности вероятности f ), и не требует дискретного распределения . В первом случае неравенства можно улучшить до равенства: медиана удовлетворяет и

Любое распределение вероятностей на множестве действительных чисел имеет по крайней мере одну медиану, но в патологических случаях может быть более одной медианы: если F постоянна 1/2 на интервале (так что f = 0 там), то любое значение этого интервала является медианой.

Медианы частных распределений

Медианы некоторых типов распределений можно легко вычислить из их параметров; более того, они существуют даже для некоторых распределений, не имеющих четко определенного среднего значения, таких как распределение Коши :

Характеристики

Свойство оптимальности

Средняя абсолютная ошибка действительной величины c относительно случайной величины  X равна

При условии, что распределение вероятностей X таково, что указанное выше ожидание существует, то m является медианой X тогда и только тогда, когда m является минимизатором средней абсолютной ошибки относительно X. [11] В частности, если m является выборочной медианой, то она минимизирует среднее арифметическое абсолютных отклонений. [12] Однако следует отметить, что в случаях , когда выборка содержит четное число элементов, этот минимизатор не является уникальным.

В более общем смысле медиана определяется как минимум

как обсуждается ниже в разделе о многомерных медианах (в частности, о пространственной медиане ).

Такое определение медианы, основанное на оптимизации, полезно в статистическом анализе данных, например, при кластеризации k -медиан .

Неравенство, связывающее средние значения и медианы

Сравнение среднего значения , медианы и моды двух логнормальных распределений с различной асимметрией

Если распределение имеет конечную дисперсию, то расстояние между медианой и средним значением ограничено одним стандартным отклонением .

Эта граница была доказана Буком и Шером в 1979 году для дискретных выборок, [13] и в более общем плане Пейджем и Мёрти в 1982 году. [14] В комментарии к последующему доказательству О'Синнеида, [15] Маллоуз в 1991 году представил компактное доказательство, которое использует неравенство Йенсена дважды, [16] следующим образом. Используя |·| для абсолютного значения , мы имеем

Первое и третье неравенства вытекают из неравенства Йенсена, примененного к функции абсолютного значения и квадратной функции, которые являются выпуклыми. Второе неравенство вытекает из того факта, что медиана минимизирует функцию абсолютного отклонения .

Доказательство Маллоуза можно обобщить, чтобы получить многомерную версию неравенства [17], просто заменив абсолютное значение нормой :

где mпространственная медиана , то есть минимизатор функции. Пространственная медиана уникальна, когда размерность набора данных равна двум или более. [18] [19]

Альтернативное доказательство использует одностороннее неравенство Чебышева; оно появляется в неравенстве относительно параметров местоположения и масштаба . Эта формула также напрямую следует из неравенства Кантелли . [20]

Унимодальные распределения

В случае унимодальных распределений можно получить более точную границу расстояния между медианой и средним значением:

. [21]

Аналогичное соотношение существует между медианой и модой:

Для монотонных распределений среднее значение больше медианы.

Среднее, медиана и перекос

Типичная эвристика заключается в том, что положительно скошенные распределения имеют среднее значение > медианы. Это верно для всех членов семейства распределений Пирсона . Однако это не всегда верно. Например, семейство распределений Вейбулла имеет члены с положительным средним значением, но средним значением < медианы. Нарушения правила особенно распространены для дискретных распределений. Например, любое распределение Пуассона имеет положительный перекос, но его среднее значение < медианы всякий раз, когда . [22] См. [23] для наброска доказательства.

Когда распределение имеет монотонно убывающую плотность вероятности, то медиана меньше среднего значения, как показано на рисунке.

Неравенство Йенсена для медиан

Неравенство Йенсена утверждает, что для любой случайной величины X с конечным математическим ожиданием E [ X ] и для любой выпуклой функции f

Это неравенство распространяется и на медиану. Мы говорим, что функция f : R R является функцией C , если для любого t

является замкнутым интервалом (допускающим вырожденные случаи одной точки или пустого множества ). Каждая выпуклая функция является функцией C, но обратное не выполняется. Если f является функцией C, то

Если медианы не являются уникальными, утверждение справедливо для соответствующих супремумов. [24]

Медианы для выборок

Эффективное вычисление медианы выборки

Хотя сравнение-сортировка n элементов требует Ω ( n log n ) операций, алгоритмы выбора могут вычислить k -й наименьший из n элементов всего за Θ( n ) операций. Это включает медиану, которая является н/2 Статистика го порядка (или для четного числа выборок среднее арифметическое двух статистик среднего порядка). [25]

Алгоритмы выбора все еще имеют недостаток, требующий Ω( n ) памяти, то есть им необходимо иметь в памяти полную выборку (или ее линейную часть). Поскольку это, а также требование линейного времени, может быть непомерно, было разработано несколько процедур оценки для медианы. Простая из них — это правило медианы трех, которое оценивает медиану как медиану трехэлементной подвыборки; это обычно используется в качестве подпрограммы в алгоритме сортировки быстрой сортировки , который использует оценку медианы своего входа. Более надежной оценкой является девятый Тьюки , который является правилом медианы трех, применяемым с ограниченной рекурсией: [26] если A — выборка, представленная в виде массива , и

med3( А ) = med( А [1], А [ н/2 ], А [ н ]) ,

затем

девятый( А ) = med3(med3( А [1 ... 1/3н ]), med3( А [ 1/3н ... 2/3н ]), med3( А [ 2/3н ... н ]))

Медиана — это оценка медианы, которая требует линейного времени, но сублинейной памяти, работающая за один проход по выборке. [27]

Распределение выборки

Распределения как выборочного среднего, так и выборочной медианы были определены Лапласом . [28] Распределение выборочной медианы из популяции с функцией плотности является асимптотически нормальным со средним и дисперсией [29]

где — медиана , а — размер выборки:


Ниже приведено современное доказательство. Результат Лапласа теперь понимается как частный случай асимптотического распределения произвольных квантилей .

Для нормальных выборок плотность равна , поэтому для больших выборок дисперсия медианы равна [7] (См. также раздел #Эффективность ниже.)

Вывод асимптотического распределения

Мы принимаем размер выборки за нечетное число и предполагаем, что наша переменная непрерывна; формула для случая дискретных переменных приведена ниже в § Эмпирическая локальная плотность. Выборку можно обобщить как «ниже медианы», «на уровне медианы» и «выше медианы», что соответствует триномиальному распределению с вероятностями , и . Для непрерывной переменной вероятность того, что несколько значений выборки будут точно равны медиане, равна 0, поэтому можно вычислить плотность в точке непосредственно из триномиального распределения:

.

Теперь введем бета-функцию. Для целочисленных аргументов и это можно выразить как . Также напомним, что . Использование этих отношений и установка и равными позволяет записать последнее выражение как

Следовательно, функция плотности медианы представляет собой симметричное бета-распределение, сдвинутое вперед на . Его среднее значение, как и следовало ожидать, равно 0,5, а его дисперсия равна . По правилу цепи соответствующая дисперсия медианы выборки равна

.

Дополнительные 2 в пределе незначительны .

Эмпирическая локальная плотность

На практике функции и выше часто неизвестны или не предполагаются. Однако их можно оценить из наблюдаемого распределения частот. В этом разделе мы приводим пример. Рассмотрим следующую таблицу, представляющую выборку из 3800 (дискретнозначных) наблюдений:

Поскольку наблюдения являются дискретно-значными, построение точного распределения медианы не является непосредственным переводом приведенного выше выражения для ; можно (и обычно бывает) иметь несколько экземпляров медианы в выборке. Поэтому мы должны суммировать по всем этим возможностям:

Здесь i — число точек, строго меньших медианы, а k — число, строго большее медианы.

Используя эти предварительные данные, можно исследовать влияние размера выборки на стандартные ошибки среднего и медианы. Наблюдаемое среднее значение равно 3,16, наблюдаемая сырая медиана равна 3, а наблюдаемая интерполированная медиана равна 3,174. В следующей таблице приведены некоторые сравнительные статистики.

Ожидаемое значение медианы немного падает с увеличением размера выборки, в то время как, как и ожидалось, стандартные ошибки как медианы, так и среднего значения пропорциональны обратному квадратному корню размера выборки. Асимптотическое приближение ошибается в сторону осторожности, переоценивая стандартную ошибку.

Оценка дисперсии по выборочным данным

Значение — асимптотическое значение , где — медиана популяции, — изучалось несколькими авторами. Стандартный метод складного ножа «удалить один» дает противоречивые результаты. [30] Альтернативный метод — метод «удалить k», где растет с размером выборки, как было показано, является асимптотически последовательным. [31] Этот метод может быть вычислительно затратным для больших наборов данных. Известно, что оценка бутстрапа является последовательной, [32] но сходится очень медленно ( порядок ). [33] Были предложены и другие методы, но их поведение может отличаться для больших и малых выборок. [34]

Эффективность

Эффективность выборочной медианы, измеряемая как отношение дисперсии среднего к дисперсии медианы, зависит от размера выборки и от базового распределения популяции. Для выборки размером из нормального распределения эффективность для больших N равна

Эффективность стремится к бесконечности.

Другими словами, относительная дисперсия медианы будет , или на 57% больше, чем дисперсия среднего значения – относительная стандартная ошибка медианы будет , или на 25% больше, чем стандартная ошибка среднего значения ( см. также раздел #Выборочное распределение выше.). [35]

Другие оценщики

Для одномерных распределений, симметричных относительно одной медианы, оценщик Ходжеса-Лемана является надежным и высокоэффективным оценщиком медианы популяции. [36]

Если данные представлены статистической моделью, определяющей определенное семейство распределений вероятностей , то оценки медианы могут быть получены путем подгонки этого семейства распределений вероятностей к данным и вычисления теоретической медианы подогнанного распределения. Интерполяция Парето является применением этого, когда предполагается, что популяция имеет распределение Парето .

Многомерная медиана

Ранее в этой статье обсуждалась одномерная медиана, когда выборка или совокупность имели одно измерение. Когда измерение равно двум или больше, существует несколько концепций, которые расширяют определение одномерной медианы; каждая такая многомерная медиана согласуется с одномерной медианой, когда измерение равно точно одному. [36] [37] [38] [39]

Маргинальная медиана

Маргинальная медиана определяется для векторов, определенных относительно фиксированного набора координат. Маргинальная медиана определяется как вектор, компоненты которого являются одномерными медианами. Маргинальную медиану легко вычислить, и ее свойства были изучены Пури и Сеном. [36] [40]

Геометрическая медиана

Геометрическая медиана дискретного набора точек выборки в евклидовом пространстве — это точка [a] , минимизирующая сумму расстояний до точек выборки.

В отличие от маргинальной медианы, геометрическая медиана эквивариантна относительно евклидовых преобразований подобия, таких как переносы и вращения .

Медиана во всех направлениях

Если маргинальные медианы для всех систем координат совпадают, то их общее местоположение можно назвать «медианой во всех направлениях». [42] Эта концепция имеет отношение к теории голосования в силу теоремы о медианном избирателе . Когда она существует, медиана во всех направлениях совпадает с геометрической медианой (по крайней мере, для дискретных распределений).

Центральная точка

В статистике и вычислительной геометрии понятие центральной точки является обобщением медианы на данные в многомерном евклидовом пространстве . Для заданного набора точек в d -мерном пространстве центральной точкой набора является точка, такая что любая гиперплоскость, проходящая через эту точку, делит набор точек на два примерно равных подмножества: меньшая часть должна иметь по крайней мере 1/( d  + 1) долю точек. Как и медиана, центральная точка не обязательно должна быть одной из точек данных. Каждый непустой набор точек (без дубликатов) имеет по крайней мере одну центральную точку.


Условная медиана

Условная медиана возникает в ситуации, когда мы пытаемся оценить случайную величину из случайной величины , которая является шумовой версией . Условная медиана в этой ситуации задается как

где — обратная функция условного cdf (т.е. условная квантильная функция) . Например, популярная модель — это где — стандартное нормальное распределение, независимое от . Условная медиана — это оптимальная байесовская оценка:

Известно, что для модели , где является стандартным нормальным и не зависит от , оценка является линейной тогда и только тогда, когда является гауссовой. [43]

Другие концепции, связанные с медианой

Интерполированная медиана

При работе с дискретной переменной иногда полезно рассматривать наблюдаемые значения как средние точки непрерывных интервалов. Примером этого является шкала Лайкерта , на которой мнения или предпочтения выражаются на шкале с заданным числом возможных ответов. Если шкала состоит из положительных целых чисел, наблюдение 3 можно рассматривать как представляющее интервал от 2,50 до 3,50. Можно оценить медиану базовой переменной. Если, скажем, 22% наблюдений имеют значение 2 или ниже, а 55,0% имеют значение 3 или ниже (то есть 33% имеют значение 3), то медиана равна 3, поскольку медиана является наименьшим значением для которого больше половины. Но интерполированная медиана находится где-то между 2,50 и 3,50. Сначала мы прибавляем половину ширины интервала к медиане, чтобы получить верхнюю границу интервала медианы. Затем мы вычитаем ту часть ширины интервала, которая равна доле 33%, которая лежит выше отметки 50%. Другими словами, мы делим ширину интервала пропорционально количеству наблюдений. В этом случае 33% делятся на 28% ниже медианы и 5% выше нее, поэтому мы вычитаем 5/33 ширины интервала из верхней границы 3,50, чтобы получить интерполированную медиану 3,35. Более формально, если значения известны, интерполированную медиану можно вычислить из

В качестве альтернативы, если в наблюдаемой выборке есть баллы выше медианной категории, баллы в ней и баллы ниже нее, то интерполированная медиана вычисляется по формуле

Псевдомедианная

Для одномерных распределений, симметричных относительно одной медианы, оценщик Ходжеса-Лемана является надежной и высокоэффективной оценкой медианы популяции; для несимметричных распределений оценщик Ходжеса-Лемана является надежной и высокоэффективной оценкой псевдомедианы популяции , которая является медианой симметризованного распределения и которая близка к медиане популяции. [44] Оценщик Ходжеса-Лемана был обобщен на многомерные распределения. [45]

Варианты регрессии

Оценка Тейла –Сена представляет собой метод надежной линейной регрессии, основанный на нахождении медиан наклонов . [46]

Медианный фильтр

Медианный фильтр — важный инструмент обработки изображений , который позволяет эффективно удалять любые шумы типа «соль и перец» с изображений в оттенках серого .

Кластерный анализ

В кластерном анализе алгоритм кластеризации k-медиан обеспечивает способ определения кластеров, в котором критерий максимизации расстояния между средними кластерами, используемый в кластеризации k-средних , заменяется критерием максимизации расстояния между медианами кластеров.

Медиана–срединная линия

Это метод надежной регрессии. Идея восходит к Уолду в 1940 году, который предложил разделить набор двумерных данных на две половины в зависимости от значения независимого параметра : левую половину со значениями меньше медианы и правую половину со значениями больше медианы. [47] Он предложил взять средние значения зависимых и независимых переменных левой и правой половин и оценить наклон линии, соединяющей эти две точки. Затем линию можно было скорректировать, чтобы она соответствовала большинству точек в наборе данных.

Наир и Шривастава в 1942 году предложили похожую идею, но вместо этого рекомендовали разделить выборку на три равные части перед вычислением средних значений подвыборок. [48] Браун и Муд в 1951 году предложили идею использования медиан двух подвыборок вместо средних значений. [49] Тьюки объединил эти идеи и рекомендовал разделить выборку на три подвыборки равного размера и оценить линию на основе медиан подвыборок. [50]

Медианно-несмещенные оценки

Любая оценка без смещения среднего минимизирует риск ( ожидаемые потери ) относительно функции потерь квадрата ошибки , как заметил Гаусс . Оценка без смещения среднего минимизирует риск относительно функции потерь абсолютного отклонения , как заметил Лаплас . Другие функции потерь используются в статистической теории , особенно в надежной статистике .

Теория медианно-несмещенных оценок была возрождена Джорджем Брауном в 1947 году: [51]

Оценка одномерного параметра θ будет называться медианно-несмещенной, если при фиксированном θ медиана распределения оценки равна значению θ; т. е. оценка недооценивает так же часто, как и переоценивает. Это требование, по-видимому, для большинства целей достигает того же, что и требование среднего-несмещенного, и имеет дополнительное свойство, заключающееся в том, что оно инвариантно относительно преобразования один к одному.

—  страница 584

Были описаны дополнительные свойства медианно-несмещенных оценок. [52] [53] [54] [55]

Существуют методы построения медианно-несмещенных оценок, которые являются оптимальными (в некотором смысле, аналогично свойству минимальной дисперсии для средне-несмещенных оценок). Такие конструкции существуют для распределений вероятностей, имеющих монотонные функции правдоподобия . [56] [57] Одна из таких процедур является аналогом процедуры Рао-Блэквелла для средне-несмещенных оценок: процедура справедлива для меньшего класса распределений вероятностей, чем процедура Рао-Блэквелла, но для большего класса функций потерь . [58]

История

Научные исследователи на древнем Ближнем Востоке, по-видимому, не использовали сводную статистику вообще, вместо этого выбирая значения, которые обеспечивали максимальную согласованность с более широкой теорией, которая интегрировала широкий спектр явлений. [59] В средиземноморском (а позднее и европейском) научном сообществе такие статистические данные, как среднее значение, по сути, являются развитием Средневековья и раннего Нового времени. (История медианы за пределами Европы и ее предшественников остается относительно неизученной.)

Идея медианы появилась в VI веке в Талмуде , чтобы справедливо проанализировать расходящиеся оценки . [60] [61] Однако эта концепция не получила распространения в широком научном сообществе.

Вместо этого ближайшим предком современной медианы является средний диапазон , изобретенный Аль-Бируни [62] : 31  [63] Передача его работы более поздним ученым неясна. Он применил свою технику для анализа валютных металлов, но после того, как он опубликовал свою работу, большинство пробирщиков по-прежнему принимали самое неблагоприятное значение из своих результатов, чтобы не показаться обманщиками . [ 62 ] : 35–8  [64] Однако рост навигации в море в эпоху Великих географических открытий означал, что штурманам все чаще приходилось пытаться определять широту в неблагоприятных погодных условиях по отношению к враждебным берегам, что привело к возобновлению интереса к сводной статистике. Независимо от того, был ли он заново открыт или изобретен независимо, средний диапазон рекомендуется мореплавателям в «Инструкциях для путешествия Рэли в Гвиану, 1595» Харриота. [62] : 45–8 

Идея медианы, возможно, впервые появилась в книге Эдварда Райта 1599 года Certaine Errors in Navigation в разделе о навигации по компасу . [65] Райт не хотел отбрасывать измеренные значения и, возможно, считал, что медиана — включающая большую долю набора данных, чем средний диапазон — с большей вероятностью будет правильной. Однако Райт не привел примеров использования своей техники, что затрудняет проверку того, что он описал современное понятие медианы. [59] [63] [b] Медиана (в контексте вероятности) определенно появилась в переписке Христиана Гюйгенса , но как пример статистики, которая была неподходящей для актуарной практики . [59]

Самая ранняя рекомендация медианы датируется 1757 годом, когда Роджер Джозеф Боскович разработал метод регрессии, основанный на норме L 1 и, следовательно, неявно на медиане. [59] [66] В 1774 году Лаплас явно выразил это желание: он предложил использовать медиану в качестве стандартной оценки значения апостериорной PDF . Конкретным критерием была минимизация ожидаемой величины ошибки; где — оценка, а — истинное значение. С этой целью Лаплас определил распределения как выборочного среднего, так и выборочной медианы в начале 1800-х годов. [28] [67] Однако десятилетие спустя Гаусс и Лежандр разработали метод наименьших квадратов , который минимизирует для получения среднего; сильное обоснование этой оценки ссылкой на оценку максимального правдоподобия, основанную на нормальном распределении, означает, что она в основном заменила первоначальное предложение Лапласа. [68]

Антуан Огюстен Курно в 1843 году был первым [69] , кто использовал термин медиана ( valeur médiane ) для значения, которое делит распределение вероятностей на две равные половины. Густав Теодор Фехнер использовал медиану ( Centralwerth ) в социологических и психологических явлениях. [70] Ранее она использовалась только в астрономии и смежных областях. Густав Фехнер популяризировал медиану в формальном анализе данных, хотя ранее ее использовал Лаплас, [70] а медиана появилась в учебнике Ф. И. Эджворта . [71] Фрэнсис Гальтон использовал термин медиана в 1881 году, [72] [73] ранее использовав термины middle-most value в 1869 году и medium в 1880 году. [74] [75]


Смотрите также

Примечания

  1. ^ Геометрическая медиана уникальна, если выборка не является коллинеарной. [41]
  2. Последующие исследователи, по-видимому, соглашаются с Эйзенхартом в том, что цифры Бороуз за 1580 год, хотя и указывают на медиану, на самом деле описывают среднее арифметическое.; [62] : 62–3  Бороуз не упоминается ни в одной другой работе.

Ссылки

  1. ^ ab Weisstein, Eric W. "Статистическая медиана". MathWorld .
  2. ^ Саймон, Лора Дж.; «Описательная статистика» Архивировано 30 июля 2010 г. в Wayback Machine , Комплект ресурсов для статистического образования , Департамент статистики штата Пенсильвания
  3. ^ ab Дерек Бисселл (1994). Статистические методы для Spc и Tqm. CRC Press. стр. 26–. ISBN 978-0-412-39440-9. Получено 25 февраля 2013 г.
  4. ^ Дэвид Дж. Шескин (27 августа 2003 г.). Справочник по параметрическим и непараметрическим статистическим процедурам (третье изд.). CRC Press. стр. 7. ISBN 978-1-4200-3626-8. Получено 25 февраля 2013 г.
  5. ^ Пол Т. фон Хиппель (2005). «Среднее, медиана и перекос: исправление правила учебника». Журнал статистического образования . 13 (2). Архивировано из оригинала 14 октября 2008 г. Получено 18 июня 2015 г.
  6. ^ Робсон, Колин (1994). Эксперимент, дизайн и статистика в психологии . Penguin. стр. 42–45. ISBN 0-14-017648-9.
  7. ^ ab Williams, D. (2001). Взвешивание шансов . Cambridge University Press. стр. 165. ISBN 052100618X.
  8. ^ Maindonald, John; Braun, W. John (2010-05-06). Анализ данных и графика с использованием R: подход на основе примеров. Cambridge University Press. стр. 104. ISBN 978-1-139-48667-5.
  9. ^ "AP Statistics Review - Density Curves and the Normal Distributions". Архивировано из оригинала 8 апреля 2015 г. Получено 16 марта 2015 г.
  10. ^ Newman, MEJ (2005). «Степень законов, распределения Парето и закон Ципфа». Contemporary Physics . 46 (5): 323–351. arXiv : cond-mat/0412004 . Bibcode :2005ConPh..46..323N. doi :10.1080/00107510500052444. S2CID  2871747.
  11. ^ Stroock, Daniel (2011). Теория вероятностей . Cambridge University Press. С. 43. ISBN 978-0-521-13250-3.
  12. ^ ДеГрут, Моррис Х. (1970). Оптимальные статистические решения. McGraw-Hill Book Co., Нью-Йорк-Лондон-Сидней. стр. 232. ISBN 9780471680291. МР  0356303.
  13. ^ Стивен А. Бук; Лоуренс Шер (1979). «Насколько близки среднее и медиана?». The Two-Year College Mathematics Journal . 10 (3): 202–204. doi :10.2307/3026748. JSTOR  3026748. Получено 12 марта 2022 г.
  14. ^ Уоррен Пейдж; Ведула Н. Мурти (1982). «Отношения близости между мерами центральной тенденции и дисперсии: часть 1». The Two-Year College Mathematics Journal . 13 (5): 315–327. doi :10.1080/00494925.1982.11972639 (неактивен 2024-09-11) . Получено 12 марта 2022 г.{{cite journal}}: CS1 maint: DOI inactive as of September 2024 (link)
  15. ^ O'Cinneide, Colm Art (1990). «Среднее значение находится в пределах одного стандартного отклонения от любой медианы». The American Statistician . 44 (4): 292–293. doi :10.1080/00031305.1990.10475743 . Получено 12 марта 2022 г.
  16. ^ Маллоуз, Колин (август 1991 г.). «Еще один комментарий к О'Синнеиду». The American Statistician . 45 (3): 257. doi :10.1080/00031305.1991.10475815.
  17. ^ Пише, Роберт (2012). Случайные векторы и случайные последовательности . Lambert Academic Publishing. ISBN 978-3659211966.
  18. ^ Kemperman, Johannes HB (1987). Dodge, Yadolah (ред.). "Медиана конечной меры в банаховом пространстве: статистический анализ данных на основе L1-нормы и связанных методов". Доклады с первой международной конференции, состоявшейся в Невшателе, 31 августа–4 сентября 1987 г. Амстердам: North-Holland Publishing Co.: 217–230. MR  0949228.
  19. ^ Милашевич, Филипп; Дюшарм, Жиль Р. (1987). «Уникальность пространственной медианы». Annals of Statistics . 15 (3): 1332–1333. doi : 10.1214/aos/1176350511 . MR  0902264.
  20. ^ К. Ван Стин Заметки о вероятности и статистике
  21. ^ Басу, С.; Дасгупта, А. (1997). «Среднее, медиана и мода унимодальных распределений: характеристика». Теория вероятностей и ее приложения . 41 (2): 210–223. doi :10.1137/S0040585X97975447. S2CID  54593178.
  22. ^ фон Хиппель, Пол Т. (январь 2005 г.). «Среднее, медиана и перекос: исправление правила учебника». Журнал статистического образования . 13 (2). doi : 10.1080/10691898.2005.11910556 . ISSN  1069-1898.
  23. ^ Гроенвельд, Ричард А.; Миден, Глен (август 1977 г.). «Мода, медиана и среднее неравенство». The American Statistician . 31 (3): 120–121. doi :10.1080/00031305.1977.10479215. ISSN  0003-1305.
  24. ^ Merkle, M. (2005). «Неравенство Йенсена для медиан». Statistics & Probability Letters . 71 (3): 277–281. doi :10.1016/j.spl.2004.11.010.
  25. ^ Альфред В. Ахо и Джон Э. Хопкрофт и Джеффри Д. Ульман (1974). Проектирование и анализ компьютерных алгоритмов . Reading/MA: Addison-Wesley. ISBN 0-201-00029-6.Здесь: Раздел 3.6 «Порядковая статистика», стр. 97-99, в частности Алгоритм 3.6 и Теорема 3.9.
  26. ^ Бентли, Джон Л.; Макилрой, М. Дуглас (1993). «Разработка функции сортировки». Программное обеспечение: практика и опыт . 23 (11): 1249–1265. doi :10.1002/spe.4380231105. S2CID  8822797.
  27. ^ Rousseeuw, Peter J.; Bassett, Gilbert W. Jr. (1990). «Медиана: надежный метод усреднения для больших наборов данных» (PDF) . J. Amer. Statist. Assoc . 85 (409): 97–104. doi :10.1080/01621459.1990.10475311.
  28. ^ ab Stigler, Stephen (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Biometrika . 60 (3): 439–445. doi :10.1093/biomet/60.3.439. JSTOR  2334992. MR  0326872.
  29. ^ Райдер, Пол Р. (1960). «Дисперсия медианы малых выборок из нескольких специальных совокупностей». J. Amer. Statist. Assoc. 55 (289): 148–150. doi :10.1080/01621459.1960.10482056.
  30. ^ Эфрон, Б. (1982). Складной нож, бутстрап и другие планы повторной выборки . Филадельфия: SIAM. ISBN 0898711797.
  31. ^ Шао, Дж.; Ву, К. Ф. (1989). «Общая теория оценки дисперсии складного ножа». Ann. Stat. 17 (3): 1176–1197. doi : 10.1214/aos/1176347263 . JSTOR  2241717.
  32. ^ Эфрон, Б. (1979). «Методы Bootstrap: Другой взгляд на складной нож». Ann. Stat. 7 (1): 1–26. doi : 10.1214/aos/1176344552 . JSTOR  2958830.
  33. ^ Холл, П.; Мартин, МА (1988). «Точная скорость сходимости оценки дисперсии квантиля бутстрепа». Теория вероятностей, смежные области . 80 (2): 261–268. doi : 10.1007/BF00356105 . S2CID  119701556.
  34. ^ Хименес-Гамеро, доктор медицины; Муньос-Гарсия, Ж.; Пино-Мехиас, Р. (2004). «Уменьшенная начальная загрузка для медианы». Статистика Синица . 14 (4): 1179–1198.
  35. ^ Maindonald, John; John Braun, W. (2010-05-06). Анализ данных и графика с использованием R: подход на основе примеров. Cambridge University Press. ISBN 9781139486675.
  36. ^ abc Hettmansperger, Thomas P.; McKean, Joseph W. (1998). Надежные непараметрические статистические методы . Библиотека статистики Кендалла. Том 5. Лондон: Edward Arnold. ISBN 0-340-54937-8. МР  1604954.
  37. ^ Смолл, Кристофер Г. «Обзор многомерных медиан». Международный статистический обзор/Revue Internationale de Statistique (1990): 263–277. doi :10.2307/1403809 JSTOR  1403809
  38. ^ Ниинимаа, А. и Х. Оя. «Многомерная медиана». Энциклопедия статистических наук (1999).
  39. ^ Мослер, Карл. Многомерная дисперсия, центральные регионы и глубина: подход Lift Zonoid. Том 165. Springer Science & Business Media, 2012.
  40. ^ Пури, Мадан Л.; Сен, Пранаб К.; Непараметрические методы в многомерном анализе , John Wiley & Sons, Нью-Йорк, штат Нью-Йорк, 1971. (Перепечатано Krieger Publishing)
  41. ^ Варди, Йехуда; Чжан, Цунь-Хуэй (2000). «Многомерная медиана L1 и связанная с ней глубина данных». Труды Национальной академии наук Соединенных Штатов Америки . 97 (4): 1423–1426 (электронная версия). Bibcode : 2000PNAS...97.1423V. doi : 10.1073 /pnas.97.4.1423 . MR  1740461. PMC 26449. PMID  10677477. 
  42. ^ Дэвис, Отто А.; ДеГрут, Моррис Х.; Хинич, Мелвин Дж. (январь 1972 г.). «Упорядочение социальных предпочтений и правило большинства» (PDF) . Econometrica . 40 (1): 147–157. doi :10.2307/1909727. JSTOR  1909727.Авторы, работающие в теме, в которой предполагается уникальность, фактически используют выражение « уникальная медиана во всех направлениях».
  43. ^ Барнс, Лейтон; Дитсо, Алекс Дж.; Цзинбо, Лю; Пур, Х. Винсент (2024-08-22). «Оценка L1: об оптимальности линейных оценщиков». Труды IEEE по теории информации . doi :10.1109/TIT.2024.3440929.
  44. ^ Pratt, William K.; Cooper, Ted J.; Kabir, Ihtisham (1985-07-11). Corbett, Francis J (ред.). "Псевдомедианный фильтр". Архитектуры и алгоритмы цифровой обработки изображений II . 0534 : 34. Bibcode : 1985SPIE..534...34P. doi : 10.1117/12.946562. S2CID  173183609.
  45. ^ Оджа, Ханну (2010). Многомерные непараметрические методы с  R : подход, основанный на пространственных знаках и рангах . Lecture Notes in Statistics. Vol. 199. New York, NY: Springer. pp. xiv+232. doi :10.1007/978-1-4419-0468-3. ISBN 978-1-4419-0467-6. МР  2598854.
  46. ^ Уилкокс, Рэнд Р. (2001), «Оценка Тейла–Сена», Основы современных статистических методов: существенное повышение мощности и точности, Springer-Verlag, стр. 207–210, ISBN 978-0-387-95157-7.
  47. ^ Вальд, А. (1940). «Подгонка прямых линий, если обе переменные подвержены ошибке» (PDF) . Annals of Mathematical Statistics . 11 (3): 282–300. doi : 10.1214/aoms/1177731868 . JSTOR  2235677.
  48. ^ Наир, К. Р.; Шривастава, М. П. (1942). «О простом методе подгонки кривой». Санкхья: Индийский журнал статистики . 6 (2): 121–132. JSTOR  25047749.
  49. ^ Браун, GW; Муд, AM (1951). «О медианных тестах для линейных гипотез». Труды Второго симпозиума в Беркли по математической статистике и вероятности . Беркли, Калифорния: Издательство Калифорнийского университета. С. 159–166. Zbl  0045.08606.
  50. ^ Tukey, JW (1977). Исследовательский анализ данных. Reading, MA: Addison-Wesley. ISBN 0201076160.
  51. ^ Браун, Джордж У. (1947). «Оценка малых выборок». Annals of Mathematical Statistics . 18 (4): 582–585. doi : 10.1214/aoms/1177730349 . JSTOR  2236236.
  52. ^ Леманн, Эрих Л. (1951). «Общая концепция несмещенности». Annals of Mathematical Statistics . 22 (4): 587–592. doi : 10.1214/aoms/1177729549 . JSTOR  2236928.
  53. ^ Бирнбаум, Аллан (1961). «Единая теория оценки, I». Annals of Mathematical Statistics . 32 (1): 112–135. doi : 10.1214/aoms/1177705145 . JSTOR  2237612.
  54. ^ Ван дер Ваарт, Х. Роберт (1961). «Некоторые расширения идеи смещения». Annals of Mathematical Statistics . 32 (2): 436–447. doi : 10.1214/aoms/1177705051 . JSTOR  2237754. MR  0125674.
  55. ^ Пфанзагль, Иоганн; при содействии Р. Хамбокера (1994). Параметрическая статистическая теория . Вальтер де Грюйтер. ISBN 3-11-013863-8. МР  1291393.
  56. ^ Пфанцагль, Иоганн. «Об оптимальных медианных несмещенных оценках при наличии мешающих параметров». Анналы статистики (1979): 187–193.
  57. ^ Браун, Л. Д.; Коэн, Артур; Страудерман, У. Э. (1976). «Полная теорема о классе для строго монотонного отношения правдоподобия с приложениями». Ann. Statist . 4 (4): 712–722. doi : 10.1214/aos/1176343543 .
  58. ^ Пейдж; Браун, Л. Д.; Коэн, Артур; Страудерман, У. Э. (1976). «Полная теорема о классе для строго монотонного отношения правдоподобия с приложениями». Ann. Statist . 4 (4): 712–722. doi : 10.1214/aos/1176343543 .
  59. ^ abcd Баккер, Артур; Гравемейер, Коено ЧП (1 июня 2006 г.). «Историческая феноменология среднего и медианы». Образовательные исследования по математике . 62 (2): 149–168. дои : 10.1007/s10649-006-7099-8. ISSN  1573-0816. S2CID  143708116.
  60. ^ Адлер, Дэн (31 декабря 2014 г.). «Талмуд и современная экономика». Jewish American and Israeli Issues . Архивировано из оригинала 6 декабря 2015 г. Получено 22 февраля 2020 г.
  61. ^ Современная экономическая теория в Талмуде Исраэля Ауманна
  62. ^ abcd Эйзенхарт, Черчилль (24 августа 1971 г.). Развитие концепции наилучшего среднего значения набора измерений от античности до наших дней (PDF) (Речь). 131-е ежегодное собрание Американской статистической ассоциации. Университет штата Колорадо.
  63. ^ ab "Как среднее значение одержало победу над медианой". Priceonomics . 5 апреля 2016 г. Получено 23.02.2020 .
  64. ^ Сангстер, Алан (март 2021 г.). «Жизнь и творчество Луки Пачоли (1446/7–1517), гуманистического педагога». Abacus . 57 (1): 126–152. doi :10.1111/abac.12218. hdl : 2164/16100 . ISSN  0001-3072. S2CID  233917744.
  65. ^ Райт, Эдвард; Парсонс, Э. Дж. С.; Моррис, У. Ф. (1939). «Эдвард Райт и его работа». Imago Mundi . 3 : 61–71. doi :10.1080/03085693908591862. ISSN  0308-5694. JSTOR  1149920.
  66. ^ Стиглер, SM (1986). История статистики: измерение неопределенности до 1900 года. Издательство Гарвардского университета. ISBN 0674403401.
  67. ^ Лаплас PS de (1818) Deuxième Supplement à la Théorie Analytique des Probabilités , Париж, Courcier
  68. ^ Джейнс, ET (2007). Теория вероятностей: логика науки (5-е печатное издание). Кембридж [ua]: Cambridge Univ. Press. стр. 172. ISBN 978-0-521-59271-0.
  69. ^ Ховарт, Ричард (2017). Словарь математических наук о Земле: с историческими примечаниями . Springer. стр. 374.
  70. ^ ab Keynes, JM (1921) Трактат о вероятности . Часть II Глава XVII §5 (стр. 201) (переиздание 2006 г., Cosimo Classics, ISBN 9781596055308  : несколько других переизданий) 
  71. ^ Стиглер, Стивен М. (2002). Статистика в таблице: история статистических концепций и методов. Издательство Гарвардского университета. С. 105–7. ISBN 978-0-674-00979-0.
  72. ^ Гальтон Ф. (1881) «Отчет антропометрического комитета», стр. 245–260. Отчет 51-го заседания Британской ассоциации содействия развитию науки.
  73. ^ Дэвид, HA (1995). «Первое (?) появление общих терминов в математической статистике». The American Statistician . 49 (2): 121–133. doi :10.2307/2684625. ISSN  0003-1305. JSTOR  2684625.
  74. ^ encyclopediaofmath.org
  75. ^ personal.psu.edu

Внешние ссылки

В данной статье использованы материалы из Median, размещенные на PlanetMath и лицензированные по лицензии Creative Commons Attribution/Share-Alike License .