stringtranslate.com

Выборочное среднее и ковариация

Выборочное среднее ( выборочное среднее ) или эмпирическое среднее ( эмпирическое среднее ), а также выборочная ковариация или эмпирическая ковариация — это статистика , вычисляемая на основе выборки данных по одной или нескольким случайным переменным .

Среднее значение выборки — это среднее значение (или среднее значение ) выборки чисел , взятой из более крупной совокупности чисел, где «популяция» указывает не на количество людей, а на всю совокупность соответствующих данных, независимо от того, собраны они или нет. Для удобства вместо рассмотрения совокупности продаж всех 500 компаний можно использовать выборку продаж 40 компаний из списка Fortune 500 . Среднее значение выборки используется в качестве оценки среднего значения генеральной совокупности, среднего значения во всей совокупности, причем оценка с большей вероятностью будет близка к среднему значению генеральной совокупности, если выборка большая и репрезентативная. Надежность выборочного среднего оценивается с использованием стандартной ошибки , которая, в свою очередь, рассчитывается с использованием дисперсии выборки. Если выборка случайная, стандартная ошибка уменьшается вместе с размером выборки, а распределение выборочного среднего приближается к нормальному распределению по мере увеличения размера выборки.

Термин «выборочное среднее» также может использоваться для обозначения вектора средних значений, когда статистик рассматривает значения нескольких переменных в выборке, например, объем продаж, прибыль и сотрудники выборки компаний из списка Fortune 500. В этом случае существует не просто выборочная дисперсия для каждой переменной, а выборочная дисперсионно-ковариационная матрица (или просто ковариационная матрица ), показывающая также взаимосвязь между каждой парой переменных. Если рассматриваются 3 переменные, это будет матрица 3×3. Ковариация выборки полезна для оценки надежности выборочных средних в качестве оценщика, а также для оценки ковариационной матрицы генеральной совокупности.

Из-за простоты расчета и других желательных характеристик выборочное среднее и выборочная ковариация широко используются в статистике для представления местоположения и дисперсии распределения значений в выборке, а также для оценки значений для генеральной совокупности.

Определение выборочного среднего

Среднее значение выборки — это среднее значение переменной в выборке, которое представляет собой сумму этих значений, деленную на количество значений. Используя математические обозначения, если выборка из N наблюдений по переменной X берется из генеральной совокупности, выборочное среднее будет:

Согласно этому определению, если выборка (1, 4, 1) берется из совокупности (1,1,3,4,0,2,1,0), то среднее значение выборки равно , по сравнению со средним значением генеральной совокупности . Даже если выборка является случайной, она редко бывает абсолютно репрезентативной, и другие выборки будут иметь другие средние выборочные значения, даже если все выборки будут принадлежать к одной и той же совокупности. Например, выборка (2, 1, 0) будет иметь выборочное среднее 1.

Если статистика интересуется K переменными, а не одной, причем каждое наблюдение имеет значение для каждой из этих K переменных, общее выборочное среднее состоит из K выборочных средних для отдельных переменных. Пусть это i- е независимо сделанное наблюдение ( i =1,..., N ) для j случайной величины ( j =1,..., K ). Эти наблюдения могут быть упорядочены в N векторов-столбцов, каждый из которых имеет K записей, причем вектор-столбец K ×1 дает i -е наблюдение всех обозначаемых переменных ( i =1,..., N ).

Выборочный средний вектор представляет собой вектор-столбец, j -й элемент которого является средним значением N наблюдений j переменной:

Таким образом, вектор выборочного среднего содержит среднее значение наблюдений для каждой переменной и записывается

Определение выборочной ковариации

Выборочная ковариационная матрица представляет собой матрицу K - K с элементами

где — оценка ковариации между j - й переменной и k переменной совокупности, лежащей в основе данных. С точки зрения векторов наблюдения выборочная ковариация равна

Альтернативно, расположив векторы наблюдения в виде столбцов матрицы, так что

,

которая представляет собой матрицу из K строк и N столбцов. Здесь выборочная ковариационная матрица может быть вычислена как

,

где — вектор единиц размером N на 1 . Если наблюдения расположены в виде строк, а не столбцов, то есть теперь это вектор-строка 1 × K и матрица размера N × K , столбец j которой является вектором из N наблюдений над переменной j , тогда применение транспонирования в соответствующих местах дает

Подобно ковариационным матрицам для случайного вектора , выборочные ковариационные матрицы являются положительно полуопределенными . Для доказательства заметим, что для любой матрицы матрица положительно полуопределена. Более того, ковариационная матрица является положительно определенной тогда и только тогда, когда ранг векторов равен K.

Беспристрастность

Выборочное среднее и выборочная ковариационная матрица представляют собой несмещенные оценки среднего и ковариационной матрицы случайного вектора , вектора-строки, j элемент которого ( j = 1,..., K ) является одной из случайных величин. [1] Матрица выборочной ковариации имеет знаменатель, а не из-за варианта поправки Бесселя : Короче говоря, выборочная ковариация зависит от разницы между каждым наблюдением и выборочным средним значением, но выборочное среднее слегка коррелирует с каждым наблюдением, поскольку оно определяется на основе всех наблюдений. Если известно среднее значение совокупности , аналогичная несмещенная оценка

используя среднее значение генеральной совокупности, имеет в знаменателе. Это пример того, почему в теории вероятности и статистике важно различать случайные величины (заглавные буквы) и реализации случайных величин (строчные буквы).

Оценка максимального правдоподобия ковариации

для случая распределения Гаусса также N в знаменателе. Отношение 1/ N к 1/( N  − 1) приближается к 1 для больших  N , поэтому оценка максимального правдоподобия примерно равна несмещенной оценке, когда выборка велика.

Распределение выборочного среднего

Для каждой случайной величины выборочное среднее является хорошей оценкой генерального среднего значения, причем «хорошая» оценка определяется как эффективная и несмещенная. Конечно, оценщик, скорее всего, не будет истинным значением генерального среднего, поскольку разные выборки, взятые из одного и того же распределения, будут давать разные выборочные средние и, следовательно, разные оценки истинного среднего. Таким образом, выборочное среднее является случайной величиной , а не константой и, следовательно, имеет собственное распределение. Для случайной выборки из N наблюдений по j- й случайной величине само распределение выборочного среднего имеет среднее значение, равное среднему значению генеральной совокупности, и дисперсию, равную , где - дисперсия генеральной совокупности.

Среднее арифметическое населения , или среднее значение населения, часто обозначается μ . [2] Выборочное среднее (среднее арифметическое выборки значений, взятых из генеральной совокупности) является хорошей оценкой среднего генеральной совокупности, поскольку ее ожидаемое значение равно среднему генеральной совокупности (то есть это несмещенная оценка ). Среднее значение выборки является случайной величиной , а не константой, поскольку ее расчетное значение будет случайным образом различаться в зависимости от того, какие члены генеральной совокупности отбираются в выборку, и, следовательно, оно будет иметь свое собственное распределение. Для случайной выборки из n независимых наблюдений ожидаемое значение выборочного среднего равно

а дисперсия выборочного среднего равна

Если выборки не независимы, а коррелированы , то необходимо соблюдать особую осторожность, чтобы избежать проблемы псевдорепликации .

Если совокупность распределена нормально , то выборочное среднее обычно распределяется следующим образом:

Если совокупность не имеет нормального распределения, выборочное среднее, тем не менее, имеет приблизительно нормальное распределение, если n велико и  σ2 / n < +  . Это следствие центральной предельной теоремы .

Взвешенные выборки

Во взвешенной выборке каждому вектору (каждому набору отдельных наблюдений по каждой из K случайных величин) присваивается вес . Без ограничения общности предположим, что веса нормализованы :

(Если это не так, разделите веса на их сумму). Тогда взвешенный средний вектор определяется выражением

а элементы взвешенной ковариационной матрицы равны [3]

Если все веса одинаковы, средневзвешенное значение и ковариация сводятся к (смещенному) выборочному среднему значению и ковариации, упомянутым выше.

Критика

Выборочное среднее и выборочная ковариация не являются надежными статистическими данными , а это означает, что они чувствительны к выбросам . Поскольку надежность часто является желательной характеристикой, особенно в реальных приложениях, желательными могут оказаться надежные альтернативы, в частности статистика на основе квантилей , такая как выборочная медиана для местоположения [4] и межквартильный диапазон (IQR) для дисперсии. Другие альтернативы включают обрезку и Winsorising , например, усеченное среднее и Winsorized среднее .

Смотрите также

Рекомендации

  1. ^ Ричард Арнольд Джонсон; Дин В. Вичерн (2007). Прикладной многомерный статистический анализ. Пирсон Прентис Холл. ISBN 978-0-13-187715-3. Проверено 10 августа 2012 г.
  2. ^ Андерхилл, LG; Брэдфилд Д. (1998) Introstat , Juta and Company Ltd. ISBN 0-7021-3838-X стр. 181 
  3. ^ Марк Галасси, Джим Дэвис, Джеймс Тейлер, Брайан Гоф, Джерард Юнгман, Майкл Бут и Фабрис Росси. Научная библиотека GNU — Справочное руководство, версия 2.6, 2021 г. Статистика раздела: Взвешенные выборки
  4. ^ Всемирный центр вопросов 2006: Выборочное среднее, Барт Коско