Выборочное среднее и ковариация

Выборочное среднее ( выборочное среднее ) или эмпирическое среднее ( эмпирическое среднее ), а также выборочная ковариация или эмпирическая ковариация — это статистические данные, вычисляемые на основе выборки данных по одной или нескольким случайным величинам .

Выборочное среднее значение — это среднее значение (или среднее значение ) выборки чисел , взятых из более крупной совокупности чисел, где «совокупность» означает не количество людей, а всю совокупность соответствующих данных, собранных или нет. Выборка продаж 40 компаний из списка Fortune 500 может быть использована для удобства вместо рассмотрения совокупности, продаж всех 500 компаний. Выборочное среднее используется в качестве оценщика для среднего значения совокупности, среднего значения во всей совокупности, где оценка, скорее всего, будет близка к среднему значению совокупности, если выборка большая и репрезентативная. Надежность выборочного среднего оценивается с использованием стандартной ошибки , которая, в свою очередь, рассчитывается с использованием дисперсии выборки. Если выборка случайная, стандартная ошибка уменьшается с размером выборки, а распределение выборочного среднего приближается к нормальному распределению по мере увеличения размера выборки.

Термин «выборочное среднее» также может использоваться для обозначения вектора средних значений, когда статистик рассматривает значения нескольких переменных в выборке, например, продажи, прибыль и сотрудников выборки компаний из списка Fortune 500. В этом случае существует не просто выборочная дисперсия для каждой переменной, но и выборочная дисперсионно-ковариационная матрица (или просто ковариационная матрица ), показывающая также связь между каждой парой переменных. Это будет матрица 3×3, когда рассматриваются 3 переменные. Выборочная ковариация полезна для оценки надежности выборочных средних значений как оценщиков, а также полезна для оценки ковариационной матрицы популяции.

Благодаря простоте расчета и другим желательным характеристикам выборочное среднее значение и выборочная ковариация широко используются в статистике для представления местоположения и дисперсии распределения значений в выборке, а также для оценки значений для генеральной совокупности.

Определение выборочного среднего

Выборочное среднее значение — это среднее значение переменной в выборке, которое является суммой этих значений, деленной на количество значений. Используя математическую нотацию, если выборка из N наблюдений переменной X взята из генеральной совокупности, выборочное среднее значение равно:

{\bar {X}}={\frac {1}{N}}\sum _{i=1}^{N}X_{i}.

Согласно этому определению, если выборка (1, 4, 1) взята из совокупности (1, 1, 3, 4, 0, 2, 1, 0), то среднее выборки равно , по сравнению со средним значением совокупности . Даже если выборка случайна, она редко бывает идеально репрезентативной, и другие выборки будут иметь другие средние выборки, даже если все выборки были из одной и той же совокупности. Например, выборка (2, 1, 0) будет иметь среднее выборки 1. ${\bar {x}}=(1+4+1)/3=2$ $\mu =(1+1+3+4+0+2+1+0)/8=12/8=1.5$

Если статистику интересны K переменные, а не одна, каждое наблюдение имеет значение для каждой из этих K переменных, общее выборочное среднее состоит из K выборочных средних для отдельных переменных. Пусть будет i ^-м независимо взятым наблюдением ( i =1,..., N ) для j ^-й случайной величины ( j =1,..., K ). Эти наблюдения можно организовать в N векторов-столбцов, каждый с K элементами, при этом вектор-столбец K × 1 дает i -е наблюдения всех переменных, обозначенных ( i =1,..., N ). $x_{ij}$ $\mathbf {x} _{i}$

Вектор выборочного среднего представляет собой вектор-столбец, j -й элемент которого представляет собой среднее значение N наблюдений j ^-й переменной: $\mathbf {\bar {x}}$ ${\bar {x}}_{j}$

{\bar {x}}_{j}={\frac {1}{N}}\sum _{i=1}^{N}x_{ij},\quad j=1,\ldots ,K.

Таким образом, вектор выборочного среднего содержит среднее значение наблюдений для каждой переменной и записывается как

\mathbf {\bar {x}} ={\frac {1}{N}}\sum _{i=1}^{N}\mathbf {x} _{i}={\begin{bmatrix}{\bar {x}}_{1}\\\vdots \\{\bar {x}}_{j}\\\vdots \\{\bar {x}}_{K}\end{bmatrix}}

Определение выборочной ковариации

Матрица ковариации выборки представляет собой матрицу размером K на K с записями $\textstyle \mathbf {Q} =\left[q_{jk}\right]$

q_{jk}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right),

где — оценка ковариации между j $-$ ^й переменной и $k$ ^-й переменной совокупности, лежащей в основе данных. В терминах векторов наблюдения выборочная ковариация равна $q_{jk}$

\mathbf {Q} ={1 \over {N-1}}\sum _{i=1}^{N}(\mathbf {x} _{i}.-\mathbf {\bar {x}} )(\mathbf {x} _{i}.-\mathbf {\bar {x}} )^{\mathrm {T} },

Альтернативно, можно расположить векторы наблюдения как столбцы матрицы, так что

\mathbf {F} ={\begin{bmatrix}\mathbf {x} _{1}&\mathbf {x} _{2}&\dots &\mathbf {x} _{N}\end{bmatrix}}

которая представляет собой матрицу из K строк и N столбцов. Здесь выборочная ковариационная матрица может быть вычислена как

\mathbf {Q} ={\frac {1}{N-1}}(\mathbf {F} -\mathbf {\bar {x}} \,\mathbf {1} _{N}^{\mathrm {T} })(\mathbf {F} -\mathbf {\bar {x}} \,\mathbf {1} _{N}^{\mathrm {T} })^{\mathrm {T} }

где — вектор единиц размером N на $1.$ Если наблюдения расположены в виде строк, а не столбцов, то теперь это вектор-строка размером 1× K , а — матрица размером N × K , столбец j которой — вектор из N наблюдений переменной j , то применение транспонирования в соответствующих местах дает $\mathbf {1} _{N}$ $\mathbf {\bar {x}}$ $\mathbf {M} =\mathbf {F} ^{\mathrm {T} }$

\mathbf {Q} ={\frac {1}{N-1}}(\mathbf {M} -\mathbf {1} _{N}\mathbf {\bar {x}} )^{\mathrm {T} }(\mathbf {M} -\mathbf {1} _{N}\mathbf {\bar {x}} ).

Подобно ковариационным матрицам для случайного вектора , выборочные ковариационные матрицы являются положительно полуопределенными . Чтобы доказать это, отметим, что для любой матрицы матрица является положительно полуопределенной. Более того, ковариационная матрица является положительно определенной тогда и только тогда, когда ранг векторов равен K. $\mathbf {A}$ $\mathbf {A} ^{T}\mathbf {A}$ $\mathbf {x} _{i}.-\mathbf {\bar {x}}$

Непредвзятость

Выборочное среднее и выборочная ковариационная матрица являются несмещенными оценками среднего и ковариационной матрицы случайного вектора , вектора-строки, j ^-й элемент которого ( j = 1, ..., K ) является одной из случайных величин. ^[1] Выборочная ковариационная матрица имеет в знаменателе, а не из-за варианта поправки Бесселя : Короче говоря, выборочная ковариация основана на разнице между каждым наблюдением и выборочным средним, но выборочное среднее слегка коррелирует с каждым наблюдением, поскольку оно определяется в терминах всех наблюдений. Если известно среднее значение совокупности , то аналогичная несмещенная оценка $\textstyle \mathbf {X}$ $\textstyle N-1$ $\textstyle N$ $\operatorname {E} (\mathbf {X} )$

q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-\operatorname {E} (X_{j})\right)\left(x_{ik}-\operatorname {E} (X_{k})\right),

используя среднее значение популяции, имеет в знаменателе. Это пример того, почему в теории вероятности и статистике важно различать случайные величины (заглавные буквы) и реализации случайных величин (строчные буквы). $\textstyle N$

Оценка максимального правдоподобия ковариации

q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right)

для случая гауссовского распределения в знаменателе также есть N. Отношение 1/ N к 1/( N − 1) приближается к 1 для больших N , поэтому оценка максимального правдоподобия приблизительно равна несмещенной оценке, когда выборка большая.

Распределение выборочного среднего

Для каждой случайной величины среднее выборки является хорошей оценкой среднего значения совокупности, где «хорошая» оценка определяется как эффективная и несмещенная. Конечно, оценка, скорее всего, не будет истинным значением среднего значения совокупности , поскольку разные выборки, взятые из одного и того же распределения, дадут разные средние значения выборки и, следовательно, разные оценки истинного среднего значения. Таким образом, среднее выборки является случайной величиной , а не константой, и, следовательно, имеет свое собственное распределение. Для случайной выборки из N наблюдений j ^-й случайной величины само распределение среднего выборки имеет среднее значение, равное среднему значению совокупности , и дисперсию, равную , где — дисперсия совокупности. $E(X_{j})$ $\sigma _{j}^{2}/N$ $\sigma _{j}^{2}$

Среднее арифметическое генеральной совокупности или среднее генеральной совокупности часто обозначается μ . ^[2] Среднее арифметическое выборки (среднее арифметическое выборки значений, взятых из генеральной совокупности) является хорошей оценкой среднего генеральной совокупности, поскольку ее ожидаемое значение равно среднему генеральной совокупности (то есть это несмещенная оценка ). Среднее выборочной совокупности является случайной величиной , а не константой, поскольку ее вычисленное значение будет случайным образом различаться в зависимости от того, какие члены генеральной совокупности были отобраны, и, следовательно, оно будет иметь свое собственное распределение. Для случайной выборки из n независимых наблюдений ожидаемое значение среднего выборки равно ${\bar {x}}$

\operatorname {E} ({\bar {x}})=\mu

а дисперсия выборочного среднего равна

\operatorname {var} ({\bar {x}})={\frac {\sigma ^{2}}{n}}.

Если образцы не являются независимыми, а коррелируют , то необходимо соблюдать особую осторожность, чтобы избежать проблемы псевдорепликации .

Если генеральная совокупность распределена нормально , то выборочное среднее значение нормально распределено следующим образом:

{\bar {x}}\thicksim N\left\{\mu ,{\frac {\sigma ^{2}}{n}}\right\}.

Если популяция не распределена нормально, то выборочное среднее все равно приблизительно распределено нормально, если n велико и σ ² / n < +∞. Это следствие центральной предельной теоремы .

Взвешенные образцы

В взвешенной выборке каждому вектору (каждому набору отдельных наблюдений по каждой из K случайных величин) присваивается вес . Без потери общности предположим, что веса нормализованы : $\textstyle {\textbf {x}}_{i}$ $\textstyle w_{i}\geq 0$

\sum _{i=1}^{N}w_{i}=1.

(Если это не так, разделите веса на их сумму). Тогда средневзвешенный вектор определяется как $\textstyle \mathbf {\bar {x}}$

\mathbf {\bar {x}} =\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}.

а элементы взвешенной ковариационной матрицы равны ^[3] $q_{jk}$ $\textstyle \mathbf {Q}$

q_{jk}={\frac {1}{1-\sum _{i=1}^{N}w_{i}^{2}}}\sum _{i=1}^{N}w_{i}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right).

Если все веса одинаковы, то взвешенное среднее значение и ковариация сводятся к (смещенному) выборочному среднему значению и ковариации, упомянутым выше. $\textstyle w_{i}=1/N$

Критика

Выборочное среднее и выборочная ковариация не являются надежными статистиками , что означает, что они чувствительны к выбросам . Поскольку надежность часто является желаемой чертой, особенно в реальных приложениях, надежными альтернативами могут оказаться желательные, в частности, квантильные статистики, такие как выборочная медиана для местоположения, ^[4] и межквартильный размах (IQR) для дисперсии. Другие альтернативы включают обрезку и Winsorising , как в урезанном среднем и Winsorized среднем .

Смотрите также

Ссылки

^ Ричард Арнольд Джонсон; Дин В. Вихерн (2007). Прикладной многомерный статистический анализ. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Получено 10 августа 2012 г.
^ Андерхилл, LG; Брэдфилд Д. (1998) Introstat , Juta and Company Ltd. ISBN 0-7021-3838-X стр. 181
^ Марк Галасси, Джим Дэвис, Джеймс Тейлер, Брайан Гоф, Джерард Юнгман, Майкл Бут и Фабрис Росси. GNU Scientific Library - Справочное руководство, версия 2.6, 2021. Раздел Статистика: Взвешенные выборки
^ Всемирный центр вопросов 2006: Выборочное среднее, Барт Коско