stringtranslate.com

Стандартная ошибка

Для значения, которое выбрано с несмещенной нормально распределенной ошибкой, приведенное выше отражает долю выборок, которые будут находиться в пределах 0, 1, 2 и 3 стандартных отклонений выше и ниже фактического значения.

Стандартная ошибка ( SE ) [1] статистики (обычно оценка параметра ) — это стандартное отклонение выборочного распределения [2] или оценка этого стандартного отклонения . Если статистика является выборочным средним, она называется стандартной ошибкой среднего ( SEM ). [1] Стандартная ошибка является ключевым фактором при построении доверительных интервалов . [3]

Выборочное распределение среднего получается путем повторной выборки из одной и той же совокупности и записи полученных выборочных средних. Это формирует распределение различных средних значений, и это распределение имеет свое среднее значение и дисперсию . Математически дисперсия полученного распределения выборочного среднего равна дисперсии генеральной совокупности, деленной на размер выборки. Это связано с тем, что по мере увеличения размера выборки средние значения выборки более тесно группируются вокруг среднего значения генеральной совокупности.

Следовательно, связь между стандартной ошибкой среднего и стандартным отклонением такова, что для данного размера выборки стандартная ошибка среднего равна стандартному отклонению, деленному на квадратный корень из размера выборки. [1] Другими словами, стандартная ошибка среднего является мерой дисперсии выборочных средних вокруг среднего значения генеральной совокупности.

В регрессионном анализе термин «стандартная ошибка» относится либо к квадратному корню из приведенной статистики хи-квадрат , либо к стандартной ошибке для определенного коэффициента регрессии (как, например, в доверительных интервалах ).

Стандартная ошибка выборочного среднего

Точное значение

Предположим, что статистически независимая выборка наблюдений взята из статистической совокупности со стандартным отклонением . Среднее значение, рассчитанное по выборке, будет иметь соответствующую стандартную ошибку среднего значения , определяемую следующим выражением: [1]

На практике это говорит нам о том, что при попытке оценить значение генеральной совокупности из-за фактора уменьшение ошибки оценки в два раза требует получения в четыре раза большего количества наблюдений в выборке; уменьшение его в десять раз требует в сто раз больше наблюдений.

Оценивать

Стандартное отклонение выборки генеральной совокупности редко известно. Следовательно, стандартная ошибка среднего значения обычно оценивается путем замены стандартным отклонением выборки :

Поскольку это всего лишь оценка истинной «стандартной ошибки», здесь часто можно увидеть другие обозначения, такие как:

Распространенным источником путаницы является невозможность провести четкое различие между:

Точность оценщика

Когда размер выборки невелик, использование стандартного отклонения выборки вместо истинного стандартного отклонения генеральной совокупности приведет к систематической недооценке стандартного отклонения генеральной совокупности, а, следовательно, и стандартной ошибки. При n = 2 занижение составляет около 25%, а при n = 6 занижение составляет всего 5%. Гурланд и Трипати (1971) представили поправку и уравнение для этого эффекта. [4] Сокал и Рольф (1981) приводят уравнение поправочного коэффициента для небольших выборок с n < 20. [5] Для дальнейшего обсуждения см. несмещенную оценку стандартного отклонения .

Вывод

Стандартная ошибка среднего может быть получена из дисперсии суммы независимых случайных величин [6] с учетом определения дисперсии и некоторых ее свойств . Если это выборка независимых наблюдений из совокупности со средним и стандартным отклонением , то мы можем определить общее количество

формуле Бьенеме

Тогда дисперсия среднего

Стандартная ошибка — это, по определению, стандартное отклонение, которое представляет собой квадратный корень из дисперсии:

Для коррелированных случайных величин выборочную дисперсию необходимо вычислять в соответствии с центральной предельной теоремой цепи Маркова .

Независимые и одинаково распределенные случайные величины со случайным размером выборки

Бывают случаи, когда выборку берут, не зная заранее, сколько наблюдений будет приемлемым по какому-либо критерию. В таких случаях размер выборки представляет собой случайную величину, вариация которой добавляется к вариации такой, что:

[7]закона полной дисперсии

Если имеет распределение Пуассона , то с оценщиком . Следовательно, оценка становится , что приводит к следующей формуле для стандартной ошибки:

Приближение Стьюдента, когда значение σ неизвестно

Во многих практических приложениях истинное значение σ неизвестно. В результате нам необходимо использовать распределение, которое учитывает этот разброс возможных σ's . Когда известно, что истинное основное распределение является гауссовским, хотя и с неизвестным σ, тогда результирующее расчетное распределение соответствует t-распределению Стьюдента. Стандартная ошибка — это стандартное отклонение t-распределения Стьюдента. Т-распределения немного отличаются от гауссового и варьируются в зависимости от размера выборки. Небольшие выборки с несколько большей вероятностью недооценивают стандартное отклонение генеральной совокупности и имеют среднее значение, отличающееся от истинного среднего генерального значения, а t-распределение Стьюдента учитывает вероятность этих событий с несколько более тяжелыми хвостами по сравнению с гауссовым. Чтобы оценить стандартную ошибку t-распределения Стьюдента, достаточно использовать выборочное стандартное отклонение «s» вместо σ , и мы могли бы использовать это значение для расчета доверительных интервалов.

Примечание. Распределение вероятностей Стьюдента хорошо аппроксимируется распределением Гаусса, когда размер выборки превышает 100. Для таких выборок можно использовать последнее распределение, которое намного проще. Кроме того, даже несмотря на то, что «истинное» распределение генеральной совокупности неизвестно, предположение о нормальности выборочного распределения имеет смысл для разумного размера выборки и при определенных условиях выборки, см. CLT . Если эти условия не выполняются, то использование распределения Bootstrap для оценки стандартной ошибки часто является хорошим решением, но оно может потребовать больших вычислительных ресурсов.

Предположения и использование

Примером использования является определение средних доверительных интервалов неизвестной совокупности. Если выборочное распределение нормально распределено , выборочное среднее, стандартная ошибка и квантили нормального распределения могут использоваться для расчета доверительных интервалов для истинного генерального среднего. Следующие выражения можно использовать для расчета верхнего и нижнего 95% доверительного интервала, где равно выборочному среднему значению, равно стандартной ошибке выборочного среднего значения, а 1,96 — приблизительному значению 97,5 процентильной точки нормального значения . распределение :

В частности, стандартная ошибка выборочной статистики (например, выборочного среднего ) — это фактическое или расчетное стандартное отклонение выборочного среднего в процессе, посредством которого оно было создано. Другими словами, это фактическое или предполагаемое стандартное отклонение выборочного распределения выборочной статистики. Обозначением стандартной ошибки может быть любое из SE, SEM (стандартная ошибка измерения или среднего значения ) или SE .

Стандартные ошибки обеспечивают простые меры неопределенности значения и часто используются, потому что:

Стандартная ошибка среднего по сравнению со стандартным отклонением

В научно-технической литературе экспериментальные данные часто обобщаются либо с использованием среднего и стандартного отклонения выборочных данных, либо среднего со стандартной ошибкой. Это часто приводит к путанице в отношении их взаимозаменяемости. Однако среднее значение и стандартное отклонение являются описательной статистикой , тогда как стандартная ошибка среднего описывает процесс случайной выборки. Стандартное отклонение данных выборки представляет собой описание вариации измерений, тогда как стандартная ошибка среднего значения представляет собой вероятностное утверждение о том, как размер выборки обеспечит лучшую оценку оценок среднего значения генеральной совокупности в свете центрального предела. теорема. [8]

Проще говоря, стандартная ошибка выборочного среднего значения — это оценка того, насколько далеко выборочное среднее значение может находиться от среднего значения генеральной совокупности, тогда как стандартное отклонение выборки — это степень, в которой отдельные лица в выборке отличаются от выборочного среднего значения. [9] Если стандартное отклонение генеральной совокупности конечно, стандартная ошибка среднего значения выборки будет стремиться к нулю с увеличением размера выборки, поскольку оценка среднего значения генеральной совокупности улучшится, в то время как стандартное отклонение выборки будет иметь тенденцию приближаться к нулю. стандартное отклонение генеральной совокупности по мере увеличения размера выборки.

Расширения

Конечная популяционная коррекция (FPC)

Приведенная выше формула стандартной ошибки предполагает, что популяция бесконечна. Тем не менее, его часто используют для конечных популяций, когда люди заинтересованы в измерении процесса, который создал существующую конечную популяцию (это называется аналитическим исследованием ). Хотя приведенная выше формула не совсем правильна, когда популяция конечна, разница между версиями с конечной и бесконечной популяцией будет небольшой, когда доля выборки мала (например, изучается небольшая часть конечной популяции). В этом случае люди часто не делают поправку на конечную популяцию, по сути рассматривая ее как «приблизительно бесконечную» популяцию.

Если кто-то заинтересован в измерении существующей конечной популяции, которая не будет меняться с течением времени, тогда необходимо внести поправку на размер популяции (так называемое переписное исследование ). Когда доля выборки (часто называемая f ) велика (приблизительно 5% или более) в перечислительном исследовании , оценка стандартной ошибки должна быть скорректирована путем умножения на «конечную популяционную поправку» (также известную как FPC ): [10] [11]

N
равенN.

Это происходит в методологии обследования при выборке без замещения . Если выборка с заменой, то FPC в дело не играет.

Поправка на корреляцию в выборке

Ожидаемая ошибка среднего значения A для выборки из n точек данных с коэффициентом систематической ошибки выборки  ρ . Несмещенная стандартная ошибка отображается в виде диагональной линии ρ  = 0 с логарифмическим наклоном − 12 .

Если значения измеряемой величины A не являются статистически независимыми, но были получены из известных мест в пространстве параметров  x , несмещенная оценка истинной стандартной ошибки среднего значения (фактически поправка на часть стандартного отклонения) может быть получена путем умножения рассчитанная стандартная ошибка выборки по коэффициенту  f :

автокорреляции Прайса – Уинстена[12]несмещенную оценку стандартного отклонения

Смотрите также

Рекомендации

  1. ^ abcd Альтман, Дуглас Дж; Бланд, Дж. Мартин (15 октября 2005 г.). «Стандартные отклонения и стандартные ошибки». BMJ: Британский медицинский журнал . 331 (7521): 903. doi :10.1136/bmj.331.7521.903. ISSN  0959-8138. ПМЦ  1255808 . ПМИД  16223828.
  2. ^ Эверитт, Б.С. (2003). Кембриджский статистический словарь . Издательство Кембриджского университета. ISBN 978-0-521-81099-9.
  3. ^ Вулдридж, Джеффри М. (2023). «Что такое стандартная ошибка? (И как ее вычислять?)». Журнал эконометрики . 237 (2, часть А). doi :10.1016/j.jeconom.2023.105517. ISSN  0304-4076.
  4. ^ Гурланд, Дж; Трипати RC (1971). «Простое приближение для несмещенной оценки стандартного отклонения». Американский статистик . 25 (4): 30–32. дои : 10.2307/2682923. JSTOR  2682923.
  5. ^ Сокаль; Рольф (1981). Биометрия: принципы и практика статистики в биологических исследованиях (2-е изд.). п. 53. ИСБН 978-0-7167-1254-1.
  6. ^ Хатчинсон, Т.П. (1993). Основы статистических методов, на 41 странице . Аделаида: Рамсби. ISBN 978-0-646-12621-0.
  7. ^ Корнелл, младший; Бенджамин, Калифорния (1970). Вероятность, статистика и решения для инженеров-строителей . Нью-Йорк: МакГроу-Хилл. стр. 178–179. ISBN 0486796094.
  8. ^ Барде, М. (2012). «Что использовать, чтобы выразить изменчивость данных: стандартное отклонение или стандартную ошибку среднего?». Перспектива. Клин. Рез. 3 (3): 113–116. дои : 10.4103/2229-3485.100662 . ПМЦ 3487226 . ПМИД  23125963.  
  9. ^ Вассертайль-Смоллер, Сильвия (1995). Биостатистика и эпидемиология: Учебник для работников здравоохранения (второе изд.). Нью-Йорк: Спрингер. стр. 40–43. ISBN 0-387-94388-9.
  10. ^ Иссерлис, Л. (1918). «О значении среднего значения, рассчитанного на основе выборки». Журнал Королевского статистического общества . 81 (1): 75–81. дои : 10.2307/2340569. JSTOR  2340569.(Уравнение 1)
  11. ^ Бонди, Уоррен; Злот, Уильям (1976). «Стандартная ошибка среднего значения и разница между средними значениями для конечных популяций». Американский статистик . 30 (2): 96–97. дои : 10.1080/00031305.1976.10479149. JSTOR  2683803.(Уравнение 2)
  12. ^ Бенс, Джеймс Р. (1995). «Анализ коротких временных рядов: поправка на автокорреляцию». Экология . 76 (2): 628–639. дои : 10.2307/1941218. JSTOR  1941218.