В статистике стандартная оценка — это количество стандартных отклонений , на которые значение исходной оценки (т. е. наблюдаемое значение или точка данных) выше или ниже среднего значения того, что наблюдается или измеряется. Необработанные баллы выше среднего имеют положительные стандартные баллы, а те, которые ниже среднего, имеют отрицательные стандартные баллы.
Он рассчитывается путем вычитания среднего значения совокупности из индивидуального исходного балла и последующего деления разницы на стандартное отклонение совокупности . Этот процесс преобразования исходной оценки в стандартную оценку называется стандартизацией или нормализацией (однако «нормализация» может относиться ко многим типам отношений; дополнительную информацию см. в разделе «Нормализация» ).
Стандартные оценки чаще всего называются z -показателями ; эти два термина могут использоваться как взаимозаменяемые, как и в этой статье. Другие эквивалентные термины, используемые в физике высоких энергий, включают z-значение , z-статистику , нормальную оценку , стандартизированную переменную и притяжение . [1] [2]
Для расчета z-показателя требуется знание среднего и стандартного отклонения всей совокупности, к которой принадлежит точка данных; если у вас есть только выборка наблюдений из совокупности, то аналогичное вычисление с использованием выборочного среднего и выборочного стандартного отклонения дает t -статистику .
Если известно среднее значение генеральной совокупности и стандартное отклонение генеральной совокупности, необработанный балл x преобразуется в стандартный балл с помощью [3]
где:
Абсолютное значение z представляет собой расстояние между этим исходным показателем x и средним значением генеральной совокупности в единицах стандартного отклонения. z является отрицательным, когда исходный балл ниже среднего, и положительным, когда выше среднего.
Для расчета z с использованием этой формулы необходимо использовать среднее значение генеральной совокупности и стандартное отклонение генеральной совокупности, а не выборочное среднее или выборочное отклонение. Однако знание истинного среднего значения и стандартного отклонения популяции часто является нереалистичным ожиданием, за исключением таких случаев, как стандартизированное тестирование , когда измеряется вся совокупность.
Когда среднее значение генеральной совокупности и стандартное отклонение генеральной совокупности неизвестны, стандартный балл можно оценить, используя выборочное среднее значение и стандартное отклонение выборки в качестве оценок значений генеральной совокупности. [4] [5] [6] [7]
В этих случаях z -показатель определяется выражением
где:
Хотя это всегда следует констатировать, различие между использованием статистики генеральной совокупности и выборочной статистики часто не проводится. В любом случае числитель и знаменатель уравнений имеют одинаковые единицы измерения, так что единицы сокращаются при делении, а z остается безразмерной величиной .
Z-показатель часто используется в z-тесте стандартизированного тестирования – аналоге t-критерия Стьюдента для популяции, параметры которой известны, а не оцениваются. Поскольку знание всей совокупности очень необычно, t-критерий используется гораздо более широко.
Стандартную оценку можно использовать при расчете интервалов прогнозирования . Интервал прогнозирования [ L , U ], состоящий из нижней конечной точки, обозначенной L , и верхней конечной точки, обозначенной U , представляет собой интервал, в котором будущее наблюдение X будет лежать в интервале с высокой вероятностью , т.е.
Для стандартной оценки Z из X это дает: [8]
Определив квантиль z такой, что
следует:
В приложениях управления процессами значение Z дает оценку степени отклонения процесса от запланированного.
Когда баллы измеряются по разным шкалам, их можно преобразовать в z-показатели, чтобы облегчить сравнение. Дитц и др. [9] приводят следующий пример, сравнивая результаты учащихся по (старым) школьным тестам SAT и ACT . В таблице показано среднее и стандартное отклонение общего количества баллов по SAT и ACT. Предположим, что студент А набрал 1800 баллов по SAT, а студент Б — 24 балла по ACT. Какой студент показал лучшие результаты по сравнению с другими участниками теста?
Z-показатель для студента А равен
Z-показатель для студента Б равен
Поскольку у студента А более высокий z-показатель, чем у студента Б, студент А показал лучшие результаты по сравнению с другими участниками теста, чем студент Б.
Продолжая пример с баллами ACT и SAT, если можно предположить, что баллы как ACT, так и SAT нормально распределены (что приблизительно верно), тогда z-показатели можно использовать для расчета процента тестируемых, получивших более низкую оценку. баллы, чем у студентов А и Б.
«Для некоторых многомерных методов, таких как многомерное масштабирование и кластерный анализ, концепция расстояния между единицами данных часто представляет значительный интерес и важность… Когда переменные в многомерном наборе данных находятся в разных масштабах, имеет больше смысла рассчитывать расстояния после некоторой формы стандартизации». [10]
При анализе главных компонентов «переменные, измеренные в разных масштабах или в общей шкале с сильно различающимися диапазонами, часто стандартизируются». [11]
Стандартизация переменных перед множественным регрессионным анализом иногда используется в качестве вспомогательного средства для интерпретации. [12] (стр. 95) утверждают следующее.
«Наклон стандартизированной регрессии — это наклон уравнения регрессии, если X и Y стандартизированы… Стандартизация X и Y осуществляется путем вычитания соответствующих средних значений из каждого набора наблюдений и деления на соответствующие стандартные отклонения… В множественной регрессии, когда несколько Используются переменные X, стандартизированные коэффициенты регрессии количественно определяют относительный вклад каждой переменной X».
Однако Катнер и др. [13] (стр. 278) делают следующее предостережение: «…нужно с осторожностью интерпретировать любые коэффициенты регрессии, стандартизированные или нет. Причина в том, что, когда переменные-предикторы коррелируют между собой,… на коэффициенты регрессии влияют другие переменные-предикторы в модели... На величины стандартизированных коэффициентов регрессии влияет не только наличие корреляций между переменными-предикторами, но и интервалы наблюдений по каждой из этих переменных. Иногда эти интервалы могут быть совершенно произвольными. Следовательно, , обычно неразумно интерпретировать величины стандартизированных коэффициентов регрессии как отражающие сравнительную важность переменных-предикторов».
В математической статистике случайная величина X стандартизируется путем вычитания ее ожидаемого значения и деления разницы на ее стандартное отклонение .
Если рассматриваемая случайная величина является выборочным средним случайной выборки X :
тогда стандартизированная версия
В оценке образования T-показатель представляет собой стандартный балл Z, сдвинутый и масштабированный так, чтобы его среднее значение составляло 50, а стандартное отклонение - 10. [14] [15] [16] На японском языке он также известен как хенсати , где эта концепция гораздо более широко известен и используется при поступлении в среднюю школу и университет.
При измерении плотности костей Т-показатель представляет собой стандартный балл измерения по сравнению с популяцией здоровых 30-летних взрослых и имеет обычное среднее значение 0 и стандартное отклонение 1. [17]