stringtranslate.com

Глоссарий по вероятностям и статистике

Этот глоссарий статистики и вероятности представляет собой список определений терминов и концепций, используемых в математических науках статистики и вероятности , их субдисциплинах и смежных областях. Для дополнительных смежных терминов см. Глоссарий математики и Глоссарий экспериментального дизайна .

А

допустимое правило принятия решения
алгебра случайных величин
альтернативная гипотеза
дисперсионный анализ
атомное событие
Другое название элементарного события.

Б

столбчатая диаграмма
Теорема Байеса
Байесовский оценщик
Фактор Байеса
Байесовский вывод
предвзятость
1. Любая характеристика выборки, которая не является репрезентативной для генеральной совокупности.
2. Разница между ожидаемым значением оценщика и истинным значением.
двоичные данные
Данные, которые могут принимать только два значения, обычно представленные двоичными цифрами 0 и 1.
биномиальное распределение
двумерный анализ
Тип количественного статистического анализа, в котором анализируются ровно две переменные с целью определения эмпирической связи между ними. Контрастный многомерный анализ .
блокировка
В экспериментальном дизайне, организация экспериментальных единиц в группы («блоки»), которые похожи друг на друга. Блокировка часто используется для управления проблемой псевдорепликации.
Метод Бокса–Дженкинса
диаграмма ящика

С

причинно-следственное исследование
Статистическое исследование, целью которого является измерение влияния некоторой переменной на результат другой переменной. Например, причинное исследование может задавать вопрос: «Как будет ощущаться моя головная боль, если я приму аспирин, по сравнению с тем, если я не приму аспирин?» Причинные исследования могут быть либо экспериментальными, либо наблюдательными. [1]
центральная предельная теорема
центральный момент
характеристическая функция
распределение хи-квадрат
критерий хи-квадрат
кластерный анализ
кластерная выборка
дополнительное событие
полностью рандомизированный дизайн
вычислительная статистика
Изучение статистических методов, которые реализуются с помощью вычислительных методов на стыке статистики и информатики .
сопутствующие
В статистическом исследовании любые переменные, значения которых не зависят от экспериментального лечения, такие как возраст, пол и уровень холестерина субъекта до начала экспериментальной диеты. [1]
условное распределение
При наличии двух совместно распределенных случайных величин X и Y условное распределение вероятностей Y при условии X (пишется « Y | X ») — это распределение вероятностей Y , когда известно, что X имеет определенное значение.
условная вероятность
Вероятность некоторого события A, предполагающая наступление события B. В математической нотации условная вероятность записывается как P( A | B ) и читается как «вероятность A при условии B ».
условное распределение вероятностей
доверительный интервал (ДИ)
В выводной статистике диапазон вероятных значений для некоторого неизвестного параметра, такого как среднее значение популяции, определяемый как интервал с нижней границей и верхней границей. [2] Точные значения этих границ вычисляются на основе заранее определенного уровня достоверности, выбранного исследователем. Уровень достоверности представляет собой частоту интервалов, которые в долгосрочной перспективе охватывают истинное значение неизвестного параметра; т. е. 95% доверительных интервалов, вычисленных на уровне достоверности 95%, содержат истинное значение, и то же самое касается других уровней достоверности. Например, основываясь на исследовании привычек сна среди случайной выборки из 100 человек, исследователь может оценить на уровне достоверности 95%, что вся популяция спит где-то между 5 и 9 часами в сутки. Существует 95% вероятность того, что истинное среднее значение популяции попадет в этот интервал, потому что 95% случайных выборок, взятых из этой же популяции, дадут 95% доверительные интервалы, содержащие истинное среднее.
уровень уверенности

Также коэффициент достоверности .

Число, указывающее вероятность того, что доверительный интервал (диапазон) охватывает истинное среднее значение популяции. Например, доверительный интервал с уровнем достоверности 95% имеет 95%-ную вероятность охвата среднего значения популяции. Технически это означает, что если бы эксперимент повторялся много раз, 95% доверительных интервалов, вычисленных на этом уровне, содержали бы истинное среднее значение популяции. [2]
смущающий
Переменная, которая влияет как на зависимую, так и на независимую переменную, вызывая ложную связь. Существование скрытых смешивающих переменных является важным количественным объяснением того, почему корреляция не подразумевает причинно-следственную связь: если изменения двух переменных кажутся коррелированными, рискованно предполагать, что одно изменение вызывает другое, поскольку возможно, что один или несколько неопознанных смешивающих факторов на самом деле вызвали изменения обеих переменных. Классическим примером является корреляция между увеличением потребления мороженого и ростом преступности летом. Нерационально предполагать, что употребление большего количества мороженого заставляет людей совершать больше преступлений, или наоборот; более вероятно, что одна или несколько дополнительных переменных, например, более теплая погода, одновременно увеличивают и потребление мороженого, и преступность. В этом примере более теплая погода является смешивающим фактором.
сопряженный априор
непрерывная переменная
удобство выборки
корреляция

Также коэффициент корреляции .

Числовая мера силы линейной связи между двумя случайными величинами (ее можно использовать для количественной оценки, например, того, как размер обуви и рост коррелируют в популяции). Примером является коэффициент корреляции Пирсона , который находится путем деления ковариации двух переменных на произведение их стандартных отклонений. Независимые переменные, по определению, имеют корреляцию 0. Корреляция популяции часто обозначается символом , а выборочная корреляция — .</ref>
данные подсчета
Данные, возникающие в результате подсчета , и которые, следовательно, могут принимать только неотрицательные целые значения.
ковариация
Даны две случайные величины X и Y с ожидаемыми значениями и , ожидаемое значение случайной величины , записанное в статистической нотации как . Ковариация используется для измерения корреляции; ее можно интерпретировать как степень, в которой две переменные изменяются одновременно друг с другом или «ковариируют».

Д

данные
анализ данных
набор данных
Образец и связанные с ним точки данных.
точка данных
Типизированное измерение — это может быть логическое значение, действительное число, вектор (в этом случае он также называется вектором данных ) и т. д.
правило принятия решения
теория принятия решений
степени свободы
оценка плотности
зависимость
зависимая переменная
описательная статистика
дизайн экспериментов
отклонение
дискретная переменная
точечный график
двойной счет

Э

элементарное событие
Событие, которое содержит только один результат в пространстве выборки; в наборе возможностей возможность, которая может произойти ровно одним способом. Например, при вытягивании карты из стандартной колоды игральных карт «вытягивание пикового валета» является элементарным событием (потому что во всей колоде есть только один пиковый валет), тогда как «вытягивание короля или туза» — нет (потому что в колоде есть объединенные четыре короля и четыре туза).
теория оценки
Раздел статистики, занимающийся оценкой значений параметров на основе измеренных эмпирических данных со случайной составляющей. Параметры описывают базовую физическую обстановку таким образом, что их значения влияют на распределение измеренных данных; оценщик пытается использовать измерения для аппроксимации неизвестных параметров.
оценщик
Функция известных данных, которая используется для оценки неизвестного параметра; оценка — это результат фактического применения функции к определенному набору данных. Например, в качестве оценщика может использоваться среднее значение.
ожидаемое значение

Также ожидание , математическое ожидание , первый момент или просто среднее значение .

Сумма вероятностей каждого возможного результата эксперимента, умноженная на их соответствующую выплату или «значение». Таким образом, она представляет собой среднюю сумму, которую «ожидают» выиграть на ставку, если ставки с одинаковыми коэффициентами повторяются много раз. Например, ожидаемое значение броска честной шестигранной игральной кости составляет 3,5. Концепция, интуитивно, является обобщением средневзвешенного значения всех возможных результатов конкретной процедуры или эксперимента и может рассматриваться как среднее арифметическое большого числа независимых реализаций эксперимента. Ожидаемое значение случайной величины X обычно записывается как E(X) для оператора ожидания и ( mu ) для параметра.
эксперимент
Любая процедура, которая может повторяться бесконечно и имеет четко определенный набор результатов.
экспоненциальная семья
событие
Подмножество выборочного пространства процедуры или эксперимента (т. е. возможный результат), которому может быть назначена вероятность. Например, при бросании игральной кости «выпадение тройки» является событием (с вероятностью 16 , если игральная кость честная), как и «выпадение пятерки или шестерки» (с вероятностью 13 ).

Ф

факторный анализ
факторный эксперимент
частота
распределение частот
частотная область
частотный вывод

Г

общая линейная модель
обобщенная линейная модель
сгруппированные данные

ЧАС

гистограмма
Приблизительное графическое представление распределения числовых данных. Гистограмма отображает это распределение путем деления всего диапазона значений на ряд последовательных неперекрывающихся интервалов, а затем подсчета того, сколько экземпляров набора данных попадают в каждый интервал.
Гистограмма , показывающая распределение чаевых, данных в ресторане

я

независимость
независимая переменная
межквартильный размах (IQR)

Также средний спред , средний 50% и H-спред .

Мера статистической дисперсии или разброса набора данных, определяемая как разница между 25-м и 75-м процентилями данных. Для расчета IQR набор данных делится на четыре упорядоченных по рангу четных части или квартили, границы между которыми, на 25-м, 50-м и 75-м процентилях, обозначаются как 1 , 2 и 3 соответственно; IQR = 3 1 .

Дж.

совместное распределение
При наличии двух случайных величин X и Y совместное распределение X и Y представляет собой распределение вероятностей X и Y вместе.
совместная вероятность
Вероятность двух событий, происходящих вместе. Совместная вероятность A и B записывается или .

К

фильтр Калмана
ядро
оценка плотности ядра
эксцесс
Мера «хвоста» распределения вероятностей действительной случайной величины. Существуют различные способы количественной оценки, расчета и интерпретации эксцесса, но общепринятая интерпретация заключается в том, что эксцесс представляет собой степень, в которой форма распределения зависит от нечастых экстремальных наблюдений (выбросов); в этом случае более высокий эксцесс означает, что большая часть дисперсии обусловлена ​​нечастыми экстремальными отклонениями, в отличие от частых отклонений умеренного размера.

Л

L-момент
закон больших чисел (ЗБЧ)
Теорема, согласно которой среднее значение результатов, полученных при выполнении одного и того же эксперимента большое количество раз, должно быть близко к ожидаемому значению эксперимента и имеет тенденцию становиться ближе к ожидаемому значению по мере проведения большего количества испытаний. Закон предполагает, что для того, чтобы результаты любого эксперимента считались надежными, необходимо достаточно большое количество испытаний, и, следовательно, выполнение лишь небольшого количества испытаний может привести к неполной или вводящей в заблуждение интерпретации результатов эксперимента.
График, иллюстрирующий закон больших чисел : наблюдаемые результаты многократного бросания честной игральной кости (зеленая линия) быстро приближаются к теоретическому ожидаемому значению одиночного броска (синяя линия) по мере увеличения числа бросаний игральной кости.
функция правдоподобия
Условная функция вероятности, рассматриваемая как функция ее второго аргумента с фиксированным первым аргументом. Например, представьте, что вы вытаскиваете пронумерованный шар с номером k из мешка с n шарами, пронумерованными от 1 до n ; функция правдоподобия для случайной величины N может быть описана как вероятность вытаскивания k при условии, что имеется n шаров: вероятность будет 1/ n для n, больших или равных k , и 0 для n, меньших k . В отличие от функции распределения вероятностей, эта функция правдоподобия не будет давать в сумме 1 на выборочном пространстве.
функция потерь
тест отношения правдоподобия

М

М-оценщик
предельное распределение
При наличии двух совместно распределенных случайных величин X и Y предельное распределение X — это просто распределение вероятностей X, когда информация о Y игнорируется.
предельная вероятность
предельная вероятность
Вероятность данного события, игнорируя любую информацию о других событиях. Предельная вероятность A обозначается P ( A ). Противопоставляется условной вероятности .
Марковская цепь Монте-Карло
математическая статистика
оценка максимального правдоподобия
иметь в виду
1. Ожидаемое значение случайной величины.
2. Среднее арифметическое , т. е. математическое среднее набора числовых значений, вычисляемое путем деления суммы значений на количество значений.
медиана
медианное абсолютное отклонение
режим
скользящая средняя

А также скользящее среднее и скользящее среднее .

Серия математических средних значений или средних значений различных подмножеств более крупного набора данных, обычно вычисляемых для понимания тенденций в наборе данных с течением времени.
мультимодальное распределение
многомерный анализ
многомерная оценка плотности ядра
многомерная случайная величина
Вектор, компоненты которого являются случайными величинами в одном и том же вероятностном пространстве.
взаимная исключительность
взаимная независимость
Говорят, что набор событий взаимно независим , если для любого подмножества набора совместная вероятность всех событий равна произведению совместных вероятностей отдельных событий. Подумайте о результате серии подбрасываний монеты. Это более сильное условие, чем попарная независимость.

Н

непараметрическая регрессия
непараметрическая статистика
ошибка невыборки
нормальное распределение
нормальный график вероятности
нулевая гипотеза (H 0 )
Утверждение, проверяемое в тесте статистической значимости; обычно утверждение «нет эффекта» или «нет разницы». [3] Например, в тесте на то, влияет ли свет на сон, нулевая гипотеза будет заключаться в том, что свет не влияет на сон (т. е. режим сна одинаков независимо от условий освещения). Нулевая гипотеза является выражением ожидания того, что зависимая переменная не изменится существенно при изменении независимой переменной; статистическая значимость измеряется и сообщается в соответствии со степенью, в которой это ожидание выполняется. Противопоставьте альтернативную гипотезу .

О

опрос общественного мнения
оптимальное решение
Оптимальный дизайн
выброс

П

p-значение
попарная независимость
Набор случайных величин, любые две из которых независимы.
параметр
Любая измеренная величина статистической совокупности, которая суммирует или описывает аспект совокупности, например, среднее значение или стандартное отклонение; часто величина, которая должна быть оценена на основе соответствующей величины, рассчитанной путем взятия случайных выборок из совокупности. Может быть параметром совокупности, параметром распределения или ненаблюдаемым параметром.
фильтр частиц
процентиль
круговая диаграмма
оценка точки
власть
априорная вероятность
В байесовском выводе учитываются предыдущие убеждения или другая информация, доступная до появления новых данных или наблюдений.
параметр популяции
См. параметр .
апостериорная вероятность
Результат байесовского анализа , который включает в себя комбинацию априорных убеждений или информации (априорную вероятность) с наблюдаемыми данными.
Анализ главных компонент (PCA)
вероятность
плотность вероятности
Вероятность в непрерывном распределении вероятностей. Например, вы не можете сказать, что вероятность того, что рост человека составит шесть футов, составляет 20%, но вы можете сказать, что у него есть 20% шансов быть ростом от пяти до шести футов. Плотность вероятности задается функцией плотности вероятности. Сравните массу вероятности .
функция плотности вероятности
Распределение вероятностей для непрерывной случайной величины.
распределение вероятностей
Функция, которая вычисляет вероятность всех элементов в заданном пространстве; см. Список распределений вероятностей .
мера вероятности
Вероятность событий в вероятностном пространстве.
вероятностный график
вероятностное пространство
Пространство выборки, на котором определена мера вероятности.

В

квантиль
Конкретная точка или значение, в которой диапазон распределения вероятностей делится на непрерывные интервалы с равными вероятностями, или в которой наблюдения в выборке делятся таким же образом. Количество групп, на которые делится диапазон, всегда на единицу больше количества квантилей, разделяющих их. Обычно используемые квантили включают квартили (которые делят диапазон на четыре группы), децили (десять групп) и процентили (сто групп). Сами группы называются половинами, третями, четвертями и т. д., хотя термины для квантилей иногда используются для обозначения групп, а не точек отсечения.
квартиль
Тип квантиля, который делит диапазон точек данных на четыре группы, называемые четвертями , равного размера. Для любого набора данных, разделенного на квартиль, существует ровно три квартиля или точки отсечения, которые создают четыре группы. Первый квартиль ( 1 ) определяется как средняя точка данных или значение, которое находится на полпути между наименьшим значением (минимумом) и медианой набора данных, так что 25 процентов данных лежат ниже этого квартиля. Второй квартиль ( 2 ) — это сама медиана, при этом 50 процентов данных лежат ниже этой точки. Третий квартиль ( 3 ) определяется как среднее значение на полпути между медианой и наибольшим значением (максимумом) набора данных, так что 75 процентов данных лежат ниже этого квартиля. Поскольку данные должны быть упорядочены от наименьшего к наибольшему для их вычисления, квартили являются типом порядковой статистики.
Нормальное распределение, разделенное на три квартиля в четыре четверти. Обратите внимание, что каждая из четвертей занимает одинаковую общую площадь под кривой, равную 25 процентам распределения.
квотная выборка

Р

случайная величина
Измеримая функция на вероятностном пространстве, часто имеющая вещественные значения. Функция распределения случайной величины дает вероятность различных значений переменной. Среднее значение и дисперсия случайной величины также могут быть выведены. См. также дискретная случайная величина и непрерывная случайная величина.
рандомизированный блочный дизайн
диапазон
Длина наименьшего интервала, содержащего все данные.
рекурсивная байесовская оценка
регрессионный анализ
дизайн повторных мер
переменная ответа
Любая переменная, значение которой, как ожидается, будет затронуто экспериментальным лечением или изменениями в одной или нескольких других переменных; например, уровень холестерина после соблюдения определенной диеты в течение шести месяцев. Переменные отклика — это те, которые изменяются или реагируют на некоторое изучаемое явление. Этот термин часто используется взаимозаменяемо с зависимой переменной. [1]
ограниченная рандомизация
надежная статистика
ошибка округления

С

образец
Та часть популяции, которая фактически наблюдается.
выборочная ковариация
выборочное среднее
Среднее арифметическое выборки значений, взятых из совокупности, обычно обозначается как . Примером является средний тестовый балл подгруппы из 10 студентов из класса. Среднее выборки используется в качестве оценки среднего значения совокупности, которое в этом примере будет средним тестовым баллом всех студентов в классе.
образец пространства
Набор возможных результатов эксперимента. Например, выборочное пространство для бросания шестигранной кости будет {1, 2, 3, 4, 5, 6}.
выборка
Процесс выбора наблюдений для получения знаний о популяции. Существует много методов выбора выборки для проведения наблюдений.
смещение выборки
распределение выборки
Распределение вероятностей при повторном отборе выборки из совокупности для заданной статистики.
ошибка выборки
график рассеяния
параметр масштаба
уровень значимости
простая случайная выборка
Парадокс Симпсона
перекос
Мера асимметрии распределения вероятностей действительной случайной величины относительно ее среднего значения. Грубо говоря, распределение имеет положительный перекос (правый перекос), если верхний хвост длиннее, и отрицательный перекос (левый перекос), если нижний хвост длиннее. Идеально симметричные распределения всегда имеют нулевую перекос, хотя нулевой перекос не обязательно подразумевает симметричное распределение.
Среднее значение и медиана асимметричного распределения (слева и справа) могут существенно отличаться от значений симметричного распределения (в центре) с нулевой асимметрией.
спагетти-сюжет
смещение спектра
стандартное отклонение
Наиболее часто используемая мера статистической дисперсии. Это квадратный корень дисперсии, обычно обозначается строчной греческой буквой ( сигма ).
стандартная ошибка
стандартная оценка
статистика
Результат применения статистического алгоритма к набору данных. Его также можно описать как наблюдаемую случайную величину.
статистическая дисперсия
статистические графики
статистическая проверка гипотез
статистическая независимость
Два события независимы, если результат одного из них не влияет на результат другого (например, выпадение 1 при одном броске кубика не влияет на вероятность выпадения 1 при втором броске). Аналогично, когда мы утверждаем, что две случайные величины независимы, мы интуитивно подразумеваем, что знание чего-либо о значении одной из них не дает никакой информации о значении другой.
статистический вывод
Вывод о популяции, основанный на случайной выборке, взятой из этой популяции, или, в более общем плане, о случайном процессе, основанный на наблюдаемом поведении популяции в течение конечного периода времени.
статистическая модель
статистическая численность населения
Набор сущностей, о которых должны быть сделаны статистические выводы, часто на основе случайной выборки. Можно также говорить о совокупности измерений или значений.
статистическая дисперсия
Мера разнообразия в наборе данных, выраженная дисперсией или стандартным отклонением.
статистический параметр
Параметр, индексирующий семейство распределений вероятностей.
статистическая значимость
статистика
t-критерий Стьюдента
дисплей стебля и листьев
стратифицированная выборка
методология исследования
функция выживания
ошибка выживания
симметричное распределение вероятностей
систематическая выборка

Т

тестовая статистика
аккуратные данные
Стандарт для структурирования данных таким образом, что «каждая переменная является столбцом, каждое наблюдение является строкой, а каждый тип единицы наблюдения является таблицей». Это эквивалентно третьей нормальной форме Кодда . [4]
временная область
временной ряд
анализ временных рядов
прогнозирование временных рядов
лечения
Переменные в статистическом исследовании, которые концептуально манипулируются. Например, в исследовании здоровья следование определенной диете является лечением, а возраст — нет. [1]
пробный
Может относиться к каждому отдельному повторению, когда речь идет об эксперименте, состоящем из любого фиксированного числа подбрасываний монеты. Например, можно представить себе эксперимент, состоящий из любого числа подбрасываний от одного до n , скажем, 17. В этом случае одно подбрасывание можно назвать испытанием, чтобы избежать путаницы, поскольку весь эксперимент состоит из 17 подбрасываний.
урезанный оценщик
ошибки типа I и типа II

У

унимодальное распределение вероятностей
единицы
В статистическом исследовании — объекты, которым назначаются методы лечения. Например, в исследовании, изучающем эффекты курения сигарет, единицами будут люди. [1]

В

дисперсия
Мера статистической дисперсии случайной величины, указывающая, насколько далеки от ожидаемого значения ее значения, как правило. Дисперсия случайной величины X обычно обозначается как , , или просто

Вт

среднее арифметическое взвешенное
взвешенная медиана

Х

XOR, исключающая дизъюнкция

И

Поправка Йетса на непрерывность, поправка Юла

З

z-тест

Смотрите также

Ссылки

  1. ^ abcde Рейтер, Джером (24 января 2000 г.). «Использование статистики для определения причинно-следственных связей». American Mathematical Monthly . 107 (1): 24–32. doi :10.2307/2589374. JSTOR  2589374.
  2. ^ ab Пав Калиновски. Понимание доверительных интервалов (ДИ) и оценки размера эффекта. Association for Psychological Science Observer 10 апреля 2010 г. http://www.psychologicalscience.org/index.php/publications/observer/2010/april-10/understanding-confidence-intervals-cis-and-effect-size-estimation.html
  3. ^ Мур, Дэвид; МакКейб, Джордж (2003). Введение в практику статистики (4-е изд.). Нью-Йорк: WH Freeman and Co. стр. 438. ISBN 9780716796572.
  4. ^ Уикхэм, Хэдли (2014). «Tidy Data» (PDF) . Журнал статистического программного обеспечения . 59 (10). doi :10.18637/jss.v059.i10.

Внешние ссылки