stringtranslate.com

Пробит

График функции пробит

В теории вероятностей и статистике пробит - функция — это функция квантиля, связанная со стандартным нормальным распределением . Он находит применение в анализе данных и машинном обучении, в частности в исследовательской статистической графике и специализированном регрессионном моделировании переменных двоичного отклика .

Математически пробит является обратной функцией кумулятивной функции распределения стандартного нормального распределения, которая обозначается как , поэтому пробит определяется как

.

Во многом благодаря центральной предельной теореме стандартное нормальное распределение играет фундаментальную роль в теории вероятностей и статистике. Если мы примем во внимание известный факт, что стандартное нормальное распределение помещает 95% вероятности между -1,96 и 1,96 и симметрично относительно нуля, из этого следует, что

Функция пробит дает «обратные» вычисления, генерируя значение стандартной нормальной случайной величины, связанной с указанной кумулятивной вероятностью. Продолжая пример,

.

В общем,

и

Концептуальная разработка

Идея пробит-функции была опубликована Честером Иттнером Блиссом в статье в журнале Science в 1934 году о том, как обрабатывать такие данные, как процент вредителей, убитых пестицидом . [1] Блисс предложил преобразовать процент убитых в « вероятность убийства » (или «пробит»), которая была линейно связана с современным определением (он произвольно определил ее как равную 0 для 0,0001 и 1 для 0,9999): [2 ] ]

Эти произвольные единицы вероятности были названы «пробитами».

Он включил таблицу, которая поможет другим исследователям преобразовать свои проценты уничтожения в его пробит, который они затем смогут построить против логарифма дозы и тем самым, как надеялись, получить более или менее прямую линию. Такая так называемая пробит-модель по-прежнему важна в токсикологии, а также в других областях. Такой подход оправдан, в частности, если вариацию ответа можно объяснить как логнормальное распределение толерантности среди испытуемых, где толерантность конкретного испытуемого представляет собой дозу, достаточную как раз для интересующей реакции.

Метод, предложенный Блиссом, был развит в «Пробит-анализе» , важном тексте по токсикологическим применениям, написанном Дж. Финни . [3] [4] Значения, представленные Финни, могут быть получены из пробитов, как они определены здесь, путем добавления значения 5. Это различие резюмируется Коллеттом (стр. 55): [5] «Исходное определение пробита [с 5 добавлено] в первую очередь для того, чтобы избежать необходимости работать с отрицательными пробитами; ... Это определение все еще используется в некоторых кругах, но в основных пакетах статистического программного обеспечения для так называемого пробит-анализа пробиты определяются без добавления 5. " Следует отметить, что пробит-методология, включая численную оптимизацию для подбора пробит-функций, была введена до широкого распространения электронных вычислений. При использовании таблиц было удобно иметь равномерно положительные пробиты. Общие области применения не требуют положительных пробитов.

Диагностика отклонения распределения от нормальности

Помимо обеспечения основы для важных типов регрессии, пробит-функция полезна в статистическом анализе для диагностики отклонения от нормальности в соответствии с методом построения Q-Q-графика. Если набор данных на самом деле является образцом нормального распределения , график зависимости значений от их показателей пробита будет приблизительно линейным. Конкретные отклонения от нормальности, такие как асимметрия , тяжелые хвосты или бимодальность, можно диагностировать на основе обнаружения конкретных отклонений от линейности. Хотя график Q–Q можно использовать для сравнения с любым семейством распределений (не только с нормальным), нормальный график Q–Q является относительно стандартной процедурой исследовательского анализа данных, поскольку предположение о нормальности часто является отправной точкой для анализа.

Вычисление

CDF нормального распределения и его обратная функция недоступны в закрытой форме , а вычисления требуют тщательного использования числовых процедур. Однако эти функции широко доступны в программном обеспечении для статистики и вероятностного моделирования, а также в электронных таблицах. Например, в Microsoft Excel функция пробит доступна какnormal.s.inv(p). В вычислительных средах, где доступны численные реализации обратной функции ошибок , пробит-функцию можно получить как

Примером является MATLAB , где доступна функция erfinv. Язык Mathematica реализует InverseErf. Другие среды напрямую реализуют функцию пробит, как показано в следующем сеансе на языке программирования R.

> qнорм ( 0,025 ) [1] -1,959964 > pнорм ( -1,96 ) [1] 0,02499790

Подробности расчета обратной функции ошибок можно найти в [1]. Вичура предлагает быстрый алгоритм вычисления пробит-функции с точностью до 16 знаков после запятой; это используется в R для генерации случайных величин для нормального распределения. [6]

Обыкновенное дифференциальное уравнение для пробит-функции

Другой способ вычислений основан на формировании нелинейного обыкновенного дифференциального уравнения (ОДУ) для пробита согласно методу Штейнбрехера и Шоу. [7] Сокращение пробит-функции до ОДУ:

где – функция плотности вероятности w .

В случае гауссова:

Еще раз дифференцируем:

с центральными (начальными) условиями

Это уравнение можно решить несколькими методами, включая метод классического степенного ряда. Исходя из этого, можно разработать решения сколь угодно высокой точности на основе подхода Штейнбрехера к ряду для обратной функции ошибок. Решение степенного ряда имеет вид

где коэффициенты удовлетворяют нелинейной рекуррентности

с . В этой форме соотношение как .

Логит

Сравнение логит-функции с масштабированным пробитом (т.е. обратным CDF нормального распределения ), сравнение с , что делает наклоны одинаковыми в начале координат.

Тесно связаны с функцией пробит (и моделью пробит ) функция логит и модель логит . Обратная логистическая функция определяется выражением

По аналогии с пробит-моделью мы можем предположить, что такая величина линейно связана с набором предикторов, в результате чего получается логит-модель , основа, в частности, модели логистической регрессии , наиболее распространенной формы регрессионного анализа для категориальных данных ответа. В современной статистической практике модели пробит- и логит-регрессии часто рассматриваются как случаи обобщенной линейной модели .

Смотрите также

Рекомендации

  1. ^ Блисс, CI (1934). «Метод пробитов». Наука . 79 (2037): 38–39. Бибкод : 1934Sci....79...38B. дои : 10.1126/science.79.2037.38. JSTOR  1659792. PMID  17813446.
  2. ^ Блаженство 1934, с. 39.
  3. ^ Финни, ди-джей (1947), Анализ пробита . (1-е издание) Издательство Кембриджского университета, Кембридж, Великобритания.
  4. ^ Финни, ди-джей (1971). Пробит-анализ (3-е изд.). Издательство Кембриджского университета, Кембридж, Великобритания. ISBN 0-521-08041-Х. ОСЛК  174198382.
  5. ^ Коллетт, Д. (1991). Моделирование двоичных данных . Чепмен и Холл / CRC.
  6. ^ Вичура, MJ (1988). «Алгоритм AS241: Процентные точки нормального распределения». Прикладная статистика . Издательство Блэквелл. 37 (3): 477–484. дои : 10.2307/2347330. JSTOR  2347330.
  7. ^ Штайнбрехер, Г., Шоу, WT (2008). «Квантильная механика». Европейский журнал прикладной математики . 19 (2): 87–112. дои : 10.1017/S0956792508007341. S2CID  6899308.{{cite journal}}: CS1 maint: multiple names: authors list (link)

Внешние ссылки