stringtranslate.com

Последовательный тест отношения вероятностей

Последовательный тест отношения вероятностей (SPRT) — это особый последовательный тест гипотез , разработанный Абрахамом Вальдом [1] и позже доказанный как оптимальный Вальдом и Якобом Вулфовицем . [2] Результат Неймана и Пирсона 1933 года вдохновил Вальда переформулировать его как задачу последовательного анализа. Лемма Неймана-Пирсона, напротив, предлагает эмпирическое правило для случая, когда все данные собраны (и их отношение правдоподобия известно).

Первоначально SPRT был разработан для использования в исследованиях по контролю качества в сфере производства, однако затем он был разработан для использования в компьютерном тестировании испытуемых в качестве критерия завершения. [3] [4] [5]

Теория

Как и в классической проверке гипотез , SPRT начинается с пары гипотез, скажем , и для нулевой гипотезы и альтернативной гипотезы соответственно. Они должны быть указаны следующим образом:

Следующим шагом является вычисление кумулятивной суммы логарифмического отношения правдоподобия , по мере поступления новых данных: при , тогда для =1,2,...,

Правило остановки представляет собой простую схему порогового значения:

где и ( ) зависят от желаемых ошибок типа I и типа II , и . Они могут быть выбраны следующим образом:

и

Другими словами, и должны быть определены заранее, чтобы правильно установить пороги. Численное значение будет зависеть от приложения. Причина, по которой это только приближение, заключается в том, что в дискретном случае сигнал может пересекать порог между выборками. Таким образом, в зависимости от штрафа за ошибку и частоты выборки , можно установить пороги более агрессивно. Точные границы верны в непрерывном случае.

Пример

Пример из учебника — оценка параметров функции распределения вероятностей . Рассмотрим экспоненциальное распределение :

Гипотезы таковы:

Тогда логарифмическая функция правдоподобия (LLF) для одного образца равна

Накопленная сумма LLF для всех x равна

Соответственно, правило остановки:

После перестановки мы наконец находим

Пороги — это просто две параллельные линии с наклоном . Выборка должна останавливаться, когда сумма выборок выходит за пределы области непрерывной выборки .

Приложения

Производство

Тест выполняется на основе метрики пропорции и проверяет, что переменная p равна одной из двух желаемых точек, p 1 или p 2 . Область между этими двумя точками известна как область безразличия (IR). Например, предположим, что вы проводите исследование контроля качества на заводской партии виджетов. Руководство хотело бы, чтобы в партии было 3% или менее дефектных виджетов, но 1% или менее — это идеальная партия, которая прошла бы проверку с блеском. В этом примере p 1 = 0,01 и p 2 = 0,03 , а область между ними — IR, поскольку руководство считает эти партии маргинальными и не возражает против их классификации в любом случае. Виджеты будут отбираться по одному из партии (последовательный анализ) до тех пор, пока тест не определит, в пределах приемлемого уровня ошибки, что партия идеальна или должна быть отклонена.

Тестирование испытуемых-людей

SPRT в настоящее время является преобладающим методом классификации испытуемых в компьютерном классификационном тесте переменной длины (CCT) [ требуется ссылка ] . Два параметра p 1 и p 2 определяются путем определения проходного балла (порога) для испытуемых по метрике доли правильных ответов и выбора точки выше и ниже этого проходного балла. Например, предположим, что проходной балл установлен на уровне 70% для теста. Мы могли бы выбрать p 1 = 0,65 и p 2 = 0,75 . Затем тест оценивает вероятность того, что истинный балл испытуемого по этой метрике равен одному из этих двух баллов. Если испытуемый определен как имеющий 75%, он сдает, и он проваливает, если определен как имеющий 65%.

Эти точки не указываются полностью произвольно. Проходной балл всегда должен быть установлен с помощью юридически обоснованного метода, такого как модифицированная процедура Ангоффа . Опять же, область безразличия представляет собой область баллов, которые разработчик теста принимает в любом случае (прошел или не прошёл). Верхний параметр p 2 концептуально является наивысшим уровнем, который разработчик теста готов принять за провал (потому что все, кто ниже него, имеют хорошие шансы провалиться), а нижний параметр p 1 является самым низким уровнем, который разработчик теста готов принять за прохождение (потому что все, кто выше него, имеют приличные шансы пройти). Хотя это определение может показаться относительно небольшим бременем, рассмотрим случай с высокими ставками — экзамен на получение лицензии для врачей: в какой момент мы должны считать, что кто-то находится на одном из этих двух уровней?

Хотя SPRT впервые был применен к тестированию во времена классической теории тестирования , как это было применено в предыдущем параграфе, Реккейз (1983) предложил использовать теорию ответов на вопросы для определения параметров p 1 и p 2. Оценка сокращения и область безразличия определяются на основе метрики скрытой способности (тета) и переводятся на метрику пропорции для вычисления. Исследования CCT с тех пор применяли эту методологию по нескольким причинам:

  1. Крупные банки товаров, как правило, калибруются с помощью IRT
  2. Это позволяет более точно указать параметры.
  3. Используя функцию ответа элемента для каждого элемента, можно легко разрешить варьировать параметры между элементами.

Выявление аномальных медицинских результатов

Шпигельхальтер и др. [6] показали, что SPRT можно использовать для мониторинга работы врачей, хирургов и других медицинских работников таким образом, чтобы заранее предупреждать о потенциально аномальных результатах. В своей статье 2003 года они показали, как это могло помочь идентифицировать Гарольда Шипмана как убийцу задолго до того, как его личность была фактически идентифицирована.

Расширения

МаксSPRT

Совсем недавно, в 2011 году, было введено расширение метода SPRT под названием Maximized Sequential Probability Ratio Test (MaxSPRT) [7] . Отличительной чертой MaxSPRT является допущение составной односторонней альтернативной гипотезы и введение верхней границы остановки. Метод использовался в нескольких медицинских исследованиях. [8]

Смотрите также

Ссылки

  1. Вальд, Абрахам (июнь 1945 г.). «Последовательные проверки статистических гипотез». Annals of Mathematical Statistics . 16 (2): 117–186. doi : 10.1214/aoms/1177731118 . JSTOR  2235829.
  2. ^ Вальд, А.; Вольфовиц, Дж. (1948). «Оптимальный характер последовательного теста отношения вероятностей». Анналы математической статистики . 19 (3): 326–339. doi : 10.1214/aoms/1177730197 . JSTOR  2235638.
  3. ^ Фергюсон, Ричард Л. (1969). Разработка, реализация и оценка компьютерного разветвленного теста для программы индивидуально предписанного обучения. Неопубликованная докторская диссертация, Университет Питтсбурга.
  4. ^ Реккейз, МД (1983). Процедура принятия решений с использованием адаптированного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.
  5. ^ Eggen, TJHM (1999). «Выбор элементов в адаптивном тестировании с помощью теста последовательного отношения вероятностей». Applied Psychological Measurement . 23 (3): 249–261. doi :10.1177/01466219922031365. S2CID  120780131.
  6. ^ Последовательные тесты отношения вероятностей с поправкой на риск: применение в Бристоле, Шипмане и кардиохирургии взрослых Шпигельхальтер, Д. и др. Int J Qual Health Care т. 15 7-13 (2003) [ мертвая ссылка ]
  7. ^ Куллдорф, Мартин; Дэвис, Роберт Л.; Колчак†, Маргаретт; Льюис, Эдвин; Лью, Трейси; Платт, Ричард (2011). «Максимизированный последовательный тест отношения вероятностей для надзора за безопасностью лекарств и вакцин». Последовательный анализ . 30 : 58–78. doi : 10.1080/07474946.2011.539924 .
  8. ^ Со второго по последний абзац раздела 1: http://www.tandfonline.com/doi/full/10.1080/07474946.2011.539924 Тест на максимальное последовательное отношение вероятностей для надзора за безопасностью лекарств и вакцин Куллдорф, М. и др. Последовательный анализ: методы проектирования и применение , т. 30, выпуск 1

Дальнейшее чтение

Внешние ссылки