Последовательный тест отношения вероятностей (SPRT) — это особый последовательный тест гипотез , разработанный Абрахамом Вальдом [1] и позже доказанный как оптимальный Вальдом и Якобом Вулфовицем . [2] Результат Неймана и Пирсона 1933 года вдохновил Вальда переформулировать его как задачу последовательного анализа. Лемма Неймана-Пирсона, напротив, предлагает эмпирическое правило для случая, когда все данные собраны (и их отношение правдоподобия известно).
Первоначально SPRT был разработан для использования в исследованиях по контролю качества в сфере производства, однако затем он был разработан для использования в компьютерном тестировании испытуемых в качестве критерия завершения. [3] [4] [5]
Как и в классической проверке гипотез , SPRT начинается с пары гипотез, скажем , и для нулевой гипотезы и альтернативной гипотезы соответственно. Они должны быть указаны следующим образом:
Следующим шагом является вычисление кумулятивной суммы логарифмического отношения правдоподобия , по мере поступления новых данных: при , тогда для =1,2,...,
Правило остановки представляет собой простую схему порогового значения:
где и ( ) зависят от желаемых ошибок типа I и типа II , и . Они могут быть выбраны следующим образом:
и
Другими словами, и должны быть определены заранее, чтобы правильно установить пороги. Численное значение будет зависеть от приложения. Причина, по которой это только приближение, заключается в том, что в дискретном случае сигнал может пересекать порог между выборками. Таким образом, в зависимости от штрафа за ошибку и частоты выборки , можно установить пороги более агрессивно. Точные границы верны в непрерывном случае.
Пример из учебника — оценка параметров функции распределения вероятностей . Рассмотрим экспоненциальное распределение :
Гипотезы таковы:
Тогда логарифмическая функция правдоподобия (LLF) для одного образца равна
Накопленная сумма LLF для всех x равна
Соответственно, правило остановки:
После перестановки мы наконец находим
Пороги — это просто две параллельные линии с наклоном . Выборка должна останавливаться, когда сумма выборок выходит за пределы области непрерывной выборки .
Тест выполняется на основе метрики пропорции и проверяет, что переменная p равна одной из двух желаемых точек, p 1 или p 2 . Область между этими двумя точками известна как область безразличия (IR). Например, предположим, что вы проводите исследование контроля качества на заводской партии виджетов. Руководство хотело бы, чтобы в партии было 3% или менее дефектных виджетов, но 1% или менее — это идеальная партия, которая прошла бы проверку с блеском. В этом примере p 1 = 0,01 и p 2 = 0,03 , а область между ними — IR, поскольку руководство считает эти партии маргинальными и не возражает против их классификации в любом случае. Виджеты будут отбираться по одному из партии (последовательный анализ) до тех пор, пока тест не определит, в пределах приемлемого уровня ошибки, что партия идеальна или должна быть отклонена.
SPRT в настоящее время является преобладающим методом классификации испытуемых в компьютерном классификационном тесте переменной длины (CCT) [ требуется ссылка ] . Два параметра p 1 и p 2 определяются путем определения проходного балла (порога) для испытуемых по метрике доли правильных ответов и выбора точки выше и ниже этого проходного балла. Например, предположим, что проходной балл установлен на уровне 70% для теста. Мы могли бы выбрать p 1 = 0,65 и p 2 = 0,75 . Затем тест оценивает вероятность того, что истинный балл испытуемого по этой метрике равен одному из этих двух баллов. Если испытуемый определен как имеющий 75%, он сдает, и он проваливает, если определен как имеющий 65%.
Эти точки не указываются полностью произвольно. Проходной балл всегда должен быть установлен с помощью юридически обоснованного метода, такого как модифицированная процедура Ангоффа . Опять же, область безразличия представляет собой область баллов, которые разработчик теста принимает в любом случае (прошел или не прошёл). Верхний параметр p 2 концептуально является наивысшим уровнем, который разработчик теста готов принять за провал (потому что все, кто ниже него, имеют хорошие шансы провалиться), а нижний параметр p 1 является самым низким уровнем, который разработчик теста готов принять за прохождение (потому что все, кто выше него, имеют приличные шансы пройти). Хотя это определение может показаться относительно небольшим бременем, рассмотрим случай с высокими ставками — экзамен на получение лицензии для врачей: в какой момент мы должны считать, что кто-то находится на одном из этих двух уровней?
Хотя SPRT впервые был применен к тестированию во времена классической теории тестирования , как это было применено в предыдущем параграфе, Реккейз (1983) предложил использовать теорию ответов на вопросы для определения параметров p 1 и p 2. Оценка сокращения и область безразличия определяются на основе метрики скрытой способности (тета) и переводятся на метрику пропорции для вычисления. Исследования CCT с тех пор применяли эту методологию по нескольким причинам:
Шпигельхальтер и др. [6] показали, что SPRT можно использовать для мониторинга работы врачей, хирургов и других медицинских работников таким образом, чтобы заранее предупреждать о потенциально аномальных результатах. В своей статье 2003 года они показали, как это могло помочь идентифицировать Гарольда Шипмана как убийцу задолго до того, как его личность была фактически идентифицирована.
Совсем недавно, в 2011 году, было введено расширение метода SPRT под названием Maximized Sequential Probability Ratio Test (MaxSPRT) [7] . Отличительной чертой MaxSPRT является допущение составной односторонней альтернативной гипотезы и введение верхней границы остановки. Метод использовался в нескольких медицинских исследованиях. [8]