Оценка Брайера — это строго правильное правило оценки , которое измеряет точность вероятностных предсказаний . Для одномерных предсказаний она строго эквивалентна среднеквадратичной ошибке , применяемой к предсказанным вероятностям.
Оценка Брайера применима к задачам, в которых прогнозы должны назначать вероятности набору взаимоисключающих дискретных результатов или классов. Набор возможных результатов может быть как бинарным, так и категориальным по своей природе, а вероятности, назначенные этому набору результатов, должны в сумме давать единицу (где каждая индивидуальная вероятность находится в диапазоне от 0 до 1). Она была предложена Гленном В. Брайером в 1950 году. [1]
Оценка Брайера может рассматриваться как функция стоимости . Точнее, по всем пунктам в наборе из N прогнозов оценка Брайера измеряет среднеквадратичную разницу между:
Таким образом, чем ниже оценка Брайера для набора прогнозов, тем лучше эти прогнозы откалиброваны. Обратите внимание, что оценка Брайера в ее наиболее распространенной формулировке принимает значение от нуля до единицы, поскольку это квадрат максимально возможной разницы между прогнозируемой вероятностью (которая должна быть от нуля до единицы) и фактическим результатом (который может принимать значения только 0 или 1). В оригинальной (1950) формулировке оценки Брайера диапазон двойной, от нуля до двух.
Оценка Брайера подходит для бинарных и категориальных результатов, которые можно структурировать как истинные или ложные, но она не подходит для порядковых переменных, которые могут принимать три или более значений.
Наиболее распространенная формулировка оценки Брайера:
где - вероятность, которая была спрогнозирована, фактический результат события в данном случае ( если оно не произойдет и если оно произойдет), а - количество случаев прогнозирования. По сути, это среднеквадратическая ошибка прогноза. Эта формулировка в основном используется для бинарных событий (например, «дождь» или «нет дождя»). Вышеуказанное уравнение является надлежащим правилом подсчета баллов только для бинарных событий; если необходимо оценить многокатегорийный прогноз, то следует использовать исходное определение, данное Брайером ниже.
Предположим, что прогнозируется вероятность дождя в определенный день. Тогда оценка Брайера рассчитывается следующим образом:
Хотя приведенная выше формулировка является наиболее широко используемой, оригинальное определение Брайера [1] применимо к многокатегорийным прогнозам, а также остается надлежащим правилом оценки, в то время как бинарная форма (используемая в примерах выше) подходит только для бинарных событий. Для бинарных прогнозов оригинальная формулировка «оценки вероятности» Брайера имеет в два раза большее значение оценки, в настоящее время известной как оценка Брайера.
В котором - число возможных классов, в которые может попасть событие, и общее число экземпляров всех классов. - прогнозируемая вероятность для класса , если это -й класс в экземпляре ; , в противном случае. Для случая Дождь / Без дождя, , тогда как для прогноза Холодно / Нормально / Тепло, .
Существует несколько разложений оценки Брайера, которые дают более глубокое представление о поведении бинарного классификатора.
Оценка Брайера может быть разложена на 3 дополнительных компонента: неопределенность, надежность и разрешение. (Мерфи, 1973) [2]
Каждый из этих компонентов может быть далее разложен по числу возможных классов, в которые может попасть событие. Злоупотребление знаком равенства:
При этом общее количество выпущенных прогнозов, количество выпущенных уникальных прогнозов, наблюдаемая климатологическая базовая скорость для события, количество прогнозов с той же категорией вероятности и наблюдаемая частота, заданные прогнозы вероятности . Жирное начертание в приведенной выше формуле указывает на векторы, что является другим способом обозначения исходного определения оценки и разложения ее в соответствии с количеством возможных классов, в которые может попасть событие. Например, 70% вероятность дождя и отсутствие дождя обозначаются как и соответственно. Такие операции, как возведение в квадрат и умножение на этих векторах, считаются покомпонентными. Тогда оценка Брайера представляет собой сумму результирующего вектора в правой части.
Термин надежность измеряет, насколько близки вероятности прогноза к истинным вероятностям, учитывая этот прогноз. Надежность определяется в противоположном направлении по сравнению с английским языком . Если надежность равна 0, прогноз абсолютно надежен. Например, если мы сгруппируем все прогнозы, в которых прогнозировалась вероятность дождя 80%, мы получим идеальную надежность только в том случае, если дождь шел 4 из 5 раз после выпуска такого прогноза.
Член разрешения измеряет, насколько условные вероятности, заданные различными прогнозами, отличаются от климатического среднего. Чем выше этот член, тем лучше. В худшем случае, когда климатическая вероятность всегда прогнозируется, разрешение равно нулю. В лучшем случае, когда условные вероятности равны нулю и единице, разрешение равно неопределенности.
Термин неопределенности измеряет присущую неопределенность в результатах события. Для бинарных событий он максимален, когда каждый результат происходит в 50% случаев, и минимален (нуль), если результат происходит всегда или никогда не происходит.
Альтернативное (и родственное) разложение генерирует два члена вместо трех.
Первый член известен как калибровка (и может использоваться как мера калибровки, см. статистическая калибровка ), и равен надежности. Второй член известен как уточнение, и он представляет собой совокупность разрешения и неопределенности и связан с площадью под кривой ROC .
Оценка Бриера и разложение CAL + REF можно графически представить с помощью так называемых кривых Бриера, [3] где ожидаемые потери показаны для каждого рабочего состояния. Это делает оценку Бриера мерой совокупной производительности при равномерном распределении асимметрии классов. [4]
Оценка навыка для данной базовой оценки является смещенным и (отрицательно) масштабированным вариантом базовой оценки, так что значение оценки навыка, равное нулю, означает, что оценка для прогнозов просто так же хороша, как и у набора базовых или эталонных или дефолтных прогнозов, в то время как значение оценки навыка, равное единице (100%), представляет собой наилучшую возможную оценку. Значение оценки навыка меньше нуля означает, что производительность даже хуже, чем у базовых или эталонных прогнозов. Когда базовая оценка является оценкой Брайера (BS), оценка навыка Брайера (BSS) рассчитывается как
где — оценка Бриера эталонных или базовых прогнозов, которые мы стремимся улучшить. Хотя эталонные прогнозы в принципе могут быть даны любой уже существующей моделью, по умолчанию можно использовать наивную модель, которая предсказывает общую долю или частоту данного класса в оцениваемом наборе данных как постоянную прогнозируемую вероятность того, что этот класс встречается в каждом случае в наборе данных. Эта базовая модель будет представлять собой модель «без навыков», которую мы стремимся улучшить. Оценки навыков берут свое начало в литературе по метеорологическому прогнозированию, где наивные эталонные прогнозы по умолчанию называются прогнозами «климатологии внутри выборки», где климатология означает долгосрочное или общее среднее значение прогнозов погоды, а средние значения внутри выборки, рассчитанные на основе текущего оцениваемого набора данных. [5] [6] В этом случае по умолчанию для бинарной (двухклассовой) классификации эталонная оценка Бриера задается следующим образом (используя обозначение первого уравнения этой статьи, в верхней части раздела «Определение»):
где — это просто средний фактический результат, т.е. общая доля истинного класса 1 в наборе данных:
С оценкой Брайера, чем ниже, тем лучше (это функция потерь), где 0 — это наилучшая возможная оценка. Но с оценкой навыка Брайера, чем выше, тем лучше, где 1 (100%) — наилучшая возможная оценка.
Оценка навыка Brier может быть более интерпретируемой, чем оценка Brier, поскольку BSS — это просто процентное улучшение BS по сравнению с эталонной моделью, а отрицательный BSS означает, что вы справляетесь даже хуже, чем эталонная модель, что может быть неочевидно при взгляде на оценку Brier. Однако обычно не следует ожидать BSS, близкого к 100%, поскольку для этого потребовалось бы, чтобы каждое вероятностное предсказание было близко к 0 или 1 (и было верным, конечно).
Даже если оценка Брайера является строго правильным правилом подсчета очков , BSS не является строго правильным: действительно, оценки навыков, как правило, не являются правильными, даже если базовое правило подсчета очков является правильным. [7] Тем не менее, Мерфи (1973) [8] доказал, что BSS является асимптотически правильным с большим количеством образцов.
Вы можете заметить, что BSS классификации (оценки вероятности) относится к ее BS так же, как коэффициент детерминации регрессии ( ) относится к ее среднеквадратичной ошибке (MSE).
Оценка Брайера становится неадекватной для очень редких (или очень частых) событий, поскольку она недостаточно различает небольшие изменения в прогнозе, которые являются значимыми для редких событий. [9] Уилкс (2010) обнаружил, что «[довольно] большие размеры выборки, т. е. n > 1000, требуются для высококвалифицированных прогнозов относительно редких событий, тогда как для низкоквалифицированных прогнозов обычных событий требуются лишь довольно скромные размеры выборки». [10]