Ошибка «нет в сумке»

Ошибка вне пакета ( OOB ) , также называемая оценкой вне пакета , представляет собой метод измерения ошибки прогнозирования случайных лесов , усиленных деревьев решений и других моделей машинного обучения , использующих бутстрап-агрегирование (пакетирование). Бэггинг использует подвыборку с заменой для создания обучающих выборок, на которых модель может учиться. Ошибка OOB — это средняя ошибка прогнозирования для каждой обучающей выборки $x$ $i$ с использованием только тех деревьев, у которых не было $x$ $i$ в их начальной выборке. ^[1]

Бутстрап-агрегирование позволяет определить внеплановую оценку улучшения производительности прогнозирования путем оценки прогнозов на основе тех наблюдений, которые не использовались при построении следующего базового обучаемого.

Готовый набор данных

При выполнении агрегирования начальной загрузки создаются два независимых набора. Один набор, бутстрап-выборка, представляет собой данные, выбранные для хранения «в сумке» путем выборки с заменой. В комплект «вне пакета» входят все данные, не выбранные в процессе выборки.

Когда этот процесс повторяется, например, при построении случайного леса , создается множество образцов начальной загрузки и наборов OOB. Наборы OOB могут быть агрегированы в один набор данных, но каждая выборка считается исходной только для тех деревьев, которые не включают ее в свою начальную выборку. На рисунке ниже показано, что для каждого взятого мешка данные разделены на две группы.

Этот пример показывает, как мешки можно использовать в контексте диагностики заболеваний. Набор пациентов представляет собой исходный набор данных, но каждая модель обучается только пациентами в своей сумке. Пациентов в каждом готовом наборе можно использовать для тестирования соответствующих моделей. Тест будет учитывать, может ли модель точно определить, есть ли у пациента заболевание.

Расчет ошибки отсутствия сумки

Поскольку каждый готовый набор не используется для обучения модели, он является хорошей проверкой работоспособности модели. Конкретный расчет ошибки OOB зависит от реализации модели, но общий расчет выглядит следующим образом.

Найдите все модели (или деревья, в случае случайного леса ), которые не обучены экземпляром OOB.
Возьмите большинство голосов результата этих моделей для экземпляра OOB по сравнению с истинным значением экземпляра OOB.
Скомпилируйте ошибку OOB для всех экземпляров в наборе данных OOB.

Процесс упаковки можно настроить в соответствии с потребностями модели. Чтобы обеспечить точную модель, размер бутстрап-обучающей выборки должен быть близок к размеру исходного набора. ^[2] Кроме того, чтобы найти истинную ошибку OOB, следует учитывать количество итераций (деревьев) модели (леса). Ошибка OOB стабилизируется на протяжении многих итераций, поэтому рекомендуется начинать с большого количества итераций. ^[3]

Как показано в примере справа, ошибку OOB можно найти с помощью описанного выше метода после настройки леса.

Сравнение с перекрестной проверкой

Ошибка вне пакета и перекрестная проверка (CV) — это разные методы измерения оценки ошибки модели машинного обучения . За множество итераций оба метода должны дать очень похожую оценку ошибки. То есть, как только ошибка OOB стабилизируется, она будет сходиться к ошибке перекрестной проверки (в частности, перекрестной проверки с исключением одного). ^[3] Преимущество метода OOB заключается в том, что он требует меньше вычислений и позволяет тестировать модель во время ее обучения.

Точность и последовательность

Ошибка «вне пакета» часто используется для оценки ошибок в случайных лесах , но, согласно выводам исследования, проведенного Силке Янице и Романом Хорнунгом, ошибка «вне пакета» оказывается переоцененной в условиях, которые включают равное количество наблюдений из все классы ответов (сбалансированные выборки), небольшие размеры выборки, большое количество переменных-предикторов, малая корреляция между предикторами и слабые эффекты. ^[4]

Смотрите также