В статистике правило « один из десяти» — это эмпирическое правило, определяющее, сколько параметров- предикторов можно оценить из данных при выполнении регрессионного анализа (в частности, моделей пропорциональных рисков в анализе выживаемости и логистической регрессии ), сохраняя при этом низкий риск переобучения и обнаружения ложных корреляций . Правило гласит, что одну предсказательную переменную можно изучать для каждых десяти событий. [1] [2] [3] [4] Для логистической регрессии количество событий определяется размером наименьшей из категорий результатов, а для анализа выживаемости — количеством неотцензурированных событий. [3] Другими словами: для каждой характеристики нам нужно 10 наблюдений/меток.
Например, если изучается выборка из 200 пациентов, и 20 пациентов умирают во время исследования (так что 180 пациентов выживают), правило одного из десяти подразумевает, что два заранее определенных предиктора могут быть надежно подогнаны под общие данные. Аналогично, если 100 пациентов умирают во время исследования (так что 100 пациентов выживают), десять заранее определенных предикторов могут быть надежно подогнаны. Если подбирается больше, правило подразумевает, что переподгонка вероятна, и результаты не будут хорошо предсказывать за пределами обучающих данных . Нередко можно увидеть, как правило 1:10 нарушается в областях со многими переменными (например, исследования экспрессии генов при раке), что снижает уверенность в сообщаемых результатах. [5]
Было предложено «правило одного из 20», указывающее на необходимость сокращения коэффициентов регрессии, и «правило одного из 50» для пошагового выбора со значением p по умолчанию 5%. [4] [6] Однако другие исследования показывают, что правило одного из десяти может быть слишком консервативным в качестве общей рекомендации и что от пяти до девяти событий на предиктор может быть достаточно, в зависимости от исследовательского вопроса. [7]
Совсем недавно исследование показало, что отношение событий к предсказательной переменной не является надежной статистикой для оценки минимального числа событий для оценки логистической модели прогнозирования. [8] Вместо этого, число предикторных переменных, общий размер выборки (события + несобытия) и доля событий (события / общий размер выборки) могут быть использованы для расчета ожидаемой ошибки прогнозирования модели, которая должна быть разработана. [9] Затем можно оценить требуемый размер выборки для достижения ожидаемой ошибки прогнозирования, которая меньше заранее определенного допустимого значения ошибки прогнозирования. [9]
В качестве альтернативы были предложены три требования к оценке модели прогнозирования: модель должна иметь глобальный фактор сжатия ≥ .9, абсолютную разницу ≤ .05 в кажущемся и скорректированном коэффициенте Нагелькерке R 2 модели и точную оценку общего риска или уровня в целевой популяции. [10] Необходимый размер выборки и количество событий для разработки модели затем задаются значениями, которые соответствуют этим требованиям. [10]
Для высококоррелированных входных данных правило «один из 10» (необходимо 10 наблюдений или меток на один признак) может быть неприменимо напрямую из-за высокой корреляции признаков: для изображений существует эмпирическое правило, согласно которому на класс требуется 1000 примеров. [11] Это означало бы, что для бинарной классификации изображений (с фиктивными 1000 пикселей x 1000 пикселей на изображение, т. е. 1 000 000 признаков на изображение) нам потребуется всего 2000 меток/1 000 0000 пикселей = 0,002 метки на пиксель или 0,002 метки на признак. Однако это происходит только из-за высокой (пространственной) корреляции пикселей.
{{cite web}}
: CS1 maint: бот: исходный статус URL неизвестен ( ссылка )