stringtranslate.com

Правило «один из десяти»

В статистике правило « один из десяти» — это эмпирическое правило, определяющее, сколько параметров- предикторов можно оценить из данных при выполнении регрессионного анализа (в частности, моделей пропорциональных рисков в анализе выживаемости и логистической регрессии ), сохраняя при этом низкий риск переобучения и обнаружения ложных корреляций . Правило гласит, что одну предсказательную переменную можно изучать для каждых десяти событий. [1] [2] [3] [4] Для логистической регрессии количество событий определяется размером наименьшей из категорий результатов, а для анализа выживаемости — количеством неотцензурированных событий. [3] Другими словами: для каждой характеристики нам нужно 10 наблюдений/меток.

Например, если изучается выборка из 200 пациентов, и 20 пациентов умирают во время исследования (так что 180 пациентов выживают), правило одного из десяти подразумевает, что два заранее определенных предиктора могут быть надежно подогнаны под общие данные. Аналогично, если 100 пациентов умирают во время исследования (так что 100 пациентов выживают), десять заранее определенных предикторов могут быть надежно подогнаны. Если подбирается больше, правило подразумевает, что переподгонка вероятна, и результаты не будут хорошо предсказывать за пределами обучающих данных . Нередко можно увидеть, как правило 1:10 нарушается в областях со многими переменными (например, исследования экспрессии генов при раке), что снижает уверенность в сообщаемых результатах. [5]

Улучшения

Было предложено «правило одного из 20», указывающее на необходимость сокращения коэффициентов регрессии, и «правило одного из 50» для пошагового выбора со значением p по умолчанию 5%. [4] [6] Однако другие исследования показывают, что правило одного из десяти может быть слишком консервативным в качестве общей рекомендации и что от пяти до девяти событий на предиктор может быть достаточно, в зависимости от исследовательского вопроса. [7]

Совсем недавно исследование показало, что отношение событий к предсказательной переменной не является надежной статистикой для оценки минимального числа событий для оценки логистической модели прогнозирования. [8] Вместо этого, число предикторных переменных, общий размер выборки (события + несобытия) и доля событий (события / общий размер выборки) могут быть использованы для расчета ожидаемой ошибки прогнозирования модели, которая должна быть разработана. [9] Затем можно оценить требуемый размер выборки для достижения ожидаемой ошибки прогнозирования, которая меньше заранее определенного допустимого значения ошибки прогнозирования. [9]

В качестве альтернативы были предложены три требования к оценке модели прогнозирования: модель должна иметь глобальный фактор сжатия ≥ .9, абсолютную разницу ≤ .05 в кажущемся и скорректированном коэффициенте Нагелькерке R 2 модели и точную оценку общего риска или уровня в целевой популяции. [10] Необходимый размер выборки и количество событий для разработки модели затем задаются значениями, которые соответствуют этим требованиям. [10]

Другие модальности

Для высококоррелированных входных данных правило «один из 10» (необходимо 10 наблюдений или меток на один признак) может быть неприменимо напрямую из-за высокой корреляции признаков: для изображений существует эмпирическое правило, согласно которому на класс требуется 1000 примеров. [11] Это означало бы, что для бинарной классификации изображений (с фиктивными 1000 пикселей x 1000 пикселей на изображение, т. е. 1 000 000 признаков на изображение) нам потребуется всего 2000 меток/1 000 0000 пикселей = 0,002 метки на пиксель или 0,002 метки на признак. Однако это происходит только из-за высокой (пространственной) корреляции пикселей.

Литература

Ссылки

  1. ^ Harrell, FE Jr.; Lee, KL; Califf, RM; Pryor, DB; Rosati, RA (1984). «Стратегии регрессионного моделирования для улучшения прогностического прогнозирования». Stat Med . 3 (2): 143–52. doi :10.1002/sim.4780030207. PMID  6463451.
  2. ^ Харрелл, FE младший; Ли, KL; Марк, DB (1996). «Многофакторные прогностические модели: проблемы разработки моделей, оценки предположений и адекватности, а также измерения и сокращения ошибок» (PDF) . Stat Med . 15 (4): 361–87. doi :10.1002/(sici)1097-0258(19960229)15:4<361::aid-sim168>3.0.co;2-4. PMID  8668867.
  3. ^ ab Педуцци, Питер; Конкато, Джон; Кемпер, Элизабет; Холфорд, Теодор Р.; Файнстайн, Элван Р. (1996). «Имитационное исследование числа событий на переменную в логистическом регрессионном анализе». Журнал клинической эпидемиологии . 49 (12): 1373–1379. doi : 10.1016/s0895-4356(96)00236-3 . PMID  8970487.
  4. ^ ab "Глава 8: Статистические модели для прогнозирования: проблемы с регрессионными моделями". Архивировано из оригинала 31 октября 2004 г. Получено 2013-10-11 .{{cite web}}: CS1 maint: бот: исходный статус URL неизвестен ( ссылка )
  5. ^ Эрнест С. Штатланд, Кен Клейнман, Эмили М. Кейн. Построение модели в Proc PHREG с автоматическим выбором переменных и информационными критериями. Статья 206–30 в SUGI 30 Proceedings, Филадельфия, Пенсильвания, 10–13 апреля 2005 г. http://www2.sas.com/proceedings/sugi30/206-30.pdf
  6. ^ Steyerberg, EW; Eijkemans, MJ; Harrell, FE Jr.; Habbema, JD (2000). «Прогностическое моделирование с логистическим регрессионным анализом: сравнение методов выбора и оценки в небольших наборах данных». Stat Med . 19 (8): 1059–1079. doi :10.1002/(sici)1097-0258(20000430)19:8<1059::aid-sim412>3.0.co;2-0. ​​PMID  10790680.
  7. ^ Виттингхофф, Э.; Маккалок, К. Э. (2007). «Ослабление правила десяти событий на переменную в логистической регрессии и регрессии Кокса». Американский журнал эпидемиологии . 165 (6): 710–718. doi : 10.1093/aje/kwk052 . PMID  17182981.
  8. ^ ван Смеден, Маартен; де Гроот, Йорис AH; Мунс, Карел GM; Коллинз, Гэри С.; Альтман, Дуглас Г.; Эйкеманс, Маринус Дж. К.; Рейтсма, Йоханнес Б. (2016-11-24). "Нет обоснования для критерия 1 переменной на 10 событий для бинарного логистического регрессионного анализа". BMC Medical Research Methodology . 16 (1): 163. doi : 10.1186/s12874-016-0267-3 . ISSN  1471-2288. PMC 5122171. PMID  27881078 . 
  9. ^ ab van Smeden, Maarten; Moons, Karel Gm; de Groot, Joris Ah; Collins, Gary S.; Altman, Douglas G.; Eijkemans, Marinus Jc; Reitsma, Johannes B. (01.01.2018). «Размер выборки для бинарных логистических моделей прогнозирования: за пределами событий на переменные критерии». Статистические методы в медицинских исследованиях . 28 (8): 2455–2474. doi : 10.1177/0962280218784726 . ISSN  1477-0334. PMC 6710621. PMID  29966490 . 
  10. ^ ab Райли, Ричард Д.; Снелл, Ким IE; Энсор, Джой; Берк, Даниэль Л.; Мл., Фрэнк Э. Харрелл; Мунс, Карел GM; Коллинз, Гэри С. (2018). «Минимальный размер выборки для разработки многомерной модели прогнозирования: ЧАСТЬ II — бинарные и временные результаты до события». Статистика в медицине . 38 (7): 1276–1296. doi :10.1002/sim.7992. ISSN  1097-0258. PMC 6519266. PMID 30357870  . 
  11. ^ Применение машинного обучения и искусственного интеллекта в образовании. (2022). США: IGI Global. Страница 53, https://books.google.com/books?id=l59lEAAAQBAJ&dq=%22one%20in%20ten%20rule%22%20%20images%20machine%20learning&pg=PA53