Рекурсивное разбиение — это статистический метод многомерного анализа . [1] Рекурсивное разбиение создает дерево решений , которое стремится правильно классифицировать членов популяции, разделяя ее на подгруппы на основе нескольких дихотомических независимых переменных . Процесс называется рекурсивным , потому что каждая подгруппа может быть разделена неограниченное количество раз, пока процесс разделения не завершится после достижения определенного критерия остановки.
Методы рекурсивного разбиения разрабатывались с 1980-х годов. Известные методы рекурсивного разбиения включают алгоритм ID3 Росса Куинлана и его последователей, C4.5 и C5.0 , а также деревья классификации и регрессии (CART). Методы обучения ансамбля, такие как случайные леса, помогают преодолеть распространенную критику этих методов — их уязвимость к переобучению данных — путем использования различных алгоритмов и объединения их выходных данных каким-либо образом.
В этой статье основное внимание уделяется рекурсивному разбиению для медицинских диагностических тестов, но эта техника имеет гораздо более широкое применение. См. дерево решений .
По сравнению с регрессионным анализом, который создает формулу, которую поставщики медицинских услуг могут использовать для расчета вероятности наличия у пациента заболевания, рекурсивное разбиение создает правило, например: «Если у пациента обнаружены признаки x, y или z, у него, вероятно, имеется заболевание q».
Разновидностью является «линейное рекурсивное разбиение Кокса». [2]
Преимущества и недостатки
По сравнению с другими многомерными методами рекурсивное разбиение имеет свои преимущества и недостатки.
Преимущества:
Создает клинически более интуитивные модели, не требующие от пользователя выполнения вычислений. [3]
Позволяет изменять приоритеты ошибочных классификаций для создания правила принятия решения, которое имеет большую чувствительность или специфичность . [2]
Может быть более точным. [4]
Недостатки:
Не очень хорошо работает для непрерывных переменных [5]
Может привести к переобучению данных.
Примеры
Имеются примеры использования рекурсивного разбиения в исследовании диагностических тестов. [6] [7] [8] [9] [10] [11] Голдман использовал рекурсивное разбиение для определения приоритетов чувствительности при диагностике инфаркта миокарда среди пациентов с болью в груди в отделении неотложной помощи. [11]
^ Брейман, Лео (1984). Деревья классификации и регрессии . Бока-Ратон: Chapman & Hall/CRC. ISBN 978-0-412-04841-8.
^ ab Cook EF, Goldman L (1984). «Эмпирическое сравнение многомерных аналитических методов: преимущества и недостатки рекурсивного анализа разбиения». Журнал хронических заболеваний . 37 (9–10): 721–31. doi :10.1016/0021-9681(84)90041-9. PMID 6501544.
^ Джеймс К. Э., Уайт Р. Ф., Крамер Х. К. (2005). «Повторная проверка разделенной выборки для оценки логистической регрессии и рекурсивного разбиения: применение к прогнозированию когнитивных нарушений». Статистика в медицине . 24 (19): 3019–35. doi :10.1002/sim.2154. PMID 16149128.
^ Kattan MW, Hess KR, Beck JR (1998). «Эксперименты по определению того, преодолевает ли рекурсивное разбиение (CART) или искусственная нейронная сеть теоретические ограничения регрессии пропорциональных рисков Кокса». Comput. Biomed. Res . 31 (5): 363–73. doi :10.1006/cbmr.1998.1488. PMID 9790741.
^ Lee JW, Um SH, Lee JB, Mun J, Cho H (2006). «Системы оценки и стадирования с использованием линейной регрессионной модели Кокса и рекурсивного разбиения». Методы информации в медицине . 45 (1): 37–43. doi :10.1055/s-0038-1634034. PMID 16482368.
^ Fonarow GC, Adams KF, Abraham WT, Yancy CW, Boscardin WJ (2005). «Стратификация риска внутрибольничной смертности при острой декомпенсированной сердечной недостаточности: классификация и регрессионный анализ дерева». JAMA . 293 (5): 572–80. doi : 10.1001/jama.293.5.572 . PMID 15687312.
^ Stiell IG, Wells GA, Vandemheen KL и др. (2001). «Канадское правило для шейного отдела позвоночника при рентгенографии у бодрствующих и стабильных пациентов с травмой». JAMA . 286 (15): 1841–8. doi : 10.1001/jama.286.15.1841 . PMID 11597285.
^ Haydel MJ, Preston CA, Mills TJ, Luber S, Blaudeau E, DeBlieux PM (2000). «Показания к компьютерной томографии у пациентов с незначительной травмой головы». N. Engl. J. Med . 343 (2): 100–5. doi : 10.1056/NEJM200007133430204 . PMID 10891517.
^ Edworthy SM, Zatarain E, McShane DJ, Bloch DA (1988). «Анализ набора данных критериев волчанки ARA 1982 года с помощью рекурсивной методологии разбиения: новое понимание относительной ценности отдельных критериев». J. Rheumatol . 15 (10): 1493–8. PMID 3060613.
^ Stiell IG, Greenberg GH, Wells GA и др. (1996). «Проспективная проверка правила принятия решения об использовании рентгенографии при острых травмах колена». JAMA . 275 (8): 611–5. doi :10.1001/jama.275.8.611. PMID 8594242.
^ ab Goldman L, Weinberg M, Weisberg M и др. (1982). «Протокол, разработанный на компьютере, для помощи в диагностике пациентов отделения неотложной помощи с острой болью в груди». N. Engl. J. Med . 307 (10): 588–96. doi :10.1056/NEJM198209023071004. PMID 7110205.