Обрезка дерева решений

Обрезка — это метод сжатия данных в алгоритмах машинного обучения и поиска , который уменьшает размер деревьев решений путем удаления некритических и избыточных для классификации экземпляров разделов дерева. Обрезка уменьшает сложность конечного классификатора и, следовательно, повышает точность прогнозирования за счет снижения переобучения .

Один из вопросов, возникающих в алгоритме дерева решений, — оптимальный размер конечного дерева. Слишком большое дерево рискует переобучить обучающие данные и плохо обобщить новые образцы. Маленькое дерево может не захватывать важную структурную информацию о пространстве образцов. Однако трудно сказать, когда алгоритм дерева должен остановиться, поскольку невозможно сказать, значительно ли уменьшит ошибку добавление одного дополнительного узла. Эта проблема известна как эффект горизонта . Распространенная стратегия заключается в том, чтобы наращивать дерево до тех пор, пока каждый узел не будет содержать небольшое количество экземпляров, а затем использовать обрезку для удаления узлов, которые не предоставляют дополнительной информации. ^[1]

Обрезка должна уменьшить размер обучающего дерева без снижения точности прогнозирования, измеряемой набором перекрестной проверки . Существует много методов обрезки деревьев, которые различаются по измерению, используемому для оптимизации производительности.

Техники

Процессы обрезки можно разделить на два типа (предварительная и последующая обрезка).

Процедуры предварительной обрезки предотвращают полную индукцию обучающего набора, заменяя критерий остановки () в алгоритме индукции (например, макс. глубина дерева или прирост информации (Attr) > minGain). Методы предварительной обрезки считаются более эффективными, поскольку они не индуцируют весь набор, а деревья остаются небольшими с самого начала. Методы предварительной обрезки имеют общую проблему — эффект горизонта. Это следует понимать как нежелательное преждевременное прекращение индукции критерием остановки ().

Пост-обрезка (или просто обрезка) — наиболее распространенный способ упрощения деревьев. Здесь узлы и поддеревья заменяются листьями для уменьшения сложности. Обрезка может не только значительно уменьшить размер, но и повысить точность классификации невидимых объектов. Может случиться так, что точность назначения на наборе поездов ухудшится, но точность свойств классификации дерева в целом увеличится.

Процедуры различаются в зависимости от подхода к дереву (сверху вниз или снизу вверх).

Обрезка снизу вверх

Эти процедуры начинаются с последнего узла в дереве (самая нижняя точка). Следуя рекурсивно вверх, они определяют релевантность каждого отдельного узла. Если релевантность для классификации не указана, узел удаляется или заменяется листом. Преимущество в том, что при использовании этого метода не могут быть потеряны никакие релевантные поддеревья. К этим методам относятся Reduced Error Pruning (REP), Minimum Cost Complexity Pruning (MCCP) или Minimum Error Pruning (MEP).

Обрезка сверху вниз

В отличие от метода снизу вверх, этот метод начинается с корня дерева. Следуя приведенной ниже структуре, выполняется проверка релевантности, которая решает, является ли узел релевантным для классификации всех n элементов или нет. При обрезке дерева во внутреннем узле может случиться так, что целое поддерево (независимо от его релевантности) будет отброшено. Одним из таких представителей является пессимистическая обрезка ошибок (PEP), которая дает довольно хорошие результаты с невидимыми элементами.

Алгоритмы обрезки

Уменьшение ошибок обрезки

Одной из самых простых форм обрезки является обрезка с уменьшенной ошибкой. Начиная с листьев, каждый узел заменяется своим самым популярным классом. Если точность прогнозирования не затронута, то изменение сохраняется. Несмотря на некоторую наивность, обрезка с уменьшенной ошибкой имеет преимущество простоты и скорости .

Снижение затрат на сложность

Сложность сокращения стоимости генерирует ряд деревьев ⁠ ⁠, $T_{0}\dots T_{м}$ где ⁠ ⁠ $T_{0}$ — это начальное дерево, а ⁠ ⁠ $T_{м}$ — это только корень. На шаге ⁠ ⁠ $я$ дерево создается путем удаления поддерева из дерева ⁠ ⁠ $i-1$ и замены его листовым узлом со значением, выбранным как в алгоритме построения дерева. Удаляемое поддерево выбирается следующим образом:

Определим частоту ошибок дерева ⁠ ⁠ $Т$ по набору данных ⁠ ⁠ $S$ как ⁠ ⁠ $\operatorname {err} (T,S)$ .
Минимизирующееся поддерево выбирается для удаления. $т$ ${\frac {\operatorname {err} (\operatorname {prune} (T,t),S)-\operatorname {err} (T,S)}{\left\vert \operatorname {leaves} (T)\right\vert -\left\vert \operatorname {leaves} (\operatorname {prune} (T,t))\right\vert }}$

Функция ⁠ ⁠ $\operatorname {prune} (T,t)$ определяет дерево, полученное путем обрезки поддеревьев ⁠ ⁠ $т$ из дерева ⁠ ⁠ $Т$ . После создания ряда деревьев выбирается лучшее дерево по обобщенной точности, измеренной с помощью обучающего набора или перекрестной проверки.

Примеры

Обрезка может быть применена в схеме сжатия алгоритма обучения для удаления избыточных деталей без ущерба для производительности модели. В нейронных сетях обрезка удаляет целые нейроны или слои нейронов.

Смотрите также

Ссылки

Pearl, Judea (1984). Эвристика: интеллектуальные стратегии поиска для решения компьютерных проблем . Addison-Wesley. ISBN 978-0-201-05594-8.
Мансур, И. (1997). «Пессимистическая обрезка дерева решений на основе размера дерева». Труды 14-й Международной конференции по машинному обучению . С. 195–201.
Бреслоу, LA; Ага, DW (1997). «Упрощение деревьев решений: обзор». Обзор инженерии знаний . 12 (1): 1–47. doi :10.1017/S0269888997000015. S2CID 18782652.
Куинлан, Дж. Р. (1986). «Индукция деревьев решений». Машинное обучение . 1. Kluwer: 81–106. doi : 10.1007/BF00116251 .

^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2001). Элементы статистического обучения . Springer. стр. 269–272. ISBN 0-387-95284-5.

Дальнейшее чтение

Обрезка дерева решений на основе MDL Архивировано 29.08.2017 на Wayback Machine
Сокращение дерева решений с использованием нейронных сетей обратного распространения

Внешние ссылки

Быстрый алгоритм обрезки дерева решений снизу вверх
Введение в обрезку дерева решений