Выбор функции

Выбор признаков — это процесс выбора подмножества соответствующих признаков (переменных, предикторов) для использования при построении модели. Стилометрия и анализ микрочипов ДНК — это два случая, когда используется отбор признаков. Его следует отличать от извлечения признаков . ^[1]

Методы выбора признаков используются по нескольким причинам:

упрощение моделей, чтобы их было легче интерпретировать исследователям/пользователям, ^[2]
более короткое время обучения, ^[3]
чтобы избежать проклятия размерности , ^[4]
улучшить совместимость данных с классом модели обучения, ^[5]
кодировать присущие симметрии , присутствующие во входном пространстве. ^[6]^[7]^[8]^[9]

Основная предпосылка при использовании метода выбора признаков заключается в том, что данные содержат некоторые признаки, которые являются либо избыточными , либо нерелевантными , и поэтому их можно удалить без большой потери информации. ^[10] Избыточное и нерелевантное — это два разных понятия, поскольку одна релевантная характеристика может быть избыточной в присутствии другой релевантной характеристики, с которой она сильно коррелирует. ^[11]

Извлечение функций создает новые функции из функций исходных функций, тогда как выбор функций возвращает подмножество функций. Методы выбора признаков часто используются в областях, где имеется много признаков и сравнительно мало выборок (или точек данных).

Введение

Алгоритм выбора признаков можно рассматривать как комбинацию метода поиска для предложения новых подмножеств признаков и меры оценки, которая оценивает различные подмножества признаков. Самый простой алгоритм — протестировать каждое возможное подмножество функций и найти тот, который минимизирует частоту ошибок. Это исчерпывающий поиск пространства, который вычислительно невыполним для всех наборов функций, кроме самых маленьких. Выбор метрики оценки сильно влияет на алгоритм, и именно эти метрики оценки различают три основные категории алгоритмов выбора функций: оболочки, фильтры и встроенные методы. ^[11]

Методы-оболочки используют прогнозную модель для оценки подмножеств объектов. Каждое новое подмножество используется для обучения модели, которая тестируется на контрольном наборе. Подсчет количества ошибок, допущенных в этом контрольном наборе (коэффициент ошибок модели), дает оценку этому подмножеству. Поскольку методы-оболочки обучают новую модель для каждого подмножества, они требуют очень больших вычислительных ресурсов, но обычно обеспечивают наиболее эффективный набор функций для этого конкретного типа модели или типичной проблемы.
Методы фильтра используют прокси-меру вместо частоты ошибок для оценки подмножества объектов. Эта мера выбрана так, чтобы ее можно было быстро вычислить, но при этом учесть полезность набора функций. Общие меры включают взаимную информацию , ^[11] точечную взаимную информацию , ^[12] Коэффициент корреляции момента произведения Пирсона , алгоритмы на основе рельефа , ^[13] и расстояние между/внутри классов или оценки критериев значимости для каждого класса/признака. комбинации. ^[12]^[14] Фильтры обычно требуют меньше вычислительных ресурсов, чем оболочки, но они создают набор функций, который не настроен на конкретный тип прогнозной модели. ^[15] Отсутствие настройки означает, что набор функций из фильтра является более общим, чем набор из оболочки, что обычно дает более низкую производительность прогнозирования, чем оболочка. Однако набор функций не содержит допущений модели прогнозирования и поэтому более полезен для выявления взаимосвязей между функциями. Многие фильтры обеспечивают ранжирование функций, а не явное подмножество лучших функций, а точка отсечения в рейтинге выбирается посредством перекрестной проверки . Методы фильтра также использовались в качестве этапа предварительной обработки для методов-оболочек, что позволяло использовать оболочку для решения более крупных задач. Еще одним популярным подходом является алгоритм рекурсивного исключения признаков ^[16] , который обычно используется с машинами опорных векторов для многократного построения модели и удаления признаков с малым весом.
Встроенные методы — это универсальная группа методов, которые выполняют выбор признаков как часть процесса построения модели. Примером этого подхода является метод LASSO для построения линейной модели, который наказывает коэффициенты регрессии штрафом L1, сводя многие из них к нулю. Любые признаки, имеющие ненулевые коэффициенты регрессии, «выбираются» алгоритмом LASSO. Усовершенствования LASSO включают Bolasso, который загружает сэмплы; ^[17] Эластичная чистая регуляризация , которая сочетает в себе штраф L1 LASSO со штрафом L2 гребневой регрессии ; и FeaLect, который оценивает все функции на основе комбинаторного анализа коэффициентов регрессии. ^[18] AEFS расширяет LASSO до нелинейного сценария с помощью автоэнкодеров. ^[19] Эти подходы, как правило, находятся между фильтрами и оболочками с точки зрения вычислительной сложности.

В традиционном регрессионном анализе наиболее популярной формой выбора признаков является пошаговая регрессия , которая представляет собой метод-оболочку. Это жадный алгоритм , который добавляет лучшую функцию (или удаляет худшую) в каждом раунде. Основной проблемой управления является принятие решения о том, когда остановить алгоритм. В машинном обучении это обычно делается посредством перекрестной проверки . В статистике оптимизированы некоторые критерии. Это приводит к естественной проблеме гнездования. Были изучены более надежные методы, такие как сеть ветвей и границ и кусочно-линейная сеть.

Выбор подмножества

Выбор подмножества оценивает подмножество функций как группу на предмет пригодности. Алгоритмы выбора подмножества можно разбить на оболочки, фильтры и встроенные методы. Оболочки используют алгоритм поиска для поиска в пространстве возможных функций и оценки каждого подмножества, запуская модель на этом подмножестве. Обертки могут быть дорогостоящими в вычислительном отношении и иметь риск чрезмерного соответствия модели. В подходе к поиску фильтры аналогичны оболочкам, но вместо оценки по модели оценивается более простой фильтр. Встроенные методы встроены в модель и специфичны для нее.

Многие популярные подходы к поиску используют жадное восхождение на холм , при котором итеративно оценивается потенциальное подмножество признаков, затем модифицируется подмножество и оценивается, является ли новое подмножество улучшением по сравнению со старым. Для оценки подмножеств требуется оценочная метрика , которая оценивает подмножество функций. Исчерпывающий поиск, как правило, непрактичен, поэтому в некоторой точке остановки, определенной разработчиком (или оператором), подмножество функций с наивысшим баллом, обнаруженным к этому моменту, выбирается в качестве удовлетворительного подмножества функций. Критерий остановки зависит от алгоритма; возможные критерии включают в себя: оценка подмножества превышает пороговое значение, превышено максимально допустимое время выполнения программы и т. д.

Альтернативные методы поиска основаны на целевом поиске проекций , который находит низкоразмерные проекции данных, имеющие высокую оценку: затем выбираются объекты, которые имеют самые большие проекции в пространстве более низкой размерности.

Подходы к поиску включают в себя:

Исчерпывающий ^[20]
Лучше всего сначала
Имитация отжига
Генетический алгоритм ^[21]
Жадный прямой выбор ^[22]^[23]^[24]
Жадное обратное устранение
Оптимизация роя частиц ^[25]
Целенаправленное проецирование
Поиск по рассеянию ^[26]^[27]
Переменный поиск окрестности ^[28]^[29]

Двумя популярными метриками фильтров для задач классификации являются корреляция и взаимная информация , хотя ни одна из них не является истинными метриками или «мерами расстояния» в математическом смысле, поскольку они не подчиняются неравенству треугольника и, следовательно, не вычисляют никакого фактического «расстояния». рассматриваться как «баллы». Эти оценки вычисляются между кандидатной функцией (или набором функций) и желаемой выходной категорией. Однако существуют истинные показатели, которые являются простой функцией взаимной информации; ^[30] см. здесь .

Другие доступные показатели фильтра включают в себя:

Разделимость классов
- Вероятность ошибки
- Межклассовое расстояние
- Вероятностное расстояние
- Энтропия
Выбор функций на основе согласованности
Выбор признаков на основе корреляции

Критерии оптимальности

Выбор критериев оптимальности сложен, поскольку задача выбора признаков преследует несколько целей. Многие общие критерии включают в себя меру точности, штрафуемую количеством выбранных функций. Примеры включают информационный критерий Акаике (AIC) и C p Маллоуза , которые имеют штраф 2 за каждую добавленную функцию. AIC основан на теории информации и эффективно выводится на основе принципа максимальной энтропии . ^[31]^[32]

Другими критериями являются байесовский информационный критерий (BIC), который использует штраф за каждую добавленную функцию, минимальная длина описания (MDL), которая асимптотически использует , Бонферрони / RIC, которые используют выбор функции максимальной зависимости и множество новых критериев, которые мотивированы. по уровню ложного обнаружения (FDR), который использует что-то близкое к . Критерий максимальной степени энтропии также может использоваться для выбора наиболее релевантного подмножества функций. ^[33] ${\sqrt {\log {n}}}$ ${\sqrt {\log {n}}}$ ${\sqrt {2\log {p}}}$ ${\sqrt {2\log {\frac {p}{q}}}}$

Структурное обучение

Выбор функций фильтра — это частный случай более общей парадигмы, называемой обучением структуры . Выбор функций находит соответствующий набор функций для конкретной целевой переменной, тогда как изучение структуры находит взаимосвязи между всеми переменными, обычно выражая эти взаимосвязи в виде графика. Наиболее распространенные алгоритмы обучения структур предполагают, что данные генерируются байесовской сетью , поэтому структура представляет собой ориентированную графическую модель . Оптимальным решением проблемы выбора характеристик фильтра является одеяло Маркова целевого узла, а в байесовской сети существует уникальное одеяло Маркова для каждого узла. ^[34]

Механизмы выбора функций, основанные на теории информации

Существуют различные механизмы выбора функций, которые используют взаимную информацию для оценки различных функций. Обычно они используют один и тот же алгоритм:

Рассчитайте взаимную информацию как оценку между всеми функциями ( ) и целевым классом ( $c$ ) $f_{i}\in F$
Выберите объект с наибольшим баллом (например , ) и добавьте его в набор выбранных объектов ( $S$ ). ${\underset {f_{i}\in F}{\operatorname {argmax} }}(I(f_{i},c))$
Рассчитайте оценку, которую можно получить на основе взаимной информации.
Выберите объект с наибольшим баллом и добавьте его в набор избранных объектов (например, ) ${\underset {f_{i}\in F}{\operatorname {argmax} }}(I_{derived}(f_{i},c))$
Повторяйте 3. и 4. до тех пор, пока не будет выбрано определенное количество функций (например, ). $|S|=l$

Самый простой подход использует взаимную информацию в качестве «производной» оценки. ^[35]

Однако существуют разные подходы, которые пытаются уменьшить избыточность между функциями.

Выбор функции «минимальная избыточность — максимальная релевантность» (mRMR)

Пэн и др. ^[36] предложили метод выбора признаков, который может использовать либо взаимную информацию, либо корреляцию, либо оценки расстояния/сходства для выбора признаков. Цель состоит в том, чтобы наказать релевантность функции из-за ее избыточности в присутствии других выбранных функций. Релевантность набора признаков $S$ для класса $c$ определяется средним значением всех значений взаимной информации между отдельным признаком $f i$ и классом $c$ следующим образом:

D(S,c)={\frac {1}{|S|}}\sum _{f_{i}\in S}I(f_{i};c)

Избыточность всех признаков в наборе $S$ представляет собой среднее значение всех значений взаимной информации между признаком $f i$ и признаком $f j$ :

R(S)={\frac {1}{|S|^{2}}}\sum _{f_{i},f_{j}\in S}I(f_{i};f_{j})

Критерий mRMR представляет собой комбинацию двух показателей, приведенных выше, и определяется следующим образом:

\mathrm {mRMR} =\max _{S}\left[{\frac {1}{|S|}}\sum _{f_{i}\in S}I(f_{i};c)-{\frac {1}{|S|^{2}}}\sum _{f_{i},f_{j}\in S}I(f_{i};f_{j})\right].

Предположим, что имеется $n$ полных функций. Пусть $x i$ будет индикаторной функцией членства в наборе для признака $f i$ , так что $x i =1$ указывает на наличие, а $x i =0$ указывает на отсутствие признака $f i$ в глобально оптимальном наборе признаков. Пусть и . Вышеупомянутое может быть записано как задача оптимизации: $c_{i}=I(f_{i};c)$ $a_{ij}=I(f_{i};f_{j})$

\mathrm {mRMR} =\max _{x\in \{0,1\}^{n}}\left[{\frac {\sum _{i=1}^{n}c_{i}x_{i}}{\sum _{i=1}^{n}x_{i}}}-{\frac {\sum _{i,j=1}^{n}a_{ij}x_{i}x_{j}}{(\sum _{i=1}^{n}x_{i})^{2}}}\right].

Алгоритм mRMR представляет собой аппроксимацию теоретически оптимального алгоритма выбора признаков с максимальной зависимостью, который максимизирует взаимную информацию между совместным распределением выбранных признаков и классификационной переменной. Поскольку mRMR аппроксимирует задачу комбинаторного оценивания серией гораздо меньших задач, каждая из которых включает только две переменные, таким образом, он использует попарные совместные вероятности, которые являются более надежными. В определенных ситуациях алгоритм может недооценивать полезность функций, поскольку у него нет способа измерить взаимодействие между функциями, которое могло бы повысить релевантность. Это может привести к снижению производительности ^[35] , когда функции по отдельности бесполезны, но полезны в сочетании (обнаруживается патологический случай, когда класс является функцией четности функций). В целом алгоритм более эффективен (с точки зрения объема требуемых данных), чем теоретически оптимальный выбор максимальной зависимости, но при этом создает набор функций с небольшой попарной избыточностью.

mRMR — это экземпляр большого класса методов фильтрации, которые по-разному балансируют между релевантностью и избыточностью. ^[35]^[37]

Выбор функции квадратичного программирования

mRMR является типичным примером пошаговой жадной стратегии выбора функций: после того, как функция выбрана, ее нельзя отменить на более позднем этапе. Хотя mRMR можно оптимизировать с помощью плавающего поиска для сокращения некоторых функций, его также можно переформулировать как глобальную задачу оптимизации квадратичного программирования следующим образом: ^[38]

\mathrm {QPFS} :\min _{\mathbf {x} }\left\{\alpha \mathbf {x} ^{T}H\mathbf {x} -\mathbf {x} ^{T}F\right\}\quad {\mbox{s.t.}}\ \sum _{i=1}^{n}x_{i}=1,x_{i}\geq 0

где – вектор релевантности признаков при условии, что всего имеется $n$ признаков, – матрица попарной избыточности признаков и представляет относительные веса признаков. QPFS решается посредством квадратичного программирования. Недавно было показано, что QFPS смещен в сторону признаков с меньшей энтропией ^[39] из-за размещения члена самоизбыточности признака на диагонали $H$ . $F_{n\times 1}=[I(f_{1};c),\ldots ,I(f_{n};c)]^{T}$ $H_{n\times n}=[I(f_{i};f_{j})]_{i,j=1\ldots n}$ $\mathbf {x} _{n\times 1}$ $I(f_{i};f_{i})$

Условная взаимная информация

Другая оценка взаимной информации основана на условной релевантности: ^[39]

\mathrm {SPEC_{CMI}} :\max _{\mathbf {x} }\left\{\mathbf {x} ^{T}Q\mathbf {x} \right\}\quad {\mbox{s.t.}}\ \|\mathbf {x} \|=1,x_{i}\geq 0

где и . $Q_{ii}=I(f_{i};c)$ $Q_{ij}=(I(f_{i};c|f_{j})+I(f_{j};c|f_{i}))/2,i\neq j$

Преимущество $SPEC CMI$ заключается в том, что его можно решить, просто найдя доминирующий собственный вектор $Q$ , поэтому он очень масштабируем. $SPEC CMI$ также обрабатывает взаимодействие функций второго порядка.

Совместная взаимная информация

В исследовании различных показателей Brown et al. ^[35] рекомендовали совместную взаимную информацию ^[40] как хороший показатель для выбора признаков. Оценка пытается найти функцию, которая добавляет больше всего новой информации к уже выбранным функциям, чтобы избежать избыточности. Оценка формулируется следующим образом:

{\begin{aligned}JMI(f_{i})&=\sum _{f_{j}\in S}(I(f_{i};c)+I(f_{i};c|f_{j}))\\&=\sum _{f_{j}\in S}{\bigl [}I(f_{j};c)+I(f_{i};c)-{\bigl (}I(f_{i};f_{j})-I(f_{i};f_{j}|c){\bigr )}{\bigr ]}\end{aligned}}

Оценка использует условную взаимную информацию и взаимную информацию для оценки избыточности между уже выбранными функциями ( ) и исследуемой функцией ( ). $f_{j}\in S$ $f_{i}$

Выбор признаков на основе критерия независимости Гильберта-Шмидта с помощью лассо

Для данных большой размерности и небольшой выборки (например, размерность > 10⁵ и количество образцов < 10³ ), полезно использовать Лассо критерия независимости Гильберта-Шмидта (HSIC Lasso).^[41] Задача оптимизации HSIC Lasso задается как

\mathrm {HSIC_{Lasso}} :\min _{\mathbf {x} }{\frac {1}{2}}\sum _{k,l=1}^{n}x_{k}x_{l}{\mbox{HSIC}}(f_{k},f_{l})-\sum _{k=1}^{n}x_{k}{\mbox{HSIC}}(f_{k},c)+\lambda \|\mathbf {x} \|_{1},\quad {\mbox{s.t.}}\ x_{1},\ldots ,x_{n}\geq 0,

где — мера независимости на основе ядра, называемая (эмпирическим) критерием независимости Гильберта-Шмидта (HSIC), обозначает трассу , — параметр регуляризации, — входные и выходные центрированные матрицы Грама , — матрицы Грама, и — функции ядра, — центрирующая матрица, — $m$ -мерная единичная матрица ( $m$ : количество выборок), — $m$ -мерный вектор со всеми единицами, — — норма. HSIC всегда принимает неотрицательное значение и равно нулю тогда и только тогда, когда две случайные величины статистически независимы, когда используется универсальное воспроизводящее ядро, такое как ядро Гаусса. ${\mbox{HSIC}}(f_{k},c)={\mbox{tr}}({\bar {\mathbf {K} }}^{(k)}{\bar {\mathbf {L} }})$ ${\mbox{tr}}(\cdot )$ $\lambda$ ${\bar {\mathbf {K} }}^{(k)}=\mathbf {\Gamma } \mathbf {K} ^{(k)}\mathbf {\Gamma }$ ${\bar {\mathbf {L} }}=\mathbf {\Gamma } \mathbf {L} \mathbf {\Gamma }$ $K_{i,j}^{(k)}=K(u_{k,i},u_{k,j})$ $L_{i,j}=L(c_{i},c_{j})$ $K(u,u')$ $L(c,c')$ $\mathbf {\Gamma } =\mathbf {I} _{m}-{\frac {1}{m}}\mathbf {1} _{m}\mathbf {1} _{m}^{T}$ $\mathbf {I} _{m}$ $\mathbf {1} _{m}$ $\|\cdot \|_{1}$ $\ell _{1}$

HSIC Lasso можно записать как

\mathrm {HSIC_{Lasso}} :\min _{\mathbf {x} }{\frac {1}{2}}\left\|{\bar {\mathbf {L} }}-\sum _{k=1}^{n}x_{k}{\bar {\mathbf {K} }}^{(k)}\right\|_{F}^{2}+\lambda \|\mathbf {x} \|_{1},\quad {\mbox{s.t.}}\ x_{1},\ldots ,x_{n}\geq 0,

где норма Фробениуса . Проблема оптимизации является проблемой Лассо, и поэтому ее можно эффективно решить с помощью современного решателя Лассо, такого как двойной расширенный метод Лагранжа . $\|\cdot \|_{F}$

Выбор корреляционного признака

Мера выбора корреляционных признаков (CFS) оценивает подмножества признаков на основе следующей гипотезы: «Хорошие подмножества признаков содержат признаки, сильно коррелирующие с классификацией, но не коррелирующие друг с другом». ^[42]^[43] Следующее уравнение дает оценку подмножества признаков S , состоящего из k признаков:

\mathrm {Merit} _{S_{k}}={\frac {k{\overline {r_{cf}}}}{\sqrt {k+k(k-1){\overline {r_{ff}}}}}}.

Здесь — среднее значение всех корреляций классификации признаков и среднее значение всех корреляций признаков-признаков. Критерий CFS определяется следующим образом: ${\overline {r_{cf}}}$ ${\overline {r_{ff}}}$

\mathrm {CFS} =\max _{S_{k}}\left[{\frac {r_{cf_{1}}+r_{cf_{2}}+\cdots +r_{cf_{k}}}{\sqrt {k+2(r_{f_{1}f_{2}}+\cdots +r_{f_{i}f_{j}}+\cdots +r_{f_{k}f_{k-1}})}}}\right].

Переменные и называются корреляциями, но не обязательно являются коэффициентом корреляции Пирсона или ρ Спирмена . В диссертации Холла не используется ни один из них, а используются три различных показателя родственности: минимальная длина описания (MDL), симметричная неопределенность и облегчение . $r_{cf_{i}}$ $r_{f_{i}f_{j}}$

Пусть x _i будет индикаторной функцией членства в наборе для признака f _i ; тогда вышеизложенное можно переписать как задачу оптимизации:

\mathrm {CFS} =\max _{x\in \{0,1\}^{n}}\left[{\frac {(\sum _{i=1}^{n}a_{i}x_{i})^{2}}{\sum _{i=1}^{n}x_{i}+\sum _{i\neq j}2b_{ij}x_{i}x_{j}}}\right].

Вышеупомянутые комбинаторные задачи на самом деле представляют собой смешанные задачи линейного программирования 0–1 , которые можно решить с помощью алгоритмов ветвей и границ . ^[44]

Регуляризованные деревья

Показано, что признаки дерева решений или ансамбля деревьев избыточны. Для выбора подмножества признаков можно использовать недавний метод, называемый регуляризованным деревом ^[45] . Регуляризованные деревья наказывают за использование переменной, аналогичной переменным, выбранным в предыдущих узлах дерева, для разделения текущего узла. Для регуляризованных деревьев требуется построить только одну модель дерева (или одну модель ансамбля деревьев), и поэтому они эффективны в вычислительном отношении.

Регуляризованные деревья естественным образом обрабатывают числовые и категориальные функции, взаимодействия и нелинейности. Они инвариантны к шкалам атрибутов (единицам измерения) и нечувствительны к выбросам и, следовательно, требуют незначительной предварительной обработки данных , такой как нормализация . Регуляризованный случайный лес (RRF) ^[46] — это один из типов регуляризованных деревьев. Управляемый RRF — это расширенный RRF, который руководствуется оценками важности обычного случайного леса.

Обзор методов метаэвристики

Метаэвристика — это общее описание алгоритма, предназначенного для решения сложных (обычно NP -сложных ) задач оптимизации, для которых не существует классических методов решения. Как правило, метаэвристика — это стохастический алгоритм, стремящийся к достижению глобального оптимума. Существует множество метаэвристик: от простого локального поиска до сложного алгоритма глобального поиска.

Основные принципы

Методы выбора признаков обычно делятся на три класса в зависимости от того, как они сочетают алгоритм выбора и построение модели.

Метод фильтра

Метод фильтра для выбора объекта

Методы типа фильтра выбирают переменные независимо от модели. Они основаны только на общих характеристиках, таких как корреляция с прогнозируемой переменной. Методы фильтра подавляют наименее интересные переменные. Другие переменные будут частью классификации или регрессионной модели, используемой для классификации или прогнозирования данных. Эти методы особенно эффективны с точки зрения времени вычислений и устойчивы к переобучению. ^[47]

Методы фильтрации имеют тенденцию выбирать избыточные переменные, когда они не учитывают связи между переменными. Однако более сложные функции пытаются минимизировать эту проблему, удаляя переменные, сильно коррелирующие друг с другом, такие как алгоритм фильтра на основе быстрой корреляции (FCBF). ^[48]

Метод оболочки

Методы-оболочки оценивают подмножества переменных, что позволяет, в отличие от подходов с фильтрацией, обнаруживать возможные взаимодействия между переменными. ^[49] Двумя основными недостатками этих методов являются:

Возрастающий риск переобучения, когда количество наблюдений недостаточно.
Значительное время вычислений при большом количестве переменных.

Встроенный метод

Недавно были предложены встроенные методы, которые пытаются объединить преимущества обоих предыдущих методов. Алгоритм обучения использует собственный процесс выбора переменных и одновременно выполняет выбор и классификацию признаков, например алгоритм FRMT. ^[50]

Применение метаэвристики выбора признаков

Это обзор применения метаэвристики выбора признаков, недавно использовавшейся в литературе. Этот опрос был реализован Дж. Хэммон в ее диссертации 2013 года. ^[47]

Выбор функций, встроенный в алгоритмы обучения

Некоторые алгоритмы обучения выполняют выбор функций как часть своей общей работы. К ним относятся:

$l_{1}$ - методы регуляризации, такие как разреженная регрессия, LASSO и -SVM. $l_{1}$
Регуляризованные деревья, ^[45] например, регуляризованный случайный лес, реализованный в пакете RRF ^[46]
Дерево решений ^[72]
Меметический алгоритм
Случайный полиномиальный логит (RMNL)
Сети автоматического кодирования с узким местом
Выбор субмодульных функций ^[73]^[74]^[75]
Выбор функций на основе местного обучения. ^[76] По сравнению с традиционными методами, он не требует эвристического поиска, может легко решать многоклассовые задачи и работает как для линейных, так и для нелинейных задач. Это также подкреплено прочной теоретической основой. Численные эксперименты показали, что этот метод может обеспечить решение, близкое к оптимальному, даже если данные содержат > 1 миллиона нерелевантных функций.
Рекомендательная система, основанная на выборе функций. ^[77] Методы выбора признаков внедряются в исследования рекомендательных систем.

Смотрите также

дальнейшее чтение

Гийон, Изабель; Елисеев, Андре (2003). «Введение в выбор переменных и функций». Журнал исследований машинного обучения . 3 : 1157–1182.
Харрелл, Ф. (2001). Стратегии регрессионного моделирования . Спрингер. ISBN 0-387-95232-2.
Лю, Хуан; Мотода, Хироши (1998). Выбор функций для обнаружения знаний и интеллектуального анализа данных. Спрингер. ISBN 0-7923-8198-Х.
Лю, Хуан; Ю, Лей (2005). «На пути к интеграции алгоритмов выбора признаков для классификации и кластеризации». Транзакции IEEE по знаниям и инженерии данных . 17 (4): 491–502. дои :10.1109/TKDE.2005.66. S2CID 1607600.

Внешние ссылки

Пакет выбора функций, Университет штата Аризона (код Matlab)
Задача NIPS 2003 (см. также NIPS )
Наивная реализация Байеса с выбором функций в Visual Basic. Архивировано 14 февраля 2009 г. на Wayback Machine (включая исполняемый файл и исходный код).
Программа выбора функций «минимальная избыточность-максимальная релевантность» (mRMR)
FEAST (алгоритмы выбора функций с открытым исходным кодом на C и MATLAB)