В машинном обучении отбор признаков — это процесс выбора подмножества соответствующих признаков (переменных, предикторов) для использования в построении модели. Методы отбора признаков используются по нескольким причинам:
упрощение моделей для облегчения их интерпретации, [1]
улучшить совместимость данных с определенным классом модели обучения, [4]
для кодирования внутренних симметрий, присутствующих во входном пространстве. [5] [6] [7] [8]
Центральная предпосылка при использовании выбора признаков заключается в том, что данные иногда содержат признаки, которые являются избыточными или нерелевантными , и поэтому могут быть удалены без значительной потери информации. [9] Избыточность и нерелевантность — это два разных понятия, поскольку один релевантный признак может быть избыточным при наличии другого релевантного признака, с которым он сильно коррелирует. [10]
Извлечение признаков создает новые признаки из функций исходных признаков, тогда как отбор признаков находит подмножество признаков. Методы отбора признаков часто используются в областях, где имеется много признаков и сравнительно мало образцов (точек данных).
Введение
Алгоритм выбора признаков можно рассматривать как комбинацию метода поиска для предложения новых подмножеств признаков вместе с мерой оценки, которая оценивает различные подмножества признаков. Самый простой алгоритм — это проверить каждое возможное подмножество признаков, найдя то, которое минимизирует частоту ошибок. Это исчерпывающий поиск пространства, и он вычислительно невыполним для всех, кроме самых маленьких наборов признаков. Выбор метрики оценки сильно влияет на алгоритм, и именно эти метрики оценки различают три основные категории алгоритмов выбора признаков: оболочки, фильтры и встроенные методы. [10]
Методы обертки используют предиктивную модель для оценки подмножеств признаков. Каждое новое подмножество используется для обучения модели, которая тестируется на контрольном наборе. Подсчет количества ошибок, допущенных на этом контрольном наборе (коэффициент ошибок модели), дает оценку для этого подмножества. Поскольку методы обертки обучают новую модель для каждого подмножества, они очень интенсивны в вычислительном плане, но обычно обеспечивают наиболее эффективный набор признаков для этого конкретного типа модели или типичной проблемы.
Методы фильтрации используют прокси-меру вместо частоты ошибок для оценки подмножества признаков. Эта мера выбирается для быстрого вычисления, при этом все еще фиксируя полезность набора признаков. К распространенным мерам относятся взаимная информация , [10] точечная взаимная информация , [11] коэффициент корреляции Пирсона-момента , алгоритмы на основе рельефа , [12] и меж-/внутриклассовое расстояние или оценки тестов значимости для каждой комбинации класса/признака. [11] [13] Фильтры обычно менее вычислительно интенсивны, чем оболочки, но они создают набор признаков, который не настроен на определенный тип предиктивной модели. [14] Такое отсутствие настройки означает, что набор признаков из фильтра более общий, чем набор из оболочки, что обычно дает более низкую производительность прогнозирования, чем оболочка. Однако набор признаков не содержит предположений о модели прогнозирования, и поэтому более полезен для выявления взаимосвязей между признаками. Многие фильтры предоставляют ранжирование признаков, а не явное лучшее подмножество признаков, а точка отсечения в ранжировании выбирается с помощью перекрестной проверки . Методы фильтрации также использовались в качестве шага предварительной обработки для методов обертки, что позволяет использовать обертку для более крупных задач. Еще одним популярным подходом является алгоритм рекурсивного исключения признаков [15] , обычно используемый с машинами опорных векторов для многократного построения модели и удаления признаков с низким весом.
Встроенные методы представляют собой всеобъемлющую группу методов, которые выполняют выбор признаков как часть процесса построения модели. Примером этого подхода является метод LASSO для построения линейной модели, который штрафует коэффициенты регрессии штрафом L1, сводя многие из них к нулю. Любые признаки, имеющие ненулевые коэффициенты регрессии, «выбираются» алгоритмом LASSO. Улучшения LASSO включают Bolasso, который загружает выборки; [16] Elastic net regularization , который объединяет штраф L1 LASSO со штрафом L2 гребневой регрессии ; и FeaLect, который оценивает все признаки на основе комбинаторного анализа коэффициентов регрессии. [17] AEFS дополнительно расширяет LASSO до нелинейного сценария с автоэнкодерами. [18] Эти подходы, как правило, находятся между фильтрами и оболочками с точки зрения вычислительной сложности.
В традиционном регрессионном анализе наиболее популярной формой выбора признаков является пошаговая регрессия , которая является методом-оберткой. Это жадный алгоритм , который добавляет лучший признак (или удаляет худший признак) на каждом раунде. Основной проблемой управления является решение о том, когда остановить алгоритм. В машинном обучении это обычно делается с помощью перекрестной проверки . В статистике некоторые критерии оптимизируются. Это приводит к неотъемлемой проблеме вложенности. Были исследованы более надежные методы, такие как ветвь и граница и кусочно-линейная сеть.
Выбор подмножества
Выбор подмножества оценивает подмножество признаков как группу на предмет пригодности. Алгоритмы выбора подмножества можно разбить на оболочки, фильтры и встроенные методы. Оболочки используют алгоритм поиска для поиска в пространстве возможных признаков и оценивают каждое подмножество, запуская модель на подмножестве. Оболочки могут быть вычислительно затратными и иметь риск чрезмерного соответствия модели. Фильтры похожи на оболочки в подходе поиска, но вместо оценки по модели оценивается более простой фильтр. Встроенные методы встроены в модель и специфичны для нее.
Многие популярные подходы поиска используют жадный поиск по холму , который итеративно оценивает подмножество-кандидата признаков, затем изменяет подмножество и оценивает, является ли новое подмножество улучшением по сравнению со старым. Оценка подмножеств требует метрики оценки , которая оценивает подмножество признаков. Исчерпывающий поиск, как правило, непрактичен, поэтому в некоторой определенной реализатором (или оператором) точке остановки подмножество признаков с наивысшей оценкой, обнаруженной до этой точки, выбирается как удовлетворительное подмножество признаков. Критерий остановки зависит от алгоритма; возможные критерии включают: оценка подмножества превышает пороговое значение, максимально допустимое время выполнения программы было превышено и т. д.
Альтернативные методы поиска основаны на целенаправленном поиске проекций , который находит низкоразмерные проекции данных, имеющие высокие оценки: затем выбираются признаки, имеющие самые большие проекции в низкоразмерном пространстве.
Две популярные метрики фильтров для задач классификации — это корреляция и взаимная информация , хотя ни одна из них не является истинной метрикой или «мерой расстояния» в математическом смысле, поскольку они не подчиняются неравенству треугольника и, таким образом, не вычисляют никакого фактического «расстояния» — их скорее следует рассматривать как «оценки». Эти оценки вычисляются между потенциальным признаком (или набором признаков) и желаемой выходной категорией. Однако существуют истинные метрики, которые являются простой функцией взаимной информации; [29] см. здесь .
Выбор критерия оптимальности сложен, поскольку в задаче выбора признаков есть несколько целей. Многие общие критерии включают меру точности, штрафуемую количеством выбранных признаков. Примерами являются критерий информации Акаике (AIC) и C p Маллоуза , которые имеют штраф 2 за каждый добавленный признак. AIC основан на теории информации и эффективно выводится с помощью принципа максимальной энтропии . [30] [31]
Другие критерии — это критерий байесовского информационного критерия (BIC), который использует штраф для каждого добавленного признака, минимальная длина описания (MDL), которая асимптотически использует , Бонферрони /RIC, которые используют , выбор признаков максимальной зависимости и ряд новых критериев, которые мотивированы частотой ложных открытий (FDR), которые используют что-то близкое к . Критерий максимальной скорости энтропии также может использоваться для выбора наиболее релевантного подмножества признаков. [32]
Структурное обучение
Выбор признаков фильтра является частным случаем более общей парадигмы, называемой структурным обучением . Выбор признаков находит соответствующий набор признаков для определенной целевой переменной, тогда как структурное обучение находит взаимосвязи между всеми переменными, обычно выражая эти взаимосвязи в виде графика. Наиболее распространенные алгоритмы структурного обучения предполагают, что данные генерируются байесовской сетью , и поэтому структура представляет собой направленную графическую модель . Оптимальным решением проблемы выбора признаков фильтра является марковское покрытие целевого узла, а в байесовской сети для каждого узла существует уникальное марковское покрытие. [33]
Механизмы отбора признаков на основе теории информации
Существуют различные механизмы отбора признаков, которые используют взаимную информацию для оценки различных признаков. Обычно они используют один и тот же алгоритм:
Рассчитайте взаимную информацию как оценку между всеми признаками ( ) и целевым классом ( c )
Выберите функцию с наибольшим баллом (например, ) и добавьте ее в набор выбранных функций ( S )
Выберите функцию с наибольшим баллом и добавьте ее в набор выбранных функций (например, )
Повторяйте пункты 3 и 4, пока не будет выбрано определенное количество объектов (например, )
Самый простой подход использует взаимную информацию как «производную» оценку. [34]
Однако существуют различные подходы, которые пытаются уменьшить избыточность между функциями.
Выбор признаков с минимальной избыточностью и максимальной релевантностью (mRMR)
Пэн и др. [35] предложили метод выбора признаков, который может использовать либо взаимную информацию, либо корреляцию, либо оценки расстояния/сходства для выбора признаков. Цель состоит в том, чтобы наказать релевантность признака за его избыточность в присутствии других выбранных признаков. Релевантность набора признаков S для класса c определяется средним значением всех значений взаимной информации между отдельным признаком f i и классом c следующим образом:
.
Избыточность всех признаков в наборе S — это среднее значение всех значений взаимной информации между признаком f i и признаком f j :
Критерий mRMR представляет собой комбинацию двух приведенных выше показателей и определяется следующим образом:
Предположим, что имеется n полных наборов признаков. Пусть x i будет функцией индикатора принадлежности множеству для признака f i , так что x i =1 указывает на присутствие, а x i =0 указывает на отсутствие признака f i в глобально оптимальном наборе признаков. Пусть и . Тогда вышеизложенное можно записать как задачу оптимизации:
Алгоритм mRMR является приближением теоретически оптимального алгоритма выбора признаков с максимальной зависимостью, который максимизирует взаимную информацию между совместным распределением выбранных признаков и переменной классификации. Поскольку mRMR аппроксимирует задачу комбинаторной оценки серией гораздо меньших задач, каждая из которых включает только две переменные, он, таким образом, использует парные совместные вероятности, которые более надежны. В определенных ситуациях алгоритм может недооценивать полезность признаков, поскольку у него нет возможности измерить взаимодействия между признаками, которые могут повысить релевантность. Это может привести к низкой производительности [34] , когда признаки по отдельности бесполезны, но полезны в сочетании (патологический случай обнаруживается, когда класс является функцией четности признаков). В целом алгоритм более эффективен (с точки зрения объема требуемых данных), чем теоретически оптимальный выбор с максимальной зависимостью, но при этом создает набор признаков с небольшой парной избыточностью.
mRMR — это пример большого класса методов фильтрации, которые по-разному балансируют между релевантностью и избыточностью. [34] [36]
Выбор функции квадратичного программирования
mRMR — типичный пример инкрементальной жадной стратегии для выбора признаков: как только признак был выбран, его нельзя отменить на более позднем этапе. Хотя mRMR можно оптимизировать с помощью плавающего поиска для сокращения некоторых признаков, его также можно переформулировать как глобальную задачу оптимизации квадратичного программирования следующим образом: [37]
где — вектор релевантности признаков, предполагающий, что всего имеется n признаков, — матрица парной избыточности признаков, а — относительные веса признаков. QPFS решается с помощью квадратичного программирования. Недавно было показано, что QFPS смещен в сторону признаков с меньшей энтропией [38] из-за размещения термина самоизбыточности признаков на диагонали H.
Условная взаимная информация
Другая оценка, полученная для взаимной информации, основана на условной релевантности: [38]
где и .
Преимущество SPEC CMI в том, что его можно решить просто путем нахождения доминирующего собственного вектора Q , поэтому он очень масштабируем. SPEC CMI также обрабатывает взаимодействие признаков второго порядка.
Совместная взаимная информация
В исследовании различных оценок Браун и др. [34] рекомендовали совместную взаимную информацию [39] как хорошую оценку для выбора признаков. Оценка пытается найти признак, который добавляет больше всего новой информации к уже выбранным признакам, чтобы избежать избыточности. Оценка формулируется следующим образом:
Выбор признаков на основе критерия независимости Гильберта-Шмидта с помощью лассо
Для многомерных и маломерных выборочных данных (например, размерность > 105 и количество образцов < 103 ) полезно использовать критерий независимости Гильберта-Шмидта (HSIC Lasso). [40] Задача оптимизации HSIC Lasso задается как
где — мера независимости на основе ядра, называемая (эмпирическим) критерием независимости Гильберта-Шмидта (HSIC), обозначает след , — параметр регуляризации, — входные и выходные центрированные матрицы Грама , — матрицы Грама, — функции ядра, — центрирующая матрица, — m -мерная единичная матрица ( m : число выборок), — m -мерный вектор со всеми единицами, — норма . HSIC всегда принимает неотрицательное значение и равен нулю тогда и только тогда, когда две случайные величины статистически независимы, когда используется универсальное воспроизводящее ядро, такое как ядро Гаусса.
Мера выбора корреляционных признаков (CFS) оценивает подмножества признаков на основе следующей гипотезы: «Хорошие подмножества признаков содержат признаки, сильно коррелирующие с классификацией, но не коррелирующие друг с другом». [41] [42] Следующее уравнение дает достоинство подмножества признаков S, состоящего из k признаков:
Здесь, — среднее значение всех корреляций признак-классификация, а — среднее значение всех корреляций признак-признак. Критерий CFS определяется следующим образом:
Показано, что признаки из дерева решений или ансамбля деревьев избыточны. Недавний метод, называемый регуляризованным деревом [44], может использоваться для выбора подмножества признаков. Регуляризованные деревья штрафуют, используя переменную, похожую на переменные, выбранные в предыдущих узлах дерева для разделения текущего узла. Регуляризованным деревьям нужно построить только одну модель дерева (или одну модель ансамбля деревьев), и поэтому они вычислительно эффективны.
Регуляризованные деревья естественным образом обрабатывают числовые и категориальные признаки, взаимодействия и нелинейности. Они инвариантны к масштабам атрибутов (единицам) и нечувствительны к выбросам , и, таким образом, требуют небольшой предварительной обработки данных, такой как нормализация . Регуляризованный случайный лес (RRF) [45] является одним из типов регуляризованных деревьев. Направляемый RRF является улучшенным RRF, который руководствуется оценками важности из обычного случайного леса.
Обзор методов метаэвристики
Метаэвристика — это общее описание алгоритма, предназначенного для решения сложных (обычно NP-трудных задач) задач оптимизации, для которых не существует классических методов решения. Как правило, метаэвристика — это стохастический алгоритм, стремящийся к достижению глобального оптимума. Существует множество метаэвристик, от простого локального поиска до сложного алгоритма глобального поиска.
Основные принципы
Методы отбора признаков обычно делятся на три класса в зависимости от того, как они объединяют алгоритм отбора и построение модели.
Метод фильтрации
Методы типа фильтра выбирают переменные независимо от модели. Они основаны только на общих признаках, таких как корреляция с переменной для прогнозирования. Методы фильтра подавляют наименее интересные переменные. Другие переменные будут частью классификации или регрессионной модели, используемой для классификации или прогнозирования данных. Эти методы особенно эффективны с точки зрения времени вычислений и устойчивы к переобучению. [46]
Методы фильтрации имеют тенденцию выбирать избыточные переменные, когда они не учитывают взаимосвязи между переменными. Однако более сложные функции пытаются минимизировать эту проблему, удаляя переменные, сильно коррелирующие друг с другом, такие как алгоритм Fast Correlation Based Filter (FCBF). [47]
Метод обертывания
Методы-обертки оценивают подмножества переменных, что позволяет, в отличие от подходов с фильтрами, обнаруживать возможные взаимодействия между переменными. [48] Двумя основными недостатками этих методов являются:
Возрастающий риск переобучения при недостаточном количестве наблюдений.
Значительное время вычислений при большом количестве переменных.
Встроенный метод
Недавно были предложены встроенные методы, которые пытаются объединить преимущества обоих предыдущих методов. Алгоритм обучения использует преимущества собственного процесса выбора переменных и выполняет выбор признаков и классификацию одновременно, как, например, алгоритм FRMT. [49]
Применение метаэвристики выбора признаков
Это обзор применения метаэвристики выбора признаков, недавно использованной в литературе. Этот обзор был реализован Дж. Хэммон в ее диссертации 2013 года. [46]
Выбор признаков, встроенный в алгоритмы обучения
Некоторые алгоритмы обучения выполняют выбор признаков как часть своей общей операции. К ним относятся:
-методы регуляризации, такие как разреженная регрессия, LASSO и -метод SVM
Регуляризованные деревья, [44] например, регуляризованный случайный лес, реализованный в пакете RRF [45]
Выбор признаков на основе локального обучения. [75] По сравнению с традиционными методами, он не включает в себя эвристический поиск, может легко обрабатывать многоклассовые проблемы и работает как для линейных, так и для нелинейных задач. Он также поддерживается прочной теоретической основой. Численные эксперименты показали, что метод может достигать решения, близкого к оптимальному, даже когда данные содержат >1M нерелевантных признаков.
Рекомендательная система, основанная на выборе признаков. [76] Методы выбора признаков вводятся в исследование рекомендательной системы.
^ Гарет Джеймс; Даниэла Виттен; Тревор Хасти; Роберт Тибширани (2013). Введение в статистическое обучение. Springer. стр. 204.
^ Бранк, Джанес; Младенич, Дуня; Гробельник, Марко; Лю, Хуан; Младенич, Дуня; Флах, Питер А.; Гаррига, Джемма К.; Тойвонен, Ханну; Тойвонен, Ханну (2011), «Выбор функций», Саммут, Клод; Уэбб, Джеффри И. (ред.), Энциклопедия машинного обучения , Бостон, Массачусетс: Springer US, стр. 402–406, doi : 10.1007/978-0-387-30164-8_306, ISBN978-0-387-30768-8, получено 2021-07-13
^ Крамер, Марк А. (1991). «Нелинейный главный компонентный анализ с использованием автоассоциативных нейронных сетей». Журнал AIChE . 37 (2): 233–243. Bibcode : 1991AIChE..37..233K. doi : 10.1002/aic.690370209. ISSN 1547-5905.
^ Крациос, Анастасис; Хайндман, Коди (2021). «NEU: мета-алгоритм для универсального представления инвариантных признаков UAP». Журнал исследований машинного обучения . 22 (92): 1–51. ISSN 1533-7928.
^ Persello, Claudio; Bruzzone, Lorenzo (июль 2014 г.). «Выбор релевантных и инвариантных признаков гиперспектральных изображений для обобщения домена». Симпозиум IEEE по геонауке и дистанционному зондированию 2014 г. (PDF) . IEEE. стр. 3562–3565. doi :10.1109/igarss.2014.6947252. ISBN978-1-4799-5775-0. S2CID 8368258.
^ Хинкль, Якоб; Муралидхаран, Прасанна; Флетчер, П. Томас; Джоши, Саранг (2012). «Полиномиальная регрессия на римановых многообразиях». В Фицгиббон, Эндрю; Лазебник, Светлана; Перона, Пьетро; Сато, Йоичи; Шмид, Корделия (ред.). Компьютерное зрение – ECCV 2012. Заметки лекций по информатике. Том 7574. Берлин, Гейдельберг: Springer. стр. 1–14. arXiv : 1201.2395 . doi :10.1007/978-3-642-33712-3_1. ISBN978-3-642-33712-3. S2CID 8849753.
^ Хауберг, Сорен; Лоз, Франсуа; Педерсен, Ким Стенструп (1 мая 2013 г.). «Фильтрация Калмана без запаха на римановых многообразиях». Журнал математического изображения и видения . 46 (1): 103–120. Бибкод : 2013JMIV...46..103H. дои : 10.1007/s10851-012-0372-9. ISSN 1573-7683. S2CID 8501814.
^ Kratsios, Anastasis; Hyndman, Cody (8 июня 2021 г.). "NEU: мета-алгоритм для универсального представления инвариантных признаков UAP". Журнал исследований машинного обучения . 22 : 10312. Bibcode : 2015NatSR ...510312B. doi : 10.1038/srep10312. PMC 4437376. PMID 25988841.
^ abc Guyon, Isabelle; Elisseeff, André (2003). «Введение в выбор переменных и признаков». JMLR . 3 .
^ ab Yang, Yiming; Pedersen, Jan O. (1997). Сравнительное исследование выбора признаков при категоризации текста (PDF) . ICML.
^ Урбанович, Райан Дж.; Микер, Мелисса; ЛаКава, Уильям; Олсон, Рэндал С.; Мур, Джейсон Х. (2018). «Выбор признаков на основе рельефа: введение и обзор». Журнал биомедицинской информатики . 85 : 189–203. arXiv : 1711.08421 . doi : 10.1016/j.jbi.2018.07.014. PMC 6299836. PMID 30031057.
^ Форман, Джордж (2003). «Обширное эмпирическое исследование метрик выбора признаков для классификации текста» (PDF) . Журнал исследований машинного обучения . 3 : 1289–1305.
^ Иши Чжан; Шуцзюань Ли; Тенг Ван; Зыган Чжан (2013). «Выбор признаков на основе дивергенции для отдельных классов». Нейрокомпьютинг . 101 (4): 32–42. doi : 10.1016/j.neucom.2012.06.036.
^ Guyon I.; Weston J.; Barnhill S.; Vapnik V. (2002). «Выбор генов для классификации рака с использованием машин опорных векторов». Machine Learning . 46 (1–3): 389–422. doi : 10.1023/A:1012487302797 .
^ Бах, Фрэнсис Р. (2008). "Болассо". Труды 25-й международной конференции по машинному обучению - ICML '08 . С. 33–40. doi :10.1145/1390156.1390161. ISBN9781605582054. S2CID 609778.
^ Заре, Хабил (2013). «Оценка релевантности признаков на основе комбинаторного анализа Лассо с применением к диагностике лимфомы». BMC Genomics . 14 (Suppl 1): S14. doi : 10.1186/1471-2164-14-S1-S14 . PMC 3549810 . PMID 23369194.
^ Кай Хан; Юньхэ Ван; Чао Чжан; Чао Ли; Чао Сюй (2018). Неконтролируемый выбор признаков, вдохновленный автоэнкодером . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP).
^ Хазимех, Хуссейн; Мазумдер, Рахул; Сааб, Али (2020). «Разреженная регрессия в масштабе: метод ветвей и границ, укорененный в оптимизации первого порядка». arXiv : 2004.06152 [stat.CO].
^ Суфан, Отман; Клефтогианнис, Димитриос; Калнис, Панос; Баич, Владимир Б. (2015-02-26). "DWFS: инструмент выбора признаков оболочки на основе параллельного генетического алгоритма". PLOS ONE . 10 (2): e0117988. Bibcode :2015PLoSO..1017988S. doi : 10.1371/journal.pone.0117988 . ISSN 1932-6203. PMC 4342225 . PMID 25719748.
^ Фигероа, Алехандро (2015). «Изучение эффективных функций для распознавания намерений пользователя, стоящих за веб-запросами». Компьютеры в промышленности . 68 : 162–169. doi :10.1016/j.compind.2015.01.005.
^ Фигероа, Алехандро; Гюнтер Нойманн (2013). Обучение ранжированию эффективных парафраз из журналов запросов для ответов на вопросы сообщества. AAAI.
^ Фигероа, Алехандро; Гюнтер Нойманн (2014). «Категорийно-специфические модели для ранжирования эффективных парафраз в ответах на вопросы сообщества». Экспертные системы с приложениями . 41 (10): 4730–4742. doi :10.1016/j.eswa.2014.02.004. hdl : 10533/196878 .
^ ab Zhang, Y.; Wang, S.; Phillips, P. (2014). «Двоичный PSO с оператором мутации для выбора признаков с использованием дерева решений, применяемого для обнаружения спама». Системы, основанные на знаниях . 64 : 22–31. doi :10.1016/j.knosys.2014.03.015.
^ FC Garcia-Lopez, M. Garcia-Torres, B. Melian, JA Moreno-Perez, JM Moreno-Vega. Решение проблемы выбора подмножества признаков с помощью параллельного рассеянного поиска, European Journal of Operational Research , т. 169, № 2, стр. 477–489, 2006.
^ Гарсиа-Торрес, Мигель; Гомес-Вела, Франциско; Дивина, Федерико; Пинто-Роа, Диего П.; Ногера, Хосе Луис Васкес; Роман, Хулио К. Мелло (2021). «Рассеянный поиск для выбора многомерных объектов с использованием группировки объектов». Материалы конференции по генетическим и эволюционным вычислениям . стр. 149–150. дои : 10.1145/3449726.3459481. ISBN9781450383516. S2CID 235770316.
^ FC Garcia-Lopez, M. Garcia-Torres, B. Melian, JA Moreno-Perez, JM Moreno-Vega. Решение проблемы выбора подмножества признаков с помощью гибридной метаэвристики. В Первом международном семинаре по гибридной метаэвристике , стр. 59–68, 2004.
^ М. Гарсия-Торрес, Ф. Гомес-Вела, Б. Мелиан, Дж. М. Морено-Вега. Выбор многомерных признаков с помощью группировки признаков: подход поиска переменного соседства, Information Sciences , т. 326, стр. 102-118, 2016.
^ Красков, Александр; Штёгбауэр, Харальд; Анджейак, Ральф Г.; Грассбергер, Питер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio/0311039 . Bibcode :2003q.bio....11039K.{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Akaike, H. (1985), «Предсказание и энтропия», в Atkinson, AC; Fienberg, SE (ред.), A Celebration of Statistics (PDF) , Springer, стр. 1–24, архивировано (PDF) из оригинала 30 августа 2019 г..
^ Бернхэм, К. П.; Андерсон, Д. Р. (2002), Выбор модели и вывод на основе нескольких моделей: практический информационно-теоретический подход (2-е изд.), Springer-Verlag , ISBN9780387953649.
^ Эйнике, GA (2018). «Выбор признаков с максимальной скоростью энтропии для классификации изменений в динамике колена и голеностопного сустава во время бега». IEEE Journal of Biomedical and Health Informatics . 28 (4): 1097–1103. doi : 10.1109/JBHI.2017.2711487. hdl : 10810/68978. PMID 29969403. S2CID 49555941.
^ Алиферис, Константин (2010). «Локальная причинно-следственная и марковская индукция для причинного обнаружения и выбора признаков для классификации, часть I: Алгоритмы и эмпирическая оценка» (PDF) . Журнал исследований машинного обучения . 11 : 171–234.
^ abcd Браун, Гэвин; Покок, Адам; Чжао, Мин-Цзе; Лухан, Микель (2012). «Условная максимизация правдоподобия: унифицированная структура для выбора признаков на основе теории информации». Журнал исследований машинного обучения . 13 : 27–66.[1]
^ Peng, HC; Long, F.; Ding, C. (2005). «Выбор признаков на основе взаимной информации: критерии максимальной зависимости, максимальной релевантности и минимальной избыточности». IEEE Transactions on Pattern Analysis and Machine Intelligence . 27 (8): 1226–1238. CiteSeerX 10.1.1.63.5765 . doi :10.1109/TPAMI.2005.159. PMID 16119262. S2CID 206764015. Программа
^ Нгуен, Х., Франке, К., Петрович, С. (2010). «На пути к универсальной мере выбора признаков для обнаружения вторжений», в Трудах Международной конференции по распознаванию образов (ICPR), Стамбул, Турция. [2]
^ ab Nguyen X. Vinh, Jeffrey Chan, Simone Romano и James Bailey, "Effective Global Approaches for Mutual Information Based Feature Selection". Труды 20-й конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (KDD'14), 24–27 августа, Нью-Йорк, 2014 г. "[3]"
^ Янг, Говард Хуа; Муди, Джон (2000). «Визуализация данных и выбор признаков: новые алгоритмы для негауссовых данных» (PDF) . Достижения в области нейронных систем обработки информации : 687–693.
^ Ямада, М.; Джиткриттум, В.; Сигал, Л.; Син, Э. П.; Сугияма, М. (2014). «Выбор многомерных признаков с помощью нелинейного лассо по признакам». Neural Computation . 26 (1): 185–207. arXiv : 1202.0515 . doi :10.1162/NECO_a_00537. PMID 24102126. S2CID 2742785.
^ Холл, М. (1999). Отбор признаков на основе корреляции для машинного обучения (PDF) (диссертация). Университет Вайкато.
^ Сенлиол, Барис и др. (2008). «Быстрый фильтр на основе корреляции (FCBF) с другой стратегией поиска». 2008 23-й Международный симпозиум по компьютерным и информационным наукам . С. 1–4. doi :10.1109/ISCIS.2008.4717949. ISBN978-1-4244-2880-9. S2CID 8398495.
^ Нгуен, Хай; Франке, Катрин; Петрович, Слободан (декабрь 2009 г.). «Оптимизация класса мер выбора признаков». Труды семинара NIPS 2009 по дискретной оптимизации в машинном обучении: субмодулярность, разреженность и многогранники (DISCML) . Ванкувер, Канада.
^ ab H. Deng, G. Runger, «Отбор признаков с помощью регуляризованных деревьев», Труды Международной объединенной конференции по нейронным сетям 2012 г. (IJCNN), IEEE, 2012 г.
^ ab RRF: Регуляризованный случайный лес, пакет R на CRAN
^ Аб Хамон, Джули (ноябрь 2013 г.). Комбинированная оптимизация для выбора переменных в регрессии в большом измерении: Применение в генетике животных (Диссертация) (на французском языке). Лилльский университет науки и технологий .
^ Юй, Лей; Лю, Хуань (август 2003 г.). «Выбор признаков для многомерных данных: быстрое решение на основе корреляции» (PDF) . ICML'03: Труды Двадцатой международной конференции по машинному обучению : 856–863.
^ ab TM Phuong, Z. Lin et RB Altman. Выбор однонуклеотидных полиморфизмов с использованием выбора признаков. Архивировано 13 сентября 2016 г. в Wayback Machine Proceedings / IEEE Computational Systems Bioinformatics Conference, CSB. IEEE Computational Systems Bioinformatics Conference, страницы 301–309, 2005 г. PMID 16447987.
^ Сагапур, Э.; Кермани, С.; Сеххати, М. (2017). «Новый метод ранжирования признаков для прогнозирования стадий рака с использованием данных протеомики». PLOS ONE . 12 (9): e0184203. Bibcode : 2017PLoSO..1284203S . doi : 10.1371/journal.pone.0184203 . PMC 5608217. PMID 28934234.
^ Шах, СК; Кусиак, А. (2004). «Интеллектуальный анализ данных и генетический алгоритм на основе выбора гена/SNP». Искусственный интеллект в медицине . 31 (3): 183–196. doi :10.1016/j.artmed.2004.04.002. PMID 15302085.
^ Лонг, Н.; Джианола, Д.; Вайгель, К. А. (2011). «Уменьшение размерности и выбор переменных для геномного отбора: применение для прогнозирования надоев молока у голштинов». Журнал разведения животных и генетики . 128 (4): 247–257. doi :10.1111/j.1439-0388.2011.00917.x. PMID 21749471.
^ Устюнкар, Гюркан; Озогюр-Акюз, Сурейя; Вебер, Герхард В.; Фридрих, Кристоф М.; Айдын Сон, Ешим (2012). «Выбор репрезентативных наборов SNP для полногеномных исследований ассоциаций: метаэвристический подход». Письма об оптимизации . 6 (6): 1207–1218. дои : 10.1007/s11590-011-0419-7. S2CID 8075318.
^ Мейри, Р.; Захави, Дж. (2006). «Использование имитации отжига для оптимизации проблемы выбора признаков в маркетинговых приложениях». Европейский журнал операционных исследований . 171 (3): 842–858. doi :10.1016/j.ejor.2004.09.010.
^ Капетаниос, Г. (2007). «Выбор переменных в регрессионных моделях с использованием нестандартной оптимизации информационных критериев». Computational Statistics & Data Analysis . 52 (1): 4–15. doi :10.1016/j.csda.2007.04.006.
^ Broadhurst, D.; Goodacre, R.; Jones, A.; Rowland, JJ; Kell, DB (1997). «Генетические алгоритмы как метод выбора переменных в множественной линейной регрессии и регрессии с использованием частичных наименьших квадратов, с приложениями к масс-спектрометрии пиролиза». Analytica Chimica Acta . 348 (1–3): 71–86. Bibcode : 1997AcAC..348...71B. doi : 10.1016/S0003-2670(97)00065-2.
^ Чуан, Л.-Й.; Янг, Ч.-Х. (2009). «Поиск с табу и оптимизация бинарного роя частиц для выбора признаков с использованием данных микрочипов». Журнал вычислительной биологии . 16 (12): 1689–1703. doi :10.1089/cmb.2007.0211. PMID 20047491.
^ E. Alba, J. Garia-Nieto, L. Jourdan et E.-G. Talbi. Gene Selection in Cancer Classification using PSO-SVM and GA-SVM Hybrid Algorithms. Архивировано 18 августа 2016 г. на конгрессе Wayback Machine Congress on Evolutionary Computation, Сингапур: Singapore (2007), 2007
^ Б. Дюваль, Ж.-К. Хао и Ж. К. Эрнандес Эрнандес. Меметический алгоритм для отбора генов и молекулярной классификации рака. В трудах 11-й ежегодной конференции по генетическим и эволюционным вычислениям, GECCO '09, страницы 201-208, Нью-Йорк, США, 2009. ACM.
^ C. Hans, A. Dobra et M. West. Shotgun Stochastic Search for 'large p' regression. Журнал Американской статистической ассоциации, 2007.
^ Эйткен, С. (2005). «Выбор и классификация признаков для анализа данных микрочипов: эволюционные методы идентификации предиктивных генов». BMC Bioinformatics . 6 (1): 148. doi : 10.1186/1471-2105-6-148 . PMC 1181625. PMID 15958165 .
^ Xuan, P.; Guo, MZ; Wang, J.; Liu, XY; Liu, Y. (2011). «Эффективный выбор признаков на основе генетических алгоритмов для классификации пре-микроРНК». Genetics and Molecular Research . 10 (2): 588–603. doi : 10.4238/vol10-2gmr969 . PMID 21491369.
^ Пэн, С. (2003). «Молекулярная классификация типов рака на основе данных микрочипов с использованием комбинации генетических алгоритмов и машин опорных векторов». FEBS Letters . 555 (2): 358–362. Bibcode : 2003FEBSL.555..358P. doi : 10.1016/s0014-5793(03)01275-4 . PMID 14644442.
^ Hernandez, JCH; Duval, B.; Hao, J.-K. (2007). "Генетический встроенный подход к отбору генов и классификации данных микрочипов". Эволюционные вычисления, машинное обучение и интеллектуальный анализ данных в биоинформатике. EvoBIO 2007. Конспект лекций по информатике. Том 4447. Берлин: Springer Verlag. С. 90–101. doi :10.1007/978-3-540-71783-6_9. ISBN978-3-540-71782-9.
^ Huerta, EB; Duval, B.; Hao, J.-K. (2006). "Гибридный подход GA/SVM для выбора генов и классификации данных микрочипов". Applications of Evolutionary Computing. EvoWorkshops 2006. Lecture Notes in Computer Science. Vol. 3907. pp. 34–44. doi :10.1007/11732242_4. ISBN978-3-540-33237-4.
^ Муни, Д.П.; Пал, Н.Р.; Дас, Дж. (2006). «Генетическое программирование для одновременного выбора признаков и проектирования классификатора». Труды IEEE по системам, человеку и кибернетике — Часть B: Кибернетика . 36 (1): 106–117. doi :10.1109/TSMCB.2005.854499. PMID 16468570. S2CID 2073035.
^ Jourdan, L.; Dhaenens, C.; Talbi, E.-G. (2005). «Исследование неравновесия сцепления с параллельным адаптивным GA». Международный журнал фундаментальной компьютерной науки . 16 (2): 241–260. doi :10.1142/S0129054105002978.
^ Чжан, И.; Донг, З.; Филлипс, П.; Ван, С. (2015). «Обнаружение субъектов и областей мозга, связанных с болезнью Альцгеймера, с использованием 3D-МРТ-сканирования на основе собственного мозга и машинного обучения». Frontiers in Computational Neuroscience . 9 : 66. doi : 10.3389/fncom.2015.00066 . PMC 4451357. PMID 26082713 .
^ Роффо, Г.; Мельци, С.; Кристани, М. (2015-12-01). «Бесконечный выбор признаков». Международная конференция IEEE по компьютерному зрению (ICCV) 2015 г. стр. 4202–4210. doi :10.1109/ICCV.2015.478. ISBN978-1-4673-8391-2. S2CID 3223980.
^ Роффо, Джорджио; Мельци, Симоне (сентябрь 2016 г.). «Выбор признаков с помощью центральности собственного вектора» (PDF) . NFmcp2016 . Получено 12 ноября 2016 г. .
^ Р. Кохави и Г. Джон, «Оболочки для выбора подмножества признаков», Искусственный интеллект 97.1-2 (1997): 273-324
^ Дас, Абхиманью; Кемпе, Дэвид (2011). «Субмодулярное встречается со спектральным: жадные алгоритмы для выбора подмножества, разреженной аппроксимации и выбора словаря». arXiv : 1102.3975 [stat.ML].
^ Лю и др., Субмодулярный выбор признаков для многомерных пространств акустических оценок. Архивировано 17 октября 2015 г. на Wayback Machine.
^ Чжэн и др., Выбор субмодулярных атрибутов для распознавания действий в видео. Архивировано 18 ноября 2015 г. на Wayback Machine.
^ Sun, Y.; Todorovic, S.; Goodison, S. (2010). «Выбор признаков на основе локального обучения для анализа многомерных данных». Труды IEEE по анализу шаблонов и машинному интеллекту . 32 (9): 1610–1626. doi :10.1109/tpami.2009.190. PMC 3445441. PMID 20634556 .
^ DH Wang, YC Liang, D.Xu, XY Feng, RC Guan (2018), «Система рекомендаций на основе контента для публикаций по информатике», Knowledge-Based Systems , 157: 1-9
Дальнейшее чтение
Гийон, Изабель; Элиссефф, Андре (2003). «Введение в выбор переменных и признаков». Журнал исследований машинного обучения . 3 : 1157–1182.
Харрелл, Ф. (2001). Стратегии регрессионного моделирования . Springer. ISBN 0-387-95232-2.
Лю, Хуан; Мотода, Хироши (1998). Выбор признаков для обнаружения знаний и добычи данных. Springer. ISBN 0-7923-8198-X.
Лю, Хуан; Ю, Лэй (2005). «К интеграции алгоритмов выбора признаков для классификации и кластеризации». Труды IEEE по знаниям и инжинирингу данных . 17 (4): 491–502. doi :10.1109/TKDE.2005.66. S2CID 1607600.
Внешние ссылки
Пакет выбора функций, Университет штата Аризона (код Matlab)
NIPS вызов 2003 (см. также NIPS )
Реализация наивного байесовского алгоритма с выбором признаков в Visual Basic. Архивировано 14 февраля 2009 г. на Wayback Machine (включая исполняемый файл и исходный код).
Программа выбора признаков с минимальной избыточностью и максимальной релевантностью (mRMR)
FEAST (Открытые алгоритмы выбора признаков на языках C и MATLAB)