Выбор признаков — это процесс выбора подмножества соответствующих признаков (переменных, предикторов) для использования при построении модели. Стилометрия и анализ микрочипов ДНК — это два случая, когда используется отбор признаков. Его следует отличать от извлечения признаков . [1]
Методы выбора признаков используются по нескольким причинам:
упрощение моделей, чтобы их было легче интерпретировать исследователям/пользователям, [2]
Основная предпосылка при использовании метода выбора признаков заключается в том, что данные содержат некоторые признаки, которые являются либо избыточными , либо нерелевантными , и поэтому их можно удалить без большой потери информации. [10] Избыточное и нерелевантное — это два разных понятия, поскольку одна релевантная характеристика может быть избыточной в присутствии другой релевантной характеристики, с которой она сильно коррелирует. [11]
Извлечение функций создает новые функции из функций исходных функций, тогда как выбор функций возвращает подмножество функций. Методы выбора признаков часто используются в областях, где имеется много признаков и сравнительно мало выборок (или точек данных).
Введение
Алгоритм выбора признаков можно рассматривать как комбинацию метода поиска для предложения новых подмножеств признаков и меры оценки, которая оценивает различные подмножества признаков. Самый простой алгоритм — протестировать каждое возможное подмножество функций и найти тот, который минимизирует частоту ошибок. Это исчерпывающий поиск пространства, который вычислительно невыполним для всех наборов функций, кроме самых маленьких. Выбор метрики оценки сильно влияет на алгоритм, и именно эти метрики оценки различают три основные категории алгоритмов выбора функций: оболочки, фильтры и встроенные методы. [11]
Методы-оболочки используют прогнозную модель для оценки подмножеств объектов. Каждое новое подмножество используется для обучения модели, которая тестируется на контрольном наборе. Подсчет количества ошибок, допущенных в этом контрольном наборе (коэффициент ошибок модели), дает оценку этому подмножеству. Поскольку методы-оболочки обучают новую модель для каждого подмножества, они требуют очень больших вычислительных ресурсов, но обычно обеспечивают наиболее эффективный набор функций для этого конкретного типа модели или типичной проблемы.
Методы фильтра используют прокси-меру вместо частоты ошибок для оценки подмножества объектов. Эта мера выбрана так, чтобы ее можно было быстро вычислить, но при этом учесть полезность набора функций. Общие меры включают взаимную информацию , [11] точечную взаимную информацию , [12] Коэффициент корреляции момента произведения Пирсона , алгоритмы на основе рельефа , [13] и расстояние между/внутри классов или оценки критериев значимости для каждого класса/признака. комбинации. [12] [14] Фильтры обычно требуют меньше вычислительных ресурсов, чем оболочки, но они создают набор функций, который не настроен на конкретный тип прогнозной модели. [15] Отсутствие настройки означает, что набор функций из фильтра является более общим, чем набор из оболочки, что обычно дает более низкую производительность прогнозирования, чем оболочка. Однако набор функций не содержит допущений модели прогнозирования и поэтому более полезен для выявления взаимосвязей между функциями. Многие фильтры обеспечивают ранжирование функций, а не явное подмножество лучших функций, а точка отсечения в рейтинге выбирается посредством перекрестной проверки . Методы фильтра также использовались в качестве этапа предварительной обработки для методов-оболочек, что позволяло использовать оболочку для решения более крупных задач. Еще одним популярным подходом является алгоритм рекурсивного исключения признаков [16] , который обычно используется с машинами опорных векторов для многократного построения модели и удаления признаков с малым весом.
Встроенные методы — это универсальная группа методов, которые выполняют выбор признаков как часть процесса построения модели. Примером этого подхода является метод LASSO для построения линейной модели, который наказывает коэффициенты регрессии штрафом L1, сводя многие из них к нулю. Любые признаки, имеющие ненулевые коэффициенты регрессии, «выбираются» алгоритмом LASSO. Усовершенствования LASSO включают Bolasso, который загружает сэмплы; [17] Эластичная чистая регуляризация , которая сочетает в себе штраф L1 LASSO со штрафом L2 гребневой регрессии ; и FeaLect, который оценивает все функции на основе комбинаторного анализа коэффициентов регрессии. [18] AEFS расширяет LASSO до нелинейного сценария с помощью автоэнкодеров. [19] Эти подходы, как правило, находятся между фильтрами и оболочками с точки зрения вычислительной сложности.
В традиционном регрессионном анализе наиболее популярной формой выбора признаков является пошаговая регрессия , которая представляет собой метод-оболочку. Это жадный алгоритм , который добавляет лучшую функцию (или удаляет худшую) в каждом раунде. Основной проблемой управления является принятие решения о том, когда остановить алгоритм. В машинном обучении это обычно делается посредством перекрестной проверки . В статистике оптимизированы некоторые критерии. Это приводит к естественной проблеме гнездования. Были изучены более надежные методы, такие как сеть ветвей и границ и кусочно-линейная сеть.
Выбор подмножества
Выбор подмножества оценивает подмножество функций как группу на предмет пригодности. Алгоритмы выбора подмножества можно разбить на оболочки, фильтры и встроенные методы. Оболочки используют алгоритм поиска для поиска в пространстве возможных функций и оценки каждого подмножества, запуская модель на этом подмножестве. Обертки могут быть дорогостоящими в вычислительном отношении и иметь риск чрезмерного соответствия модели. В подходе к поиску фильтры аналогичны оболочкам, но вместо оценки по модели оценивается более простой фильтр. Встроенные методы встроены в модель и специфичны для нее.
Многие популярные подходы к поиску используют жадное восхождение на холм , при котором итеративно оценивается потенциальное подмножество признаков, затем модифицируется подмножество и оценивается, является ли новое подмножество улучшением по сравнению со старым. Для оценки подмножеств требуется оценочная метрика , которая оценивает подмножество функций. Исчерпывающий поиск, как правило, непрактичен, поэтому в некоторой точке остановки, определенной разработчиком (или оператором), подмножество функций с наивысшим баллом, обнаруженным к этому моменту, выбирается в качестве удовлетворительного подмножества функций. Критерий остановки зависит от алгоритма; возможные критерии включают в себя: оценка подмножества превышает пороговое значение, превышено максимально допустимое время выполнения программы и т. д.
Альтернативные методы поиска основаны на целевом поиске проекций , который находит низкоразмерные проекции данных, имеющие высокую оценку: затем выбираются объекты, которые имеют самые большие проекции в пространстве более низкой размерности.
Двумя популярными метриками фильтров для задач классификации являются корреляция и взаимная информация , хотя ни одна из них не является истинными метриками или «мерами расстояния» в математическом смысле, поскольку они не подчиняются неравенству треугольника и, следовательно, не вычисляют никакого фактического «расстояния». рассматриваться как «баллы». Эти оценки вычисляются между кандидатной функцией (или набором функций) и желаемой выходной категорией. Однако существуют истинные показатели, которые являются простой функцией взаимной информации; [30] см. здесь .
Другие доступные показатели фильтра включают в себя:
Выбор критериев оптимальности сложен, поскольку задача выбора признаков преследует несколько целей. Многие общие критерии включают в себя меру точности, штрафуемую количеством выбранных функций. Примеры включают информационный критерий Акаике (AIC) и C p Маллоуза , которые имеют штраф 2 за каждую добавленную функцию. AIC основан на теории информации и эффективно выводится на основе принципа максимальной энтропии . [31] [32]
Другими критериями являются байесовский информационный критерий (BIC), который использует штраф за каждую добавленную функцию, минимальная длина описания (MDL), которая асимптотически использует , Бонферрони / RIC, которые используют выбор функции максимальной зависимости и множество новых критериев, которые мотивированы. по уровню ложного обнаружения (FDR), который использует что-то близкое к . Критерий максимальной степени энтропии также может использоваться для выбора наиболее релевантного подмножества функций. [33]
Структурное обучение
Выбор функций фильтра — это частный случай более общей парадигмы, называемой обучением структуры . Выбор функций находит соответствующий набор функций для конкретной целевой переменной, тогда как изучение структуры находит взаимосвязи между всеми переменными, обычно выражая эти взаимосвязи в виде графика. Наиболее распространенные алгоритмы обучения структур предполагают, что данные генерируются байесовской сетью , поэтому структура представляет собой ориентированную графическую модель . Оптимальным решением проблемы выбора характеристик фильтра является одеяло Маркова целевого узла, а в байесовской сети существует уникальное одеяло Маркова для каждого узла. [34]
Механизмы выбора функций, основанные на теории информации
Существуют различные механизмы выбора функций, которые используют взаимную информацию для оценки различных функций. Обычно они используют один и тот же алгоритм:
Рассчитайте взаимную информацию как оценку между всеми функциями ( ) и целевым классом ( c )
Выберите объект с наибольшим баллом (например , ) и добавьте его в набор выбранных объектов ( S ).
Выберите объект с наибольшим баллом и добавьте его в набор избранных объектов (например, )
Повторяйте 3. и 4. до тех пор, пока не будет выбрано определенное количество функций (например, ).
Самый простой подход использует взаимную информацию в качестве «производной» оценки. [35]
Однако существуют разные подходы, которые пытаются уменьшить избыточность между функциями.
Выбор функции «минимальная избыточность — максимальная релевантность» (mRMR)
Пэн и др. [36] предложили метод выбора признаков, который может использовать либо взаимную информацию, либо корреляцию, либо оценки расстояния/сходства для выбора признаков. Цель состоит в том, чтобы наказать релевантность функции из-за ее избыточности в присутствии других выбранных функций. Релевантность набора признаков S для класса c определяется средним значением всех значений взаимной информации между отдельным признаком f i и классом c следующим образом:
.
Избыточность всех признаков в наборе S представляет собой среднее значение всех значений взаимной информации между признаком f i и признаком f j :
Критерий mRMR представляет собой комбинацию двух показателей, приведенных выше, и определяется следующим образом:
Предположим, что имеется n полных функций. Пусть x i будет индикаторной функцией членства в наборе для признака f i , так что x i =1 указывает на наличие, а x i =0 указывает на отсутствие признака f i в глобально оптимальном наборе признаков. Пусть и . Вышеупомянутое может быть записано как задача оптимизации:
Алгоритм mRMR представляет собой аппроксимацию теоретически оптимального алгоритма выбора признаков с максимальной зависимостью, который максимизирует взаимную информацию между совместным распределением выбранных признаков и классификационной переменной. Поскольку mRMR аппроксимирует задачу комбинаторного оценивания серией гораздо меньших задач, каждая из которых включает только две переменные, таким образом, он использует попарные совместные вероятности, которые являются более надежными. В определенных ситуациях алгоритм может недооценивать полезность функций, поскольку у него нет способа измерить взаимодействие между функциями, которое могло бы повысить релевантность. Это может привести к снижению производительности [35] , когда функции по отдельности бесполезны, но полезны в сочетании (обнаруживается патологический случай, когда класс является функцией четности функций). В целом алгоритм более эффективен (с точки зрения объема требуемых данных), чем теоретически оптимальный выбор максимальной зависимости, но при этом создает набор функций с небольшой попарной избыточностью.
mRMR — это экземпляр большого класса методов фильтрации, которые по-разному балансируют между релевантностью и избыточностью. [35] [37]
Выбор функции квадратичного программирования
mRMR является типичным примером пошаговой жадной стратегии выбора функций: после того, как функция выбрана, ее нельзя отменить на более позднем этапе. Хотя mRMR можно оптимизировать с помощью плавающего поиска для сокращения некоторых функций, его также можно переформулировать как глобальную задачу оптимизации квадратичного программирования следующим образом: [38]
где – вектор релевантности признаков при условии, что всего имеется n признаков, – матрица попарной избыточности признаков и представляет относительные веса признаков. QPFS решается посредством квадратичного программирования. Недавно было показано, что QFPS смещен в сторону признаков с меньшей энтропией [39] из-за размещения члена самоизбыточности признака на диагонали H .
Условная взаимная информация
Другая оценка взаимной информации основана на условной релевантности: [39]
где и .
Преимущество SPEC CMI заключается в том, что его можно решить, просто найдя доминирующий собственный вектор Q , поэтому он очень масштабируем. SPEC CMI также обрабатывает взаимодействие функций второго порядка.
Совместная взаимная информация
В исследовании различных показателей Brown et al. [35] рекомендовали совместную взаимную информацию [40] как хороший показатель для выбора признаков. Оценка пытается найти функцию, которая добавляет больше всего новой информации к уже выбранным функциям, чтобы избежать избыточности. Оценка формулируется следующим образом:
Выбор признаков на основе критерия независимости Гильберта-Шмидта с помощью лассо
Для данных большой размерности и небольшой выборки (например, размерность > 105 и количество образцов < 103 ), полезно использовать Лассо критерия независимости Гильберта-Шмидта (HSIC Lasso). [41] Задача оптимизации HSIC Lasso задается как
где — мера независимости на основе ядра, называемая (эмпирическим) критерием независимости Гильберта-Шмидта (HSIC), обозначает трассу , — параметр регуляризации, — входные и выходные центрированные матрицы Грама , — матрицы Грама, и — функции ядра, — центрирующая матрица, — m -мерная единичная матрица ( m : количество выборок), — m -мерный вектор со всеми единицами, — — норма. HSIC всегда принимает неотрицательное значение и равно нулю тогда и только тогда, когда две случайные величины статистически независимы, когда используется универсальное воспроизводящее ядро, такое как ядро Гаусса.
HSIC Lasso можно записать как
где норма Фробениуса . Проблема оптимизации является проблемой Лассо, и поэтому ее можно эффективно решить с помощью современного решателя Лассо, такого как двойной расширенный метод Лагранжа .
Выбор корреляционного признака
Мера выбора корреляционных признаков (CFS) оценивает подмножества признаков на основе следующей гипотезы: «Хорошие подмножества признаков содержат признаки, сильно коррелирующие с классификацией, но не коррелирующие друг с другом». [42] [43] Следующее уравнение дает оценку подмножества признаков S , состоящего из k признаков:
Здесь — среднее значение всех корреляций классификации признаков и среднее значение всех корреляций признаков-признаков. Критерий CFS определяется следующим образом:
Показано, что признаки дерева решений или ансамбля деревьев избыточны. Для выбора подмножества признаков можно использовать недавний метод, называемый регуляризованным деревом [45] . Регуляризованные деревья наказывают за использование переменной, аналогичной переменным, выбранным в предыдущих узлах дерева, для разделения текущего узла. Для регуляризованных деревьев требуется построить только одну модель дерева (или одну модель ансамбля деревьев), и поэтому они эффективны в вычислительном отношении.
Регуляризованные деревья естественным образом обрабатывают числовые и категориальные функции, взаимодействия и нелинейности. Они инвариантны к шкалам атрибутов (единицам измерения) и нечувствительны к выбросам и, следовательно, требуют незначительной предварительной обработки данных , такой как нормализация . Регуляризованный случайный лес (RRF) [46] — это один из типов регуляризованных деревьев. Управляемый RRF — это расширенный RRF, который руководствуется оценками важности обычного случайного леса.
Обзор методов метаэвристики
Метаэвристика — это общее описание алгоритма, предназначенного для решения сложных (обычно NP -сложных ) задач оптимизации, для которых не существует классических методов решения. Как правило, метаэвристика — это стохастический алгоритм, стремящийся к достижению глобального оптимума. Существует множество метаэвристик: от простого локального поиска до сложного алгоритма глобального поиска.
Основные принципы
Методы выбора признаков обычно делятся на три класса в зависимости от того, как они сочетают алгоритм выбора и построение модели.
Метод фильтра
Метод фильтра для выбора объекта
Методы типа фильтра выбирают переменные независимо от модели. Они основаны только на общих характеристиках, таких как корреляция с прогнозируемой переменной. Методы фильтра подавляют наименее интересные переменные. Другие переменные будут частью классификации или регрессионной модели, используемой для классификации или прогнозирования данных. Эти методы особенно эффективны с точки зрения времени вычислений и устойчивы к переобучению. [47]
Методы фильтрации имеют тенденцию выбирать избыточные переменные, когда они не учитывают связи между переменными. Однако более сложные функции пытаются минимизировать эту проблему, удаляя переменные, сильно коррелирующие друг с другом, такие как алгоритм фильтра на основе быстрой корреляции (FCBF). [48]
Метод оболочки
Метод-оболочка для выбора функций
Методы-оболочки оценивают подмножества переменных, что позволяет, в отличие от подходов с фильтрацией, обнаруживать возможные взаимодействия между переменными. [49] Двумя основными недостатками этих методов являются:
Возрастающий риск переобучения, когда количество наблюдений недостаточно.
Значительное время вычислений при большом количестве переменных.
Встроенный метод
Встроенный метод выбора функций
Недавно были предложены встроенные методы, которые пытаются объединить преимущества обоих предыдущих методов. Алгоритм обучения использует собственный процесс выбора переменных и одновременно выполняет выбор и классификацию признаков, например алгоритм FRMT. [50]
Применение метаэвристики выбора признаков
Это обзор применения метаэвристики выбора признаков, недавно использовавшейся в литературе. Этот опрос был реализован Дж. Хэммон в ее диссертации 2013 года. [47]
Выбор функций, встроенный в алгоритмы обучения
Некоторые алгоритмы обучения выполняют выбор функций как часть своей общей работы. К ним относятся:
- методы регуляризации, такие как разреженная регрессия, LASSO и -SVM.
Регуляризованные деревья, [45] например, регуляризованный случайный лес, реализованный в пакете RRF [46]
Выбор функций на основе местного обучения. [76] По сравнению с традиционными методами, он не требует эвристического поиска, может легко решать многоклассовые задачи и работает как для линейных, так и для нелинейных задач. Это также подкреплено прочной теоретической основой. Численные эксперименты показали, что этот метод может обеспечить решение, близкое к оптимальному, даже если данные содержат > 1 миллиона нерелевантных функций.
Рекомендательная система, основанная на выборе функций. [77] Методы выбора признаков внедряются в исследования рекомендательных систем.
^ Саранги, Сусанта; Сахидулла, Мэриленд; Саха, Гутам (сентябрь 2020 г.). «Оптимизация набора фильтров на основе данных для автоматической проверки говорящих». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . дои : 10.1016/j.dsp.2020.102795. S2CID 220665533.
^ Гарет Джеймс; Даниэла Виттен; Тревор Хэсти; Роберт Тибширани (2013). Введение в статистическое обучение. Спрингер. п. 204.
^ Бранк, Джанес; Младенич, Дуня; Гробельник, Марко; Лю, Хуан; Младенич, Дуня; Флах, Питер А.; Гаррига, Джемма К.; Тойвонен, Ханну; Тойвонен, Ханну (2011), «Выбор функций», Саммут, Клод; Уэбб, Джеффри И. (ред.), Энциклопедия машинного обучения , Бостон, Массачусетс: Springer US, стр. 402–406, doi : 10.1007/978-0-387-30164-8_306, ISBN978-0-387-30768-8, получено 13 июля 2021 г.
^ Крамер, Марк А. (1991). «Нелинейный анализ главных компонент с использованием автоассоциативных нейронных сетей». Журнал Айше . 37 (2): 233–243. дои : 10.1002/aic.690370209. ISSN 1547-5905.
^ Крациос, Анастасис; Гайндман, Коди (2021). «NEU: Мета-алгоритм для универсального UAP-инвариантного представления функций». Журнал исследований машинного обучения . 22 (92): 1–51. ISSN 1533-7928.
^ Перселло, Клаудио; Бруззоне, Лоренцо (июль 2014 г.). «Выбор релевантных и инвариантных признаков гиперспектральных изображений для генерализации предметной области». Симпозиум IEEE по геонаукам и дистанционному зондированию, 2014 г. (PDF) . IEEE. стр. 3562–3565. дои : 10.1109/igarss.2014.6947252. ISBN978-1-4799-5775-0. S2CID 8368258.
^ Яроцкий, Дмитрий (30 апреля 2021 г.). «Универсальные аппроксимации инвариантных карт нейронными сетями». Конструктивная аппроксимация . 55 : 407–474. arXiv : 1804.10306 . дои : 10.1007/s00365-021-09546-1. ISSN 1432-0940. S2CID 13745401.
^ Хауберг, Сорен; Лоз, Франсуа; Педерсен, Ким Стенструп (1 мая 2013 г.). «Фильтрация Калмана без запаха на римановых многообразиях». Журнал математического изображения и видения . 46 (1): 103–120. дои : 10.1007/s10851-012-0372-9. ISSN 1573-7683. S2CID 8501814.
^ Крациос, Анастасис; Гайндман, Коди (8 июня 2021 г.). «NEU: Мета-алгоритм для универсального UAP-инвариантного представления функций». Журнал исследований машинного обучения . 22 : 10312. Бибкод : 2015NatSR...510312B. дои : 10.1038/srep10312. ПМЦ 4437376 . ПМИД 25988841.
^ abc Гийон, Изабель; Елисеев, Андре (2003). «Введение в выбор переменных и функций». JMLR . 3 .
^ Аб Ян, Имин; Педерсен, Ян О. (1997). Сравнительное исследование выбора функций при категоризации текста (PDF) . ИКМЛ.
^ Урбанович, Райан Дж.; Микер, Мелисса; ЛаКава, Уильям; Олсон, Рэндал С.; Мур, Джейсон Х. (2018). «Выбор объектов на основе рельефа: введение и обзор». Журнал биомедицинской информатики . 85 : 189–203. arXiv : 1711.08421 . дои : 10.1016/j.jbi.2018.07.014. ПМК 6299836 . ПМИД 30031057.
^ Форман, Джордж (2003). «Обширное эмпирическое исследование показателей выбора признаков для классификации текста» (PDF) . Журнал исследований машинного обучения . 3 : 1289–1305.
^ Иши Чжан; Шуцзюань Ли; Тенг Ван; Зыган Чжан (2013). «Выбор признаков на основе дивергенции для отдельных классов». Нейрокомпьютинг . 101 (4): 32–42. doi : 10.1016/j.neucom.2012.06.036.
^ Гийон И.; Уэстон Дж.; Барнхилл С.; Вапник В. (2002). «Отбор генов для классификации рака с использованием машин опорных векторов». Машинное обучение . 46 (1–3): 389–422. дои : 10.1023/А:1012487302797 .
^ Бах, Фрэнсис Р. (2008). «Боласо». Материалы 25-й международной конференции по машинному обучению ICML '08 . стр. 33–40. дои : 10.1145/1390156.1390161. ISBN9781605582054. S2CID 609778.
^ Заре, Хабил (2013). «Оценка релевантности признаков на основе комбинаторного анализа Лассо с применением к диагностике лимфомы». БМК Геномика . 14 (Приложение 1): S14. дои : 10.1186/1471-2164-14-S1-S14 . ПМЦ 3549810 . ПМИД 23369194.
^ Кай Хан; Юнхэ Ван; Чао Чжан; Чао Ли; Чао Сюй (2018). Автоэнкодер вдохновил на неконтролируемый выбор функций . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP).
^ Хазиме, Хусейн; Мазумдер, Рахул; Сааб, Али (2020). «Разреженная регрессия в масштабе: метод ветвей и границ, основанный на оптимизации первого порядка». arXiv : 2004.06152 [stat.CO].
^ Суфан, Осман; Клефтогяннис, Димитриос; Калнис, Панос; Баич, Владимир Б. (26 февраля 2015 г.). «DWFS: инструмент выбора функций оболочки, основанный на параллельном генетическом алгоритме». ПЛОС ОДИН . 10 (2): e0117988. Бибкод : 2015PLoSO..1017988S. дои : 10.1371/journal.pone.0117988 . ISSN 1932-6203. ПМЦ 4342225 . ПМИД 25719748.
^ Фигероа, Алехандро (2015). «Изучение эффективных функций для распознавания намерений пользователей, стоящих за веб-запросами». Компьютеры в промышленности . 68 : 162–169. doi :10.1016/j.compind.2015.01.005.
^ Фигероа, Алехандро; Гюнтер Нойман (2013). Учимся ранжировать эффективные парафразы на основе журналов запросов для ответов на вопросы сообщества. АААИ.
^ Фигероа, Алехандро; Гюнтер Нойман (2014). «Категорийные модели для ранжирования эффективных перефразировок при ответах на вопросы сообщества». Экспертные системы с приложениями . 41 (10): 4730–4742. дои : 10.1016/j.eswa.2014.02.004. hdl : 10533/196878 .
^ Аб Чжан, Ю.; Ван, С.; Филлипс, П. (2014). «Двоичный PSO с оператором мутации для выбора функций с использованием дерева решений, применяемого для обнаружения спама». Системы, основанные на знаниях . 64 : 22–31. doi :10.1016/j.knosys.2014.03.015.
^ ФК Гарсия-Лопес, М. Гарсия-Торрес, Б. Мелиан, Х. А. Морено-Перес, Х. М. Морено-Вега. Решение проблемы выбора подмножества признаков с помощью параллельного поиска разброса, European Journal of Operational Research , vol. 169, нет. 2, стр. 477–489, 2006.
^ Гарсиа-Торрес, Мигель; Гомес-Вела, Франциско; Дивина, Федерико; Пинто-Роа, Диего П.; Ногера, Хосе Луис Васкес; Роман, Хулио К. Мелло (2021). «Рассеянный поиск для выбора многомерных объектов с использованием группировки объектов». Материалы конференции по генетическим и эволюционным вычислениям . стр. 149–150. дои : 10.1145/3449726.3459481. ISBN9781450383516. S2CID 235770316.
^ ФК Гарсия-Лопес, М. Гарсия-Торрес, Б. Мелиан, Х. А. Морено-Перес, Х. М. Морено-Вега. Решение проблемы выбора подмножества функций с помощью гибридной метаэвристики. На Первом международном семинаре по гибридной метаэвристике , стр. 59–68, 2004 г.
^ М. Гарсиа-Торрес, Ф. Гомес-Вела, Б. Мелиан, Дж. М. Морено-Вега. Многомерный выбор признаков посредством группировки признаков: подход поиска по переменному соседству, Information Sciences , vol. 326, стр. 102–118, 2016.
^ Красков, Александр; Стёгбауэр, Харальд; Анджейак, Ральф Дж; Грассбергер, Питер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio/0311039 . Бибкод : 2003q.bio....11039K.{{cite journal}}: Требуется цитировать журнал |journal=( помощь )
^ Акаике, Х. (1985), «Прогнозирование и энтропия», в Аткинсоне, AC; Файнберг, SE (ред.), Праздник статистики (PDF) , Springer, стр. 1–24, заархивировано (PDF) из оригинала 30 августа 2019 г..
^ Бернхэм, КП; Андерсон, Д.Р. (2002), Выбор модели и многомодельный вывод: практический теоретико-информационный подход (2-е изд.), Springer-Verlag , ISBN9780387953649.
^ Эйнике, Джорджия (2018). «Выбор признаков с максимальной степенью энтропии для классификации изменений динамики коленного и голеностопного суставов во время бега». Журнал IEEE по биомедицинской и медицинской информатике . 28 (4): 1097–1103. дои : 10.1109/JBHI.2017.2711487. PMID 29969403. S2CID 49555941.
^ Алиферис, Константин (2010). «Локальная причинная и общая марковская индукция для обнаружения причинных причин и выбора признаков для классификации, часть I: Алгоритмы и эмпирическая оценка» (PDF) . Журнал исследований машинного обучения . 11 : 171–234.
^ abcd Браун, Гэвин; Покок, Адам; Чжао, Мин-Цзе; Лухан, Микель (2012). «Максимизация условного правдоподобия: объединяющая основа для выбора теоретико-информационных функций». Журнал исследований машинного обучения . 13 : 27–66.[1]
^ Пэн, ХК; Лонг, Ф.; Дин, К. (2005). «Выбор функций на основе взаимной информации: критерии максимальной зависимости, максимальной релевантности и минимальной избыточности». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 27 (8): 1226–1238. CiteSeerX 10.1.1.63.5765 . дои : 10.1109/TPAMI.2005.159. PMID 16119262. S2CID 206764015. Программа
^ Нгуен, Х., Франке, К., Петрович, С. (2010). «К общей мере выбора функций для обнаружения вторжений», в учеб. Международная конференция по распознаванию образов (ICPR), Стамбул, Турция. [2]
^ аб Нгуен X. Винь, Джеффри Чан, Симона Романо и Джеймс Бейли, «Эффективные глобальные подходы к выбору функций на основе взаимной информации». Материалы 20-й конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (KDD'14), 24–27 августа, Нью-Йорк, 2014 г. «[3]»
^ Ян, Говард Хуа; Муди, Джон (2000). «Визуализация данных и выбор функций: новые алгоритмы для негауссовских данных» (PDF) . Достижения в области нейронных систем обработки информации : 687–693.
^ Ямада, М.; Джиткриттум, В.; Сигал, Л.; Син, EP; Сугияма, М. (2014). «Выбор многомерных объектов с помощью нелинейного лассо». Нейронные вычисления . 26 (1): 185–207. arXiv : 1202.0515 . дои : 10.1162/NECO_a_00537. PMID 24102126. S2CID 2742785.
^ Холл, М. (1999). Выбор функций на основе корреляции для машинного обучения (PDF) (кандидатская диссертация). Университет Вайкато.
^ Сенлиол, Барис; и другие. (2008). «Фильтр на основе быстрой корреляции (FCBF) с другой стратегией поиска». 2008 23-й Международный симпозиум по компьютерным и информационным наукам . стр. 1–4. дои : 10.1109/ISCIS.2008.4717949. ISBN978-1-4244-2880-9. S2CID 8398495.
^ Нгуен, Хай; Франке, Катрин; Петрович, Слободан (декабрь 2009 г.). «Оптимизация класса мер выбора признаков». Материалы семинара NIPS 2009 по дискретной оптимизации в машинном обучении: субмодулярность, разреженность и многогранники (DISCML) . Ванкувер, Канада.
^ ab Х. Денг, Г. Рангер, «Выбор функций с помощью регуляризованных деревьев», Материалы Международной совместной конференции по нейронным сетям 2012 г. (IJCNN), IEEE, 2012 г.
^ ab RRF: регуляризованный случайный лес, пакет R на CRAN
^ Аб Хамон, Джули (ноябрь 2013 г.). Комбинированная оптимизация для выбора переменных в регрессии в большом измерении: Применение в генетике животных (Диссертация) (на французском языке). Лилльский университет науки и технологий .
^ Ю, Лей; Лю, Хуан (август 2003 г.). «Выбор функций для многомерных данных: решение для быстрого фильтра на основе корреляции» (PDF) . ICML'03: Материалы двадцатой международной конференции по машинному обучению : 856–863.
^ ab TM Phuong, Z. Lin et RB Altman. Выбор SNP с использованием выбора признаков. Архивировано 13 сентября 2016 г. на конференции Wayback Machine Proceedings / IEEE Computational Systems Bioinformatics Conference, CSB. Конференция IEEE по биоинформатике вычислительных систем, страницы 301–309, 2005 г. PMID 16447987.
^ Сагапур, Э.; Кермани, С.; Сехати, М. (2017). «Новый метод ранжирования функций для прогнозирования стадий рака с использованием данных протеомики». ПЛОС ОДИН . 12 (9): e0184203. Бибкод : 2017PLoSO..1284203S. дои : 10.1371/journal.pone.0184203 . ПМК 5608217 . ПМИД 28934234.
^ Шах, Южная Каролина; Кусяк, А. (2004). «Интеллектуальный анализ данных и выбор генов / SNP на основе генетических алгоритмов». Искусственный интеллект в медицине . 31 (3): 183–196. doi :10.1016/j.artmed.2004.04.002. ПМИД 15302085.
^ Лонг, Н.; Джанола, Д.; Вайгель, К.А. (2011). «Уменьшение размеров и отбор переменных для геномной селекции: применение для прогнозирования надоев молока у голштинских пород». Журнал разведения животных и генетики . 128 (4): 247–257. дои : 10.1111/j.1439-0388.2011.00917.x. ПМИД 21749471.
^ Устюнкар, Гюркан; Озогюр-Акюз, Сурейя; Вебер, Герхард В.; Фридрих, Кристоф М.; Айдын Сон, Ешим (2012). «Выбор репрезентативных наборов SNP для полногеномных исследований ассоциаций: метаэвристический подход». Письма об оптимизации . 6 (6): 1207–1218. дои : 10.1007/s11590-011-0419-7. S2CID 8075318.
^ Мейри, Р.; Захави, Дж. (2006). «Использование имитации отжига для оптимизации проблемы выбора функций в маркетинговых приложениях». Европейский журнал операционных исследований . 171 (3): 842–858. дои : 10.1016/j.ejor.2004.09.010.
^ Капетаниос, Г. (2007). «Выбор переменных в регрессионных моделях с использованием нестандартной оптимизации информационных критериев». Вычислительная статистика и анализ данных . 52 (1): 4–15. doi :10.1016/j.csda.2007.04.006.
^ Бродхерст, Д.; Гудакр, Р.; Джонс, А.; Роуленд, Джей-Джей; Келл, Д.Б. (1997). «Генетические алгоритмы как метод выбора переменных в множественной линейной регрессии и частичной регрессии наименьших квадратов с применением к пиролизной масс-спектрометрии». Аналитика Химика Акта . 348 (1–3): 71–86. дои : 10.1016/S0003-2670(97)00065-2.
^ Чуанг, Л.-Ю.; Ян, К.-Х. (2009). «Поиск табу и оптимизация роя бинарных частиц для выбора признаков с использованием данных микрочипа». Журнал вычислительной биологии . 16 (12): 1689–1703. дои : 10.1089/cmb.2007.0211. ПМИД 20047491.
^ Э. Альба, Ж. Гариа-Ньето, Л. Журдан и Э.-Г. Талби. Отбор генов в классификации рака с использованием гибридных алгоритмов PSO-SVM и GA-SVM. Архивировано 18 августа 2016 г. на Конгрессе Wayback Machine по эволюционным вычислениям, Сингапур: Сингапур (2007), 2007 г.
^ Б. Дюваль, Ж.-К. Хао и Дж. К. Эрнандес Эрнандес. Меметический алгоритм отбора генов и молекулярной классификации рака. В материалах 11-й ежегодной конференции по генетическим и эволюционным вычислениям, GECCO '09, страницы 201–208, Нью-Йорк, Нью-Йорк, США, 2009. ACM.
^ К. Ханс, А. Добра и М. Уэст. Стохастический поиск дробовика для регрессии с «большим p». Журнал Американской статистической ассоциации, 2007.
^ Эйткен, С. (2005). «Выбор функций и классификация для анализа данных микрочипов: эволюционные методы идентификации прогностических генов». БМК Биоинформатика . 6 (1): 148. дои : 10.1186/1471-2105-6-148 . ПМЦ 1181625 . ПМИД 15958165.
^ Сюань, П.; Го, МЗ; Ван, Дж.; Лю, XY; Лю, Ю. (2011). «Эффективный отбор признаков на основе генетических алгоритмов для классификации пре-миРНК». Генетика и молекулярные исследования . 10 (2): 588–603. дои : 10.4238/vol10-2gmr969 . ПМИД 21491369.
^ Пэн, С. (2003). «Молекулярная классификация типов рака на основе данных микрочипов с использованием комбинации генетических алгоритмов и машин опорных векторов». Письма ФЭБС . 555 (2): 358–362. дои : 10.1016/s0014-5793(03)01275-4 . ПМИД 14644442.
^ Эрнандес, JCH; Дюваль, Б.; Хао, Ж.-К. (2007). «Генетический встроенный подход к отбору генов и классификации данных микрочипов». Эволюционные вычисления, машинное обучение и интеллектуальный анализ данных в биоинформатике. ЭвоБИО 2007 . Конспекты лекций по информатике. Том. 4447. Берлин: Springer Verlag. стр. 90–101. дои : 10.1007/978-3-540-71783-6_9. ISBN978-3-540-71782-9.
^ Уэрта, Э.Б.; Дюваль, Б.; Хао, Ж.-К. (2006). «Гибридный подход GA/SVM к отбору генов и классификации данных микрочипов». Приложения эволюционных вычислений. ЭвоМастерские 2006 . Конспекты лекций по информатике. Том. 3907. стр. 34–44. дои : 10.1007/11732242_4. ISBN978-3-540-33237-4.
^ Муни, ДП; Пал, Северная Каролина; Дас, Дж. (2006). «Генетическое программирование для одновременного выбора признаков и разработки классификатора». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 36 (1): 106–117. дои : 10.1109/TSMCB.2005.854499. PMID 16468570. S2CID 2073035.
^ Журдан, Л.; Дэненс, К.; Тальби, Э.-Г. (2005). «Исследование неравновесия по сцеплению с параллельным адаптивным ГА». Международный журнал основ компьютерных наук . 16 (2): 241–260. дои : 10.1142/S0129054105002978.
^ Чжан, Ю.; Донг, З.; Филлипс, П.; Ван, С. (2015). «Обнаружение субъектов и областей мозга, связанных с болезнью Альцгеймера, с помощью 3D-МРТ-сканирования на основе собственного мозга и машинного обучения». Границы вычислительной нейронауки . 9:66 . дои : 10.3389/fncom.2015.00066 . ПМЦ 4451357 . ПМИД 26082713.
^ Роффо, Г.; Мельци, С.; Кристани, М. (01 декабря 2015 г.). «Бесконечный выбор функций». Международная конференция IEEE по компьютерному зрению (ICCV) , 2015 г. стр. 4202–4210. дои : 10.1109/ICCV.2015.478. ISBN978-1-4673-8391-2. S2CID 3223980.
^ Роффо, Джорджио; Мельци, Симоне (сентябрь 2016 г.). «Выбор функций через центральность собственного вектора» (PDF) . НФмкп2016 . Проверено 12 ноября 2016 г.
^ Р. Кохави и Дж. Джон, «Обертки для выбора подмножества функций», Искусственный интеллект 97.1-2 (1997): 273-324.
^ Дас, Абхиманью; Кемпе, Дэвид (2011). «Субмодульное встречается со спектральным: жадные алгоритмы выбора подмножества, разреженной аппроксимации и выбора по словарю». arXiv : 1102.3975 [stat.ML].
^ Лю и др., Выбор субмодульных функций для многомерных акустических пространств. Архивировано 17 октября 2015 г. на Wayback Machine.
^ Чжэн и др., Выбор субмодульных атрибутов для распознавания действий в видео. Архивировано 18 ноября 2015 г. на Wayback Machine.
^ Сан, Ю.; Тодорович, С.; Гудисон, С. (2010). «Выбор функций на основе локального обучения для анализа многомерных данных». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 32 (9): 1610–1626. дои : 10.1109/tpami.2009.190. ПМЦ 3445441 . ПМИД 20634556.
^ DH Wang, YC Liang, D.Xu, XY Feng, RC Guan (2018), «Система рекомендаций на основе контента для публикаций по информатике», Knowledge-Based Systems , 157: 1-9
дальнейшее чтение
Гийон, Изабель; Елисеев, Андре (2003). «Введение в выбор переменных и функций». Журнал исследований машинного обучения . 3 : 1157–1182.
Харрелл, Ф. (2001). Стратегии регрессионного моделирования . Спрингер. ISBN 0-387-95232-2.
Лю, Хуан; Мотода, Хироши (1998). Выбор функций для обнаружения знаний и интеллектуального анализа данных. Спрингер. ISBN 0-7923-8198-Х.
Лю, Хуан; Ю, Лей (2005). «На пути к интеграции алгоритмов выбора признаков для классификации и кластеризации». Транзакции IEEE по знаниям и инженерии данных . 17 (4): 491–502. дои :10.1109/TKDE.2005.66. S2CID 1607600.
Внешние ссылки
Пакет выбора функций, Университет штата Аризона (код Matlab)
Задача NIPS 2003 (см. также NIPS )
Наивная реализация Байеса с выбором функций в Visual Basic. Архивировано 14 февраля 2009 г. на Wayback Machine (включая исполняемый файл и исходный код).
Программа выбора функций «минимальная избыточность-максимальная релевантность» (mRMR)
FEAST (алгоритмы выбора функций с открытым исходным кодом на C и MATLAB)