stringtranslate.com

Выбор характеристик

Отбор признаков — это процесс отбора подмножества соответствующих признаков (переменных, предикторов) для использования в построении модели. Стилометрия и анализ микрочипов ДНК — два случая, когда используется отбор признаков. Его следует отличать от извлечения признаков . [1]

Методы отбора признаков используются по нескольким причинам:

  • упрощение моделей для облегчения их интерпретации исследователями/пользователями, [2]
  • более короткое время обучения, [3]
  • чтобы избежать проклятия размерности , [4]
  • улучшить совместимость данных с классом модели обучения, [5]
  • кодируют присущие симметрии, присутствующие во входном пространстве. [6] [7] [8] [9]

Центральная предпосылка при использовании метода выбора признаков заключается в том, что данные содержат некоторые признаки, которые являются либо избыточными , либо нерелевантными , и поэтому могут быть удалены без значительной потери информации. [10] Избыточность и нерелевантность — это два разных понятия, поскольку один релевантный признак может быть избыточным при наличии другого релевантного признака, с которым он сильно коррелирует. [11]

Извлечение признаков создает новые признаки из функций исходных признаков, тогда как выбор признаков возвращает подмножество признаков. Методы выбора признаков часто используются в областях, где имеется много признаков и сравнительно мало образцов (или точек данных).

Введение

Алгоритм выбора признаков можно рассматривать как комбинацию метода поиска для предложения новых подмножеств признаков вместе с мерой оценки, которая оценивает различные подмножества признаков. Самый простой алгоритм — это проверить каждое возможное подмножество признаков, найдя то, которое минимизирует частоту ошибок. Это исчерпывающий поиск пространства, и он вычислительно невыполним для всех, кроме самых маленьких наборов признаков. Выбор метрики оценки сильно влияет на алгоритм, и именно эти метрики оценки различают три основные категории алгоритмов выбора признаков: оболочки, фильтры и встроенные методы. [11]

В традиционном регрессионном анализе наиболее популярной формой выбора признаков является пошаговая регрессия , которая является методом-оберткой. Это жадный алгоритм , который добавляет лучший признак (или удаляет худший признак) на каждом раунде. Основной проблемой управления является решение о том, когда остановить алгоритм. В машинном обучении это обычно делается с помощью перекрестной проверки . В статистике некоторые критерии оптимизируются. Это приводит к неотъемлемой проблеме вложенности. Были исследованы более надежные методы, такие как ветвь и граница и кусочно-линейная сеть.

Выбор подмножества

Выбор подмножества оценивает подмножество признаков как группу на предмет пригодности. Алгоритмы выбора подмножества можно разбить на оболочки, фильтры и встроенные методы. Оболочки используют алгоритм поиска для поиска в пространстве возможных признаков и оценивают каждое подмножество, запуская модель на подмножестве. Оболочки могут быть вычислительно затратными и иметь риск чрезмерного соответствия модели. Фильтры похожи на оболочки в подходе поиска, но вместо оценки по модели оценивается более простой фильтр. Встроенные методы встроены в модель и специфичны для нее.

Многие популярные подходы поиска используют жадный поиск по холму , который итеративно оценивает подмножество-кандидата признаков, затем изменяет подмножество и оценивает, является ли новое подмножество улучшением по сравнению со старым. Оценка подмножеств требует метрики оценки , которая оценивает подмножество признаков. Исчерпывающий поиск, как правило, непрактичен, поэтому в некоторой определенной реализатором (или оператором) точке остановки подмножество признаков с наивысшей оценкой, обнаруженной до этой точки, выбирается как удовлетворительное подмножество признаков. Критерий остановки зависит от алгоритма; возможные критерии включают: оценка подмножества превышает пороговое значение, максимально допустимое время выполнения программы было превышено и т. д.

Альтернативные методы поиска основаны на целенаправленном поиске проекций , который находит низкоразмерные проекции данных, имеющие высокие оценки: затем выбираются признаки, имеющие самые большие проекции в низкоразмерном пространстве.

Подходы к поиску включают:

Две популярные метрики фильтров для задач классификации — это корреляция и взаимная информация , хотя ни одна из них не является истинной метрикой или «мерой расстояния» в математическом смысле, поскольку они не подчиняются неравенству треугольника и, таким образом, не вычисляют никакого фактического «расстояния» — их скорее следует рассматривать как «оценки». Эти оценки вычисляются между потенциальным признаком (или набором признаков) и желаемой выходной категорией. Однако существуют истинные метрики, которые являются простой функцией взаимной информации; [30] см. здесь .

Другие доступные показатели фильтра включают:

Критерии оптимальности

Выбор критерия оптимальности сложен, поскольку в задаче выбора признаков есть несколько целей. Многие общие критерии включают меру точности, штрафуемую количеством выбранных признаков. Примерами являются критерий информации Акаике (AIC) и C p Маллоуза , которые имеют штраф 2 за каждый добавленный признак. AIC основан на теории информации и эффективно выводится с помощью принципа максимальной энтропии . [31] [32]

Другие критерии — это критерий байесовского информационного критерия (BIC), который использует штраф для каждого добавленного признака, минимальная длина описания (MDL), которая асимптотически использует , Бонферрони /RIC, которые используют , выбор признаков максимальной зависимости и множество новых критериев, которые мотивированы частотой ложных открытий (FDR), которые используют что-то близкое к . Критерий максимальной скорости энтропии также может использоваться для выбора наиболее релевантного подмножества признаков. [33]

Структурное обучение

Выбор признаков фильтра является частным случаем более общей парадигмы, называемой структурным обучением . Выбор признаков находит соответствующий набор признаков для определенной целевой переменной, тогда как структурное обучение находит взаимосвязи между всеми переменными, обычно выражая эти взаимосвязи в виде графика. Наиболее распространенные алгоритмы структурного обучения предполагают, что данные генерируются байесовской сетью , и поэтому структура представляет собой направленную графическую модель . Оптимальным решением проблемы выбора признаков фильтра является марковское покрытие целевого узла, а в байесовской сети для каждого узла существует уникальное марковское покрытие. [34]

Механизмы отбора признаков на основе теории информации

Существуют различные механизмы отбора признаков, которые используют взаимную информацию для оценки различных признаков. Обычно они используют один и тот же алгоритм:

  1. Рассчитайте взаимную информацию как оценку между всеми признаками ( ) и целевым классом ( c )
  2. Выберите функцию с наибольшим баллом (например, ) и добавьте ее в набор выбранных функций ( S )
  3. Рассчитайте оценку, которая может быть получена на основе взаимной информации.
  4. Выберите функцию с наибольшим баллом и добавьте ее в набор выбранных функций (например, )
  5. Повторяйте пункты 3 и 4, пока не будет выбрано определенное количество объектов (например, )

Самый простой подход использует взаимную информацию как «производную» оценку. [35]

Однако существуют различные подходы, которые пытаются уменьшить избыточность между функциями.

Выбор признаков с минимальной избыточностью и максимальной релевантностью (mRMR)

Пэн и др. [36] предложили метод выбора признаков, который может использовать либо взаимную информацию, либо корреляцию, либо оценки расстояния/сходства для выбора признаков. Цель состоит в том, чтобы наказать релевантность признака за его избыточность в присутствии других выбранных признаков. Релевантность набора признаков S для класса c определяется средним значением всех значений взаимной информации между отдельным признаком f i и классом c следующим образом:

.

Избыточность всех признаков в наборе S — это среднее значение всех значений взаимной информации между признаком f i и признаком f j :

Критерий mRMR представляет собой комбинацию двух приведенных выше показателей и определяется следующим образом:

Предположим, что имеется n полных наборов признаков. Пусть x i будет функцией индикатора принадлежности множеству для признака f i , так что x i =1 указывает на присутствие, а x i =0 указывает на отсутствие признака f i в глобально оптимальном наборе признаков. Пусть и . Тогда вышеизложенное можно записать как задачу оптимизации:

Алгоритм mRMR является приближением теоретически оптимального алгоритма выбора признаков с максимальной зависимостью, который максимизирует взаимную информацию между совместным распределением выбранных признаков и переменной классификации. Поскольку mRMR аппроксимирует задачу комбинаторной оценки серией гораздо меньших задач, каждая из которых включает только две переменные, он, таким образом, использует парные совместные вероятности, которые более надежны. В определенных ситуациях алгоритм может недооценивать полезность признаков, поскольку у него нет возможности измерить взаимодействия между признаками, которые могут повысить релевантность. Это может привести к низкой производительности [35] , когда признаки по отдельности бесполезны, но полезны в сочетании (патологический случай обнаруживается, когда класс является функцией четности признаков). В целом алгоритм более эффективен (с точки зрения объема требуемых данных), чем теоретически оптимальный выбор с максимальной зависимостью, но при этом создает набор признаков с небольшой парной избыточностью.

mRMR — это пример большого класса методов фильтрации, которые по-разному балансируют между релевантностью и избыточностью. [35] [37]

Выбор функции квадратичного программирования

mRMR — типичный пример инкрементальной жадной стратегии для выбора признаков: как только признак был выбран, его нельзя отменить на более позднем этапе. Хотя mRMR можно оптимизировать с помощью плавающего поиска для сокращения некоторых признаков, его также можно переформулировать как глобальную задачу оптимизации квадратичного программирования следующим образом: [38]

где — вектор релевантности признаков, предполагающий, что всего имеется n признаков, — матрица парной избыточности признаков, а — относительные веса признаков. QPFS решается с помощью квадратичного программирования. Недавно было показано, что QFPS смещен в сторону признаков с меньшей энтропией [39] из-за размещения термина самоизбыточности признаков на диагонали H.

Условная взаимная информация

Другая оценка, полученная для взаимной информации, основана на условной релевантности: [39]

где и .

Преимущество SPEC CMI в том, что его можно решить просто путем нахождения доминирующего собственного вектора Q , поэтому он очень масштабируем. SPEC CMI также обрабатывает взаимодействие признаков второго порядка.

Совместная взаимная информация

В исследовании различных оценок Браун и др. [35] рекомендовали совместную взаимную информацию [40] как хорошую оценку для выбора признаков. Оценка пытается найти признак, который добавляет больше всего новой информации к уже выбранным признакам, чтобы избежать избыточности. Оценка формулируется следующим образом:

Оценка использует условную взаимную информацию и взаимную информацию для оценки избыточности между уже выбранными признаками ( ) и исследуемым признаком ( ).

Выбор признаков на основе критерия независимости Гильберта-Шмидта с помощью лассо

Для многомерных и небольших выборочных данных (например, размерность > 105 и количество образцов < 103 ) полезно использовать критерий независимости Гильберта-Шмидта (HSIC Lasso). [41] Задача оптимизации HSIC Lasso задается как

где — мера независимости на основе ядра, называемая (эмпирическим) критерием независимости Гильберта-Шмидта (HSIC), обозначает след , — параметр регуляризации, — входные и выходные центрированные матрицы Грама , — матрицы Грама, — функции ядра, — центрирующая матрица, — m -мерная единичная матрица ( m : число выборок), — m -мерный вектор со всеми единицами, — норма . HSIC всегда принимает неотрицательное значение и равен нулю тогда и только тогда, когда две случайные величины статистически независимы, когда используется универсальное воспроизводящее ядро, такое как ядро ​​Гаусса.

Лассо HSIC можно записать как

где — норма Фробениуса . Задача оптимизации — это задача Лассо, и поэтому ее можно эффективно решить с помощью современного решателя Лассо, такого как метод двойного дополненного Лагранжа .

Выбор корреляционного признака

Мера выбора корреляционных признаков (CFS) оценивает подмножества признаков на основе следующей гипотезы: «Хорошие подмножества признаков содержат признаки, сильно коррелирующие с классификацией, но не коррелирующие друг с другом». [42] [43] Следующее уравнение дает оценку подмножества признаков S, состоящего из k признаков:

Здесь, — среднее значение всех корреляций признак-классификация, а — среднее значение всех корреляций признак-признак. Критерий CFS определяется следующим образом:

Переменные и называются корреляциями, но не обязательно являются коэффициентом корреляции Пирсона или ρ Спирмена . В диссертации Холла не используется ни один из них, а используются три различные меры связанности: минимальная длина описания (MDL), симметричная неопределенность и рельеф .

Пусть x i будет функцией индикатора принадлежности множеству для признака f i ; тогда вышесказанное можно переписать в виде задачи оптимизации:

Комбинаторные задачи, описанные выше, по сути, являются смешанными задачами линейного программирования 0–1 , которые можно решить с помощью алгоритмов ветвей и границ . [44]

Регуляризованные деревья

Показано, что признаки из дерева решений или ансамбля деревьев избыточны. Недавний метод, называемый регуляризованным деревом [45], может использоваться для выбора подмножества признаков. Регуляризованные деревья штрафуют, используя переменную, похожую на переменные, выбранные в предыдущих узлах дерева для разделения текущего узла. Регуляризованным деревьям нужно построить только одну модель дерева (или одну модель ансамбля деревьев), и поэтому они вычислительно эффективны.

Регуляризованные деревья естественным образом обрабатывают числовые и категориальные признаки, взаимодействия и нелинейности. Они инвариантны к масштабам атрибутов (единицам) и нечувствительны к выбросам , и, таким образом, требуют небольшой предварительной обработки данных, такой как нормализация . Регуляризованный случайный лес (RRF) [46] является одним из типов регуляризованных деревьев. Направляемый RRF является улучшенным RRF, который руководствуется оценками важности из обычного случайного леса.

Обзор методов метаэвристики

Метаэвристика — это общее описание алгоритма, предназначенного для решения сложных (обычно NP-трудных задач) задач оптимизации, для которых не существует классических методов решения. Как правило, метаэвристика — это стохастический алгоритм, стремящийся к достижению глобального оптимума. Существует множество метаэвристик, от простого локального поиска до сложного алгоритма глобального поиска.

Основные принципы

Методы отбора признаков обычно делятся на три класса в зависимости от того, как они объединяют алгоритм отбора и построение модели.

Метод фильтрации

Метод фильтрации для выбора характеристик

Методы типа фильтра выбирают переменные независимо от модели. Они основаны только на общих признаках, таких как корреляция с переменной для прогнозирования. Методы фильтра подавляют наименее интересные переменные. Другие переменные будут частью классификации или регрессионной модели, используемой для классификации или прогнозирования данных. Эти методы особенно эффективны с точки зрения времени вычислений и устойчивы к переобучению. [47]

Методы фильтрации имеют тенденцию выбирать избыточные переменные, когда они не учитывают взаимосвязи между переменными. Однако более сложные функции пытаются минимизировать эту проблему, удаляя переменные, сильно коррелирующие друг с другом, такие как алгоритм Fast Correlation Based Filter (FCBF). [48]

Метод обертывания

Метод обертки для выбора признаков

Методы-обертки оценивают подмножества переменных, что позволяет, в отличие от подходов с фильтрами, обнаруживать возможные взаимодействия между переменными. [49] Двумя основными недостатками этих методов являются:

Встроенный метод

Встроенный метод выбора признаков

Недавно были предложены встроенные методы, которые пытаются объединить преимущества обоих предыдущих методов. Алгоритм обучения использует преимущества собственного процесса выбора переменных и выполняет выбор признаков и классификацию одновременно, как, например, алгоритм FRMT. [50]

Применение метаэвристики выбора признаков

Это обзор применения метаэвристики выбора признаков, недавно использованной в литературе. Этот обзор был реализован Дж. Хэммон в ее диссертации 2013 года. [47]

Выбор признаков, встроенный в алгоритмы обучения

Некоторые алгоритмы обучения выполняют выбор признаков как часть своей общей операции. К ним относятся:

Смотрите также

Ссылки

  1. ^ Саранги, Сусанта; Сахидулла, Мэриленд; Саха, Гаутам (сентябрь 2020 г.). «Оптимизация банка фильтров на основе данных для автоматической проверки говорящего». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . doi : 10.1016/j.dsp.2020.102795. S2CID  220665533.
  2. ^ Гарет Джеймс; Даниэла Виттен; Тревор Хасти; Роберт Тибширани (2013). Введение в статистическое обучение. Springer. стр. 204.
  3. ^ Бранк, Янез; Младенич, Дуня; Гробельник, Марко; Лю, Хуан; Младенич, Дуня; Флах, Питер А.; Гаррига, Джемма К.; Тойвонен, Ханну; Тойвонен, Ханну (2011), «Выбор признаков», в Саммут, Клод; Уэбб, Джеффри И. (ред.), Энциклопедия машинного обучения , Бостон, Массачусетс: Springer US, стр. 402–406, doi :10.1007/978-0-387-30164-8_306, ISBN 978-0-387-30768-8, получено 2021-07-13
  4. ^ Крамер, Марк А. (1991). «Нелинейный главный компонентный анализ с использованием автоассоциативных нейронных сетей». Журнал AIChE . 37 (2): 233–243. doi :10.1002/aic.690370209. ISSN  1547-5905.
  5. ^ Крациос, Анастасис; Хайндман, Коди (2021). «NEU: мета-алгоритм для универсального представления инвариантных признаков UAP». Журнал исследований машинного обучения . 22 (92): 1–51. ISSN  1533-7928.
  6. ^ Persello, Claudio; Bruzzone, Lorenzo (июль 2014 г.). «Выбор релевантных и инвариантных признаков гиперспектральных изображений для обобщения домена». Симпозиум IEEE по геонауке и дистанционному зондированию 2014 г. (PDF) . IEEE. стр. 3562–3565. doi :10.1109/igarss.2014.6947252. ISBN 978-1-4799-5775-0. S2CID  8368258.
  7. ^ Хинкль, Якоб; Муралидхаран, Прасанна; Флетчер, П. Томас; Джоши, Саранг (2012). «Полиномиальная регрессия на римановых многообразиях». В Фицгиббон, Эндрю; Лазебник, Светлана; Перона, Пьетро; Сато, Йоичи; Шмид, Корделия (ред.). Компьютерное зрение – ECCV 2012. Заметки лекций по информатике. Том 7574. Берлин, Гейдельберг: Springer. стр. 1–14. arXiv : 1201.2395 . doi :10.1007/978-3-642-33712-3_1. ISBN 978-3-642-33712-3. S2CID  8849753.
  8. ^ Яроцкий, Дмитрий (2021-04-30). «Универсальные аппроксимации инвариантных отображений нейронными сетями». Constructive Approximation . 55 : 407–474. arXiv : 1804.10306 . doi :10.1007/s00365-021-09546-1. ISSN  1432-0940. S2CID  13745401.
  9. ^ Хауберг, Сорен; Лоз, Франсуа; Педерсен, Ким Стенструп (01 мая 2013 г.). «Фильтрация Калмана без запаха на римановых многообразиях». Журнал математического изображения и видения . 46 (1): 103–120. дои : 10.1007/s10851-012-0372-9. ISSN  1573-7683. S2CID  8501814.
  10. ^ Kratsios, Anastasis; Hyndman, Cody (8 июня 2021 г.). "NEU: мета-алгоритм для универсального представления инвариантных признаков UAP". Журнал исследований машинного обучения . 22 : 10312. Bibcode : 2015NatSR ...510312B. doi : 10.1038/srep10312. PMC 4437376. PMID  25988841. 
  11. ^ abc Guyon, Isabelle; Elisseeff, André (2003). «Введение в выбор переменных и признаков». JMLR . 3 .
  12. ^ ab Yang, Yiming; Pedersen, Jan O. (1997). Сравнительное исследование выбора признаков при категоризации текста (PDF) . ICML.
  13. ^ Урбанович, Райан Дж.; Микер, Мелисса; ЛаКава, Уильям; Олсон, Рэндал С.; Мур, Джейсон Х. (2018). «Выбор признаков на основе рельефа: введение и обзор». Журнал биомедицинской информатики . 85 : 189–203. arXiv : 1711.08421 . doi : 10.1016/j.jbi.2018.07.014. PMC 6299836. PMID  30031057. 
  14. ^ Форман, Джордж (2003). «Обширное эмпирическое исследование метрик выбора признаков для классификации текста» (PDF) . Журнал исследований машинного обучения . 3 : 1289–1305.
  15. ^ Иши Чжан; Шуцзюань Ли; Тенг Ван; Зыган Чжан (2013). «Выбор признаков на основе дивергенции для отдельных классов». Нейрокомпьютинг . 101 (4): 32–42. doi : 10.1016/j.neucom.2012.06.036.
  16. ^ Guyon I.; Weston J.; Barnhill S.; Vapnik V. (2002). «Выбор генов для классификации рака с использованием машин опорных векторов». Machine Learning . 46 (1–3): 389–422. doi : 10.1023/A:1012487302797 .
  17. ^ Бах, Фрэнсис Р. (2008). "Болассо". Труды 25-й международной конференции по машинному обучению - ICML '08 . С. 33–40. doi :10.1145/1390156.1390161. ISBN 9781605582054. S2CID  609778.
  18. ^ Заре, Хабил (2013). «Оценка релевантности признаков на основе комбинаторного анализа Лассо с применением к диагностике лимфомы». BMC Genomics . 14 (Suppl 1): S14. doi : 10.1186/1471-2164-14-S1-S14 . PMC 3549810 . PMID  23369194. 
  19. ^ Кай Хан; Юньхэ Ван; Чао Чжан; Чао Ли; Чао Сюй (2018). Неконтролируемый выбор признаков, вдохновленный автоэнкодером . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP).
  20. ^ Хазимех, Хуссейн; Мазумдер, Рахул; Сааб, Али (2020). «Разреженная регрессия в масштабе: метод ветвей и границ, укорененный в оптимизации первого порядка». arXiv : 2004.06152 [stat.CO].
  21. ^ Суфан, Отман; Клефтогианнис, Димитриос; Калнис, Панос; Баич, Владимир Б. (2015-02-26). "DWFS: инструмент выбора признаков оболочки на основе параллельного генетического алгоритма". PLOS ONE . ​​10 (2): e0117988. Bibcode :2015PLoSO..1017988S. doi : 10.1371/journal.pone.0117988 . ISSN  1932-6203. PMC 4342225 . PMID  25719748. 
  22. ^ Фигероа, Алехандро (2015). «Изучение эффективных функций для распознавания намерений пользователя, стоящих за веб-запросами». Компьютеры в промышленности . 68 : 162–169. doi :10.1016/j.compind.2015.01.005.
  23. ^ Фигероа, Алехандро; Гюнтер Нойманн (2013). Обучение ранжированию эффективных парафраз из журналов запросов для ответов на вопросы сообщества. AAAI.
  24. ^ Фигероа, Алехандро; Гюнтер Нойманн (2014). «Категорийно-специфические модели для ранжирования эффективных парафраз в ответах на вопросы сообщества». Экспертные системы с приложениями . 41 (10): 4730–4742. doi :10.1016/j.eswa.2014.02.004. hdl : 10533/196878 .
  25. ^ ab Zhang, Y.; Wang, S.; Phillips, P. (2014). «Двоичный PSO с оператором мутации для выбора признаков с использованием дерева решений, применяемого для обнаружения спама». Системы, основанные на знаниях . 64 : 22–31. doi :10.1016/j.knosys.2014.03.015.
  26. ^ FC Garcia-Lopez, M. Garcia-Torres, B. Melian, JA Moreno-Perez, JM Moreno-Vega. Решение проблемы выбора подмножества признаков с помощью параллельного рассеянного поиска, European Journal of Operational Research , т. 169, № 2, стр. 477–489, 2006.
  27. ^ Гарсиа-Торрес, Мигель; Гомес-Вела, Франциско; Дивина, Федерико; Пинто-Роа, Диего П.; Ногера, Хосе Луис Васкес; Роман, Хулио К. Мелло (2021). «Рассеянный поиск для выбора многомерных объектов с использованием группировки объектов». Материалы конференции по генетическим и эволюционным вычислениям . стр. 149–150. дои : 10.1145/3449726.3459481. ISBN 9781450383516. S2CID  235770316.
  28. ^ FC Garcia-Lopez, M. Garcia-Torres, B. Melian, JA Moreno-Perez, JM Moreno-Vega. Решение проблемы выбора подмножества признаков с помощью гибридной метаэвристики. В Первом международном семинаре по гибридной метаэвристике , стр. 59–68, 2004.
  29. ^ М. Гарсия-Торрес, Ф. Гомес-Вела, Б. Мелиан, Дж. М. Морено-Вега. Выбор многомерных признаков с помощью группировки признаков: подход поиска переменного соседства, Information Sciences , т. 326, стр. 102-118, 2016.
  30. ^ Красков, Александр; Штёгбауэр, Харальд; Анджейак, Ральф Г.; Грассбергер, Питер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio/0311039 . Bibcode :2003q.bio....11039K. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  31. ^ Akaike, H. (1985), «Предсказание и энтропия», в Atkinson, AC; Fienberg, SE (ред.), A Celebration of Statistics (PDF) , Springer, стр. 1–24, архивировано (PDF) из оригинала 30 августа 2019 г..
  32. ^ Бернхэм, К. П.; Андерсон, Д. Р. (2002), Выбор модели и вывод на основе нескольких моделей: практический информационно-теоретический подход (2-е изд.), Springer-Verlag , ISBN 9780387953649.
  33. ^ Эйнике, GA (2018). «Выбор признаков с максимальной скоростью энтропии для классификации изменений в динамике колена и голеностопного сустава во время бега». IEEE Journal of Biomedical and Health Informatics . 28 (4): 1097–1103. doi :10.1109/JBHI.2017.2711487. PMID  29969403. S2CID  49555941.
  34. ^ Алиферис, Константин (2010). «Локальная причинно-следственная и марковская индукция для причинного обнаружения и выбора признаков для классификации, часть I: Алгоритмы и эмпирическая оценка» (PDF) . Журнал исследований машинного обучения . 11 : 171–234.
  35. ^ abcd Браун, Гэвин; Покок, Адам; Чжао, Мин-Цзе; Лухан, Микель (2012). «Условная максимизация правдоподобия: унифицированная структура для выбора признаков на основе теории информации». Журнал исследований машинного обучения . 13 : 27–66.[1]
  36. ^ Peng, HC; Long, F.; Ding, C. (2005). «Выбор признаков на основе взаимной информации: критерии максимальной зависимости, максимальной релевантности и минимальной избыточности». IEEE Transactions on Pattern Analysis and Machine Intelligence . 27 (8): 1226–1238. CiteSeerX 10.1.1.63.5765 . doi :10.1109/TPAMI.2005.159. PMID  16119262. S2CID  206764015. Программа
  37. ^ Нгуен, Х., Франке, К., Петрович, С. (2010). «На пути к универсальной мере выбора признаков для обнаружения вторжений», в Трудах Международной конференции по распознаванию образов (ICPR), Стамбул, Турция. [2]
  38. ^ Родригес-Лухан, И.; Уэрта, Р.; Элкан, К.; Санта-Крус, К. (2010). «Выбор признаков квадратичного программирования» (PDF) . JMLR . 11 : 1491–1516.
  39. ^ ab Nguyen X. Vinh, Jeffrey Chan, Simone Romano и James Bailey, "Effective Global Approaches for Mutual Information Based Feature Selection". Труды 20-й конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (KDD'14), 24–27 августа, Нью-Йорк, 2014 г. "[3]"
  40. ^ Янг, Говард Хуа; Муди, Джон (2000). «Визуализация данных и выбор признаков: новые алгоритмы для негауссовых данных» (PDF) . Достижения в области нейронных систем обработки информации : 687–693.
  41. ^ Ямада, М.; Джиткриттум, В.; Сигал, Л.; Син, Э. П.; Сугияма, М. (2014). «Выбор многомерных признаков с помощью нелинейного лассо по признакам». Neural Computation . 26 (1): 185–207. arXiv : 1202.0515 . doi :10.1162/NECO_a_00537. PMID  24102126. S2CID  2742785.
  42. ^ Холл, М. (1999). Отбор признаков на основе корреляции для машинного обучения (PDF) (диссертация). Университет Вайкато.
  43. ^ Сенлиол, Барис и др. (2008). «Быстрый фильтр на основе корреляции (FCBF) с другой стратегией поиска». 2008 23-й Международный симпозиум по компьютерным и информационным наукам . С. 1–4. doi :10.1109/ISCIS.2008.4717949. ISBN 978-1-4244-2880-9. S2CID  8398495.
  44. ^ Нгуен, Хай; Франке, Катрин; Петрович, Слободан (декабрь 2009 г.). «Оптимизация класса мер выбора признаков». Труды семинара NIPS 2009 по дискретной оптимизации в машинном обучении: субмодулярность, разреженность и многогранники (DISCML) . Ванкувер, Канада.
  45. ^ ab H. Deng, G. Runger, «Отбор признаков с помощью регуляризованных деревьев», Труды Международной объединенной конференции по нейронным сетям 2012 г. (IJCNN), IEEE, 2012 г.
  46. ^ ab RRF: Регуляризованный случайный лес, пакет R на CRAN
  47. ^ Аб Хамон, Джули (ноябрь 2013 г.). Комбинированная оптимизация для выбора переменных в регрессии в большом измерении: Применение в генетике животных (Диссертация) (на французском языке). Лилльский университет науки и технологий .
  48. ^ Юй, Лей; Лю, Хуань (август 2003 г.). «Выбор признаков для многомерных данных: быстрое решение на основе корреляции» (PDF) . ICML'03: Труды Двадцатой международной конференции по машинному обучению : 856–863.
  49. ^ ab TM Phuong, Z. Lin et RB Altman. Выбор однонуклеотидных полиморфизмов с использованием выбора признаков. Архивировано 13 сентября 2016 г. в Wayback Machine Proceedings / Конференция по биоинформатике вычислительных систем IEEE, CSB. Конференция по биоинформатике вычислительных систем IEEE, страницы 301–309, 2005 г. PMID  16447987.
  50. ^ Сагапур, Э.; Кермани, С.; Сеххати, М. (2017). «Новый метод ранжирования признаков для прогнозирования стадий рака с использованием данных протеомики». PLOS ONE . 12 (9): e0184203. Bibcode : 2017PLoSO..1284203S . doi : 10.1371/journal.pone.0184203 . PMC 5608217. PMID  28934234. 
  51. ^ Шах, СК; Кусиак, А. (2004). «Интеллектуальный анализ данных и генетический алгоритм на основе выбора гена/SNP». Искусственный интеллект в медицине . 31 (3): 183–196. doi :10.1016/j.artmed.2004.04.002. PMID  15302085.
  52. ^ Лонг, Н.; Джианола, Д.; Вайгель, К. А. (2011). «Уменьшение размерности и выбор переменных для геномного отбора: применение для прогнозирования надоев у голштинов». Журнал разведения животных и генетики . 128 (4): 247–257. doi :10.1111/j.1439-0388.2011.00917.x. PMID  21749471.
  53. ^ Устюнкар, Гюркан; Озогюр-Акюз, Сурейя; Вебер, Герхард В.; Фридрих, Кристоф М.; Айдын Сон, Ешим (2012). «Выбор репрезентативных наборов SNP для полногеномных исследований ассоциаций: метаэвристический подход». Письма об оптимизации . 6 (6): 1207–1218. дои : 10.1007/s11590-011-0419-7. S2CID  8075318.
  54. ^ Мейри, Р.; Захави, Дж. (2006). «Использование имитации отжига для оптимизации проблемы выбора признаков в маркетинговых приложениях». Европейский журнал операционных исследований . 171 (3): 842–858. doi :10.1016/j.ejor.2004.09.010.
  55. ^ Капетаниос, Г. (2007). «Выбор переменных в регрессионных моделях с использованием нестандартной оптимизации информационных критериев». Computational Statistics & Data Analysis . 52 (1): 4–15. doi :10.1016/j.csda.2007.04.006.
  56. ^ Broadhurst, D.; Goodacre, R.; Jones, A.; Rowland, JJ; Kell, DB (1997). «Генетические алгоритмы как метод выбора переменных в множественной линейной регрессии и регрессии с использованием частичных наименьших квадратов, с приложениями к масс-спектрометрии пиролиза». Analytica Chimica Acta . 348 (1–3): 71–86. doi :10.1016/S0003-2670(97)00065-2.
  57. ^ Чуан, Л.-Й.; Янг, Ч.-Х. (2009). «Поиск с табу и оптимизация бинарного роя частиц для выбора признаков с использованием данных микрочипов». Журнал вычислительной биологии . 16 (12): 1689–1703. doi :10.1089/cmb.2007.0211. PMID  20047491.
  58. ^ E. Alba, J. Garia-Nieto, L. Jourdan et E.-G. Talbi. Gene Selection in Cancer Classification using PSO-SVM and GA-SVM Hybrid Algorithms. Архивировано 18 августа 2016 г. на конгрессе Wayback Machine Congress on Evolutionary Computation, Сингапур: Singapore (2007), 2007
  59. ^ Б. Дюваль, Ж.-К. Хао и Ж. К. Эрнандес Эрнандес. Меметический алгоритм для отбора генов и молекулярной классификации рака. В трудах 11-й ежегодной конференции по генетическим и эволюционным вычислениям, GECCO '09, страницы 201-208, Нью-Йорк, США, 2009. ACM.
  60. ^ C. Hans, A. Dobra et M. West. Shotgun Stochastic Search for 'large p' regression. Журнал Американской статистической ассоциации, 2007.
  61. ^ Aitken, S. (2005). "Выбор и классификация признаков для анализа данных микрочипов: эволюционные методы идентификации предиктивных генов". BMC Bioinformatics . 6 (1): 148. doi : 10.1186/1471-2105-6-148 . PMC 1181625 . PMID  15958165. 
  62. ^ О, И.С.; Мун, Б.Р. (2004). «Гибридные генетические алгоритмы для выбора признаков». Труды IEEE по анализу образов и машинному интеллекту . 26 (11): 1424–1437. CiteSeerX 10.1.1.467.4179 . doi :10.1109/tpami.2004.105. PMID  15521491. 
  63. ^ Xuan, P.; Guo, MZ; Wang, J.; Liu, XY; Liu, Y. (2011). «Эффективный выбор признаков на основе генетических алгоритмов для классификации пре-микроРНК». Genetics and Molecular Research . 10 (2): 588–603. doi : 10.4238/vol10-2gmr969 . PMID  21491369.
  64. ^ Пэн, С. (2003). «Молекулярная классификация типов рака на основе данных микрочипов с использованием комбинации генетических алгоритмов и машин опорных векторов». FEBS Letters . 555 (2): 358–362. doi : 10.1016/s0014-5793(03)01275-4 . PMID  14644442.
  65. ^ Hernandez, JCH; Duval, B.; Hao, J.-K. (2007). «Генетический встроенный подход к отбору генов и классификации данных микрочипов». Эволюционные вычисления, машинное обучение и интеллектуальный анализ данных в биоинформатике. EvoBIO 2007. Конспект лекций по информатике. Том 4447. Берлин: Springer Verlag. С. 90–101. doi :10.1007/978-3-540-71783-6_9. ISBN 978-3-540-71782-9.
  66. ^ Huerta, EB; Duval, B.; Hao, J.-K. (2006). "Гибридный подход GA/SVM для выбора генов и классификации данных микрочипов". Applications of Evolutionary Computing. EvoWorkshops 2006. Lecture Notes in Computer Science. Vol. 3907. pp. 34–44. doi :10.1007/11732242_4. ISBN 978-3-540-33237-4.
  67. ^ Муни, Д.П.; Пал, Н.Р.; Дас, Дж. (2006). «Генетическое программирование для одновременного выбора признаков и проектирования классификатора». Труды IEEE по системам, человеку и кибернетике — Часть B: Кибернетика . 36 (1): 106–117. doi :10.1109/TSMCB.2005.854499. PMID  16468570. S2CID  2073035.
  68. ^ Jourdan, L.; Dhaenens, C.; Talbi, E.-G. (2005). «Исследование неравновесия сцепления с параллельным адаптивным GA». Международный журнал фундаментальной компьютерной науки . 16 (2): 241–260. doi :10.1142/S0129054105002978.
  69. ^ Чжан, И.; Донг, З.; Филлипс, П.; Ван, С. (2015). «Обнаружение субъектов и областей мозга, связанных с болезнью Альцгеймера, с использованием 3D-МРТ-сканирования на основе собственного мозга и машинного обучения». Frontiers in Computational Neuroscience . 9 : 66. doi : 10.3389/fncom.2015.00066 . PMC 4451357. PMID  26082713 . 
  70. ^ Роффо, Г.; Мельци, С.; Кристани, М. (2015-12-01). «Бесконечный выбор признаков». Международная конференция IEEE по компьютерному зрению (ICCV) 2015 г. стр. 4202–4210. doi :10.1109/ICCV.2015.478. ISBN 978-1-4673-8391-2. S2CID  3223980.
  71. ^ Роффо, Джорджио; Мельци, Симоне (сентябрь 2016 г.). «Выбор признаков с помощью центральности собственного вектора» (PDF) . NFmcp2016 . Получено 12 ноября 2016 г. .
  72. ^ Р. Кохави и Г. Джон, «Оболочки для выбора подмножества признаков», Искусственный интеллект 97.1-2 (1997): 273-324
  73. ^ Дас, Абхиманью; Кемпе, Дэвид (2011). «Субмодулярное встречается со спектральным: жадные алгоритмы для выбора подмножества, разреженной аппроксимации и выбора словаря». arXiv : 1102.3975 [stat.ML].
  74. ^ Лю и др., Субмодулярный выбор признаков для многомерных пространств акустических оценок. Архивировано 17 октября 2015 г. на Wayback Machine.
  75. ^ Чжэн и др., Выбор субмодулярных атрибутов для распознавания действий в видео. Архивировано 18 ноября 2015 г. на Wayback Machine.
  76. ^ Sun, Y.; Todorovic, S.; Goodison, S. (2010). «Выбор признаков на основе локального обучения для анализа многомерных данных». Труды IEEE по анализу шаблонов и машинному интеллекту . 32 (9): 1610–1626. doi :10.1109/tpami.2009.190. PMC 3445441. PMID  20634556 . 
  77. ^ DH Wang, YC Liang, D.Xu, XY Feng, RC Guan (2018), «Система рекомендаций на основе контента для публикаций по информатике», Knowledge-Based Systems , 157: 1-9

Дальнейшее чтение

Внешние ссылки