stringtranslate.com

Выбор функции

Выбор признаков — это процесс выбора подмножества соответствующих признаков (переменных, предикторов) для использования при построении модели. Стилометрия и анализ микрочипов ДНК — это два случая, когда используется отбор признаков. Его следует отличать от извлечения признаков . [1]

Методы выбора признаков используются по нескольким причинам:

  • упрощение моделей, чтобы их было легче интерпретировать исследователям/пользователям, [2]
  • более короткое время обучения, [3]
  • чтобы избежать проклятия размерности , [4]
  • улучшить совместимость данных с классом модели обучения, [5]
  • кодировать присущие симметрии , присутствующие во входном пространстве. [6] [7] [8] [9]

Основная предпосылка при использовании метода выбора признаков заключается в том, что данные содержат некоторые признаки, которые являются либо избыточными , либо нерелевантными , и поэтому их можно удалить без большой потери информации. [10] Избыточное и нерелевантное — это два разных понятия, поскольку одна релевантная характеристика может быть избыточной в присутствии другой релевантной характеристики, с которой она сильно коррелирует. [11]

Извлечение функций создает новые функции из функций исходных функций, тогда как выбор функций возвращает подмножество функций. Методы выбора признаков часто используются в областях, где имеется много признаков и сравнительно мало выборок (или точек данных).

Введение

Алгоритм выбора признаков можно рассматривать как комбинацию метода поиска для предложения новых подмножеств признаков и меры оценки, которая оценивает различные подмножества признаков. Самый простой алгоритм — протестировать каждое возможное подмножество функций и найти тот, который минимизирует частоту ошибок. Это исчерпывающий поиск пространства, который вычислительно невыполним для всех наборов функций, кроме самых маленьких. Выбор метрики оценки сильно влияет на алгоритм, и именно эти метрики оценки различают три основные категории алгоритмов выбора функций: оболочки, фильтры и встроенные методы. [11]

В традиционном регрессионном анализе наиболее популярной формой выбора признаков является пошаговая регрессия , которая представляет собой метод-оболочку. Это жадный алгоритм , который добавляет лучшую функцию (или удаляет худшую) в каждом раунде. Основной проблемой управления является принятие решения о том, когда остановить алгоритм. В машинном обучении это обычно делается посредством перекрестной проверки . В статистике оптимизированы некоторые критерии. Это приводит к естественной проблеме гнездования. Были изучены более надежные методы, такие как сеть ветвей и границ и кусочно-линейная сеть.

Выбор подмножества

Выбор подмножества оценивает подмножество функций как группу на предмет пригодности. Алгоритмы выбора подмножества можно разбить на оболочки, фильтры и встроенные методы. Оболочки используют алгоритм поиска для поиска в пространстве возможных функций и оценки каждого подмножества, запуская модель на этом подмножестве. Обертки могут быть дорогостоящими в вычислительном отношении и иметь риск чрезмерного соответствия модели. В подходе к поиску фильтры аналогичны оболочкам, но вместо оценки по модели оценивается более простой фильтр. Встроенные методы встроены в модель и специфичны для нее.

Многие популярные подходы к поиску используют жадное восхождение на холм , при котором итеративно оценивается потенциальное подмножество признаков, затем модифицируется подмножество и оценивается, является ли новое подмножество улучшением по сравнению со старым. Для оценки подмножеств требуется оценочная метрика , которая оценивает подмножество функций. Исчерпывающий поиск, как правило, непрактичен, поэтому в некоторой точке остановки, определенной разработчиком (или оператором), подмножество функций с наивысшим баллом, обнаруженным к этому моменту, выбирается в качестве удовлетворительного подмножества функций. Критерий остановки зависит от алгоритма; возможные критерии включают в себя: оценка подмножества превышает пороговое значение, превышено максимально допустимое время выполнения программы и т. д.

Альтернативные методы поиска основаны на целевом поиске проекций , который находит низкоразмерные проекции данных, имеющие высокую оценку: затем выбираются объекты, которые имеют самые большие проекции в пространстве более низкой размерности.

Подходы к поиску включают в себя:

Двумя популярными метриками фильтров для задач классификации являются корреляция и взаимная информация , хотя ни одна из них не является истинными метриками или «мерами расстояния» в математическом смысле, поскольку они не подчиняются неравенству треугольника и, следовательно, не вычисляют никакого фактического «расстояния». рассматриваться как «баллы». Эти оценки вычисляются между кандидатной функцией (или набором функций) и желаемой выходной категорией. Однако существуют истинные показатели, которые являются простой функцией взаимной информации; [30] см. здесь .

Другие доступные показатели фильтра включают в себя:

Критерии оптимальности

Выбор критериев оптимальности сложен, поскольку задача выбора признаков преследует несколько целей. Многие общие критерии включают в себя меру точности, штрафуемую количеством выбранных функций. Примеры включают информационный критерий Акаике (AIC) и C p Маллоуза , которые имеют штраф 2 за каждую добавленную функцию. AIC основан на теории информации и эффективно выводится на основе принципа максимальной энтропии . [31] [32]

Другими критериями являются байесовский информационный критерий (BIC), который использует штраф за каждую добавленную функцию, минимальная длина описания (MDL), которая асимптотически использует , Бонферрони / RIC, которые используют выбор функции максимальной зависимости и множество новых критериев, которые мотивированы. по уровню ложного обнаружения (FDR), который использует что-то близкое к . Критерий максимальной степени энтропии также может использоваться для выбора наиболее релевантного подмножества функций. [33]

Структурное обучение

Выбор функций фильтра — это частный случай более общей парадигмы, называемой обучением структуры . Выбор функций находит соответствующий набор функций для конкретной целевой переменной, тогда как изучение структуры находит взаимосвязи между всеми переменными, обычно выражая эти взаимосвязи в виде графика. Наиболее распространенные алгоритмы обучения структур предполагают, что данные генерируются байесовской сетью , поэтому структура представляет собой ориентированную графическую модель . Оптимальным решением проблемы выбора характеристик фильтра является одеяло Маркова целевого узла, а в байесовской сети существует уникальное одеяло Маркова для каждого узла. [34]

Механизмы выбора функций, основанные на теории информации

Существуют различные механизмы выбора функций, которые используют взаимную информацию для оценки различных функций. Обычно они используют один и тот же алгоритм:

  1. Рассчитайте взаимную информацию как оценку между всеми функциями ( ) и целевым классом ( c )
  2. Выберите объект с наибольшим баллом (например , ) и добавьте его в набор выбранных объектов ( S ).
  3. Рассчитайте оценку, которую можно получить на основе взаимной информации.
  4. Выберите объект с наибольшим баллом и добавьте его в набор избранных объектов (например, )
  5. Повторяйте 3. и 4. до тех пор, пока не будет выбрано определенное количество функций (например, ).

Самый простой подход использует взаимную информацию в качестве «производной» оценки. [35]

Однако существуют разные подходы, которые пытаются уменьшить избыточность между функциями.

Выбор функции «минимальная избыточность — максимальная релевантность» (mRMR)

Пэн и др. [36] предложили метод выбора признаков, который может использовать либо взаимную информацию, либо корреляцию, либо оценки расстояния/сходства для выбора признаков. Цель состоит в том, чтобы наказать релевантность функции из-за ее избыточности в присутствии других выбранных функций. Релевантность набора признаков S для класса c определяется средним значением всех значений взаимной информации между отдельным признаком f i и классом c следующим образом:

.

Избыточность всех признаков в наборе S представляет собой среднее значение всех значений взаимной информации между признаком f i и признаком f j :

Критерий mRMR представляет собой комбинацию двух показателей, приведенных выше, и определяется следующим образом:

Предположим, что имеется n полных функций. Пусть x i будет индикаторной функцией членства в наборе для признака f i , так что x i =1 указывает на наличие, а x i =0 указывает на отсутствие признака f i в глобально оптимальном наборе признаков. Пусть и . Вышеупомянутое может быть записано как задача оптимизации:

Алгоритм mRMR представляет собой аппроксимацию теоретически оптимального алгоритма выбора признаков с максимальной зависимостью, который максимизирует взаимную информацию между совместным распределением выбранных признаков и классификационной переменной. Поскольку mRMR аппроксимирует задачу комбинаторного оценивания серией гораздо меньших задач, каждая из которых включает только две переменные, таким образом, он использует попарные совместные вероятности, которые являются более надежными. В определенных ситуациях алгоритм может недооценивать полезность функций, поскольку у него нет способа измерить взаимодействие между функциями, которое могло бы повысить релевантность. Это может привести к снижению производительности [35] , когда функции по отдельности бесполезны, но полезны в сочетании (обнаруживается патологический случай, когда класс является функцией четности функций). В целом алгоритм более эффективен (с точки зрения объема требуемых данных), чем теоретически оптимальный выбор максимальной зависимости, но при этом создает набор функций с небольшой попарной избыточностью.

mRMR — это экземпляр большого класса методов фильтрации, которые по-разному балансируют между релевантностью и избыточностью. [35] [37]

Выбор функции квадратичного программирования

mRMR является типичным примером пошаговой жадной стратегии выбора функций: после того, как функция выбрана, ее нельзя отменить на более позднем этапе. Хотя mRMR можно оптимизировать с помощью плавающего поиска для сокращения некоторых функций, его также можно переформулировать как глобальную задачу оптимизации квадратичного программирования следующим образом: [38]

где – вектор релевантности признаков при условии, что всего имеется n признаков, – матрица попарной избыточности признаков и представляет относительные веса признаков. QPFS решается посредством квадратичного программирования. Недавно было показано, что QFPS смещен в сторону признаков с меньшей энтропией [39] из-за размещения члена самоизбыточности признака на диагонали H .

Условная взаимная информация

Другая оценка взаимной информации основана на условной релевантности: [39]

где и .

Преимущество SPEC CMI заключается в том, что его можно решить, просто найдя доминирующий собственный вектор Q , поэтому он очень масштабируем. SPEC CMI также обрабатывает взаимодействие функций второго порядка.

Совместная взаимная информация

В исследовании различных показателей Brown et al. [35] рекомендовали совместную взаимную информацию [40] как хороший показатель для выбора признаков. Оценка пытается найти функцию, которая добавляет больше всего новой информации к уже выбранным функциям, чтобы избежать избыточности. Оценка формулируется следующим образом:

Оценка использует условную взаимную информацию и взаимную информацию для оценки избыточности между уже выбранными функциями ( ) и исследуемой функцией ( ).

Выбор признаков на основе критерия независимости Гильберта-Шмидта с помощью лассо

Для данных большой размерности и небольшой выборки (например, размерность > 105 и количество образцов < 103 ), полезно использовать Лассо критерия независимости Гильберта-Шмидта (HSIC Lasso). [41] Задача оптимизации HSIC Lasso задается как

где — мера независимости на основе ядра, называемая (эмпирическим) критерием независимости Гильберта-Шмидта (HSIC), обозначает трассу , — параметр регуляризации, — входные и выходные центрированные матрицы Грама , — матрицы Грама, и — функции ядра, — центрирующая матрица, — m -мерная единичная матрица ( m : количество выборок), — m -мерный вектор со всеми единицами, — — норма. HSIC всегда принимает неотрицательное значение и равно нулю тогда и только тогда, когда две случайные величины статистически независимы, когда используется универсальное воспроизводящее ядро, такое как ядро ​​Гаусса.

HSIC Lasso можно записать как

где норма Фробениуса . Проблема оптимизации является проблемой Лассо, и поэтому ее можно эффективно решить с помощью современного решателя Лассо, такого как двойной расширенный метод Лагранжа .

Выбор корреляционного признака

Мера выбора корреляционных признаков (CFS) оценивает подмножества признаков на основе следующей гипотезы: «Хорошие подмножества признаков содержат признаки, сильно коррелирующие с классификацией, но не коррелирующие друг с другом». [42] [43] Следующее уравнение дает оценку подмножества признаков S , состоящего из k признаков:

Здесь — среднее значение всех корреляций классификации признаков и среднее значение всех корреляций признаков-признаков. Критерий CFS определяется следующим образом:

Переменные и называются корреляциями, но не обязательно являются коэффициентом корреляции Пирсона или ρ Спирмена . В диссертации Холла не используется ни один из них, а используются три различных показателя родственности: минимальная длина описания (MDL), симметричная неопределенность и облегчение .

Пусть x i будет индикаторной функцией членства в наборе для признака f i ; тогда вышеизложенное можно переписать как задачу оптимизации:

Вышеупомянутые комбинаторные задачи на самом деле представляют собой смешанные задачи линейного программирования 0–1 , которые можно решить с помощью алгоритмов ветвей и границ . [44]

Регуляризованные деревья

Показано, что признаки дерева решений или ансамбля деревьев избыточны. Для выбора подмножества признаков можно использовать недавний метод, называемый регуляризованным деревом [45] . Регуляризованные деревья наказывают за использование переменной, аналогичной переменным, выбранным в предыдущих узлах дерева, для разделения текущего узла. Для регуляризованных деревьев требуется построить только одну модель дерева (или одну модель ансамбля деревьев), и поэтому они эффективны в вычислительном отношении.

Регуляризованные деревья естественным образом обрабатывают числовые и категориальные функции, взаимодействия и нелинейности. Они инвариантны к шкалам атрибутов (единицам измерения) и нечувствительны к выбросам и, следовательно, требуют незначительной предварительной обработки данных , такой как нормализация . Регуляризованный случайный лес (RRF) [46] — это один из типов регуляризованных деревьев. Управляемый RRF — это расширенный RRF, который руководствуется оценками важности обычного случайного леса.

Обзор методов метаэвристики

Метаэвристика — это общее описание алгоритма, предназначенного для решения сложных (обычно NP -сложных ) задач оптимизации, для которых не существует классических методов решения. Как правило, метаэвристика — это стохастический алгоритм, стремящийся к достижению глобального оптимума. Существует множество метаэвристик: от простого локального поиска до сложного алгоритма глобального поиска.

Основные принципы

Методы выбора признаков обычно делятся на три класса в зависимости от того, как они сочетают алгоритм выбора и построение модели.

Метод фильтра

Метод фильтра для выбора объекта

Методы типа фильтра выбирают переменные независимо от модели. Они основаны только на общих характеристиках, таких как корреляция с прогнозируемой переменной. Методы фильтра подавляют наименее интересные переменные. Другие переменные будут частью классификации или регрессионной модели, используемой для классификации или прогнозирования данных. Эти методы особенно эффективны с точки зрения времени вычислений и устойчивы к переобучению. [47]

Методы фильтрации имеют тенденцию выбирать избыточные переменные, когда они не учитывают связи между переменными. Однако более сложные функции пытаются минимизировать эту проблему, удаляя переменные, сильно коррелирующие друг с другом, такие как алгоритм фильтра на основе быстрой корреляции (FCBF). [48]

Метод оболочки

Метод-оболочка для выбора функций

Методы-оболочки оценивают подмножества переменных, что позволяет, в отличие от подходов с фильтрацией, обнаруживать возможные взаимодействия между переменными. [49] Двумя основными недостатками этих методов являются:

Встроенный метод

Встроенный метод выбора функций

Недавно были предложены встроенные методы, которые пытаются объединить преимущества обоих предыдущих методов. Алгоритм обучения использует собственный процесс выбора переменных и одновременно выполняет выбор и классификацию признаков, например алгоритм FRMT. [50]

Применение метаэвристики выбора признаков

Это обзор применения метаэвристики выбора признаков, недавно использовавшейся в литературе. Этот опрос был реализован Дж. Хэммон в ее диссертации 2013 года. [47]

Выбор функций, встроенный в алгоритмы обучения

Некоторые алгоритмы обучения выполняют выбор функций как часть своей общей работы. К ним относятся:

Смотрите также

Рекомендации

  1. ^ Саранги, Сусанта; Сахидулла, Мэриленд; Саха, Гутам (сентябрь 2020 г.). «Оптимизация набора фильтров на основе данных для автоматической проверки говорящих». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . дои : 10.1016/j.dsp.2020.102795. S2CID  220665533.
  2. ^ Гарет Джеймс; Даниэла Виттен; Тревор Хэсти; Роберт Тибширани (2013). Введение в статистическое обучение. Спрингер. п. 204.
  3. ^ Бранк, Джанес; Младенич, Дуня; Гробельник, Марко; Лю, Хуан; Младенич, Дуня; Флах, Питер А.; Гаррига, Джемма К.; Тойвонен, Ханну; Тойвонен, Ханну (2011), «Выбор функций», Саммут, Клод; Уэбб, Джеффри И. (ред.), Энциклопедия машинного обучения , Бостон, Массачусетс: Springer US, стр. 402–406, doi : 10.1007/978-0-387-30164-8_306, ISBN 978-0-387-30768-8, получено 13 июля 2021 г.
  4. ^ Крамер, Марк А. (1991). «Нелинейный анализ главных компонент с использованием автоассоциативных нейронных сетей». Журнал Айше . 37 (2): 233–243. дои : 10.1002/aic.690370209. ISSN  1547-5905.
  5. ^ Крациос, Анастасис; Гайндман, Коди (2021). «NEU: Мета-алгоритм для универсального UAP-инвариантного представления функций». Журнал исследований машинного обучения . 22 (92): 1–51. ISSN  1533-7928.
  6. ^ Перселло, Клаудио; Бруззоне, Лоренцо (июль 2014 г.). «Выбор релевантных и инвариантных признаков гиперспектральных изображений для генерализации предметной области». Симпозиум IEEE по геонаукам и дистанционному зондированию, 2014 г. (PDF) . IEEE. стр. 3562–3565. дои : 10.1109/igarss.2014.6947252. ISBN 978-1-4799-5775-0. S2CID  8368258.
  7. ^ Хинкль, Джейкоб; Муралидхаран, Прасанна; Флетчер, П. Томас; Джоши, Саранг (2012). «Полиномиальная регрессия на римановых многообразиях». В Фитцгиббоне, Эндрю; Лазебник Светлана; Перона, Пьетро; Сато, Йоичи; Шмид, Корделия (ред.). Компьютерное зрение – ECCV 2012 . Конспекты лекций по информатике. Том. 7574. Берлин, Гейдельберг: Springer. стр. 1–14. arXiv : 1201.2395 . дои : 10.1007/978-3-642-33712-3_1. ISBN 978-3-642-33712-3. S2CID  8849753.
  8. ^ Яроцкий, Дмитрий (30 апреля 2021 г.). «Универсальные аппроксимации инвариантных карт нейронными сетями». Конструктивная аппроксимация . 55 : 407–474. arXiv : 1804.10306 . дои : 10.1007/s00365-021-09546-1. ISSN  1432-0940. S2CID  13745401.
  9. ^ Хауберг, Сорен; Лоз, Франсуа; Педерсен, Ким Стенструп (1 мая 2013 г.). «Фильтрация Калмана без запаха на римановых многообразиях». Журнал математического изображения и видения . 46 (1): 103–120. дои : 10.1007/s10851-012-0372-9. ISSN  1573-7683. S2CID  8501814.
  10. ^ Крациос, Анастасис; Гайндман, Коди (8 июня 2021 г.). «NEU: Мета-алгоритм для универсального UAP-инвариантного представления функций». Журнал исследований машинного обучения . 22 : 10312. Бибкод : 2015NatSR...510312B. дои : 10.1038/srep10312. ПМЦ 4437376 . ПМИД  25988841. 
  11. ^ abc Гийон, Изабель; Елисеев, Андре (2003). «Введение в выбор переменных и функций». JMLR . 3 .
  12. ^ Аб Ян, Имин; Педерсен, Ян О. (1997). Сравнительное исследование выбора функций при категоризации текста (PDF) . ИКМЛ.
  13. ^ Урбанович, Райан Дж.; Микер, Мелисса; ЛаКава, Уильям; Олсон, Рэндал С.; Мур, Джейсон Х. (2018). «Выбор объектов на основе рельефа: введение и обзор». Журнал биомедицинской информатики . 85 : 189–203. arXiv : 1711.08421 . дои : 10.1016/j.jbi.2018.07.014. ПМК 6299836 . ПМИД  30031057. 
  14. ^ Форман, Джордж (2003). «Обширное эмпирическое исследование показателей выбора признаков для классификации текста» (PDF) . Журнал исследований машинного обучения . 3 : 1289–1305.
  15. ^ Иши Чжан; Шуцзюань Ли; Тенг Ван; Зыган Чжан (2013). «Выбор признаков на основе дивергенции для отдельных классов». Нейрокомпьютинг . 101 (4): 32–42. doi : 10.1016/j.neucom.2012.06.036.
  16. ^ Гийон И.; Уэстон Дж.; Барнхилл С.; Вапник В. (2002). «Отбор генов для классификации рака с использованием машин опорных векторов». Машинное обучение . 46 (1–3): 389–422. дои : 10.1023/А:1012487302797 .
  17. ^ Бах, Фрэнсис Р. (2008). «Боласо». Материалы 25-й международной конференции по машинному обучению ICML '08 . стр. 33–40. дои : 10.1145/1390156.1390161. ISBN 9781605582054. S2CID  609778.
  18. ^ Заре, Хабил (2013). «Оценка релевантности признаков на основе комбинаторного анализа Лассо с применением к диагностике лимфомы». БМК Геномика . 14 (Приложение 1): S14. дои : 10.1186/1471-2164-14-S1-S14 . ПМЦ 3549810 . ПМИД  23369194. 
  19. ^ Кай Хан; Юнхэ Ван; Чао Чжан; Чао Ли; Чао Сюй (2018). Автоэнкодер вдохновил на неконтролируемый выбор функций . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP).
  20. ^ Хазиме, Хусейн; Мазумдер, Рахул; Сааб, Али (2020). «Разреженная регрессия в масштабе: метод ветвей и границ, основанный на оптимизации первого порядка». arXiv : 2004.06152 [stat.CO].
  21. ^ Суфан, Осман; Клефтогяннис, Димитриос; Калнис, Панос; Баич, Владимир Б. (26 февраля 2015 г.). «DWFS: инструмент выбора функций оболочки, основанный на параллельном генетическом алгоритме». ПЛОС ОДИН . 10 (2): e0117988. Бибкод : 2015PLoSO..1017988S. дои : 10.1371/journal.pone.0117988 . ISSN  1932-6203. ПМЦ 4342225 . ПМИД  25719748. 
  22. ^ Фигероа, Алехандро (2015). «Изучение эффективных функций для распознавания намерений пользователей, стоящих за веб-запросами». Компьютеры в промышленности . 68 : 162–169. doi :10.1016/j.compind.2015.01.005.
  23. ^ Фигероа, Алехандро; Гюнтер Нойман (2013). Учимся ранжировать эффективные парафразы на основе журналов запросов для ответов на вопросы сообщества. АААИ.
  24. ^ Фигероа, Алехандро; Гюнтер Нойман (2014). «Категорийные модели для ранжирования эффективных перефразировок при ответах на вопросы сообщества». Экспертные системы с приложениями . 41 (10): 4730–4742. дои : 10.1016/j.eswa.2014.02.004. hdl : 10533/196878 .
  25. ^ Аб Чжан, Ю.; Ван, С.; Филлипс, П. (2014). «Двоичный PSO с оператором мутации для выбора функций с использованием дерева решений, применяемого для обнаружения спама». Системы, основанные на знаниях . 64 : 22–31. doi :10.1016/j.knosys.2014.03.015.
  26. ^ ФК Гарсия-Лопес, М. Гарсия-Торрес, Б. Мелиан, Х. А. Морено-Перес, Х. М. Морено-Вега. Решение проблемы выбора подмножества признаков с помощью параллельного поиска разброса, European Journal of Operational Research , vol. 169, нет. 2, стр. 477–489, 2006.
  27. ^ Гарсиа-Торрес, Мигель; Гомес-Вела, Франциско; Дивина, Федерико; Пинто-Роа, Диего П.; Ногера, Хосе Луис Васкес; Роман, Хулио К. Мелло (2021). «Рассеянный поиск для выбора многомерных объектов с использованием группировки объектов». Материалы конференции по генетическим и эволюционным вычислениям . стр. 149–150. дои : 10.1145/3449726.3459481. ISBN 9781450383516. S2CID  235770316.
  28. ^ ФК Гарсия-Лопес, М. Гарсия-Торрес, Б. Мелиан, Х. А. Морено-Перес, Х. М. Морено-Вега. Решение проблемы выбора подмножества функций с помощью гибридной метаэвристики. На Первом международном семинаре по гибридной метаэвристике , стр. 59–68, 2004 г.
  29. ^ М. Гарсиа-Торрес, Ф. Гомес-Вела, Б. Мелиан, Дж. М. Морено-Вега. Многомерный выбор признаков посредством группировки признаков: подход поиска по переменному соседству, Information Sciences , vol. 326, стр. 102–118, 2016.
  30. ^ Красков, Александр; Стёгбауэр, Харальд; Анджейак, Ральф Дж; Грассбергер, Питер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio/0311039 . Бибкод : 2003q.bio....11039K. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  31. ^ Акаике, Х. (1985), «Прогнозирование и энтропия», в Аткинсоне, AC; Файнберг, SE (ред.), Праздник статистики (PDF) , Springer, стр. 1–24, заархивировано (PDF) из оригинала 30 августа 2019 г..
  32. ^ Бернхэм, КП; Андерсон, Д.Р. (2002), Выбор модели и многомодельный вывод: практический теоретико-информационный подход (2-е изд.), Springer-Verlag , ISBN 9780387953649.
  33. ^ Эйнике, Джорджия (2018). «Выбор признаков с максимальной степенью энтропии для классификации изменений динамики коленного и голеностопного суставов во время бега». Журнал IEEE по биомедицинской и медицинской информатике . 28 (4): 1097–1103. дои : 10.1109/JBHI.2017.2711487. PMID  29969403. S2CID  49555941.
  34. ^ Алиферис, Константин (2010). «Локальная причинная и общая марковская индукция для обнаружения причинных причин и выбора признаков для классификации, часть I: Алгоритмы и эмпирическая оценка» (PDF) . Журнал исследований машинного обучения . 11 : 171–234.
  35. ^ abcd Браун, Гэвин; Покок, Адам; Чжао, Мин-Цзе; Лухан, Микель (2012). «Максимизация условного правдоподобия: объединяющая основа для выбора теоретико-информационных функций». Журнал исследований машинного обучения . 13 : 27–66.[1]
  36. ^ Пэн, ХК; Лонг, Ф.; Дин, К. (2005). «Выбор функций на основе взаимной информации: критерии максимальной зависимости, максимальной релевантности и минимальной избыточности». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 27 (8): 1226–1238. CiteSeerX 10.1.1.63.5765 . дои : 10.1109/TPAMI.2005.159. PMID  16119262. S2CID  206764015. Программа
  37. ^ Нгуен, Х., Франке, К., Петрович, С. (2010). «К общей мере выбора функций для обнаружения вторжений», в учеб. Международная конференция по распознаванию образов (ICPR), Стамбул, Турция. [2]
  38. ^ Родригес-Лухан, И.; Уэрта, Р.; Элкан, К.; Санта-Крус, К. (2010). «Выбор функций квадратичного программирования» (PDF) . JMLR . 11 : 1491–1516.
  39. ^ аб Нгуен X. Винь, Джеффри Чан, Симона Романо и Джеймс Бейли, «Эффективные глобальные подходы к выбору функций на основе взаимной информации». Материалы 20-й конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (KDD'14), 24–27 августа, Нью-Йорк, 2014 г. «[3]»
  40. ^ Ян, Говард Хуа; Муди, Джон (2000). «Визуализация данных и выбор функций: новые алгоритмы для негауссовских данных» (PDF) . Достижения в области нейронных систем обработки информации : 687–693.
  41. ^ Ямада, М.; Джиткриттум, В.; Сигал, Л.; Син, EP; Сугияма, М. (2014). «Выбор многомерных объектов с помощью нелинейного лассо». Нейронные вычисления . 26 (1): 185–207. arXiv : 1202.0515 . дои : 10.1162/NECO_a_00537. PMID  24102126. S2CID  2742785.
  42. ^ Холл, М. (1999). Выбор функций на основе корреляции для машинного обучения (PDF) (кандидатская диссертация). Университет Вайкато.
  43. ^ Сенлиол, Барис; и другие. (2008). «Фильтр на основе быстрой корреляции (FCBF) с другой стратегией поиска». 2008 23-й Международный симпозиум по компьютерным и информационным наукам . стр. 1–4. дои : 10.1109/ISCIS.2008.4717949. ISBN 978-1-4244-2880-9. S2CID  8398495.
  44. ^ Нгуен, Хай; Франке, Катрин; Петрович, Слободан (декабрь 2009 г.). «Оптимизация класса мер выбора признаков». Материалы семинара NIPS 2009 по дискретной оптимизации в машинном обучении: субмодулярность, разреженность и многогранники (DISCML) . Ванкувер, Канада.
  45. ^ ab Х. Денг, Г. Рангер, «Выбор функций с помощью регуляризованных деревьев», Материалы Международной совместной конференции по нейронным сетям 2012 г. (IJCNN), IEEE, 2012 г.
  46. ^ ab RRF: регуляризованный случайный лес, пакет R на CRAN
  47. ^ Аб Хамон, Джули (ноябрь 2013 г.). Комбинированная оптимизация для выбора переменных в регрессии в большом измерении: Применение в генетике животных (Диссертация) (на французском языке). Лилльский университет науки и технологий .
  48. ^ Ю, Лей; Лю, Хуан (август 2003 г.). «Выбор функций для многомерных данных: решение для быстрого фильтра на основе корреляции» (PDF) . ICML'03: Материалы двадцатой международной конференции по машинному обучению : 856–863.
  49. ^ ab TM Phuong, Z. Lin et RB Altman. Выбор SNP с использованием выбора признаков. Архивировано 13 сентября 2016 г. на конференции Wayback Machine Proceedings / IEEE Computational Systems Bioinformatics Conference, CSB. Конференция IEEE по биоинформатике вычислительных систем, страницы 301–309, 2005 г. PMID  16447987.
  50. ^ Сагапур, Э.; Кермани, С.; Сехати, М. (2017). «Новый метод ранжирования функций для прогнозирования стадий рака с использованием данных протеомики». ПЛОС ОДИН . 12 (9): e0184203. Бибкод : 2017PLoSO..1284203S. дои : 10.1371/journal.pone.0184203 . ПМК 5608217 . ПМИД  28934234. 
  51. ^ Шах, Южная Каролина; Кусяк, А. (2004). «Интеллектуальный анализ данных и выбор генов / SNP на основе генетических алгоритмов». Искусственный интеллект в медицине . 31 (3): 183–196. doi :10.1016/j.artmed.2004.04.002. ПМИД  15302085.
  52. ^ Лонг, Н.; Джанола, Д.; Вайгель, К.А. (2011). «Уменьшение размеров и отбор переменных для геномной селекции: применение для прогнозирования надоев молока у голштинских пород». Журнал разведения животных и генетики . 128 (4): 247–257. дои : 10.1111/j.1439-0388.2011.00917.x. ПМИД  21749471.
  53. ^ Устюнкар, Гюркан; Озогюр-Акюз, Сурейя; Вебер, Герхард В.; Фридрих, Кристоф М.; Айдын Сон, Ешим (2012). «Выбор репрезентативных наборов SNP для полногеномных исследований ассоциаций: метаэвристический подход». Письма об оптимизации . 6 (6): 1207–1218. дои : 10.1007/s11590-011-0419-7. S2CID  8075318.
  54. ^ Мейри, Р.; Захави, Дж. (2006). «Использование имитации отжига для оптимизации проблемы выбора функций в маркетинговых приложениях». Европейский журнал операционных исследований . 171 (3): 842–858. дои : 10.1016/j.ejor.2004.09.010.
  55. ^ Капетаниос, Г. (2007). «Выбор переменных в регрессионных моделях с использованием нестандартной оптимизации информационных критериев». Вычислительная статистика и анализ данных . 52 (1): 4–15. doi :10.1016/j.csda.2007.04.006.
  56. ^ Бродхерст, Д.; Гудакр, Р.; Джонс, А.; Роуленд, Джей-Джей; Келл, Д.Б. (1997). «Генетические алгоритмы как метод выбора переменных в множественной линейной регрессии и частичной регрессии наименьших квадратов с применением к пиролизной масс-спектрометрии». Аналитика Химика Акта . 348 (1–3): 71–86. дои : 10.1016/S0003-2670(97)00065-2.
  57. ^ Чуанг, Л.-Ю.; Ян, К.-Х. (2009). «Поиск табу и оптимизация роя бинарных частиц для выбора признаков с использованием данных микрочипа». Журнал вычислительной биологии . 16 (12): 1689–1703. дои : 10.1089/cmb.2007.0211. ПМИД  20047491.
  58. ^ Э. Альба, Ж. Гариа-Ньето, Л. Журдан и Э.-Г. Талби. Отбор генов в классификации рака с использованием гибридных алгоритмов PSO-SVM и GA-SVM. Архивировано 18 августа 2016 г. на Конгрессе Wayback Machine по эволюционным вычислениям, Сингапур: Сингапур (2007), 2007 г.
  59. ^ Б. Дюваль, Ж.-К. Хао и Дж. К. Эрнандес Эрнандес. Меметический алгоритм отбора генов и молекулярной классификации рака. В материалах 11-й ежегодной конференции по генетическим и эволюционным вычислениям, GECCO '09, страницы 201–208, Нью-Йорк, Нью-Йорк, США, 2009. ACM.
  60. ^ К. Ханс, А. Добра и М. Уэст. Стохастический поиск дробовика для регрессии с «большим p». Журнал Американской статистической ассоциации, 2007.
  61. ^ Эйткен, С. (2005). «Выбор функций и классификация для анализа данных микрочипов: эволюционные методы идентификации прогностических генов». БМК Биоинформатика . 6 (1): 148. дои : 10.1186/1471-2105-6-148 . ПМЦ 1181625 . ПМИД  15958165. 
  62. ^ О, ЕСТЬ; Луна, БР (2004). «Гибридные генетические алгоритмы для выбора признаков». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 26 (11): 1424–1437. CiteSeerX 10.1.1.467.4179 . дои :10.1109/tpami.2004.105. ПМИД  15521491. 
  63. ^ Сюань, П.; Го, МЗ; Ван, Дж.; Лю, XY; Лю, Ю. (2011). «Эффективный отбор признаков на основе генетических алгоритмов для классификации пре-миРНК». Генетика и молекулярные исследования . 10 (2): 588–603. дои : 10.4238/vol10-2gmr969 . ПМИД  21491369.
  64. ^ Пэн, С. (2003). «Молекулярная классификация типов рака на основе данных микрочипов с использованием комбинации генетических алгоритмов и машин опорных векторов». Письма ФЭБС . 555 (2): 358–362. дои : 10.1016/s0014-5793(03)01275-4 . ПМИД  14644442.
  65. ^ Эрнандес, JCH; Дюваль, Б.; Хао, Ж.-К. (2007). «Генетический встроенный подход к отбору генов и классификации данных микрочипов». Эволюционные вычисления, машинное обучение и интеллектуальный анализ данных в биоинформатике. ЭвоБИО 2007 . Конспекты лекций по информатике. Том. 4447. Берлин: Springer Verlag. стр. 90–101. дои : 10.1007/978-3-540-71783-6_9. ISBN 978-3-540-71782-9.
  66. ^ Уэрта, Э.Б.; Дюваль, Б.; Хао, Ж.-К. (2006). «Гибридный подход GA/SVM к отбору генов и классификации данных микрочипов». Приложения эволюционных вычислений. ЭвоМастерские 2006 . Конспекты лекций по информатике. Том. 3907. стр. 34–44. дои : 10.1007/11732242_4. ISBN 978-3-540-33237-4.
  67. ^ Муни, ДП; Пал, Северная Каролина; Дас, Дж. (2006). «Генетическое программирование для одновременного выбора признаков и разработки классификатора». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 36 (1): 106–117. дои : 10.1109/TSMCB.2005.854499. PMID  16468570. S2CID  2073035.
  68. ^ Журдан, Л.; Дэненс, К.; Тальби, Э.-Г. (2005). «Исследование неравновесия по сцеплению с параллельным адаптивным ГА». Международный журнал основ компьютерных наук . 16 (2): 241–260. дои : 10.1142/S0129054105002978.
  69. ^ Чжан, Ю.; Донг, З.; Филлипс, П.; Ван, С. (2015). «Обнаружение субъектов и областей мозга, связанных с болезнью Альцгеймера, с помощью 3D-МРТ-сканирования на основе собственного мозга и машинного обучения». Границы вычислительной нейронауки . 9:66 . дои : 10.3389/fncom.2015.00066 . ПМЦ 4451357 . ПМИД  26082713. 
  70. ^ Роффо, Г.; Мельци, С.; Кристани, М. (01 декабря 2015 г.). «Бесконечный выбор функций». Международная конференция IEEE по компьютерному зрению (ICCV) , 2015 г. стр. 4202–4210. дои : 10.1109/ICCV.2015.478. ISBN 978-1-4673-8391-2. S2CID  3223980.
  71. ^ Роффо, Джорджио; Мельци, Симоне (сентябрь 2016 г.). «Выбор функций через центральность собственного вектора» (PDF) . НФмкп2016 . Проверено 12 ноября 2016 г.
  72. ^ Р. Кохави и Дж. Джон, «Обертки для выбора подмножества функций», Искусственный интеллект 97.1-2 (1997): 273-324.
  73. ^ Дас, Абхиманью; Кемпе, Дэвид (2011). «Субмодульное встречается со спектральным: жадные алгоритмы выбора подмножества, разреженной аппроксимации и выбора по словарю». arXiv : 1102.3975 [stat.ML].
  74. ^ Лю и др., Выбор субмодульных функций для многомерных акустических пространств. Архивировано 17 октября 2015 г. на Wayback Machine.
  75. ^ Чжэн и др., Выбор субмодульных атрибутов для распознавания действий в видео. Архивировано 18 ноября 2015 г. на Wayback Machine.
  76. ^ Сан, Ю.; Тодорович, С.; Гудисон, С. (2010). «Выбор функций на основе локального обучения для анализа многомерных данных». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 32 (9): 1610–1626. дои : 10.1109/tpami.2009.190. ПМЦ 3445441 . ПМИД  20634556. 
  77. ^ DH Wang, YC Liang, D.Xu, XY Feng, RC Guan (2018), «Система рекомендаций на основе контента для публикаций по информатике», Knowledge-Based Systems , 157: 1-9

дальнейшее чтение

Внешние ссылки