stringtranslate.com

Выбор экземпляра

Выбор экземпляра (или сокращение набора данных, или конденсация набора данных) является важным этапом предварительной обработки данных , который может применяться во многих задачах машинного обучения (или добычи данных ). [1] Подходы к выбору экземпляра могут применяться для сокращения исходного набора данных до управляемого объема, что приводит к сокращению вычислительных ресурсов, необходимых для выполнения процесса обучения. Алгоритмы выбора экземпляра также могут применяться для удаления шумных экземпляров перед применением алгоритмов обучения. Этот этап может повысить точность в задачах классификации.

Алгоритм выбора экземпляра должен идентифицировать подмножество всех доступных данных для достижения первоначальной цели приложения интеллектуального анализа данных (или машинного обучения), как если бы использовались все данные. Учитывая это, оптимальным результатом IS будет минимальное подмножество данных, которое может выполнить ту же задачу без потери производительности по сравнению с производительностью, достигнутой при выполнении задачи с использованием всех доступных данных. Поэтому каждая стратегия выбора экземпляра должна иметь дело с компромиссом между скоростью сокращения набора данных и качеством классификации.

Алгоритмы выбора экземпляра

В литературе представлено несколько различных алгоритмов для выбора экземпляров. Их можно отличить друг от друга по нескольким различным критериям. Учитывая это, алгоритмы выбора экземпляров можно сгруппировать в два основных класса в соответствии с тем, какие экземпляры они выбирают: алгоритмы, которые сохраняют экземпляры на границах классов, и алгоритмы, которые сохраняют внутренние экземпляры классов. В категории алгоритмов, которые выбирают экземпляры на границах, можно упомянуть DROP3, [2] ICF [3] и LSBo. [4] С другой стороны, в категории алгоритмов, которые выбирают внутренние экземпляры, можно упомянуть ENN [5] и LSSm. [4] В целом, такие алгоритмы, как ENN и LSSm, используются для удаления вредных (шумных) экземпляров из набора данных. Они не сокращают данные, как алгоритмы, которые выбирают граничные экземпляры, но они удаляют экземпляры на границах, которые оказывают негативное влияние на задачу интеллектуального анализа данных. Они могут использоваться другими алгоритмами выбора экземпляров в качестве шага фильтрации. Например, алгоритм ENN используется DROP3 в качестве первого шага, а алгоритм LSSm используется LSBo.

Существует также другая группа алгоритмов, которые используют различные критерии отбора. Например, алгоритмы LDIS, [6] CDIS [7] и XLDIS [8] выбирают самые плотные экземпляры в заданной произвольной окрестности. Выбранные экземпляры могут включать как граничные, так и внутренние экземпляры. Алгоритмы LDIS и CDIS очень просты и выбирают подмножества, которые являются весьма репрезентативными для исходного набора данных. Кроме того, поскольку они выполняют поиск по репрезентативным экземплярам в каждом классе отдельно, они быстрее (с точки зрения временной сложности и эффективного времени выполнения), чем другие алгоритмы, такие как DROP3 и ICF.

Кроме того, существует третья категория алгоритмов, которые вместо выбора фактических экземпляров набора данных выбирают прототипы (которые могут быть синтетическими экземплярами). В эту категорию можно включить PSSA, [9] PSDSP [10] и PSSP. [11] Три алгоритма используют понятие пространственного разбиения (гиперпрямоугольник) для идентификации подобных экземпляров и извлечения прототипов для каждого набора подобных экземпляров. В целом, эти подходы также могут быть модифицированы для выбора фактических экземпляров наборов данных. Алгоритм ISDSP [11] использует аналогичный подход для выбора фактических экземпляров (вместо прототипов).

Ссылки

  1. ^ С. Гарсия, Х. Луенго и Ф. Эррера, Предварительная обработка данных в интеллектуальном анализе данных. Springer, 2015.
  2. ^ DR Wilson и TR Martinez, Методы сокращения для алгоритмов обучения на основе примеров, Машинное обучение, т. 38, № 3, стр. 257–286, 2000.
  3. ^ Х. Брайтон и К. Меллиш, Достижения в области выбора экземпляров для алгоритмов обучения на основе экземпляров, Интеллектуальный анализ данных и обнаружение знаний, т. 6, № 2, стр. 153–172, 2002.
  4. ^ ab E. Leyva, A. González и R. Pérez, Три новых метода выбора экземпляров на основе локальных наборов: сравнительное исследование с несколькими подходами с двухцелевой точки зрения, Pattern Recognition, т. 48, № 4, стр. 1523–1537, 2015.
  5. ^ DL Wilson, «Асимптотические свойства правил ближайшего соседа с использованием отредактированных данных», Systems, Man and Cybernetics, IEEE Transactions, № 3, стр. 408–421, 1972.
  6. ^ Карбонера, Джоэл Луис и Мара Абель. Подход на основе плотности для выбора экземпляра. IEEE 27-я Международная конференция по инструментам с искусственным интеллектом (ICTAI), 2015.
  7. ^ Карбонера, Джоэл Луис и Мара Абель. Новый подход к выбору экземпляров на основе плотности. IEEE 28-я Международная конференция по инструментам с искусственным интеллектом (ICTAI), 2016.
  8. ^ Карбонера, Джоэл Луис (2017), «Эффективный подход к выбору экземпляра», Big Data Analytics and Knowledge Discovery , Lecture Notes in Computer Science, т. 10440, Springer International Publishing, стр. 228–243, doi :10.1007/978-3-319-64283-3_17, ISBN 9783319642826
  9. ^ Карбонера, Джоэл Луис; Абель, Мара (2018), «Эффективный алгоритм выбора прототипа на основе пространственной абстракции», Big Data Analytics and Knowledge Discovery , Springer International Publishing, стр. 177–192, doi :10.1007/978-3-319-98539-8_14, ISBN 9783319985381
  10. ^ Карбонера, Джоэл Луис; Абель, Мара (2018), «Эффективный алгоритм выбора прототипа на основе плотных пространственных разбиений», Искусственный интеллект и мягкие вычисления , Springer International Publishing, стр. 288–300, doi :10.1007/978-3-319-91262-2_26, ISBN 9783319912615
  11. ^ ab Carbonera, Joel Luis; Abel, Mara (ноябрь 2017 г.). «Эффективный выбор прототипа, поддерживаемый разбиениями подпространства». 2017 IEEE 29-я Международная конференция по инструментам с искусственным интеллектом (ICTAI) . IEEE. стр. 921–928. doi :10.1109/ictai.2017.00142. ISBN 9781538638767. S2CID  46955571.