Выбор экземпляра (или сокращение набора данных, или конденсация набора данных) является важным этапом предварительной обработки данных , который может применяться во многих задачах машинного обучения (или добычи данных ). [1] Подходы к выбору экземпляра могут применяться для сокращения исходного набора данных до управляемого объема, что приводит к сокращению вычислительных ресурсов, необходимых для выполнения процесса обучения. Алгоритмы выбора экземпляра также могут применяться для удаления шумных экземпляров перед применением алгоритмов обучения. Этот этап может повысить точность в задачах классификации.
Алгоритм выбора экземпляра должен идентифицировать подмножество всех доступных данных для достижения первоначальной цели приложения интеллектуального анализа данных (или машинного обучения), как если бы использовались все данные. Учитывая это, оптимальным результатом IS будет минимальное подмножество данных, которое может выполнить ту же задачу без потери производительности по сравнению с производительностью, достигнутой при выполнении задачи с использованием всех доступных данных. Поэтому каждая стратегия выбора экземпляра должна иметь дело с компромиссом между скоростью сокращения набора данных и качеством классификации.
В литературе представлено несколько различных алгоритмов для выбора экземпляров. Их можно отличить друг от друга по нескольким различным критериям. Учитывая это, алгоритмы выбора экземпляров можно сгруппировать в два основных класса в соответствии с тем, какие экземпляры они выбирают: алгоритмы, которые сохраняют экземпляры на границах классов, и алгоритмы, которые сохраняют внутренние экземпляры классов. В категории алгоритмов, которые выбирают экземпляры на границах, можно упомянуть DROP3, [2] ICF [3] и LSBo. [4] С другой стороны, в категории алгоритмов, которые выбирают внутренние экземпляры, можно упомянуть ENN [5] и LSSm. [4] В целом, такие алгоритмы, как ENN и LSSm, используются для удаления вредных (шумных) экземпляров из набора данных. Они не сокращают данные, как алгоритмы, которые выбирают граничные экземпляры, но они удаляют экземпляры на границах, которые оказывают негативное влияние на задачу интеллектуального анализа данных. Они могут использоваться другими алгоритмами выбора экземпляров в качестве шага фильтрации. Например, алгоритм ENN используется DROP3 в качестве первого шага, а алгоритм LSSm используется LSBo.
Существует также другая группа алгоритмов, которые используют различные критерии отбора. Например, алгоритмы LDIS, [6] CDIS [7] и XLDIS [8] выбирают самые плотные экземпляры в заданной произвольной окрестности. Выбранные экземпляры могут включать как граничные, так и внутренние экземпляры. Алгоритмы LDIS и CDIS очень просты и выбирают подмножества, которые являются весьма репрезентативными для исходного набора данных. Кроме того, поскольку они выполняют поиск по репрезентативным экземплярам в каждом классе отдельно, они быстрее (с точки зрения временной сложности и эффективного времени выполнения), чем другие алгоритмы, такие как DROP3 и ICF.
Кроме того, существует третья категория алгоритмов, которые вместо выбора фактических экземпляров набора данных выбирают прототипы (которые могут быть синтетическими экземплярами). В эту категорию можно включить PSSA, [9] PSDSP [10] и PSSP. [11] Три алгоритма используют понятие пространственного разбиения (гиперпрямоугольник) для идентификации подобных экземпляров и извлечения прототипов для каждого набора подобных экземпляров. В целом, эти подходы также могут быть модифицированы для выбора фактических экземпляров наборов данных. Алгоритм ISDSP [11] использует аналогичный подход для выбора фактических экземпляров (вместо прототипов).