stringtranslate.com

Лифт (интеллектуальный анализ данных)

В интеллектуальном анализе данных и изучении правил ассоциации лифт — это мера производительности модели таргетинга ( правила ассоциации) при прогнозировании или классификации случаев как имеющих улучшенный ответ (по отношению к популяции в целом), измеренная по сравнению с моделью таргетинга случайного выбора. Модель таргетинга выполняет свою работу хорошо, если ответ в пределах цели ( ) намного лучше, чем базовый уровень ( ) в среднем для популяции в целом. Лифт — это просто отношение этих значений: целевой ответ, деленный на средний ответ. Математически,

Например, предположим, что средний уровень отклика популяции составляет 5%, но определенная модель (или правило) выявила сегмент с уровнем отклика 20%. Тогда этот сегмент будет иметь подъем 4,0 (20%/5%).

Приложения

Обычно разработчик модели стремится разделить совокупность на квантили и ранжировать квантили по подъему. Затем организации могут рассмотреть каждый квантиль и, взвесив прогнозируемый уровень отклика (и связанную с ним финансовую выгоду) по сравнению со стоимостью, решить, следует ли проводить маркетинг для этого квантиля или нет.

Кривую подъема можно также считать вариацией кривой рабочей характеристики приемника (ROC), и в эконометрике она также известна как кривая Лоренца или мощность. [1]

Пример

Предположим, что набор данных, который будет извлечен, следующий:

где антецедент — это входная переменная, которую мы можем контролировать, а консеквент — это переменная, которую мы пытаемся предсказать. Реальные проблемы майнинга обычно имеют более сложные антецеденты, но обычно фокусируются на консеквентах с одним значением.

Большинство алгоритмов майнинга определяют следующие правила (модели нацеливания):

потому что это просто наиболее распространенные закономерности, обнаруженные в данных. Простой просмотр приведенной выше таблицы должен сделать эти правила очевидными.

Поддержка для правила 1 составляет 3/7, поскольку это число элементов в наборе данных, в которых антецедентом является A, а консеквентом — 0. Поддержка для правила 2 составляет 2/7, поскольку две из семи записей соответствуют антецеденту B и консеквенту — 1. Поддержка может быть записана как:

Доверие для Правила 1 составляет 3/4, поскольку три из четырех записей, соответствующих антецеденту A, соответствуют консеквенту 0. Доверие для Правила 2 составляет 2/3 , поскольку две из трех записей, соответствующих антецеденту B, соответствуют консеквенту 1. Доверия можно записать как:

Подъем можно найти, разделив уверенность на безусловную вероятность следствия или разделив поддержку на вероятность антецедента, умноженную на вероятность следствия, то есть:

Если бы какое-то правило имело подъем 1, это означало бы, что вероятность появления антецедента и вероятность появления консеквента независимы друг от друга. Когда два события независимы друг от друга, нельзя вывести правило, включающее эти два события.

Если подъем > 1, как в случае правил 1 и 2, это позволяет нам узнать степень зависимости этих двух событий друг от друга и делает эти правила потенциально полезными для прогнозирования последствий в будущих наборах данных.

Обратите внимание, что хотя Правило 1 имеет более высокую достоверность, оно имеет более низкий подъем. Интуитивно может показаться, что Правило 1 более ценно из-за своей более высокой достоверности — оно кажется более точным (лучше поддержанным). Но точность правила, не зависящая от набора данных, может вводить в заблуждение. Ценность подъема в том, что он учитывает как достоверность правила, так и общий набор данных.

Ссылки

  1. ^ Tufféry, Stéphane (2011); Data Mining and Statistics for Decision Making , Чичестер, Великобритания: John Wiley & Sons, перевод с французского Data Mining et statistique décisionnelle (Éditions Technip, 2008)

Смотрите также