stringtranslate.com

Прогностическое моделирование

Прогностическое моделирование использует статистику для прогнозирования результатов. [1] Чаще всего событие, которое нужно предсказать, происходит в будущем, но прогностическое моделирование может быть применено к любому типу неизвестного события, независимо от того, когда оно произошло. Например, прогностические модели часто используются для обнаружения преступлений и идентификации подозреваемых после того, как преступление уже произошло. [2]

Во многих случаях модель выбирается на основе теории обнаружения , чтобы попытаться угадать вероятность результата при заданном объеме входных данных, например, при наличии электронного письма, определяя, насколько вероятно, что оно является спамом .

Модели могут использовать один или несколько классификаторов , пытаясь определить вероятность принадлежности набора данных другому набору. Например, модель может использоваться для определения того, является ли электронное письмо спамом или «хамом» (не спамом).

В зависимости от границ определения, предиктивное моделирование является синонимом или в значительной степени пересекается с областью машинного обучения , как это чаще всего упоминается в академическом или научно-исследовательском контексте. При коммерческом развертывании предиктивное моделирование часто называют предиктивной аналитикой .

Прогностическое моделирование часто противопоставляется причинному моделированию /анализу. В первом случае можно полностью удовлетвориться использованием индикаторов или прокси для интересующего результата. Во втором случае стремятся определить истинные причинно-следственные связи. Это различие привело к бурно развивающейся литературе в области методов исследования и статистики и к общему утверждению, что « корреляция не подразумевает причинно-следственную связь ».

Модели

Почти любая статистическая модель может быть использована для целей прогнозирования. В общем, существует два класса предсказательных моделей: параметрические и непараметрические . Третий класс, полупараметрические модели, включает в себя черты обоих. Параметрические модели делают «определенные предположения относительно одного или нескольких параметров популяции, которые характеризуют базовое распределение(я)». [3] Непараметрические модели «обычно включают меньше предположений о структуре и форме распределения [чем параметрические модели], но обычно содержат сильные предположения о независимости». [4]

Приложения

Моделирование подъема

Uplift modeling — это метод моделирования изменения вероятности, вызванного действием. Обычно это маркетинговое действие, такое как предложение купить продукт, использовать продукт дольше или повторно подписать контракт. Например, в кампании по удержанию вы хотите спрогнозировать изменение вероятности того, что клиент останется клиентом, если с ним свяжутся. Модель изменения вероятности позволяет нацелить кампанию по удержанию на тех клиентов, для которых изменение вероятности будет выгодным. Это позволяет программе удержания избегать ненужного оттока или оттока клиентов, не тратя деньги на общение с людьми, которые в любом случае действовали бы.

Археология

Прогностическое моделирование в археологии берет свое начало в работах Гордона Уилли середины пятидесятых годов в долине Виру в Перу. [5] Были проведены полные, интенсивные исследования, затем была определена ковариация между культурными останками и природными особенностями, такими как склон и растительность. Разработка количественных методов и большая доступность применимых данных привели к росту дисциплины в 1960-х годах, и к концу 1980-х годов крупные землеустроители во всем мире достигли существенного прогресса.

Как правило, прогностическое моделирование в археологии устанавливает статистически обоснованные причинно-следственные или ковариабельные связи между естественными прокси, такими как типы почв, высота, уклон, растительность, близость к воде, геология, геоморфология и т. д., и наличием археологических объектов. Благодаря анализу этих количественных атрибутов с земель, которые подверглись археологическому обследованию, иногда можно предвидеть «археологическую чувствительность» необследованных территорий на основе естественных прокси в этих областях. Крупные управляющие земельными участками в Соединенных Штатах, такие как Бюро по управлению земельными ресурсами (BLM), Министерство обороны (DOD), [6] [7] и многочисленные агентства по автомагистралям и паркам, успешно использовали эту стратегию. Используя прогностическое моделирование в своих планах управления культурными ресурсами, они способны принимать более обоснованные решения при планировании мероприятий, которые потенциально могут потребовать нарушения почвы и впоследствии повлиять на археологические объекты.

Управление взаимоотношениями с клиентами

Прогностическое моделирование широко используется в аналитическом управлении взаимоотношениями с клиентами и добыче данных для создания моделей на уровне клиента, которые описывают вероятность того, что клиент предпримет определенное действие. Действия обычно связаны с продажами, маркетингом и удержанием клиентов .

Например, крупная потребительская организация , такая как оператор мобильной связи, будет иметь набор прогностических моделей для перекрестных продаж продуктов , глубоких продаж продуктов (или апселлинга ) и оттока . Также теперь для такой организации более распространено иметь модель сохранности с использованием модели подъема . Это предсказывает вероятность того, что клиент может быть сохранен в конце периода действия контракта (изменение вероятности оттока) в отличие от стандартной модели прогнозирования оттока.

Автострахование

Прогностическое моделирование используется в страховании транспортных средств для назначения риска инцидентов держателям полисов на основе информации, полученной от держателей полисов. Это широко применяется в решениях по страхованию на основе использования , где прогностические модели используют данные на основе телеметрии для построения модели прогностического риска для вероятности претензий. [ требуется цитата ] Прогностические модели автострахования по принципу «черного ящика» используют только входные данные от GPS или акселерометра . [ требуется цитата ] Некоторые модели включают широкий спектр прогностических входных данных помимо базовой телеметрии, включая расширенное поведение водителя, независимые записи о столкновениях, историю дорожного движения и профили пользователей для предоставления улучшенных моделей риска. [ требуется цитата ]

Здравоохранение

В 2009 году Parkland Health & Hospital System начала анализировать электронные медицинские записи , чтобы использовать предиктивное моделирование для выявления пациентов с высоким риском повторной госпитализации. Первоначально больница сосредоточилась на пациентах с застойной сердечной недостаточностью, но программа расширилась и теперь включает пациентов с диабетом, острым инфарктом миокарда и пневмонией. [8]

В 2018 году Банерджи и др. [9] предложили модель глубокого обучения для оценки краткосрочной продолжительности жизни (>3 месяцев) пациентов путем анализа свободных текстовых клинических заметок в электронной медицинской карте с сохранением временной последовательности визитов. Модель была обучена на большом наборе данных (10 293 пациента) и проверена на отдельном наборе данных (1818 пациентов). Она достигла площади под кривой ROC ( Receiver Operating Characteristic ) 0,89. Чтобы обеспечить объяснимость, они разработали интерактивный графический инструмент, который может улучшить понимание врачом основы для прогнозов модели. Высокая точность и объяснимость модели PPES-Met могут позволить использовать модель в качестве инструмента поддержки принятия решений для персонализации лечения метастатического рака и оказания ценной помощи врачам.

Первые руководящие принципы отчетности по клинической прогностической модели были опубликованы в 2015 году (Прозрачная отчетность многовариантной прогностической модели для индивидуального прогноза или диагностики (TRIPOD)) и с тех пор были обновлены. [10]

Для оценки продолжительности операции использовалось прогностическое моделирование .

Алгоритмическая торговля

Предиктивное моделирование в торговле — это процесс моделирования, в котором вероятность результата прогнозируется с использованием набора предикторных переменных . Предиктивные модели могут быть построены для различных активов, таких как акции, фьючерсы, валюты, товары и т. д. [ необходима цитата ] Предиктивное моделирование по-прежнему широко используется торговыми фирмами для разработки стратегий и торговли. Оно использует математически продвинутое программное обеспечение для оценки индикаторов цены, объема, открытого интереса и других исторических данных, чтобы обнаружить повторяющиеся закономерности. [11]

Потребительское финансирование

Все больше приложений предиктивного моделирования находят применение в потребительских финансовых продуктах. От рекомендательных систем до приложений персональных финансовых консультантов, которые предлагают индивидуальный клиентский опыт и более релевантную функциональность. Расширяя это приложение еще больше, более сложные решения, такие как комплексное финансовое консультирование или автоматизированное управление сбережениями, сокращают разрыв между концепцией и применением. Учитывая широкие возможности для роста в этом секторе, алгоритмы предиктивного моделирования становятся неотъемлемым элементом большинства финансовых инструментов потребительского уровня, предлагая советы и рекомендации потребителям. [12]


Системы отслеживания лидов

Прогностическое моделирование дает лидогенераторам преимущество, прогнозируя результаты на основе данных для каждой потенциальной кампании. Этот метод экономит время и выявляет потенциальные слепые пятна, помогая клиентам принимать более разумные решения. [13]

Известные неудачи предиктивного моделирования

Хотя это и не обсуждалось широко в сообществе основного предиктивного моделирования, предиктивное моделирование — это методология, которая широко использовалась в финансовой отрасли в прошлом, и некоторые из крупных провалов способствовали финансовому кризису 2007–2008 годов . Эти провалы иллюстрируют опасность опоры исключительно на модели, которые по своей сути являются ретроспективными. Следующие примеры ни в коем случае не являются полным списком:

  1. Рейтинг облигаций. S&P , Moody's и Fitch количественно оценивают вероятность дефолта облигаций с помощью дискретных переменных, называемых рейтингом. Рейтинг может принимать дискретные значения от AAA до D. Рейтинг является предиктором риска дефолта на основе различных переменных, связанных с заемщиком и историческими макроэкономическими данными. Рейтинговые агентства потерпели неудачу со своими рейтингами на рынке обеспеченных ипотекой долговых обязательств ( CDO ) на сумму 600 миллиардов долларов США. Почти весь сектор AAA (и сектор super-AAA, новый рейтинг, предоставленный рейтинговыми агентствами для представления сверхнадежных инвестиций) рынка CDO объявили дефолт или были серьезно понижены в течение 2008 года, многие из которых получили свои рейтинги менее чем за год до этого. [ необходима цитата ]
  2. До сих пор ни одна статистическая модель, которая пытается предсказать цены на фондовом рынке на основе исторических данных, не считается последовательно делающей правильные прогнозы в долгосрочной перспективе. Одна особенно памятная неудача — это неудача Long Term Capital Management , фонда, который нанял высококвалифицированных аналитиков, включая лауреата Нобелевской премии по экономике , для разработки сложной статистической модели, которая предсказывала спреды цен между различными ценными бумагами. Модели давали впечатляющую прибыль до крупного провала, который заставил тогдашнего председателя Федеральной резервной системы Алана Гринспена вмешаться и выступить посредником в плане спасения брокеров Уолл-стрит , чтобы предотвратить крах рынка облигаций. [ необходима цитата ]

Возможные фундаментальные ограничения прогностических моделей, основанных на подгонке данных

История не всегда может точно предсказать будущее. Использование отношений, полученных из исторических данных, для предсказания будущего неявно предполагает, что в сложной системе существуют определенные постоянные условия или константы. Это почти всегда приводит к некоторой неточности, когда система включает людей. [ необходима цитата ]

Неизвестные неизвестные являются проблемой. Во всех сборах данных сборщик сначала определяет набор переменных, для которых собираются данные. Однако, независимо от того, насколько обширным сборщик считает свой выбор переменных, всегда существует вероятность появления новых переменных, которые не были рассмотрены или даже определены, но имеют решающее значение для результата. [ необходима цитата ]

Алгоритмы можно победить состязательным путем. После того, как алгоритм становится общепринятым стандартом измерения, им могут воспользоваться люди, которые понимают алгоритм и имеют стимул обманывать или манипулировать результатом. Именно это и произошло с рейтингом CDO, описанным выше. Дилеры CDO активно выполняли требования рейтинговых агентств, чтобы достичь AAA или super-AAA по выпускаемым ими CDO, умело манипулируя переменными, которые были «неизвестны» «сложным» моделям рейтинговых агентств. [ необходима цитата ]

Смотрите также

Ссылки

  1. ^ Geisser, Seymour (1993). Predictive Inference: An Introduction . Chapman & Hall . стр.  [ нужная страница ] . ISBN 978-0-412-03471-8.
  2. ^ Финлей, Стивен (2014). Прогнозная аналитика, интеллектуальный анализ данных и большие данные. Мифы, заблуждения и методы (1-е изд.). Palgrave Macmillan . стр. 237. ISBN 978-1137379276.
  3. ^ Шескин, Дэвид Дж. (27 апреля 2011 г.). Справочник по параметрическим и непараметрическим статистическим процедурам . CRC Press . стр. 109. ISBN 978-1439858011.
  4. ^ Кокс, DR (2006). Принципы статистического вывода . Cambridge University Press . стр. 2.
  5. ^ Уилли, Гордон Р. (1953), «Доисторические модели поселений в долине Виру, Перу», Бюллетень 155. Бюро американской этнологии
  6. ^ Гейдельберг, Курт и др. «Оценка программы выборочного археологического обследования на испытательном и учебном полигоне в Неваде», Технический отчет SRI 02-16, 2002 г.
  7. ^ Джеффри Х. Альтшул, Линн Себастьян и Курт Гейдельберг, «Прогностическое моделирование в армии: схожие цели, расходящиеся пути», Серия исследований по сохранению 1, Фонд SRI, 2004 г.
  8. ^ «Больница использует аналитику данных и прогностическое моделирование для выявления и распределения дефицитных ресурсов среди пациентов с высоким риском, что приводит к уменьшению повторных госпитализаций». Агентство по исследованиям и качеству в области здравоохранения . 2014-01-29 . Получено 2019-03-19 .
  9. ^ Баннерджи, Имон и др. (2018-07-03). «Вероятностные прогностические оценки выживаемости у пациентов с метастатическим раком (PPES-Met) с использованием клинических описаний в свободном тексте». Scientific Reports . 8 (10037 (2018)): 10037. Bibcode :2018NatSR...810037B. doi :10.1038/s41598-018-27946-5. PMC 6030075 . PMID  29968730. 
  10. ^ Коллинз, Гэри и др. (16.04.2024). «Заявление TRIPOD+AI: обновленное руководство по отчетности о клинических моделях прогнозирования, использующих методы регрессии или машинного обучения». BMJ . doi :10.1136/bmj-2023-078378. PMC 11019967 . PMID  38626948. 
  11. ^ "Системы торговли на основе прогнозных моделей, часть 1 - Успех системного трейдера". Успех системного трейдера . 2013-07-22 . Получено 2016-11-25 .
  12. ^ Казаков, Д.; Николов, В. (2024). «Услуга прогнозных сбережений». Интеллектуальные вычисления. SAI 2024. Конспект лекций по сетям и системам . 1018. Springer, Cham. doi :10.1007/978-3-031-62269-4_37.
  13. ^ "Прогностическое моделирование для отслеживания вызовов". Phonexa . 2019-08-22 . Получено 2021-02-25 .

Дальнейшее чтение