Прогностическое моделирование использует статистику для прогнозирования результатов. [1] Чаще всего событие, которое нужно предсказать, происходит в будущем, но прогностическое моделирование может быть применено к любому типу неизвестного события, независимо от того, когда оно произошло. Например, прогностические модели часто используются для обнаружения преступлений и идентификации подозреваемых после того, как преступление уже произошло. [2]
Во многих случаях модель выбирается на основе теории обнаружения , чтобы попытаться угадать вероятность результата при заданном объеме входных данных, например, при наличии электронного письма, определяя, насколько вероятно, что оно является спамом .
Модели могут использовать один или несколько классификаторов , пытаясь определить вероятность принадлежности набора данных другому набору. Например, модель может использоваться для определения того, является ли электронное письмо спамом или «хамом» (не спамом).
В зависимости от границ определения, предиктивное моделирование является синонимом или в значительной степени пересекается с областью машинного обучения , как это чаще всего упоминается в академическом или научно-исследовательском контексте. При коммерческом развертывании предиктивное моделирование часто называют предиктивной аналитикой .
Прогностическое моделирование часто противопоставляется причинному моделированию /анализу. В первом случае можно полностью удовлетвориться использованием индикаторов или прокси для интересующего результата. Во втором случае стремятся определить истинные причинно-следственные связи. Это различие привело к бурно развивающейся литературе в области методов исследования и статистики и к общему утверждению, что « корреляция не подразумевает причинно-следственную связь ».
Почти любая статистическая модель может быть использована для целей прогнозирования. В общем, существует два класса предсказательных моделей: параметрические и непараметрические . Третий класс, полупараметрические модели, включает в себя черты обоих. Параметрические модели делают «определенные предположения относительно одного или нескольких параметров популяции, которые характеризуют базовое распределение(я)». [3] Непараметрические модели «обычно включают меньше предположений о структуре и форме распределения [чем параметрические модели], но обычно содержат сильные предположения о независимости». [4]
Uplift modeling — это метод моделирования изменения вероятности, вызванного действием. Обычно это маркетинговое действие, такое как предложение купить продукт, использовать продукт больше или повторно подписать контракт. Например, в кампании по удержанию вы хотите предсказать изменение вероятности того, что клиент останется клиентом, если с ним свяжутся. Модель изменения вероятности позволяет нацелить кампанию по удержанию на тех клиентов, для которых изменение вероятности будет выгодным. Это позволяет программе удержания избегать ненужного оттока или потери клиентов, не тратя деньги на общение с людьми, которые в любом случае действовали бы.
Прогностическое моделирование в археологии берет свое начало в работе Гордона Уилли середины пятидесятых годов в долине Виру в Перу. [5] Были проведены полные, интенсивные исследования, затем была определена ковариация между культурными останками и природными особенностями, такими как склон и растительность. Разработка количественных методов и большая доступность применимых данных привели к росту дисциплины в 1960-х годах, и к концу 1980-х годов крупные землеустроители во всем мире достигли существенного прогресса.
Как правило, прогностическое моделирование в археологии устанавливает статистически обоснованные причинно-следственные или ковариабельные связи между естественными прокси, такими как типы почв, высота, уклон, растительность, близость к воде, геология, геоморфология и т. д., и наличием археологических объектов. Благодаря анализу этих количественных атрибутов с земель, которые подверглись археологическому обследованию, иногда можно предвидеть «археологическую чувствительность» необследованных территорий на основе естественных прокси в этих областях. Крупные управляющие земельными участками в Соединенных Штатах, такие как Бюро по управлению земельными ресурсами (BLM), Министерство обороны (DOD), [6] [7] и многочисленные агентства по автомагистралям и паркам, успешно использовали эту стратегию. Используя прогностическое моделирование в своих планах управления культурными ресурсами, они способны принимать более обоснованные решения при планировании мероприятий, которые потенциально могут потребовать нарушения почвы и впоследствии повлиять на археологические объекты.
Прогностическое моделирование широко используется в аналитическом управлении взаимоотношениями с клиентами и добыче данных для создания моделей на уровне клиента, которые описывают вероятность того, что клиент предпримет определенное действие. Действия обычно связаны с продажами, маркетингом и удержанием клиентов .
Например, крупная потребительская организация , такая как оператор мобильной связи, будет иметь набор прогностических моделей для перекрестных продаж продуктов , глубоких продаж продуктов (или апселлинга ) и оттока . Также теперь для такой организации более распространено иметь модель сохранности с использованием модели подъема . Это предсказывает вероятность того, что клиент может быть сохранен в конце периода действия контракта (изменение вероятности оттока) в отличие от стандартной модели прогнозирования оттока.
Прогностическое моделирование используется в страховании транспортных средств для назначения риска инцидентов держателям полисов на основе информации, полученной от держателей полисов. Это широко применяется в решениях по страхованию на основе использования , где прогностические модели используют данные на основе телеметрии для построения модели прогностического риска для вероятности претензий. [ требуется цитата ] Прогностические модели автострахования черного ящика используют только входные данные GPS или акселерометра . [ требуется цитата ] Некоторые модели включают широкий спектр прогностических входных данных помимо базовой телеметрии, включая расширенное поведение вождения, независимые записи о столкновениях, историю дорожного движения и профили пользователей для предоставления улучшенных моделей риска. [ требуется цитата ]
В 2009 году Parkland Health & Hospital System начала анализировать электронные медицинские записи , чтобы использовать предиктивное моделирование для выявления пациентов с высоким риском повторной госпитализации. Первоначально больница сосредоточилась на пациентах с застойной сердечной недостаточностью, но программа расширилась и теперь включает пациентов с диабетом, острым инфарктом миокарда и пневмонией. [8]
В 2018 году Банерджи и др. [9] предложили модель глубокого обучения для оценки краткосрочной продолжительности жизни (>3 месяцев) пациентов путем анализа свободных текстовых клинических заметок в электронной медицинской карте с сохранением временной последовательности визитов. Модель была обучена на большом наборе данных (10 293 пациента) и проверена на отдельном наборе данных (1818 пациентов). Она достигла площади под кривой ROC ( Receiver Operating Characteristic ) 0,89. Чтобы обеспечить объяснимость, они разработали интерактивный графический инструмент, который может улучшить понимание врачом основы для прогнозов модели. Высокая точность и объяснимость модели PPES-Met могут позволить использовать модель в качестве инструмента поддержки принятия решений для персонализации лечения метастатического рака и оказания ценной помощи врачам.
Первые руководящие принципы отчетности по клинической прогностической модели были опубликованы в 2015 году (Прозрачная отчетность по многовариантной прогностической модели для индивидуального прогноза или диагностики (TRIPOD)) и с тех пор были обновлены. [10]
Для оценки продолжительности операции использовалось прогностическое моделирование .
Предиктивное моделирование в торговле — это процесс моделирования, в котором вероятность результата прогнозируется с использованием набора предикторных переменных . Предиктивные модели могут быть построены для различных активов, таких как акции, фьючерсы, валюты, сырьевые товары и т. д. [ необходима цитата ] Предиктивное моделирование по-прежнему широко используется торговыми фирмами для разработки стратегий и торговли. Оно использует математически продвинутое программное обеспечение для оценки индикаторов цены, объема, открытого интереса и других исторических данных, чтобы обнаружить повторяющиеся закономерности. [11]
Прогнозное моделирование дает лидогенераторам преимущество, прогнозируя результаты на основе данных для каждой потенциальной кампании. Этот метод экономит время и выявляет потенциальные слепые зоны, помогая клиентам принимать более разумные решения. [12]
Хотя это и не обсуждалось широко в сообществе основного предиктивного моделирования, предиктивное моделирование — это методология, которая широко использовалась в финансовой отрасли в прошлом, и некоторые из крупных провалов способствовали финансовому кризису 2007–2008 годов . Эти провалы иллюстрируют опасность опоры исключительно на модели, которые по своей сути являются ретроспективными. Следующие примеры ни в коем случае не являются полным списком:
История не всегда может точно предсказать будущее. Использование отношений, полученных из исторических данных, для предсказания будущего неявно предполагает, что в сложной системе существуют определенные постоянные условия или константы. Это почти всегда приводит к некоторой неточности, когда система включает людей. [ необходима цитата ]
Неизвестные неизвестные являются проблемой. Во всех сборах данных сборщик сначала определяет набор переменных, для которых собираются данные. Однако, независимо от того, насколько обширным сборщик считает свой выбор переменных, всегда существует вероятность появления новых переменных, которые не были рассмотрены или даже не определены, но имеют решающее значение для результата. [ необходима цитата ]
Алгоритмы можно победить состязательным путем. После того, как алгоритм становится общепринятым стандартом измерения, им могут воспользоваться люди, которые понимают алгоритм и имеют стимул обманывать или манипулировать результатом. Именно это и произошло с рейтингом CDO, описанным выше. Дилеры CDO активно выполняли требования рейтинговых агентств, чтобы достичь AAA или super-AAA по выпускаемым ими CDO, умело манипулируя переменными, которые были «неизвестны» «сложным» моделям рейтинговых агентств. [ необходима цитата ]