Прогнозное моделирование

Прогнозное моделирование использует статистику для прогнозирования результатов. ^[1] Чаще всего событие, которое нужно предсказать, произойдет в будущем, но прогнозное моделирование можно применять к любому типу неизвестного события, независимо от того, когда оно произошло. Например, прогностические модели часто используются для выявления преступлений и выявления подозреваемых после того, как преступление уже произошло. ^[2]

Во многих случаях модель выбирается на основе теории обнаружения, чтобы попытаться угадать вероятность результата с учетом заданного количества входных данных, например, с учетом электронного письма , определяющего, насколько вероятно, что это спам .

Модели могут использовать один или несколько классификаторов , пытаясь определить вероятность принадлежности набора данных другому набору. Например, модель может использоваться для определения того, является ли электронное письмо спамом или «неспамом» (не спамом).

В зависимости от границ определений, прогнозное моделирование является синонимом области машинного обучения или во многом пересекается с ней , как ее чаще называют в академическом контексте или в контексте исследований и разработок. При коммерческом использовании прогнозное моделирование часто называют прогнозной аналитикой .

Прогнозное моделирование часто противопоставляют причинному моделированию /анализу. В первом случае можно быть полностью удовлетворенным использованием индикаторов или заменителей интересующего результата. В последнем стремятся определить истинные причинно-следственные связи. Это различие породило растущую литературу в области исследовательских методов и статистики, а также общее утверждение, что « корреляция не подразумевает причинно-следственную связь ».

Модели

Для целей прогнозирования можно использовать практически любую статистическую модель . Вообще говоря, существует два класса прогнозных моделей: параметрические и непараметрические . Третий класс, полупараметрические модели, включает в себя черты обоих. Параметрические модели делают «конкретные предположения в отношении одного или нескольких параметров популяции, которые характеризуют основное распределение(я)». ^[3] Непараметрические модели «обычно включают меньше предположений о структуре и форме распределения [чем параметрические модели], но обычно содержат строгие предположения о независимости». ^[4]

Приложения

Моделирование поднятия

Моделирование подъема — это метод моделирования изменения вероятности, вызванного действием. Обычно это маркетинговое действие, такое как предложение купить продукт, использовать его чаще или переподписать контракт. Например, в кампании по удержанию вы хотите спрогнозировать изменение вероятности того, что клиент останется клиентом, если с ним свяжутся. Модель изменения вероятности позволяет нацелить кампанию по удержанию на тех клиентов, которым изменение вероятности будет выгодно. Это позволяет программе удержания избежать ненужного оттока или истощения клиентов , не тратя деньги на контакты с людьми, которые в любом случае будут действовать.

Археология

Прогнозное моделирование в археологии берет свое начало в работе Гордона Уилли, проведенной в середине пятидесятых годов в долине Виру в Перу. ^[5] Были проведены полные интенсивные исследования, после чего была определена ковариантность между культурными остатками и природными особенностями, такими как склон и растительность. Развитие количественных методов и большая доступность применимых данных привели к росту этой дисциплины в 1960-х годах, а к концу 1980-х годов основные землепользователи во всем мире добились существенного прогресса.

Как правило, прогнозное моделирование в археологии устанавливает статистически обоснованные причинно-следственные или ковариационные связи между природными показателями, такими как типы почв, высота, уклон, растительность, близость к воде, геология, геоморфология и т. д., а также наличие археологических особенностей. Посредством анализа этих количественных характеристик земель, подвергшихся археологическому исследованию, иногда можно предвидеть «археологическую чувствительность» необследованных территорий на основе естественных показателей в этих областях. Крупные землеустроители в Соединенных Штатах, такие как Бюро землеустройства (BLM), Министерство обороны (DOD), ^[6]^[7] и многочисленные агентства по шоссе и паркам, успешно применили эту стратегию. Используя прогнозное моделирование в своих планах управления культурными ресурсами, они способны принимать более обоснованные решения при планировании деятельности, которая может потребовать нарушения грунта и впоследствии повлиять на археологические объекты.

Управление взаимоотношениями с клиентами

Прогнозное моделирование широко используется в аналитическом управлении взаимоотношениями с клиентами и интеллектуальном анализе данных для создания моделей на уровне клиента, которые описывают вероятность того, что клиент предпримет определенное действие. Действия обычно связаны с продажами, маркетингом и удержанием клиентов .

Например, крупная потребительская организация , такая как оператор мобильной связи, будет иметь набор прогнозных моделей для перекрестных продаж продуктов , глубоких продаж продуктов (или дополнительных продаж ) и оттока клиентов . В настоящее время для таких организаций также более распространена модель сохраняемости, использующая модель подъема . Это прогнозирует вероятность того, что клиент может быть сохранен в конце срока действия контракта (изменение вероятности оттока) в отличие от стандартной модели прогнозирования оттока.

Автострахование

Прогнозное моделирование используется в страховании транспортных средств для распределения риска происшествий среди держателей полисов на основе информации, полученной от держателей полисов. Это широко применяется в страховых решениях на основе использования, где прогнозные модели используют данные телеметрии для построения модели прогнозируемого риска для вероятности претензий. ^{[ нужна ссылка ]} Прогнозирующие модели автострахования «черный ящик» используют только входные данные датчиков GPS или акселерометра . ^{[ нужна цитация ]} Некоторые модели включают в себя широкий спектр прогнозных данных, помимо базовой телеметрии, включая расширенное поведение вождения, независимые записи аварий, историю дорог и профили пользователей, чтобы обеспечить улучшенные модели риска. ^{[ нужна цитата ]}

Здравоохранение

В 2009 году Parkland Health & Hospital System начала анализировать электронные медицинские записи , чтобы использовать прогнозное моделирование для выявления пациентов с высоким риском повторной госпитализации. Первоначально больница ориентировалась на пациентов с застойной сердечной недостаточностью, но программа расширилась и теперь включает пациентов с диабетом, острым инфарктом миокарда и пневмонией. ^[8]

В 2018 году Банерджи и др. ^[9] предложили модель глубокого обучения для оценки краткосрочной продолжительности жизни (>3 месяцев) пациентов путем анализа клинических записей в свободной форме в электронной медицинской карте с сохранением временной последовательности посещений. Модель была обучена на большом наборе данных (10 293 пациента) и проверена на отдельном наборе данных (1818 пациентов). Площадь под кривой ROC ( рабочая характеристика приемника ) составила 0,89. Чтобы обеспечить объяснимость, они разработали интерактивный графический инструмент, который может улучшить понимание врачами основы прогнозов модели. Высокая точность и объяснимость модели PPES-Met могут позволить использовать ее в качестве инструмента поддержки принятия решений для персонализации лечения метастатического рака и оказания ценной помощи врачам.

Первые руководящие принципы составления отчетов о моделях клинического прогнозирования были опубликованы в 2015 году (Прозрачная отчетность о многовариантной модели прогнозирования для индивидуального прогноза или диагноза (TRIPOD)), и с тех пор они обновлялись. ^[10]

Для оценки продолжительности операции использовалось прогнозное моделирование .

Алгоритмическая торговля

Прогнозное моделирование в трейдинге — это процесс моделирования, в котором вероятность результата прогнозируется с использованием набора переменных-предсказателей . Прогнозные модели могут быть построены для различных активов, таких как акции, фьючерсы, валюты, сырьевые товары и т. д. ^{Прогнозное}^{моделирование}^до сих пор широко используется торговыми фирмами для разработки стратегий и торговли. Он использует математически продвинутое программное обеспечение для оценки индикаторов цены, объема, открытого интереса и других исторических данных, чтобы обнаружить повторяющиеся закономерности. ^[11]

Системы отслеживания потенциальных клиентов

Прогнозное моделирование дает лидогенераторам преимущество, прогнозируя на основе данных результаты для каждой потенциальной кампании. Этот метод экономит время и выявляет потенциальные «слепые зоны», помогая клиенту принимать более разумные решения. ^[12]

Заметные неудачи прогнозного моделирования

Хотя прогнозное моделирование не обсуждается широко в основном сообществе прогнозного моделирования, оно представляет собой методологию, которая широко использовалась в финансовой отрасли в прошлом, и некоторые из крупных неудач способствовали финансовому кризису 2007–2008 годов . Эти неудачи иллюстрируют опасность полагаться исключительно на модели, которые по своей сути являются ретроспективными. Следующие примеры ни в коем случае не являются полным списком:

Рейтинг облигаций. S&P , Moody's и Fitch количественно определяют вероятность дефолта облигаций с помощью дискретных переменных, называемых рейтингом. Рейтинг может принимать дискретные значения от AAA до D. Рейтинг является предиктором риска дефолта, основанным на множестве переменных, связанных с заемщиком, и исторических макроэкономических данных. Рейтинговые агентства провалили свои рейтинги на рынке обеспеченных ипотечными долговыми обязательствами ( CDO ) стоимостью 600 миллиардов долларов США. Почти весь сектор ААА (и сектор супер-ААА — новый рейтинг, предоставленный рейтинговыми агентствами для обозначения супербезопасных инвестиций) рынка CDO объявил дефолт или серьезно понизил рейтинг в 2008 году, многие из которых получили свои рейтинги менее чем годом ранее. ^{[ нужна цитата ]}
До сих пор не считается, что никакие статистические модели, пытающиеся предсказать цены на фондовом рынке на основе исторических данных, последовательно дают правильные прогнозы в долгосрочной перспективе. Одним из наиболее запоминающихся провалов стал провал Long Term Capital Management , фонда, который нанял высококвалифицированных аналитиков, в том числе лауреата Нобелевской премии по экономике , для разработки сложной статистической модели, предсказывающей разницу цен между различными ценными бумагами. Эти модели приносили впечатляющую прибыль до тех пор, пока не произошел крупный крах, из-за которого тогдашний председатель Федеральной резервной системы Алан Гринспен вмешался и выступил посредником в плане спасения брокеров -дилеров с Уолл-стрит , чтобы предотвратить обвал рынка облигаций. ^{[ нужна цитата ]}

Возможные фундаментальные ограничения прогнозных моделей, основанных на подборе данных

История не всегда может точно предсказать будущее. Использование отношений, полученных на основе исторических данных, для прогнозирования будущего неявно предполагает наличие определенных устойчивых условий или констант в сложной системе. Это почти всегда приводит к некоторой неточности, когда в системе участвуют люди. ^{[ нужна цитата ]}

Неизвестное неизвестное является проблемой. При любом сборе данных сборщик сначала определяет набор переменных, для которых собираются данные. Однако независимо от того, насколько обширным сборщик рассматривает свой выбор переменных, всегда существует вероятность появления новых переменных, которые не были учтены или даже определены, но имеют решающее значение для результата. ^{[ нужна цитата ]}

Алгоритмы можно победить состязательно. После того, как алгоритм становится общепринятым стандартом измерения, им могут воспользоваться люди, которые понимают алгоритм и имеют стимул обманывать или манипулировать результатом. Именно это и произошло с рейтингом CDO, описанным выше. Дилеры CDO активно выполняли требования рейтинговых агентств для достижения уровня AAA или супер-AAA по выпускаемым ими CDO, умело манипулируя переменными, которые были «неизвестны» «сложным» моделям рейтинговых агентств. ^{[ нужна цитата ]}

Смотрите также

дальнейшее чтение

Кларк, Бертран С.; Кларк, Дженнифер Л. (2018), Прогнозная статистика , Издательство Кембриджского университета
Иглесиас, Пилар; Сандовал, Моника К.; Перейра, Карлос Альберто де Браганса (1993), «Прогнозируемая вероятность в конечных популяциях», Бразильский журнал вероятностей и статистики , 7 (1): 65–82, JSTOR 43600831
Келлехер, Джон Д.; Мак Нэми, Брайан; Д'Арси, Аойф (2015), Основы машинного обучения для прогнозной аналитики данных: алгоритмы, рабочие примеры и тематические исследования , MIT Press
Кун, Макс; Джонсон, Кьелл (2013), Прикладное прогнозное моделирование , Springer
Шмуэли, Г. (2010), «Объяснить или предсказать?», Statistical Science , 25 (3): 289–310, arXiv : 1101.0891 , doi : 10.1214/10-STS330, S2CID 15900983