stringtranslate.com

Функция потерь

В математической оптимизации и теории принятия решений функция потерь или функция стоимости (иногда также называемая функцией ошибок) [1] — это функция, которая отображает событие или значения одной или нескольких переменных на действительное число , интуитивно представляющее некоторую «стоимость», связанную с событие. Задача оптимизации направлена ​​на минимизацию функции потерь. Целевая функция — это либо функция потерь, либо ее противоположность (в определенных областях ее по-разному называют функцией вознаграждения , функцией прибыли , функцией полезности , функцией приспособленности и т. д.), и в этом случае она должна быть максимизирована. Функция потерь может включать члены нескольких уровней иерархии.

В статистике обычно для оценки параметра используется функция потерь , а рассматриваемое событие является некоторой функцией разницы между расчетными и истинными значениями для экземпляра данных. Эта концепция, старая еще со времен Лапласа , была вновь введена в статистику Абрахамом Вальдом в середине 20-го века. [2] Например, в контексте экономики это обычно экономические издержки или сожаления . В классификации — это наказание за неправильную классификацию примера. В актуарной науке он используется в контексте страхования для моделирования пособий, выплачиваемых сверх премий, особенно после работ Харальда Крамера в 1920-х годах. [3] При оптимальном управлении потеря — это штраф за неспособность достичь желаемого значения. В управлении финансовыми рисками эта функция сопоставляется с денежными потерями.

Сравнение общих функций потерь, используемых для регрессии

Пример

Сожалеть

Леонард Дж. Сэвидж утверждал, что при использовании небайесовских методов, таких как минимакс , функция потерь должна основываться на идее сожаления , т. е. потеря, связанная с решением, должна быть разницей между последствиями лучшего решения, которое могло быть принято. было бы принято, если бы были известны основные обстоятельства и решение, которое фактически было принято до того, как они стали известны.

Квадратичная функция потерь

Использование квадратичной функции потерь является обычным явлением, например, при использовании методов наименьших квадратов . Часто она более математически понятна, чем другие функции потерь, из-за свойств дисперсий , а также из-за того, что она симметрична: ошибка выше целевого значения вызывает те же потери, что и та же величина ошибки ниже целевого значения. Если целью является t , то квадратичная функция потерь равна

для некоторой константы C ; значение константы не влияет на решение, и его можно игнорировать, установив его равным 1. Это также известно как потеря в квадрате ошибки ( SEL ). [1]

Многие распространенные статистические данные , включая t-тесты , модели регрессии , планирование экспериментов и многое другое, используют методы наименьших квадратов , применяемые с использованием теории линейной регрессии , которая основана на квадратичной функции потерь.

Квадратичная функция потерь также используется в линейно-квадратичных задачах оптимального управления . В этих задачах даже при отсутствии неопределенности может оказаться невозможным достичь желаемых значений всех целевых переменных. Часто потери выражаются в виде квадратичной формы отклонений интересующих переменных от их желаемых значений; этот подход является приемлемым , поскольку он приводит к линейным условиям первого порядка . В контексте стохастического управления используется математическое ожидание квадратичной формы. Квадратичные потери придают большее значение выбросам, чем истинным данным, из-за их квадратичного характера, поэтому такие альтернативы, как потери Хубера , Log-Cash и SMAE, используются, когда данные имеют много больших выбросов.

Эффект от использования различных функций потерь, когда данные имеют выбросы.

функция потерь 0-1

В статистике и теории принятия решений часто используемой функцией потерь является функция потерь 0–1.

используя обозначение скобок Айверсона , т.е. оно оценивается как 1 , когда и 0 в противном случае.

Двухпараметрическая функция потерь

В частности, в торговле, где существует диапазон между любой ценой и правильной ценой, этот диапазон называется спредом, и «правильное» значение может быть где угодно между бидом и аском, включая их, а аск (цена продажи) выше бида. это так:

где – функция потерь с двумя параметрами (или диапазоном), – параметр с высоким значением, – параметр с низким значением, и – неизвестное значение.

Например, если бид равен 1,20, а аск равен 1,26, сделки могут иметь любое значение между этими двумя, включая их (т. е. 1,20, 1,21, 1,22, 1,23, 1,24, 1,25 и 1,26).

Это также можно легко применить к любому виду измерений. Также коррелирует с квадратичной функцией по .

Эта функция неопубликована.

Построение потерь и целевых функций

Во многих приложениях целевые функции, в том числе функции потерь как частный случай, определяются постановкой задачи. В других ситуациях предпочтение лица, принимающего решения, должно быть выявлено и представлено скалярной функцией (также называемой функцией полезности ) в форме, подходящей для оптимизации — проблема, которую Рагнар Фриш подчеркнул в своей лекции, получившей Нобелевскую премию. [4] Существующие методы построения целевых функций собраны в материалах двух специализированных конференций. [5] [6] В частности, Андраник Тангян показал, что наиболее полезные целевые функции — квадратичные и аддитивные — определяются несколькими точками безразличия. Он использовал это свойство в моделях для построения этих целевых функций на основе порядковых или кардинальных данных, полученных с помощью компьютерных интервью с лицами, принимающими решения. [7] [8] Среди прочего он построил целевые функции для оптимального распределения бюджетов для 16 Вестфальских университетов [9] и европейских субсидий для выравнивания уровня безработицы среди 271 немецкого региона. [10]

Ожидаемый убыток

В некоторых контекстах значение функции потерь само по себе является случайной величиной, поскольку оно зависит от результата случайной величины X.

Статистика

И частотная , и байесовская статистическая теория предполагают принятие решения на основе ожидаемого значения функции потерь; однако эта величина определяется по-разному в рамках двух парадигм.

Ожидаемые потери по частоте

Сначала мы определяем ожидаемые потери в частотном контексте. Его получают путем принятия ожидаемого значения относительно распределения вероятностей P θ наблюдаемых данных X . Это также называется функцией риска [11] [12] [13] [14] правила принятия решения δ и параметра θ . Здесь решающее правило зависит от результата X. Функция риска определяется следующим образом:

Здесь θ — фиксированное, но, возможно, неизвестное состояние природы, X — вектор наблюдений, стохастически взятый из популяции , — математическое ожидание по всем значениям популяции X , dP θвероятностная мера в пространстве событий X (параметризованная  θ ) , а интеграл вычисляется по всему носителю X. 

Байесовский риск

В байесовском подходе математическое ожидание рассчитывается с использованием априорного распределения π * параметра  θ :

где m(x) известно как вероятность прогнозирования , где θ было «интегрировано», π * (θ | x) — апостериорное распределение, а порядок интегрирования был изменен. Затем следует выбрать действие a * , которое минимизирует ожидаемую потерю, называемую байесовским риском [12] . В последнем уравнении подынтегральная функция внутри dx известна как апостериорный риск , и его минимизация относительно решения a также минимизирует общий байесовский риск. Это оптимальное решение, a * , известно как правило Байеса (решения) — оно минимизирует средние потери для всех возможных состояний природы $\theta$, для всех возможных (взвешенных по вероятности) результатов данных. Одним из преимуществ байесовского подхода является то, что для получения равномерно оптимального действия нужно только выбрать оптимальное действие на основе фактических наблюдаемых данных, тогда как выбор фактического частотного оптимального правила принятия решения как функции всех возможных наблюдений является гораздо более сложной проблемой. . Не менее важно и то, что правило Байеса отражает рассмотрение результатов потерь при различных состояниях природы, θ.

Примеры в статистике

Экономический выбор в условиях неопределенности

В экономике принятие решений в условиях неопределенности часто моделируется с использованием функции полезности фон Неймана-Моргенштерна неопределенной переменной, представляющей интерес, такой как богатство на конец периода. Поскольку значение этой переменной неопределенно, то же самое относится и к значению функции полезности; максимизируется ожидаемая ценность полезности.

Правила принятия решений

Решающее правило делает выбор, используя критерий оптимальности. Некоторые часто используемые критерии:

Выбор функции потерь

Надлежащая статистическая практика требует выбора средства оценки, соответствующего фактическому приемлемому отклонению, наблюдаемому в контексте конкретной прикладной задачи. Таким образом, при прикладном использовании функций потерь выбор статистического метода для моделирования прикладной проблемы зависит от знания потерь, которые будут понесены из-за неправильного решения в конкретных обстоятельствах проблемы. [15]

Типичный пример включает оценку « местоположения ». При типичных статистических предположениях среднее или среднее значение — это статистика для оценки местоположения, которая минимизирует ожидаемые потери, понесенные в соответствии с функцией потерь с квадратичной ошибкой , а медиана — это оценка, которая минимизирует ожидаемые потери, понесенные в соответствии с функцией потерь с абсолютной разностью. И все же другие оценки были бы оптимальны при других, менее распространенных обстоятельствах.

В экономике, когда агент нейтральен к риску , целевая функция просто выражается как ожидаемое значение денежной величины, такой как прибыль, доход или богатство на конец периода. Для агентов , не склонных к риску или любящих риск , потери измеряются как отрицательная функция полезности , а целевой функцией, подлежащей оптимизации, является ожидаемое значение полезности.

Возможны и другие меры затрат, например, смертность или заболеваемость в области общественного здравоохранения или техники безопасности .

Для большинства алгоритмов оптимизации желательно иметь глобально непрерывную и дифференцируемую функцию потерь .

Двумя наиболее часто используемыми функциями потерь являются квадрат потерь и абсолютные потери . Однако абсолютные потери имеют тот недостаток, что они не дифференцируемы при . Квадрат потерь имеет тот недостаток, что в нем преобладают выбросы - при суммировании по набору 's (как в ), окончательная сумма имеет тенденцию быть результатом нескольких особенно больших a -значений, а не простого результата. выражение среднего значения a .

Выбор функции потерь не является произвольным. Она очень ограничительна, и иногда функция потерь может характеризоваться желательными свойствами. [16] К числу принципов выбора относятся, например, требование полноты класса симметричной статистики в случае иид- наблюдений, принцип полной информации и некоторые другие.

У. Эдвардс Деминг и Нассим Николас Талеб утверждают, что эмпирическая реальность, а не хорошие математические свойства, должна быть единственной основой для выбора функций потерь, а реальные потери часто математически неточны, не дифференцируемы, непрерывны, симметричны и т. д. Например, человек, который прибывает до закрытия ворот самолета, все равно может успеть на самолет, но человек, который прибывает после, не может, из-за непостоянства и асимметрии, из-за которых прибытие с небольшим опозданием обходится гораздо дороже, чем прибытие немного раньше. При дозировании лекарств цена слишком малого количества лекарства может заключаться в отсутствии эффективности, тогда как цена слишком большого количества может заключаться в переносимой токсичности, что является еще одним примером асимметрии. Движение транспорта, трубы, балки, экология, климат и т. д. могут до определенного момента выдерживать повышенную нагрузку или стресс с небольшими заметными изменениями, а затем подвергаться заклиниванию или катастрофически ломаться. Такие ситуации, утверждают Деминг и Талеб, часто встречаются в реальных задачах, возможно, даже чаще, чем классические случаи гладких, непрерывных, симметричных дифференциалов. [17]

Смотрите также

Рекомендации

  1. ^ аб Хасти, Тревор; Тибширани, Роберт ; Фридман, Джером Х. (2001). Элементы статистического обучения. Спрингер. п. 18. ISBN 0-387-95284-5.
  2. ^ Уолд, А. (1950). Статистические функции принятия решений. Уайли.
  3. ^ Крамер, Х. (1930). К математической теории риска . {{cite book}}: |work=игнорируется ( помощь )
  4. ^ Фриш, Рагнар (1969). «От утопической теории к практическим приложениям: случай эконометрики». Лекция о Нобелевской премии . Проверено 15 февраля 2021 г.
  5. ^ Тангиан, Андраник; Грубер, Йозеф (1997). Построение скалярнозначных целевых функций. Материалы третьей международной конференции по эконометрическим моделям принятия решений: построение скалярнозначных целевых функций, Университет Хагена, состоявшейся в Католической академии Шверте 5–8 сентября 1995 г. Конспект лекций по экономике и математическим системам. Том. 453. Берлин: Шпрингер. дои : 10.1007/978-3-642-48773-6. ISBN 978-3-540-63061-6.
  6. ^ Тангиан, Андраник; Грубер, Йозеф (2002). Построение и применение целевых функций. Материалы четвертой международной конференции по построению и применению эконометрических моделей принятия решений, Университет Хагена, состоявшейся в Хаус Нордхелле, 28–31 августа 2000 г. Конспект лекций по экономике и математическим системам. Том. 510. Берлин: Шпрингер. дои : 10.1007/978-3-642-56038-5. ISBN 978-3-540-42669-1.
  7. ^ Тангиан, Андраник (2002). «Построение квазивогнутой квадратичной целевой функции на основе интервью с лицом, принимающим решения». Европейский журнал операционных исследований . 141 (3): 608–640. дои : 10.1016/S0377-2217(01)00185-0. S2CID  39623350.
  8. ^ Тангиан, Андраник (2004). «Модель порядкового построения аддитивных целевых функций». Европейский журнал операционных исследований . 159 (2): 476–512. дои : 10.1016/S0377-2217(03)00413-2. S2CID  31019036.
  9. ^ Тангиан, Андраник (2004). «Перераспределение университетских бюджетов с учетом статус-кво». Европейский журнал операционных исследований . 157 (2): 409–428. дои : 10.1016/S0377-2217(03)00271-6.
  10. ^ Тангиан, Андраник (2008). «Многокритериальная оптимизация региональной политики занятости: симуляционный анализ для Германии». Обзор городского и регионального развития . 20 (2): 103–122. дои : 10.1111/j.1467-940X.2008.00144.x.
  11. ^ Никулин, М.С. (2001) [1994], «Риск статистической процедуры», Энциклопедия математики , EMS Press
  12. ^ Бергер, Джеймс О. (1985). Статистическая теория принятия решений и байесовский анализ (2-е изд.). Нью-Йорк: Springer-Verlag. Бибкод : 1985sdtb.book.....B. ISBN 978-0-387-96098-2. МР  0804611.
  13. ^ ДеГрут, Моррис (2004) [1970]. Оптимальные статистические решения . Библиотека классической литературы Уайли. ISBN 978-0-471-68029-1. МР  2288194.
  14. ^ Роберт, Кристиан П. (2007). Байесовский выбор . Тексты Springer в статистике (2-е изд.). Нью-Йорк: Спрингер. дои : 10.1007/0-387-71599-1. ISBN 978-0-387-95231-4. МР  1835885.
  15. ^ Пфанзагль, Дж. (1994). Параметрическая статистическая теория . Берлин: Вальтер де Грюйтер. ISBN 978-3-11-013863-4.
  16. ^ Подробная информация о математических принципах выбора функции потерь приведена в главе 2 книги Клебанов Б.; Рачев, Светлозат Т.; Фабоцци, Фрэнк Дж. (2009). Робастные и неробастные модели в статистике . Нью-Йорк: Nova Scientific Publishers, Inc.(и ссылки там).
  17. ^ Деминг, В. Эдвардс (2000). Выход из кризиса . Массачусетский технологический институт Пресс. ISBN 9780262541152.

дальнейшее чтение