В математической оптимизации и теории принятия решений функция потерь или функция стоимости (иногда также называемая функцией ошибок) [1] — это функция, которая отображает событие или значения одной или нескольких переменных на действительное число, интуитивно представляющее некоторую «стоимость», связанную с событием. Задача оптимизации стремится минимизировать функцию потерь. Целевая функция — это либо функция потерь, либо ее противоположность (в определенных областях, называемая по-разному функцией вознаграждения , функцией прибыли , функцией полезности , функцией пригодности и т. д.), в этом случае она должна быть максимизирована. Функция потерь может включать члены из нескольких уровней иерархии.
В статистике обычно функция потерь используется для оценки параметров , а рассматриваемое событие является некоторой функцией разницы между оценочными и истинными значениями для экземпляра данных. Концепция, такая же старая, как Лаплас , была вновь введена в статистику Абрахамом Вальдом в середине 20-го века. [2] В контексте экономики , например, это обычно экономические издержки или сожаления . В классификации это штраф за неправильную классификацию примера. В актуарной науке это используется в контексте страхования для моделирования выплат, выплачиваемых сверх премий, особенно со времен работ Харальда Крамера в 1920-х годах. [3] В оптимальном управлении убыток является штрафом за неспособность достичь желаемого значения. В управлении финансовыми рисками функция сопоставляется с денежным убытком.
Леонард Дж. Сэвидж утверждал, что при использовании небайесовских методов, таких как минимакс , функция потерь должна основываться на идее сожаления , то есть потеря, связанная с решением, должна быть разницей между последствиями наилучшего решения, которое могло бы быть принято, если бы основные обстоятельства были известны, и решения, которое было фактически принято до того, как они стали известны.
Использование квадратичной функции потерь является обычным, например, при использовании методов наименьших квадратов . Она часто более податлива с математической точки зрения, чем другие функции потерь, из-за свойств дисперсий , а также симметрична: ошибка выше целевого значения вызывает те же потери, что и та же величина ошибки ниже целевого значения. Если целевое значение равно t , то квадратичная функция потерь имеет вид
для некоторой константы C ; значение константы не влияет на решение и может быть проигнорировано, если установить ее равной 1. Это также известно как квадратичная ошибка потерь ( SEL ). [1]
Многие распространенные статистические данные , включая t-тесты , регрессионные модели, планирование экспериментов и многое другое, используют методы наименьших квадратов, применяемые с использованием теории линейной регрессии , которая основана на квадратичной функции потерь.
Квадратичная функция потерь также используется в линейно-квадратичных задачах оптимального управления . В этих задачах, даже при отсутствии неопределенности, может оказаться невозможным достичь желаемых значений всех целевых переменных. Часто потери выражаются в виде квадратичной формы отклонений интересующих переменных от их желаемых значений; этот подход является поддающимся обработке , поскольку он приводит к линейным условиям первого порядка . В контексте стохастического управления используется ожидаемое значение квадратичной формы. Квадратичная функция потерь придает большее значение выбросам, чем истинным данным из-за ее квадратичной природы, поэтому такие альтернативы, как потери Huber , Log-Cosh и SMAE, используются, когда данные имеют много больших выбросов.
В статистике и теории принятия решений часто используемой функцией потерь является функция потерь 0-1.
с использованием скобочной нотации Айверсона , т.е. он оценивается как 1, когда , и 0 в противном случае.
Во многих приложениях целевые функции, включая функции потерь как частный случай, определяются формулировкой задачи. В других ситуациях предпочтение лица, принимающего решения, должно быть выявлено и представлено скалярной функцией (называемой также функцией полезности ) в форме, подходящей для оптимизации — проблема, которую Рагнар Фриш выделил в своей Нобелевской лекции. [4] Существующие методы построения целевых функций собраны в трудах двух специализированных конференций. [5] [6] В частности, Андраник Тангиан показал, что наиболее используемые целевые функции — квадратичные и аддитивные — определяются несколькими точками безразличия. Он использовал это свойство в моделях для построения этих целевых функций из порядковых или кардинальных данных, которые были получены с помощью компьютерных интервью с лицами, принимающими решения. [7] [8] Среди прочего, он построил целевые функции для оптимального распределения бюджетов для 16 вестфальских университетов [9] и европейских субсидий для выравнивания уровня безработицы среди 271 немецкого региона. [10]
В некоторых контекстах значение функции потерь само по себе является случайной величиной, поскольку оно зависит от результата случайной величины X.
Как частотная , так и байесовская статистическая теория предполагают принятие решения на основе ожидаемого значения функции потерь; однако эта величина определяется по-разному в этих двух парадигмах.
Сначала мы определяем ожидаемые потери в частотном контексте. Они получаются путем взятия ожидаемого значения относительно распределения вероятностей , P θ , наблюдаемых данных, X . Это также называется функцией риска [11] [12] [13] [14] правила принятия решения δ и параметра θ . Здесь правило принятия решения зависит от результата X . Функция риска задается как:
Здесь θ — фиксированное, но, возможно, неизвестное состояние природы, X — вектор наблюдений, стохастически полученных из популяции , — ожидание по всем значениям популяции X , dP θ — вероятностная мера по пространству событий X ( параметризованная θ ), а интеграл вычисляется по всему носителю X.
В байесовском подходе ожидание рассчитывается с использованием априорного распределения π * параметра θ :
где m(x) известно как прогнозируемое правдоподобие , где θ было «интегрировано», π * (θ | x) является апостериорным распределением, и порядок интегрирования был изменен. Затем следует выбрать действие a * , которое минимизирует эту ожидаемую потерю, которая называется байесовским риском [12] . В последнем уравнении подынтегральное выражение внутри dx известно как апостериорный риск , и его минимизация относительно решения a также минимизирует общий байесовский риск. Это оптимальное решение, a * известно как правило (решения) Байеса — оно минимизирует среднюю потерю по всем возможным состояниям природы θ, по всем возможным (взвешенным по вероятности) результатам данных. Одним из преимуществ байесовского подхода является то, что нужно выбрать только оптимальное действие в соответствии с фактическими наблюдаемыми данными, чтобы получить равномерно оптимальное, тогда как выбор фактического частотного оптимального правила принятия решения как функции всех возможных наблюдений является гораздо более сложной задачей. Однако не менее важно то, что правило Байеса учитывает результаты потерь при различных состояниях природы, θ.
В экономике принятие решений в условиях неопределенности часто моделируется с использованием функции полезности фон Неймана–Моргенштерна неопределенной переменной интереса, такой как богатство на конец периода. Поскольку значение этой переменной неопределенно, неопределенным является и значение функции полезности; именно ожидаемое значение полезности максимизируется.
Правило принятия решения делает выбор, используя критерий оптимальности. Некоторые часто используемые критерии:
Надежная статистическая практика требует выбора оценщика, соответствующего фактическому приемлемому изменению, испытываемому в контексте конкретной прикладной проблемы. Таким образом, в прикладном использовании функций потерь выбор статистического метода для моделирования прикладной проблемы зависит от знания потерь, которые будут иметь место из-за ошибки в конкретных обстоятельствах проблемы. [15]
Распространенный пример включает оценку " местоположения ". При типичных статистических предположениях среднее значение или усреднение является статистикой для оценки местоположения, которая минимизирует ожидаемые потери, испытываемые при квадратично-ошибочной функции потерь, в то время как медиана является оценщиком, который минимизирует ожидаемые потери, испытываемые при абсолютно-разностной функции потерь. Тем не менее, другие оценщики были бы оптимальными при других, менее распространенных обстоятельствах.
В экономике, когда агент нейтрален к риску , целевая функция просто выражается как ожидаемое значение денежной величины, такой как прибыль, доход или богатство на конец периода. Для агентов, не склонных к риску или любящих риск , убыток измеряется как отрицательное значение функции полезности , а целевая функция, которая должна быть оптимизирована, является ожидаемым значением полезности.
Возможны и другие показатели затрат, например, смертность или заболеваемость в сфере общественного здравоохранения или техники безопасности .
Для большинства алгоритмов оптимизации желательно иметь функцию потерь, которая является глобально непрерывной и дифференцируемой .
Две очень часто используемые функции потерь — это квадратные потери , и абсолютные потери , . Однако абсолютные потери имеют тот недостаток, что они не дифференцируемы при . Квадратные потери имеют тот недостаток, что они имеют тенденцию доминировать над выбросами — при суммировании по набору (как в ) конечная сумма имеет тенденцию быть результатом нескольких особенно больших значений a , а не выражением среднего значения a .
Выбор функции потерь не является произвольным. Он весьма ограничителен, и иногда функция потерь может характеризоваться ее желательными свойствами. [16] К принципам выбора относятся, например, требование полноты класса симметричных статистик в случае iid наблюдений, принцип полной информации и некоторые другие.
В. Эдвардс Деминг и Нассим Николас Талеб утверждают, что эмпирическая реальность, а не хорошие математические свойства, должны быть единственной основой для выбора функций потерь, а реальные потери часто не являются математически хорошими и не являются дифференцируемыми, непрерывными, симметричными и т. д. Например, человек, который прибывает до закрытия ворот самолета, все еще может сесть на самолет, но человек, который прибывает после, не может, разрыв и асимметрия, которые делают прибытие с небольшим опозданием гораздо более дорогостоящим, чем прибытие с небольшим ранним временем. При дозировке лекарств стоимостью слишком малого количества лекарства может быть отсутствие эффективности, в то время как стоимостью слишком большого количества может быть терпимая токсичность, еще один пример асимметрии. Движение, трубы, балки, экология, климат и т. д. могут выдерживать повышенную нагрузку или стресс с небольшими заметными изменениями до определенной точки, а затем становятся забитыми или катастрофически ломаются. Такие ситуации, утверждают Деминг и Талеб, обычны в реальных задачах, возможно, более распространены, чем классические гладкие, непрерывные, симметричные, дифференциальные случаи. [17]