stringtranslate.com

Пифагорейское ожидание

Пифагорейское ожидание — это формула спортивной аналитики, разработанная Биллом Джеймсом для оценки процента игр, которые бейсбольная команда «должна» выиграть, на основе количества набранных и пропущенных очков . Сравнение фактического и пифагорейского процента побед команды можно использовать для прогнозирования и оценки того, какие команды показывают более высокие и низкие результаты. Название формулы происходит от сходства с теоремой Пифагора . [1]

Основная формула:

где Win Ratio — это коэффициент выигрышей, полученный по формуле. Ожидаемое количество выигрышей будет равно ожидаемому коэффициенту выигрышей, умноженному на количество сыгранных игр.

Эмпирическое происхождение

Эмпирически эта формула довольно хорошо коррелирует с тем, как на самом деле играют бейсбольные команды. Однако статистики с момента изобретения этой формулы обнаружили, что она имеет довольно рутинную ошибку, обычно примерно на три игры меньше.

Например, в 2002 году «Нью-Йорк Янкиз» набрали 897 очков и пропустили 697 очков: согласно оригинальной формуле Джеймса, «Янкиз» должны были закончить сезон с процентом побед 0,624.

Исходя из 162 игр сезона, «Янкиз» 2002 года должны были закончить сезон со счетом 101–61: на самом деле они закончили сезон со счетом 103–58. [2]

В попытках исправить эту обычную ошибку статистики провели многочисленные поиски идеального показателя степени.

Если использовать показатель степени с одним числом, то наиболее точным является 1,83, и именно его использует baseball-reference.com. [3] Таким образом, обновленная формула выглядит следующим образом:

Наиболее широко известна формула Пифагенпорта [4], разработанная Клэем Дэвенпортом из Baseball Prospectus :

Он пришел к выводу, что показатель должен рассчитываться для данной команды на основе набранных очков, пропущенных очков и игр команды. Не сводя показатель к одному числу для команд в любом сезоне, Дэвенпорт смог сообщить о среднеквадратической ошибке 3,991 в отличие от среднеквадратической ошибки 4,126 для показателя 2. [4]

Менее известен, но столь же (если не более) эффективенФормула Пифагенпата , разработанная Дэвидом Смитом. [5]

Дэвенпорт выразил свою поддержку этой формуле, заявив:

После дальнейшего изучения я (Клей) пришел к выводу, что так называемый метод Смита/Патриота, он же Пифагенпат, подходит лучше. В нем X  = (( rs  +  ra )/ g ) 0,287 , хотя есть некоторая возможность для разногласий в показателе степени. В любом случае, это уравнение проще, элегантнее и дает лучший ответ в более широком диапазоне набранных очков, чем Пифагенпорт, включая обязательное значение 1 при 1 раунде. [6]

Эти формулы необходимы только в экстремальных ситуациях, когда среднее количество очков, набранных за игру, либо очень высокое, либо очень низкое. Для большинства ситуаций простое возведение каждой переменной в квадрат дает точные результаты.

Существуют некоторые систематические статистические отклонения между фактическим процентом побед и ожидаемым процентом побед, которые включают качество буллпена и удачу. Кроме того, формула имеет тенденцию к регрессии к среднему значению , поскольку команды, которые выигрывают много игр, как правило, недопредставлены формулой (это означает, что они «должны» выиграть меньше игр), а команды, которые проигрывают много игр, как правило, перепредставлены (они «должны» выиграть больше).

Ярким примером является « Техас Рейнджерс» 2016 года , которые превзошли свой прогнозируемый результат на 13 игр, закончив сезон со счетом 95-67 и имея ожидаемый показатель побед и поражений 82-80.

Победы «второго порядка» и «третьего порядка»

В своем отчете Adjusted Standings Report [7] Baseball Prospectus ссылается на различные «порядки» побед команды. Основной порядок побед — это просто количество выигранных игр. Однако, поскольку рекорд команды может не отражать ее истинный талант из-за удачи, были разработаны различные меры таланта команды.

Победы первого порядка, основанные на чистом дифференциале ранов , представляют собой количество ожидаемых побед, сгенерированных формулой "pythagenport" (см. выше). Кроме того, чтобы дополнительно отфильтровать искажения удачи, саберметристы могут также рассчитать ожидаемые набранные и пропущенные раны команды с помощью уравнения типа "runs created" (наиболее точным на уровне команды является Base Runs ). Эти формулы приводят к ожидаемому количеству ранов команды с учетом ее атакующей и оборонительной статистики (общее количество синглов, даблов, уоков и т. д.), что помогает устранить фактор удачи в порядке, в котором хиты и уоки команды пришлись на иннинг. Используя эту статистику, саберметристы могут рассчитать, сколько ранов команда "должна" была набрать или пропустить.

Подставляя эти ожидаемые набранные и пропущенные раны в формулу Пифагора, можно сгенерировать победы второго порядка, количество побед, которых заслуживает команда, на основе количества ранов, которые она должна была набрать и пропустить, учитывая их компонентную статистику нападения и защиты. Победы третьего порядка — это победы второго порядка, которые были скорректированы с учетом силы графика (качества подачи и ударов противника). Было показано, что процент побед второго и третьего порядка [ по мнению кого? ] предсказывает будущий фактический процент побед команды лучше, чем фактический процент побед и процент побед первого порядка. [ необходима ссылка ]

Теоретическое объяснение

Первоначально корреляция между формулой и фактическим процентом побед была просто экспериментальным наблюдением. В 2003 году Хайн Хундал предоставил неточный вывод формулы и показал, что показатель Пифагора был приблизительно равен 2/( σ π ), где σ было стандартным отклонением очков, набранных всеми командами, деленным на среднее количество очков. [8] В 2006 году профессор Стивен Дж. Миллер предоставил статистический вывод формулы [9] при некоторых предположениях относительно бейсбольных игр: если очки для каждой команды следуют распределению Вейбулла , а очки, набранные и пропущенные за игру, статистически независимы , то формула дает вероятность победы. [9]

Проще говоря, формула Пифагора с показателем 2 немедленно следует из двух предположений: что бейсбольные команды выигрывают пропорционально своему «качеству», и что их «качество» измеряется отношением их набранных очков к пропущенным очкам. Например, если команда A набрала 50 очков и пропустила 40, ее мера качества будет 50/40 или 1,25. Мера качества для ее (коллективного) соперника команды B в играх против A будет 40/50 (поскольку набранные очки A — это пропущенные очки B, и наоборот), или 0,8. Если каждая команда выигрывает пропорционально своему качеству, вероятность победы A будет 1,25 / (1,25 + 0,8), что равно 50 2  / (50 2  + 40 2 ), формула Пифагора. Такое же соотношение справедливо для любого количества набранных и пропущенных очков, что можно увидеть, записав вероятность «качества» как [50/40] / [50/40 + 40/50] и очистив дроби .

Предположение, что одна из мер качества команды определяется отношением набранных очков к пропущенным, является как естественным, так и правдоподобным; это формула, по которой определяются индивидуальные победы (игры). [Существуют и другие естественные и правдоподобные кандидаты на меры качества команды, которые, предполагая модель «качества», приводят к соответствующим формулам ожидания процента выигрыша, которые примерно так же точны, как и пифагорейские.] Предположение, что бейсбольные команды побеждают пропорционально своему качеству, не является естественным, но правдоподобно. Оно не является естественным, потому что степень, в которой спортивные участники побеждают пропорционально своему качеству, зависит от роли, которую случай играет в спорте. Если случай играет очень большую роль, то даже команда с гораздо более высоким качеством, чем ее противники, будет выигрывать лишь немного чаще, чем проигрывать. Если случай играет очень маленькую роль, то команда с лишь немного более высоким качеством, чем ее противники, будет выигрывать гораздо чаще, чем проигрывать. Последнее более характерно для баскетбола по разным причинам, в том числе и потому, что в нем набирается гораздо больше очков, чем в бейсболе (что дает команде с более высоким уровнем игры больше возможностей продемонстрировать это качество, и соответственно меньше возможностей для случая или удачи, которые позволили бы команде с более низким уровнем игры победить).

В бейсболе ровно столько шансов, сколько нужно, чтобы команды могли выиграть примерно пропорционально их качеству, то есть получить примерно пифагорейский результат с показателем два. Более высокий показатель баскетбола, около 14 (см. ниже), обусловлен меньшей ролью, которую случай играет в баскетболе. Тот факт, что наиболее точный (постоянный) показатель Пифагора для бейсбола составляет около 1,83, немного меньше 2, можно объяснить тем, что в бейсболе (по-видимому) шансов немного больше, чем позволило бы командам выиграть точно пропорционально их качеству. Билл Джеймс понял это давно, когда заметил, что улучшение точности его оригинальной формулы Пифагора с показателем два может быть достигнуто путем простого добавления некоторого постоянного числа к числителю и удвоенного постоянного числа к знаменателю. Это немного приближает результат к .500, что и произошло бы при немного большей роли случая, а также при использовании показателя 1,83 (или любого положительного показателя меньше двух). Можно попробовать различные варианты этой константы, чтобы увидеть, какой из них «лучше всего соответствует» реальным данным.

Тот факт, что наиболее точный показатель для бейсбольных формул Пифагора является переменной, зависящей от общего количества ранов за игру, также объясняется ролью случая, поскольку чем больше набрано общего количества ранов, тем меньше вероятность того, что результат будет обусловлен случайностью, а не более высоким качеством победившей команды, проявленным во время возможностей для набора очков. Чем больше показатель, тем дальше от процента побед .500 результат соответствующей формулы Пифагора, что является тем же эффектом, который создает уменьшенная роль случая. Тот факт, что точные формулы для переменных показателей дают большие показатели по мере увеличения общего количества ранов за игру, таким образом, согласуется с пониманием роли, которую случай играет в спорте.

В своем Baseball Abstract 1981 года Джеймс явно разработал еще одну из своих формул, названную формулой log5 (которая с тех пор доказала свою эмпирическую точность), используя понятие двух команд, имеющих процент побед лицом к лицу друг против друга пропорционально показателю «качества». Его показатель качества был половиной «коэффициента побед» команды (или «шансов на победу»). Коэффициент побед или шансы на победу — это отношение побед команды против лиги к ее поражениям против лиги. [Джеймс, похоже, не знал в то время, что его показатель качества можно выразить через коэффициент побед. Поскольку в модели качества любой постоянный фактор в показателе качества в конечном итоге отменяется, показатель качества сегодня лучше воспринимать просто как сам коэффициент побед, а не как его половину.] Затем он заявил, что формула Пифагора, которую он ранее разработал эмпирически для прогнозирования процента побед по ранам, была «тем же самым», что и формула log5, хотя и без убедительной демонстрации или доказательства. Его предполагаемая демонстрация того, что они были одинаковыми, сводилась к демонстрации того, что две разные формулы упрощаются до одного и того же выражения в частном случае, который сам по себе рассматривается неопределенно, и нет никакого признания того, что частный случай не является общим. Он также впоследствии не обнародовал для общественности никакой явной, основанной на качестве модели для формулы Пифагора. По состоянию на 2013 год в сообществе саберметристов все еще мало кто знает, что простая модель «команды выигрывают пропорционально качеству», использующая отношение ранов в качестве меры качества, приводит непосредственно к оригинальной формуле Пифагора Джеймса.

В аннотации 1981 года Джеймс также говорит, что он сначала пытался создать формулу «log5», просто используя проценты побед команд вместо забегов в формуле Пифагора, но это не дало достоверных результатов. Причина, неизвестная Джеймсу в то время, заключается в том, что его предпринятая формулировка подразумевает, что относительное качество команд задается отношением их процентов побед. Однако это не может быть правдой, если команды выигрывают пропорционально их качеству, поскольку команда .900 выигрывает у своих противников, чей общий процент побед составляет примерно .500, в соотношении 9 к 1, а не в соотношении 9 к 5 их процентов побед .900 к .500. Эмпирическая неудача его попытки привела к его окончательному, более окольному (и изобретательному) и успешному подходу к log5, который все еще использовал соображения качества, хотя и без полной оценки предельной простоты модели и ее более общей применимости и истинного структурного сходства с его формулой Пифагора.

Использование в баскетболе

Американский спортивный руководитель Дэрил Мори был первым, кто адаптировал пифагорейское ожидание Джеймса к профессиональному баскетболу, работая исследователем в STATS, Inc. Он обнаружил, что использование 13,91 для показателей степени дает приемлемую модель для прогнозирования процентного соотношения побед и поражений:

«Модифицированная теорема Пифагора» Дэрила была впервые опубликована в журнале STATS Basketball Scoreboard за 1993–94 годы . [10]

Известный баскетбольный аналитик Дин Оливер также применил теорию Пифагора Джеймса к профессиональному баскетболу. Результат был схожим.

Другой известный баскетбольный статистик , Джон Холлингер , использует похожую формулу Пифагора, за исключением того, что в качестве показателя степени используется число 16,5.

Использование в Национальной футбольной лиге

Формула также использовалась в Национальной футбольной лиге на сайте футбольной статистики и издательстве Football Outsiders , где она известна как проекция Пифагора .

Формула используется с показателем 2,37 и дает прогнозируемый процент побед. Затем этот процент побед умножается на 17 (на количество игр, сыгранных в сезоне НФЛ с 2021 года), чтобы получить прогнозируемое количество побед. Это прогнозируемое число, заданное уравнением, называется пифагорейскими победами.

В издании Football Outsiders Almanac за 2011 год [11] говорится: «С 1988 по 2004 год 11 из 16 Суперкубков были выиграны командой, которая лидировала в НФЛ по пифагорейским победам, в то время как только семь из них были выиграны командой с наибольшим количеством реальных побед. Чемпионами Суперкубка, которые лидировали в лиге по пифагорейским победам, но не по фактическим победам, являются Patriots 2004 года , Ravens 2000 года , Rams 1999 года и Broncos 1997 года ».

Хотя Football Outsiders Almanac признает, что формула была менее успешной при выборе участников Суперкубка в 2005–2008 годах, она вновь заявила о себе в 2009 и 2010 годах. Более того, «[п]ифагорейская проекция также по-прежнему является ценным предсказателем ежегодного улучшения. Команды, которые выигрывают как минимум на одну полную игру больше, чем их пифагорейская проекция, как правило, регрессируют в следующем году; команды, которые выигрывают как минимум на одну полную игру меньше, чем их пифагорейская проекция, как правило, улучшаются в следующем году, особенно если они были на уровне или выше 0,500, несмотря на свои неудовлетворительные результаты.

Например, в 2008 году «Нью-Орлеан Сэйнтс» одержали 8–8 побед, несмотря на 9,5 пифагорейских побед, что намекает на улучшение, которое произошло в чемпионском сезоне следующего года ».

В этом отношении « Миннесота Вайкингс» 2022 года были настоящим исключением, одержав победу со счетом 13-4, несмотря на 8,4 победы по пифагорейскому методу. [12]

Использование в хоккее с шайбой

В 2013 году статистик Кевин Даяратна и математик Стивен Дж. Миллер представили теоретическое обоснование применения пифагорейского ожидания к хоккею с шайбой. В частности, они обнаружили, что, делая те же предположения, которые Миллер сделал в своем исследовании 2007 года о бейсболе, а именно, что забитые и пропущенные голы следуют статистически независимым распределениям Вейбулла , пифагорейское ожидание работает так же хорошо для хоккея с шайбой, как и для бейсбола. Исследование Даяратны и Миллера подтвердило статистическую обоснованность этих предположений и оценило показатель Пифагора для хоккея с шайбой как немного выше 2. [13]

Смотрите также

Примечания

  1. ^ "The Game Designer: Pythagoras Explained". 29 мая 2012 г. Получено 7 мая 2016 г.
  2. ^ "2002 New York Yankees". Baseball-Reference.com . Получено 7 мая 2016 .
  3. ^ "Часто задаваемые вопросы". Baseball-Reference.com . Получено 7 мая 2016 .
  4. ^ ab "Baseball Prospectus – Revisiting the Pythagorean Theorem". Baseball Prospectus . 30 июня 1999 г. Получено 7 мая 2016 г.
  5. ^ "W% Estimators" . Получено 7 мая 2016 г. .
  6. ^ "Baseball Prospectus – Glossary" . Получено 7 мая 2016 г. .
  7. ^ "Baseball Prospectus - Adjusted Standings" . Получено 7 мая 2016 г. .
  8. ^ Хундал, Хайн. «Вывод формулы Пифагора Джеймса (длинная)».
  9. ^ ab Miller (2007). «Вывод пифагорейской формулы выигрыша-проигрыша в бейсболе». Chance . 20 : 40–48. arXiv : math/0509698 . Bibcode : 2005math......9698M. doi : 10.1080/09332480.2007.10722831. S2CID  8103486.
  10. ^ Дьюэн, Джон; Зминда, Дон; STATS, Inc. Staff (октябрь 1993 г.). STATS Basketball Scoreboard, 1993-94 . STATS, Inc. стр. 17. ISBN 0-06-273035-5.
  11. ^ Футбольный аутсайдерский альманах 2011 ( ISBN 978-1-4662-4613-3 ), стр.xviii 
  12. ^ "2022 Minnesota Vikings Advanced Stats". Pro-Football-Reference.com . Получено 2023-11-02 .
  13. ^ Дайаратна, Кевин; Миллер, Стивен Дж. (2013). «Пифагорейская формула выигрыша-проигрыша и хоккей: статистическое обоснование использования классической бейсбольной формулы в качестве оценочного инструмента в хоккее» (PDF) . The Hockey Research Journal 2012/13 . XVI : 193–209.

Внешние ссылки