stringtranslate.com

ПЕКОТА

PECOTA , аббревиатура от Player Empirical Comparison and Optimization Test Algorithm , [1] — это саберметрическая система прогнозирования результатов игроков Высшей лиги бейсбола . Это слово является бэкронимом, основанным на имени игрока высшей лиги Билла Пекоты , который, имея средний показатель отбивания за всю жизнь .249, возможно, является типичным представителем PECOTA. PECOTA была разработана Нейтом Сильвером в 2002–2003 годах и представлена ​​публике в книге Baseball Prospectus 2003. [ 2] Baseball Prospectus (BP) владеет PECOTA с 2003 года; Сильвер управлял PECOTA с 2003 по 2009 год. Начиная с весны 2009 года, BP взяла на себя ответственность за составление ежегодных прогнозов, сделав 2010 год первым бейсбольным сезоном, в котором Сильвер не принимал участия в составлении прогнозов PECOTA. [3]

Одна из нескольких широко разрекламированных статистических систем прогнозирования результатов игроков, прогнозы игроков PECOTA продаются BP как продукт фэнтези-бейсбола . С 2003 года ежегодные прогнозы PECOTA публиковались как в ежегодных книгах Baseball Prospectus , так и, в более подробной форме, на веб-сайте BaseballProspectus.com, работающем по подписке. [4] PECOTA также вдохновила некоторые аналогичные системы прогнозирования для других профессиональных видов спорта: KUBIAK для Национальной футбольной лиги , SCHOENE [5] и CARMELO [6] для Национальной баскетбольной ассоциации и VUKOTA [7] для Национальной хоккейной лиги .

PECOTA прогнозирует производительность игрока во всех основных категориях, используемых в типичных фэнтезийных бейсбольных играх; он также прогнозирует производительность в расширенных саберметрических категориях, разработанных Baseball Prospectus (например, VORP и EqA ). Кроме того, PECOTA прогнозирует несколько сводных диагностик, таких как показатели прорыва, показатели улучшения и показатели отсева, а также рыночную стоимость игроков. Логика и методология, лежащие в основе PECOTA, были описаны в нескольких публикациях, но подробные формулы являются собственностью и не были переданы сообществу исследователей бейсбола. [ необходима цитата ]

Методология

Сильвер описал вдохновение для своего подхода следующим образом:

Основная идея PECOTA на самом деле является слиянием двух разных вещей – работы [Билла] Джеймса по показателям схожести и работы Гэри Хаккабея по Владу, предыдущей системе прогнозирования [Baseball Prospectus], которая пыталась распределить игроков по нескольким различным карьерным путям. [8] Я думаю, Гэри использовал что-то около тринадцати или пятнадцати отдельных карьерных путей, и все, что PECOTA на самом деле делает, это доводит это до логической крайности, где по сути есть отдельный карьерный путь для каждого игрока в истории высшей лиги. Показатели сопоставимости – это механизм, с помощью которого он выбирает и выбирает из этих карьерных путей. [9]

Аналогичные игроки

PECOTA полагается на подгонку прошлых показателей игрока к показателям «сопоставимых» игроков Высшей лиги с помощью оценок сходства . Как описано в глоссарии веб-сайта Baseball Prospectus: [10]

PECOTA сравнивает каждого игрока с базой данных, содержащей около 20 000 сезонов отбивающих в высшей лиге со времен Второй мировой войны. Кроме того, она также опирается на базу данных, содержащую около 15 000 переведенных сезонов низшей лиги (1997–2006) для игроков, которые провели большую часть своего предыдущего сезона в низших лигах. ... PECOTA рассматривает четыре общие категории атрибутов при определении сопоставимости игрока: [ необходима цитата ]

1. Показатели производительности — такие как средний показатель отбивания, изолированная сила и показатель непреднамеренных уоков для отбивающих или показатель страйкаутов и показатель граундбола для питчеров.

2. Показатели использования, включая продолжительность карьеры, количество появлений на поле или количество сыгранных иннингов.

3. Фенотипические характеристики, включая леворукость, рост, вес, продолжительность карьеры (для игроков высшей лиги) и уровень в низшей лиге (для перспективных игроков).

4. Позиция на поле (для отбивающих) или стартовая/релефная роль (для питчеров). ... В большинстве случаев база данных достаточно велика, чтобы предоставить осмысленно большой набор соответствующих сопоставимых данных. Когда это не так, программа разработана так, чтобы «обманывать», расширяя свою толерантность к непохожим игрокам, пока не будет достигнут разумный размер выборки.

PECOTA использует анализ ближайшего соседа , чтобы сопоставить отдельного игрока с набором других игроков, которые наиболее похожи на него. Хотя PECOTA опирается на базовую концепцию оценок сходства Билла Джеймса , она вычисляет эти оценки особым способом, что приводит к совершенно иному набору «сравнимых», чем метод Джеймса. [11] Кроме того, Сильвер описывает следующую отличительную особенность:

Оценки сходства PECOTA в первую очередь основаны на трехлетнем окне производительности питчера. Таким образом, мы можем посмотреть, что питчер делал в возрасте 35–37 лет, и сравнить это с наиболее похожими результатами в возрасте 35–37 лет, после корректировки на парки, эффекты лиги и целый ряд других факторов. Это отличается от оценок сходства, которые вы можете увидеть на baseball-reference.com или в других местах, которые пытаются оценить всю карьеру игрока до определенного возраста. [12]

После того, как набор «сопоставимых» игроков определен для каждого игрока, его будущий прогноз производительности основывается на исторической производительности его «сопоставимых». Например, прогноз производительности 26-летнего игрока в предстоящем сезоне будет основан на том, как выступили наиболее сопоставимые 26-летние игроки Высшей лиги в своем последующем сезоне.

Для бьющих и питчеров разрабатываются отдельные наборы прогнозов.

Периферийная статистика

PECOTA также во многом полагается на использование периферийной статистики для прогнозирования будущей производительности данного игрока. Например, опираясь на идеи, полученные в результате использования статистики питчинга, независимой от защиты , PECOTA прогнозирует будущую производительность питчера в данной области, используя информацию о его прошлой производительности в других областях. [13] Как пишет бейсбольный аналитик и журналист Алан Шварц , «Сильвер ... разработал сложный алгоритм дисперсии, который исследовал статистику каждого питчера высшей лиги с 1946 года, чтобы определить, какие числа лучше всего прогнозируют эффективность, в частности, средний заработанный пробег . Его выводы противоречат интуиции большинства фанатов. «Когда вы пытаетесь предсказать будущие ERA с прошлыми ERA, вы совершаете ошибку», - сказал Сильвер. Сильвер обнаружил, что наиболее предсказательной статистикой, с большим отрывом, являются процент страйкаутов питчера и процент уоков. Пропущенные хоумраны, левые-правые разрывы и другие данные мало что говорят о будущем питчера». [14]

Распределение вероятностей

Вместо того, чтобы сосредоточиться на точечных оценках будущих результатов игрока (таких как средний показатель отбивания, хоумраны и страйкауты), PECOTA полагается на исторические результаты «сопоставимых» игроков данного игрока, чтобы создать распределение вероятностей прогнозируемых результатов данного игрока в течение следующих пяти лет. Алан Шварц подчеркнул эту особенность PECOTA: «Что отличает Pecota от стаи систем прогнозирования, которые аутсайдеры разрабатывали на протяжении многих десятилетий, так это то, как она распознает, даже выставляет напоказ, неопределенность прогнозирования навыков игрока. Вместо того, чтобы генерировать одну строку ожидаемой статистики, Pecota представляет семь — некоторые оптимистичные, некоторые пессимистичные — каждая со своим собственным уровнем уверенности. Система очень похожа на прогнозирование путей ураганов: игроки могут пойти во многих направлениях, поэтому готовиться только к одному — глупо». [15] Сильвер написал:

Эта процедура требует от нас привыкнуть к вероятностному мышлению. Хотя большинство игроков определенного типа могут прогрессировать определенным образом — скажем, рано достигать пика — всегда будут исключения. Более того, сопоставимые игроки не всегда могут выступать в соответствии со своим истинным уровнем способностей. Иногда они будут казаться выше его в каком-то конкретном сезоне, а иногда не дотягивать из-за проблем с размером выборки, которые мы описали ранее.

PECOTA учитывает такие факторы, создавая не одну точку прогноза, как это делают другие системы, а скорее диапазон возможных результатов, которые игрок может ожидать получить на разных уровнях вероятности. Вместо того, чтобы говорить вам, что пойдет дождь, мы говорим вам, что вероятность дождя составляет 80%, потому что в 80% случаев, когда эти атмосферные условия возникали во вторник, в среду шел дождь. [ необходима цитата ]

Конечно, этот подход сложнее, чем стандартный метод применения возрастной корректировки, основанной на «среднем» ходе развития всех игроков на протяжении истории. Однако он также намного более репрезентативен для реальности и более точен. [16]

Командные усилия

Хотя Сильвер был создателем PECOTA, создание прогнозов PECOTA было командной работой: «Я могу быть „парнем PECOTA“, но это во многом командная работа», — сказал Сильвер о персонале BP. «Мы все этим занимаемся. Это мое детище, но для управления PECOTA требуется целая деревня». [17] Например, PECOTA опирается на переводы Клэя Дэвенпорта (так называемые переводы Дэвенпорта или DT) статистики низшей лиги и международного бейсбола, чтобы оценить эквивалентную выступление каждого игрока в высшей лиге. [18] Таким образом, PECOTA может делать прогнозы для более чем 1600 игроков каждый год, включая многих игроков с небольшим или нулевым опытом в высшей лиге.

Предсезонные прогнозы 2009 года были последними, за которые Сильвер взял на себя основную ответственность. В марте 2009 года Сильвер объявил, что чрезвычайно сложный и трудоемкий набор манипуляций с базой данных и расчетов PECOTA будет перемещен на другую платформу . Хотя Baseball Prospectus был владельцем PECOTA с тех пор, как Сильвер продал его им в 2003 году, а Сильвер руководил и брал на себя ответственность за прогнозы, с этого момента прогнозы PECOTA будут создаваться командой Baseball Prospectus, изначально с Клэем Дэвенпортом, отвечающим за работу, [19] а затем, в течение сезона 2013 года, с Колином Уайерсом, возглавляющим как производство, так и усовершенствования в PECOTA. [3]

Альтернативные системы прогнозирования

Большинство других популярных систем прогнозирования не используют подход «сравнимых игроков». Вместо этого большинство полагаются на прямые проекции прошлых результатов игрока на его будущие результаты, как правило, используя в качестве базовой линии средневзвешенное значение результатов игрока за предыдущие три года. Как и PECOTA, многие из этих систем также корректируют прогнозы с учетом старения, эффектов парка и регрессии к среднему значению . Как и PECOTA, они также могут корректировать с учетом соревновательной сложности каждой из двух основных лиг. [20] Однако системы отличаются друг от друга типами и интенсивностью корректировок возраста, оценок эффекта регрессии, корректировок парка и корректировок сложности лиги, которые они могут делать, а также тем, используют ли они оценки сходства. [21] PECOTA также делает прогнозы для гораздо большего количества игроков, чем другие системы, потому что PECOTA опирается на скорректированную статистику низшей лиги, а также на статистику высшей лиги и пытается делать прогнозы для всех игроков в расширенных составах высшей лиги (40 игроков в команде), а также для других перспективных игроков . [ необходима ссылка ]

Начиная с 2000 года, Cleveland Indians разработали собственную аналитическую базу данных под названием DiamondView для оценки разведывательной информации, собранной командой; эта система позже включила показатели эффективности игроков и финансовые показатели для целей оценки и прогнозирования эффективности всех игроков высшей лиги. [22] В течение 2008–2009 годов Pittsburgh Pirates занимались разработкой MITT («Управление, информация, инструменты и таланты»), собственной базы данных, которая объединяет отчеты разведки, медицинскую и контрактную информацию, а также статистику и прогнозы эффективности. [23]

Обновления и изменения

Впервые представленные в 2003 году, [24] прогнозы PECOTA составляются каждый год и публикуются как в ежегодных монографиях Baseball Prospectus , так и на веб-сайте BaseballProspectus.com. PECOTA претерпела несколько улучшений с 2003 года. Версия 2006 года представила метрики для рыночной оценки игроков на основе прогнозируемых уровней производительности. Версия 2007 года представила корректировки для эффектов лиги, чтобы учесть различия в конкурентной среде двух основных лиг. [25] Обновление 2008 года учитывало различия в производительности игроков в течение первой и второй половины предыдущего сезона, а также разделение на взводы (насколько хорошо игрок выступал против отбивающих или питчеров, которые были левшами или правшами). [26] Оно также учитывало бег по базам. [27] В 2009 году Baseball Prospectus представил прогнозы PECOTA в течение сезона, чтобы обновить и дополнить свои прогнозы на начало сезона. [28] В 2012 году PECOTA существенно изменила способ взвешивания результатов прошлых лет при установлении базового уровня для прогнозов. [29] Кроме того, 10-летние прогнозы и процентильные прогнозы были добавлены к индивидуальным карточкам PECOTA игроков, которые публикуются в Интернете. [30]

Точность

Хотя Baseball Prospectus рекламирует PECOTA как «смертельно точную», все системы прогнозирования подвержены значительной неопределенности. Сравнение показало, что PECOTA превзошла несколько других систем прогнозирования в сезоне 2006 года в прогнозировании OPS . Она показала себя почти так же хорошо, как и лучшие из других систем в прогнозировании ERA . [31] Хотя прогнозы PECOTA делаются для более чем 1000 отбивающих каждый сезон, оценка системы включала лишь немногим более 100 игроков, у которых было не менее 500 AB высшей лиги и которые также были включены в прогнозы другими системами. Собственное сравнение Нейта Сильвера производительности альтернативных систем прогнозирования для отбивающих в 2007 году также показало, что PECOTA лидировала в этом поле, хотя несколько других были близки. [32]

Хотя PECOTA была разработана в первую очередь для прогнозирования индивидуальных результатов игроков, она также применялась для прогнозирования результатов команд . Для этой цели были созданы прогнозируемые диаграммы глубины команды с прогнозируемым временем игры для каждого члена команды, опираясь на экспертные советы сотрудников Baseball Prospectus. Количество очков, которые команда наберет и пропустит в течение предстоящего сезона, оценивается на основе игрового времени и прогнозируемой PECOTA индивидуальной эффективности каждого игрока с использованием алгоритма «Marginal Lineup Value», созданного Дэвидом Тейтом и далее разработанного Кейтом Вулнером . [33] Ожидаемые победы команды основаны на применении улучшенной версии формулы Пифагора Билла Джеймса к предполагаемому количеству очков, набранных и пропущенных составом игроков при заданных предположениях о времени игры. [34]

PECOTA использовалась в предсезонных прогнозах [35] того, сколько побед одержат команды, и в моделировании в середине сезона количества побед, которых одержит каждая команда, и ее шансов на выход в плей-офф. [36] В 2006 году предсезонные прогнозы PECOTA выгодно отличались от других систем прогнозирования (включая коэффициенты ставок на Лас-Вегас ) в прогнозировании количества побед, которые команды заработают в течение сезона. [37] Независимая оценка веб-сайта Vegas Watch показала, что PECOTA имела самую низкую ошибку в прогнозировании побед команд Высшей лиги в 2008 году из всех наиболее известных прогнозов, как тех, которые были основаны на саберметрии, так и тех, которые полагались на индивидуальный опыт. [38] Однако в 2009 году PECOTA отставала от всех известных прогнозистов. [39]

Сводка по сезонам 2003-2007 годов показывает, что средняя ошибка PECOTA между прогнозируемыми и фактическими победами команды снизилась: [40] 2003 год — 5,91 побед; 2004 год — 7,71 побед; 2005 год — 5,14 побед; 2006 год — 4,94 побед; 2007 год — 4,31 побед. Сильвер предполагает, что улучшение частично произошло из-за учета защиты в прогнозах, начиная с 2005 года. В 2008 году средняя ошибка составила 8,5 побед. [41]

Ссылки

  1. ^ "Baseball Prospectus | Глоссарий". www.baseballprospectus.com . Получено 2016-05-05 .
  2. Нейт Сильвер, «Знакомство с PECOTA», в книге Гари Хаккебея, Криса Карля , Дэйва Пиза и др. , редакторы, Baseball Prospectus 2003 (Даллес, Вирджиния: Brassey's Publishers, 2003): 507–514.
  3. ^ ab Нейт Сильвер и Кевин Голдштейн, «Состояние проспекта: весна 2009 г.», BaseballProspectus.com, 24 марта 2009 г. Архивировано 27 марта 2009 г. на Wayback Machine .
  4. ^ Иллюстративные оценки и «карточки» PECOTA доступны для ознакомления лицам, не являющимся подписчиками, здесь: http://www.baseballprospectus.com/pecota/.
  5. Кевин Пелтон, «Представляем SCHOENE: нашу систему проецирования НБА», BasketballProspectus.com (20 октября 2008 г.)
  6. Сильвер, Нейт (9 октября 2015 г.). «Мы предсказываем карьеру каждого игрока НБА. Вот как». FiveThirtyEight . Получено 29 февраля 2016 г.
  7. Томас Авад, «Представляем VUKOTA», PuckProspectus.com (20 июля 2009 г.).
  8. Гэри Хаккабей, «6–4–3: Стандарт разумного человека», BaseballProspectus.com, 2 августа 2002 г.
  9. Рич Ледерер, «Неотфильтрованное интервью с Нейтом Сильвером», Baseball Analysts, 12 февраля 2007 г.
  10. ^ "Бейсбольный проспект | Глоссарий". legacy.baseballprospectus.com .
  11. ^ Это различие объяснено и проиллюстрировано в работе Нейта Сильвера «Введение в PECOTA», Baseball Prospectus 2003 , цитируемой выше.
  12. ^ http://www.baseballprospectus.com/unfiltered/?p=136. Также см. статью в глоссарии Baseball Prospectus для «Сравнимых игроков».
  13. ^ См . PERA для примера использования периферийной статистики для оценки производительности.
  14. Алан Шварц , «Цифры указывают на то, что «Метс» делают ставку на Замбрано», New York Times , 22 августа 2004 г.
  15. Алан Шварц, «Прогнозирование будущего в бейсболе и недостатки Дэймона», New York Times , 13 ноября 2005 г.
  16. Нейт Сильвер, «Основы бейсбольного проспекта: наука прогнозирования», BaseballProspectus.com, 11 марта 2004 г.
  17. Уильям Хейгеман, «Бейсбол в цифрах», Chicago Tribune , 4 января 2006 г.
  18. См. Клэй Дэвенпорт, «DT против MLE — исследование валидации», BaseballProspectus.com, 30 января 1998 г.; Клэй Дэвенпорт, «Переводы зимней и осенней лиг: насколько хороши эти лиги, вообще?», BaseballProspectus.com, 27 января 2004 г.; и Клэй Дэвенпорт, «Вон там! Второй обзор перевода японской статистики и перевода мексиканской лиги», Baseball Prospectus 2004 (Нью-Йорк: Workman, 2004): 585–590.
  19. См., например, Клэй Дэвенпорт, «Графики глубины», BaseballProspectus.com, 13 мая 2009 г.
  20. ^ Корректировка возраста PECOTA подразумевается в траектории «будущих» результатов набора исторических «сопоставимых» игроков.
  21. ^ Среди основных альтернативных статистически обоснованных систем прогнозирования в настоящее время находятся проекции Марселя Тома Танго (доступные и задокументированные для 2007 года в The Hardball Times); Diamond Mind Baseball , также описанные в статье ESPN.com о прогнозах команд 2007 года; Baseball HQ Рона Шендлера и его ежегодная книга Baseball Forecaster ; предсезонные прогнозы The Hardball Times , представленные в сезоне 2007 года; «Chone Projections» Чона Смита, опубликованные на веб-сайте Fangraphs.com; Baseball Info Solutions – BIS; и «ZiPS» Projections Дэна Шимборски . Список известных систем прогнозирования по состоянию на 2014 год, включая «Steamer», см. в этом резюме Fangraphs : «Projection Systems».
  22. ^ "cleveland.com: The Game Plan". Архивировано из оригинала 10 декабря 2007 г.
  23. Пэт Митч, «Пираты надеются, что «MITT» станет популярным», Pittsburgh Tribune-Review, 19 июля 2009 г. Архивировано 22 июля 2009 г. на Wayback Machine .
  24. Нейт Сильвер, «Знакомство с PECOTA», Baseball Prospectus 2003 , цитировалось ранее.
  25. ^ «Беседа о бейсбольном проспекте: Нейт Сильвер», BaseballProspectus.com, 19 января 2007 г.
  26. Стивен Голдман и Кристина Карль , редакторы, Baseball Prospectus 2008 (Нью-Йорк: Plume, 2008), стр. viii–ix.
  27. Нейт Сильвер, «Является ли бег по бейсбольной площадке навыком?» BaseballProspectus.com, 29 ноября 2007 г.
  28. Эрик Сейдман, «PECOTA в сезон», BaseballProspectus.com, 23 июля 2009 г.
  29. Колин Уайерс, «Повторное введение PECOTA: взвешивание — самая сложная часть», BaseballProspectus.com, 8 февраля 2012 г.
  30. Колин Уайерс, «Повторное введение PECOTA», BaseballProspectus.com, 12 марта 2012 г.
  31. ^ Чон Смит http://lanaheimangelfan.blogspot.com/2006/12/pecota.html
  32. Нейт Сильвер, «Обзор прогнозов отбивающих 2007 года», BaseballProspectus.com (4 октября 2007 г.).
  33. ^ Кит Вулнер , «Предельная стоимость состава», StatHead.com.
  34. ^ О формуле Пифагенпорта см. Clay Davenport и Keith Woolner , "Revisiting the Pythagorean Theorem: Putting Bill James' Pythagorean Theorem To the Test," BaseballProspectus.com, 30 июня 1999 г., а также статью в глоссарии Baseball Prospectus для "Pythagenport"[1]. О построении диаграмм глубины для каждой команды и применении PECOTA для оценки побед команд см. Nate Silver, "PECOTA Projects the American League," BaseballProspectus.com, 21 марта 2005 г.; и Nate Silver, "PECOTA Breaks Hearts," BaseballProspectus.com, 29 марта 2006 г.
  35. ^ например, Клей Дэвенпорт, «Прогнозируемое положение PECOTA: прогнозирование сезона 2009 года», BaseballProspectus.com, 19 февраля 2009 г.
  36. См. Клэй Дэвенпорт, «Отчет о коэффициентах плей-офф: добавление PECOTA», BaseballProspectus.com, 3 мая 2006 г. и Baseball Prospectus Statistics.
  37. Нейт Сильвер, «Проекция отражения», BaseballProspectus.com, 11 октября 2006 г.
  38. ^ «Оценка прогнозов MLB на апрель (2008 г.)», VegasWatch.net, 21 сентября 2008 г. и 28 сентября 2008 г.
  39. ^ «Оценка прогнозов MLB на апрель (2009)», VegasWatch, 28 сентября 2009 г.
  40. Нейт Сильвер, «Смельчаки, ангелы имеют больше всего сердца», BaseballProspectus.com, 10 марта 2007 г.
  41. ^ «Захват PECOTA», VegasWatch.net, 8 февраля 2009 г.

Источники