Система спортивных рейтингов — это система, которая анализирует результаты спортивных соревнований для предоставления рейтингов для каждой команды или игрока. Обычные системы включают опросы экспертов-голосователей, краудсорсинг неэкспертных избирателей, рынки ставок и компьютерные системы. Рейтинги, или рейтинги мощности , являются числовыми представлениями конкурентной силы, часто напрямую сопоставимыми, так что исход игры между любыми двумя командами может быть предсказан. Рейтинги , или рейтинги мощности , могут быть предоставлены напрямую (например, путем просьбы людей ранжировать команды), или могут быть получены путем сортировки рейтингов каждой команды и присвоения порядкового ранга каждой команде, так что команда с самым высоким рейтингом получает ранг № 1. Рейтинговые системы предоставляют альтернативу традиционным спортивным турнирным таблицам , которые основаны на соотношении побед-поражений-ничей.
В Соединенных Штатах наибольшее применение спортивных рейтинговых систем — это рейтинг студенческих футбольных команд NCAA в дивизионе I FBS , выбор команд для участия в плей-офф студенческого футбола . Спортивные рейтинговые системы также используются для определения поля для мужских и женских баскетбольных турниров NCAA, мужских профессиональных турниров по гольфу , профессиональных теннисных турниров и NASCAR . Их часто упоминают в обсуждениях о командах, которые могли бы или должны были бы получить приглашения для участия в определенных соревнованиях, несмотря на то, что они не получили самого прямого пути входа (например, чемпионата лиги). [1]
Компьютерные рейтинговые системы могут стремиться к объективности , без предвзятости по отношению к конкретному игроку, команде, региону или стилю. Кен Мэсси пишет, что преимущество компьютерных рейтинговых систем заключается в том, что они могут «объективно отслеживать все» 351 студенческую баскетбольную команду, в то время как человеческие опросы «имеют ограниченную ценность». [2] Компьютерные рейтинги проверяемы и повторяемы, и являются всеобъемлющими, требуя оценки всех выбранных критериев. Для сравнения, рейтинговые системы, основанные на человеческих опросах, включают в себя присущую человеческую субъективность; это может быть или не быть привлекательным свойством в зависимости от потребностей системы.
Системы спортивных рейтингов существуют уже почти 80 лет, когда рейтинги рассчитывались на бумаге, а не на компьютере, как большинство из них сегодня. Некоторые старые компьютерные системы, которые используются и сегодня, включают: системы Джеффа Сагарина , систему New York Times и индекс Данкеля , который датируется 1929 годом. До появления плей-офф студенческого футбола участники чемпионата Bowl Championship Series определялись комбинацией экспертных опросов и компьютерных систем.
Системы спортивных рейтингов используют различные методы для оценки команд, но наиболее распространенный метод называется рейтингом мощности. Рейтинг мощности команды — это расчет силы команды относительно других команд в той же лиге или дивизионе. Основная идея заключается в максимизации числа транзитивных отношений в заданном наборе данных из-за результатов игр. Например, если A побеждает B, а B побеждает C, то можно с уверенностью сказать, что A>B>C.
Существуют очевидные проблемы с построением системы исключительно на победах и поражениях. Например, если C побеждает A, то устанавливается нетранзитивное отношение (A > B > C > A), и произойдет нарушение рейтинга, если это единственные доступные данные. Подобные сценарии случаются в спорте довольно регулярно — например, в футбольном сезоне NCAA Division IA 2005 года Penn State победил Ohio State , Ohio State победил Michigan , а Michigan победил Penn State. Чтобы решить эти логические проблемы, рейтинговые системы обычно учитывают другие критерии, такие как счет игры и место проведения матча (например, для оценки преимущества домашнего поля ). Однако в большинстве случаев каждая команда играет достаточное количество других игр в течение данного сезона, что снижает общий эффект таких нарушений.
С академической точки зрения, использование линейной алгебры и статистики популярно среди многих авторов систем для определения их рейтингов. Некоторые академические работы публикуются на форумах, таких как MIT Sloan Sports Analytics Conference , другие — в традиционных журналах по статистике, математике, психологии и информатике.
Если не достигнуто достаточного количества «междивизионных» игр в лиге, команды в изолированном дивизионе могут быть искусственно подняты или опущены в общих рейтингах из-за отсутствия корреляции с другими командами в общей лиге. Это явление очевидно в системах, которые анализируют исторические сезоны студенческого футбола, например, когда лучшие команды Лиги плюща 1970-х годов, такие как Дартмут , были рассчитаны некоторыми рейтинговыми системами как сопоставимые с успешными мощными командами той эпохи, такими как Небраска , USC и Ohio State . Это противоречит субъективному мнению, которое утверждает, что, хотя они хороши сами по себе, они были далеко не так хороши, как эти лучшие программы. Однако это может считаться «за» командами, не входящими в BCS, в студенческом футболе дивизиона IA, которые указывают, что рейтинговые системы доказали, что их лучшие команды принадлежат к тем же слоям, что и команды BCS. Об этом свидетельствует команда Юты 2004 года , которая не проиграла регулярный сезон и получила право на участие в BCS bowl из-за повышения общего рейтинга BCS с помощью компонента компьютерных рейтингов. Они продолжили играть и победили чемпиона конференции Big East Pittsburgh в Fiesta Bowl 2005 года со счетом 35–7. Похожий пример произошел во время мужского баскетбольного турнира NCAA 2006 года , где Джордж Мейсон получил право на участие в турнире at-large из-за своего результата в регулярном сезоне и рейтинга RPI и воспользовался этой возможностью вплоть до Финала четырех .
Цели некоторых рейтинговых систем отличаются друг от друга. Например, системы могут быть созданы для предоставления идеального ретроспективного анализа сыгранных на сегодняшний день игр, в то время как другие являются предиктивными и придают большее значение будущим тенденциям, а не прошлым результатам. Это приводит к возможности неправильного толкования результатов рейтинговой системы людьми, незнакомыми с этими целями; например, рейтинговая система, разработанная для предоставления точных прогнозов распределения очков для игроков, может быть плохо подходящей для использования при выборе команд, наиболее достойных играть в чемпионате или турнире.
Когда играют две команды одинакового уровня, команда, играющая дома, имеет тенденцию побеждать чаще. Размер эффекта меняется в зависимости от эпохи игры, типа игры, продолжительности сезона, вида спорта, даже количества пересеченных часовых поясов . Но при любых условиях «простая игра дома увеличивает шансы на победу». [3] Поэтому победа в гостях рассматривается более благоприятно, чем победа дома, потому что она была более сложной. Преимущество дома (которое для видов спорта, играемых на поле, почти всегда называется «преимуществом домашнего поля») также основано на качествах отдельного стадиона и зрителей; преимущество в НФЛ может быть больше, чем 4-очковая разница между стадионом с наименьшим преимуществом и стадионом с наибольшим. [4]
Сила графика относится к качеству соперников команды. Победа над слабым соперником обычно воспринимается менее благоприятно, чем победа над сильным соперником. Часто команды в одной лиге, которые сравниваются друг с другом за чемпионство или плей-офф, не играли с одними и теми же соперниками. Поэтому судить об их относительных показателях побед и поражений сложно.
Мы смотрели дальше рекорда. Комитет придал большое значение качеству побед Орегона.
— Председатель комитета плей-офф студенческого футбола Джефф Лонг , пресс-конференция, 12-я неделя сезона 2014 года, [5] после того, как Орегон занял 9–1 место над Флоридой Стейт 9–0
Комитет по плей-офф студенческого футбола использует ограниченный алгоритм оценки силы расписания, который учитывает только рекорды соперников и рекорды соперников [6] (во многом похоже на RPI ).
Ключевая дихотомия среди систем спортивных рейтингов заключается в представлении результатов игр. Некоторые системы хранят финальные результаты как тернарные дискретные события: победы, ничьи и поражения. Другие системы записывают точный финальный счет игры, а затем судят команды на основе разницы в счете. Рейтинг команд на основе разницы в счете часто критикуют за создание стимула для тренеров завышать счет, что является «неспортивным» результатом. [7]
Другие системы выбирают золотую середину, уменьшая предельное значение дополнительных очков по мере увеличения разницы в победе. Сагарин решил ограничить разницу в победе предопределенным числом. [8] Другие подходы включают использование функции распада, такой как логарифм или размещение на кумулятивной функции распределения .
Помимо очков или побед, некоторые разработчики систем предпочитают включать более подробную информацию об игре. Примерами служат время владения мячом, индивидуальная статистика и смена лидеров. Данные о погоде, травмах или играх «вбрасывания» ближе к концу сезона могут повлиять на результаты игр, но их трудно смоделировать. «Игры «вбрасывания»» — это игры, в которых команды уже заработали слоты плей-офф и обеспечили себе посев в плей-офф до конца регулярного сезона и хотят дать отдохнуть/защитить своих стартовых игроков, посадив их на скамейку запасных для оставшихся игр регулярного сезона. Это обычно приводит к непредсказуемым результатам и может исказить результаты рейтинговых систем.
Команды часто меняют свой состав между играми и во время игр, и игроки регулярно получают травмы. Рейтинг команды часто заключается в рейтинге определенного набора игроков. Некоторые системы предполагают паритет среди всех членов лиги, например, каждая команда формируется из равноправного пула игроков через драфт или систему свободного агентства , как это делается во многих основных видах спорта, таких как NFL , MLB , NBA и NHL . Это, безусловно, не относится к студенческим лигам, таким как футбол дивизиона IA или мужской и женский баскетбол.
В начале сезона не было игр, по которым можно было бы судить об относительном качестве команд. Решения проблемы холодного старта часто включают в себя некоторую меру предыдущего сезона, возможно, взвешенную по тому, какой процент команды возвращается в новом сезоне. ARGH Power Ratings — пример системы, которая использует несколько предыдущих лет плюс процентный вес вернувшихся игроков.
Несколько методов предлагают некоторую перестановку традиционных рейтингов. Этот поиск «реальной» записи побед и поражений часто включает использование других данных, таких как разница очков или идентичность соперников, чтобы изменить запись команды таким образом, чтобы это было легко понять. Спортивный обозреватель Грегг Истербрук создал меру подлинных игр, которая учитывает только игры, сыгранные против соперников, которые считаются достаточно качественными. [9] Консенсус заключается в том, что не все победы созданы равными.
Я прошел через первые несколько недель игр и переделал записи всех, помечая каждую игру как законную победу или поражение, сокрушительную победу или поражение, или игру типа «или-или». И если в той игре происходило что-то еще с последствиями для азартных игр — возвращение победы, упущенное преимущество, серьезная дисфункция, что угодно — я это тоже помечал.
— Билл Симмонс , спортивный обозреватель, Грантленд [10]
Пифагорейское ожидание, или пифагорейская проекция, вычисляет процент на основе количества очков, которые команда набрала и пропустила. Обычно формула включает количество набранных очков, возведенных в некоторую степень, помещенную в числитель. Затем количество очков, пропущенных командой, возведенных в ту же степень, помещается в знаменатель и прибавляется к значению в числителе. Футбольные аутсайдеры использовали [11]
Полученный процент часто сравнивают с истинным процентом побед команды, и говорят, что команда «перевыполнила» или «недовыполнила» по сравнению с пифагорейским ожиданием. Например, Билл Барнвелл подсчитал, что перед 9-й неделей сезона НФЛ 2014 года у Arizona Cardinals был пифагорейский рекорд на две победы ниже их реального рекорда. [12] Билл Симмонс цитирует работу Барнвелла перед 10-й неделей того сезона и добавляет, что «любой фанат цифр сейчас машет флагом «РЕГРЕССИЯ!!!!!»». [13] В этом примере регулярный сезонный рекорд Arizona Cardinals был 8-1 перед 10-й неделей сезона 2014 года. Пифагорейская формула побед подразумевала процент побед 57,5% на основе 208 набранных очков и 183 пропущенных очков. Умноженное на 9 сыгранных игр, пифагорейское ожидание Cardinals составило 5,2 победы и 3,8 поражения. В то время команда «перевыполнила» планку на 2,8 победы, выведенную из их фактических 8 побед за вычетом ожидаемых 5,2 побед, что на 0,8 перевыполненных побед больше, чем всего за неделю до этого.
Первоначально разработанная Арпадом Эло как метод ранжирования шахматистов, несколько человек адаптировали систему рейтинга Эло для командных видов спорта, таких как баскетбол, футбол и американский футбол. Например, Джефф Сагарин и FiveThirtyEight публикуют рейтинги футбольных команд НФЛ, используя методы Эло. [14] Рейтинги Эло изначально присваивают значения силы каждой команде, и команды обмениваются очками на основе результата каждой игры.
Такие исследователи, как Мэтт Миллс, используют цепи Маркова для моделирования студенческих футбольных игр, используя в качестве результатов показатели силы команд. [15] Такие алгоритмы, как PageRank от Google, также были адаптированы для ранжирования футбольных команд. [16] [17]
В студенческом американском футболе для отбора команд для участия в национальном чемпионате использовались следующие системы.
Это обзор 20 команд (в алфавитном порядке), находящихся в этом году в большом старом пузыре. Мы включили три статистических рейтинга. RPI (индекс процента рейтинга, взятый с collegeRPI.com) считается стандартом и предоставляется членам комитета в процессе отбора. Два других индекса рейтинга включают в свои формулы разницу в победе — рейтинги Помероя (на kenpom.com) и рейтинги Сагарина (через USA Today) — не являются новыми, но сыграли возросшую роль в обсуждениях потенциальных посевов в течение этого сезона студенческого баскетбола.