Рейтинговая система Эло [a] — это метод расчета относительного уровня мастерства игроков в играх с нулевой суммой, таких как шахматы или киберспорт . Она названа в честь своего создателя Арпада Эло , венгерско-американского профессора физики.
Система Эло была изобретена как усовершенствованная система рейтинга шахмат по сравнению с ранее использовавшейся системой Харкнесса [ 1], но также используется в качестве рейтинговой системы в американском футболе , бейсболе , баскетболе , бильярде , различных настольных играх и киберспорте , а в последнее время и в крупных языковых моделях .
Разница в рейтингах двух игроков служит предиктором исхода матча. Ожидается, что два игрока с одинаковым рейтингом, играющие друг против друга, наберут равное количество побед. Игрок, рейтинг которого на 100 очков больше, чем у соперника, как ожидается, наберет 64%; если разница составляет 200 очков, то ожидаемый счет для более сильного игрока составляет 76%. [2]
Рейтинг Эло игрока — это число, которое может меняться в зависимости от результатов сыгранных рейтинговых игр. После каждой игры победитель забирает очки у проигравшего. Разница между рейтингами победителя и проигравшего определяет общее количество очков, полученных или потерянных после игры. Если выигрывает игрок с более высоким рейтингом, то у игрока с более низким рейтингом будет взято всего несколько рейтинговых очков. Однако, если игрок с более низким рейтингом одерживает неожиданную победу , многие рейтинговые очки будут переведены. Игрок с более низким рейтингом также получит несколько очков от игрока с более высоким рейтингом в случае ничьей. Это означает, что эта рейтинговая система является самокорректирующейся. Игроки, рейтинги которых слишком низкие или слишком высокие, должны в долгосрочной перспективе играть лучше или хуже, чем предсказывает рейтинговая система, и, таким образом, получать или терять рейтинговые очки до тех пор, пока рейтинги не отразят их истинную игровую силу.
Рейтинги Эло носят сравнительный характер и действительны только в пределах пула рейтингов, в котором они были рассчитаны, а не являются абсолютной мерой силы игрока.
Хотя системы, подобные Эло, широко используются в соревнованиях с двумя игроками, их вариации также применяются в многопользовательских соревнованиях. [3]
Арпад Эло был шахматным мастером и активным участником Федерации шахмат США (USCF) с момента ее основания в 1939 году. [4] USCF использовала числовую систему рейтингов, разработанную Кеннетом Харкнессом , чтобы позволить членам отслеживать свой индивидуальный прогресс в терминах, отличных от побед и поражений в турнирах. Система Харкнесса была достаточно справедливой, но в некоторых обстоятельствах приводила к рейтингам, которые многие наблюдатели считали неточными.
От имени USCF Эло разработал новую систему с более надежной [ требуется разъяснение ] статистической основой. [5] Примерно в то же время Дьёрдь Карой и Роджер Кук независимо друг от друга разработали систему, основанную на тех же принципах, для Шахматной ассоциации Нового Южного Уэльса. [6]
Система Эло заменила более ранние системы соревновательных наград системой, основанной на статистической оценке. Рейтинговые системы для многих видов спорта присуждают очки в соответствии с субъективными оценками «величия» определенных достижений. Например, победа в важном турнире по гольфу может стоить произвольно выбранного в пять раз большего количества очков, чем победа в менее значимом турнире.
Статистический подход, напротив, использует модель, которая связывает результаты игры с базовыми переменными, отражающими способности каждого игрока.
Центральным предположением Эло было то, что шахматная производительность каждого игрока в каждой игре является нормально распределенной случайной величиной . Хотя игрок может играть значительно лучше или хуже от одной игры к другой, Эло предполагал, что среднее значение производительности любого данного игрока меняется лишь медленно с течением времени. Эло считал истинное мастерство игрока средним значением случайной величины производительности этого игрока.
Необходимо еще одно предположение, поскольку шахматная производительность в указанном выше смысле все еще не поддается измерению. Нельзя посмотреть на последовательность ходов и вывести число, представляющее мастерство игрока. Производительность можно вывести только из побед, ничьих и поражений. Поэтому предполагается, что игрок, выигравший игру, выступил на более высоком уровне, чем его противник в этой игре. И наоборот, предполагается, что проигравший игрок выступил на более низком уровне. Если игра заканчивается вничью, предполагается, что оба игрока выступили примерно на одинаковом уровне.
Эло не уточнил, насколько близкими должны быть два выступления, чтобы получить ничью, а не победу или поражение. На самом деле, существует вероятность ничьей, которая зависит от разницы в результатах, поэтому последняя является скорее доверительным интервалом, чем какой-либо детерминированной границей. И хотя он считал, что игроки, вероятно, могут иметь разные стандартные отклонения в своих выступлениях, он сделал упрощающее предположение об обратном.
Чтобы еще больше упростить вычисления, Эло предложил простой метод оценки переменных в своей модели (т. е. истинного мастерства каждого игрока). Можно было относительно легко рассчитать по таблицам, сколько игр игроки, как ожидается, выиграют, на основе сравнения их рейтингов с рейтингами их противников. Рейтинги игрока, который выиграл больше игр, чем ожидалось, будут скорректированы вверх, в то время как рейтинги игрока, который выиграл меньше, чем ожидалось, будут скорректированы вниз. Более того, эта корректировка должна была быть линейно пропорциональна количеству побед, на которое игрок превысил или не дотянул до своего ожидаемого числа. [7]
С современной точки зрения, упрощающие предположения Эло не нужны, поскольку вычислительная мощность недорога и широко доступна. Несколько человек, в частности Марк Гликман , предложили использовать более сложную статистическую технику для оценки тех же переменных. С другой стороны, вычислительная простота системы Эло оказалась одним из ее величайших преимуществ. С помощью карманного калькулятора информированный шахматный участник может рассчитать с точностью до одной точки, каким будет его следующий официально опубликованный рейтинг, что помогает создать впечатление, что рейтинги справедливы.
USCF внедрила предложения Эло в 1960 году, [8] и система быстро получила признание как более справедливая и точная, чем рейтинговая система Харкнесса . Система Эло была принята Всемирной шахматной федерацией (ФИДЕ) в 1970 году. [9] Эло подробно описал свою работу в книге «Рейтинг шахматистов прошлого и настоящего» , впервые опубликованной в 1978 году. [10]
Последующие статистические тесты показали, что шахматная производительность почти наверняка не распределена как нормальное распределение , поскольку более слабые игроки имеют больше шансов на победу, чем предсказывает модель Эло. [11] [12] В данных парного сравнения часто очень мало практической разницы в том, предполагается ли, что различия в силе игроков распределены нормально или логистически . Математически, однако, логистическая функция удобнее для работы, чем нормальное распределение. [13] ФИДЕ продолжает использовать таблицу разницы рейтингов, предложенную Эло. [14] : таблица 8.1b
Разработка Таблицы процентного ожидания (таблица 2.11) более подробно описана Эло следующим образом: [15]
Нормальные вероятности можно взять непосредственно из стандартных таблиц площадей под нормальной кривой, когда разница в рейтинге выражена как счет z. Поскольку стандартное отклонение σ индивидуальных результатов определяется как 200 баллов, стандартное отклонение σ' различий в результатах становится σ√2 или 282,84. Значение z разницы тогда равно D / 282,84 . Это затем разделит площадь под кривой на две части, большая из которых дает P для игрока с более высоким рейтингом, а меньшая дает P для игрока с более низким рейтингом.
Например, пусть D = 160. Тогда z = 160 / 282,84 = .566 . Таблица дает .7143 и .2857 как площади двух частей под кривой. Эти вероятности округлены до двух цифр в таблице 2.11.
Таблица фактически построена со стандартным отклонением 200(10/7) в качестве приближения для 200√2 . [ требуется ссылка ]
Нормальное и логистическое распределения, в некотором смысле, являются произвольными точками в спектре распределений, которые будут работать хорошо. На практике оба эти распределения работают очень хорошо для ряда различных игр. [ необходима цитата ]
Фраза «рейтинг Эло» часто используется для обозначения шахматного рейтинга игрока, рассчитанного ФИДЕ. Однако такое использование может сбивать с толку или вводить в заблуждение, поскольку общие идеи Эло были приняты многими организациями, включая USCF (до ФИДЕ), многими другими национальными шахматными федерациями, недолго просуществовавшей Профессиональной шахматной ассоциацией (PCA) и онлайн-шахматными серверами, включая Internet Chess Club (ICC), Free Internet Chess Server (FICS), Lichess , Chess.com и Yahoo! Games. У каждой организации есть уникальная реализация, и ни одна из них не следует в точности первоначальным предложениям Эло.
Вместо этого можно ссылаться на организацию, присвоившую рейтинг. Например: «По состоянию на апрель 2018 года рейтинг ФИДЕ Татев Абрамян составил 2366, а рейтинг USCF — 2473». Рейтинги Эло этих различных организаций не всегда напрямую сопоставимы, поскольку рейтинги Эло измеряют результаты в закрытом пуле игроков, а не абсолютное мастерство.
Для лучших игроков самым важным рейтингом является рейтинг ФИДЕ . ФИДЕ опубликовала следующие списки:
Следующий анализ рейтинг-листа ФИДЕ за июль 2015 года дает приблизительное представление о том, что означает данный рейтинг ФИДЕ с точки зрения мирового рейтинга:
Самый высокий рейтинг ФИДЕ был 2882, который был у Магнуса Карлсена в списке за май 2014 года. Список игроков с самым высоким рейтингом за всю историю можно найти на странице Сравнение лучших шахматистов за всю историю .
Рейтинг производительности или специальный рейтинг — это гипотетический рейтинг, который может быть получен из игр только одного события. Некоторые шахматные организации [16] : стр. 8 используют «алгоритм 400» для расчета рейтинга производительности. Согласно этому алгоритму, рейтинг производительности для события рассчитывается следующим образом:
Пример: 2 победы (оппоненты w и x ), 2 поражения (оппоненты y и z )
Это можно выразить следующей формулой:
Пример: Если вы победили игрока с рейтингом Эло 1000,
Если вы победите двух игроков с рейтингом Эло 1000,
Если вы рисуете,
Это упрощение, но оно предлагает простой способ получить оценку PR (рейтинга эффективности).
Однако ФИДЕ вычисляет рейтинг производительности с помощью формулы , где «разница рейтингов» основана на процентном счете игрока в турнире , который затем используется как ключ в таблице поиска, где это просто количество набранных очков, деленное на количество сыгранных партий. Обратите внимание, что в случае идеального или нулевого счета это 800.
FIDE обновляет свой рейтинговый список в начале каждого месяца. Напротив, неофициальные «Live-рейтинги» подсчитывают изменение рейтингов игроков после каждой игры. Эти Live-рейтинги основаны на ранее опубликованных рейтингах FIDE, поэтому Live-рейтинг игрока должен соответствовать тому, каким был бы рейтинг FIDE, если бы FIDE опубликовала новый список в тот день.
Хотя рейтинги Live неофициальны, интерес к ним возник в августе/сентябре 2008 года, когда пять разных игроков заняли первое место в рейтинге «Live». [17]
Неофициальные рейтинги игроков выше 2700 публиковались и поддерживались Хансом Арильдом Рунде на сайте Live Rating до августа 2011 года. Другой сайт, 2700chess.com, поддерживается с мая 2011 года Артёмом Цепотаном и охватывает 100 лучших игроков, а также 50 лучших женщин-шахматистов.
Изменения рейтинга можно рассчитать вручную с помощью калькулятора изменения рейтинга ФИДЕ. [18] Все ведущие игроки имеют К-фактор 10, что означает, что максимальное изменение рейтинга за одну игру составляет чуть меньше 10 очков.
Федерация шахмат США (USCF) использует собственную классификацию игроков: [19]
K -фактор в рейтинговой системе USCF можно оценить, разделив 800 на эффективное количество игр, на которых основан рейтинг игрока ( N e ), плюс количество игр, которые игрок завершил в турнире ( m ). [21]
USCF поддерживает абсолютный рейтинговый минимум 100 для всех рейтингов. Таким образом, ни один член не может иметь рейтинг ниже 100, независимо от их результатов на санкционированных USCF мероприятиях. Однако игроки могут иметь более высокие индивидуальные абсолютные рейтинговые минимумы, рассчитанные по следующей формуле:
где — количество выигранных рейтинговых игр, — количество рейтинговых игр, сыгранных вничью, — количество событий, в которых игрок завершил три или более рейтинговых игр.
Более высокие рейтинговые полы существуют для опытных игроков, которые достигли значительных рейтингов. Такие более высокие рейтинговые полы существуют, начиная с рейтингов 1200 с шагом в 100 очков до 2100 (1200, 1300, 1400, ..., 2100). Рейтинговый пол рассчитывается путем взятия пикового установленного рейтинга игрока, вычитания 200 очков, а затем округления вниз до ближайшего рейтингового пола. Например, игрок, достигший пикового рейтинга 1464, будет иметь рейтинговый пол 1464 − 200 = 1264 , который будет округлен вниз до 1200. В рамках этой схемы только игроки класса C и выше могут иметь рейтинговый пол выше, чем их абсолютный рейтинг игрока. Все остальные игроки будут иметь пол не более 150.
Есть два способа достичь более высоких рейтинговых уровней, помимо стандартной схемы, представленной выше. Если игрок достиг рейтинга Original Life Master, его рейтинговый уровень устанавливается на уровне 2200. Достижение этого звания уникально тем, что ни один другой признанный титул USCF не приведет к новому уровню. Для игроков с рейтингом ниже 2000 выигрыш денежного приза в размере $2000 или более повышает рейтинговый уровень этого игрока до ближайшего уровня в 100 очков, который дисквалифицировал бы игрока для участия в турнире. Например, если игрок выиграл $4000 в турнире 1750 и ниже, его рейтинговый уровень теперь будет равен 1800.
Попарные сравнения составляют основу методологии рейтинга Эло. [22] Эло ссылался на работы Гуда, [23] Дэвида, [24] Травински и Дэвида, [25] а также Бульмана и Хубера. [26]
Производительность не измеряется абсолютно; она выводится из побед, поражений и ничьих против других игроков. Рейтинги игроков зависят от рейтингов их противников и результатов, набранных против них. Разница в рейтинге между двумя игроками определяет оценку ожидаемого счета между ними. Как среднее значение, так и разброс рейтингов могут быть выбраны произвольно. USCF изначально стремился к тому, чтобы средний клубный игрок имел рейтинг 1500, и Эло предложил масштабировать рейтинги таким образом, чтобы разница в 200 очков рейтинга в шахматах означала, что более сильный игрок имеет ожидаемый счет приблизительно 0,75.
Ожидаемый счет игрока — это вероятность его победы плюс половина вероятности ничьей. Таким образом, ожидаемый счет 0,75 может представлять 75% вероятности победы, 25% вероятности проигрыша и 0% вероятности ничьей. С другой стороны, он может представлять 50% вероятности победы, 0% вероятности проигрыша и 50% вероятности ничьей. Вероятность ничьей, в отличие от решающего результата, не указана в системе Эло. Вместо этого ничья считается половиной победы и половиной поражения. На практике, поскольку истинная сила каждого игрока неизвестна, ожидаемые баллы рассчитываются с использованием текущих рейтингов игрока следующим образом.
Если рейтинг игрока A равен , а рейтинг игрока B равен , то точная формула (с использованием логистической кривой с основанием 10 ) [27] для ожидаемого счета игрока A будет следующей:
Аналогично, ожидаемый счет для игрока B составляет
Это также может быть выражено следующим образом:
и
где и Обратите внимание, что в последнем случае один и тот же знаменатель применяется к обоим выражениям, и очевидно, что Это означает, что, изучая только числители, мы обнаруживаем, что ожидаемый счет для игрока A в раз больше ожидаемого счета для игрока B. Из этого следует, что на каждые 400 очков рейтинга преимущества над противником ожидаемый счет увеличивается в десять раз по сравнению с ожидаемым счетом противника.
Когда фактические результаты игрока на турнире превышают ожидаемые результаты, система Эло воспринимает это как доказательство того, что рейтинг игрока слишком низок и его необходимо скорректировать в сторону повышения. Аналогично, когда фактические результаты игрока на турнире не достигают ожидаемых результатов, рейтинг этого игрока корректируется в сторону понижения. Первоначальное предложение Эло, которое до сих пор широко используется, представляло собой простую линейную корректировку, пропорциональную сумме, на которую игрок переиграл или недоиграл ожидаемый результат. Максимально возможная корректировка за игру, называемая K-фактором, была установлена для мастеров и для более слабых игроков.
Предположим, что игрок A (снова с рейтингом ) должен был набрать очки, но на самом деле набрал очки. Формула для обновления рейтинга этого игрока:
Это обновление можно выполнять после каждой игры или каждого турнира, или после любого подходящего рейтингового периода.
Пример может помочь прояснить ситуацию:
Предположим, что игрок A имеет рейтинг 1613 и играет в пятираундовом турнире. Они проигрывают игроку с рейтингом 1609, играют вничью с игроком с рейтингом 1477, побеждают игрока с рейтингом 1388, побеждают игрока с рейтингом 1586 и проигрывают игроку с рейтингом 1720. Фактический счет игрока составляет (0 + 0,5 + 1 + 1 + 0) = 2,5 . Ожидаемый счет, рассчитанный по формуле выше, составил (0,51 + 0,69 + 0,79 + 0,54 + 0,35) = 2,88 .
Таким образом, новый рейтинг игрока равен [1613 + 32·(2,5 − 2,88)] = 1601 , предполагая, что используется коэффициент K , равный 32. Эквивалентно, в каждой игре игрок, можно сказать, внес в банк анте в размере K , умноженное на его ожидаемый счет в игре, соперник делает то же самое, и победитель забирает весь банк стоимостью K ; в случае ничьей игроки делят банк и получают очки каждый.
Обратите внимание, что хотя две победы, два поражения и одна ничья могут показаться нормальным счетом, для игрока A это хуже, чем ожидалось , поскольку его противники имели более низкий средний рейтинг. Поэтому игрок A немного наказан. Если бы игрок A набрал две победы, одно поражение и две ничьи, набрав в общей сложности три очка, это было бы немного лучше, чем ожидалось, и новый рейтинг игрока был бы [1613 + 32·(3 − 2,88)] = 1617 .
Эта процедура обновления лежит в основе рейтингов, используемых FIDE , USCF , Yahoo! Games , Internet Chess Club (ICC) и Free Internet Chess Server (FICS). Однако каждая организация по-своему подходит к решению проблемы неопределенности, присущей рейтингам, особенно рейтингам новичков, и к решению проблемы инфляции/дефляции рейтингов. Новым игрокам присваиваются предварительные рейтинги, которые корректируются более радикально, чем установленные рейтинги.
Принципы, используемые в этих рейтинговых системах, можно использовать для рейтингования других соревнований, например, международных футбольных матчей.
Рейтинги Эло также применялись к играм без возможности ничьей и к играм, в которых результат может иметь не только качество (выигрыш/проигрыш), но и количество (маленький/большой перевес). Подробнее см. в разделе Рейтинг го с Эло .
В 2011 году после анализа 1,5 миллионов рейтинговых партий ФИДЕ Джефф Сонас продемонстрировал, что согласно формуле Эло, два игрока с разницей в рейтинге X на самом деле имеют истинную разницу около X (5/6) . Аналогично, можно оставить разницу в рейтинге в покое и разделить на 480 вместо 400. Поскольку формула Эло переоценивает вероятность победы более сильного игрока, более сильные игроки теряют очки против более слабых игроков, несмотря на то, что играют в свою истинную силу. Аналогично, более слабые игроки набирают очки против более сильных игроков. При применении модификации наблюдаемые показатели выигрышей отклоняются менее чем на 0,1% от прогнозируемого показателя, в то время как традиционный Эло может отличаться на 4% от прогнозируемого показателя. [28]
Первой математической проблемой, рассмотренной USCF, было использование нормального распределения . Они обнаружили, что оно неточно отражает фактические результаты, достигнутые, особенно игроками с низким рейтингом. Вместо этого они перешли на модель логистического распределения , которая, как обнаружила USCF, лучше подходит для фактических результатов. [29] [ необходима цитата ] ФИДЕ также использует приближение к логистическому распределению. [14]
Вторая серьезная проблема — это правильность используемого « K -фактора». Шахматный статистик Джефф Сонас считает, что исходное значение (для игроков с рейтингом выше 2400) в работе Эло неточно. Если коэффициент K -фактора установлен слишком большим, то будет слишком большая чувствительность к нескольким недавним событиям с точки зрения большого количества очков, обмененных в каждой игре. А если K-значение слишком низкое, чувствительность будет минимальной, и система не будет достаточно быстро реагировать на изменения фактического уровня игры игрока.
Первоначальная оценка К -фактора Эло была сделана без использования огромных баз данных и статистических данных. Сонас указывает, что К -фактор 24 (для игроков с рейтингом выше 2400) может быть как более точным инструментом прогнозирования будущих результатов, так и более чувствительным к результатам. [30]
Некоторые шахматные сайты в Интернете, похоже, избегают трехуровневого K-фактора, основанного на диапазоне рейтинга. Например, ICC, похоже, принимает глобальный K = 32, за исключением игр с игроками с предварительным рейтингом.
Ранее USCF (который использует логистическое распределение , а не нормальное ) распределял K-фактор по трем основным рейтинговым диапазонам:
В настоящее время USCF использует формулу, которая вычисляет K -фактор на основе таких факторов, как количество сыгранных игр и рейтинг игрока. K-фактор также уменьшается для игроков с высоким рейтингом, если в событии более короткий контроль времени. [16]
ФИДЕ использует следующие диапазоны: [31]
До июля 2014 года ФИДЕ использовала следующие диапазоны: [32]
Градация К -фактора снижает изменение рейтинга в верхней части диапазона рейтинга, уменьшая возможность быстрого роста или падения рейтинга для тех, чей рейтинг достаточно высок, чтобы достичь низкого К -фактора.
Теоретически это может применяться в равной степени к игрокам в шахматы онлайн и игрокам в шахматы за доской, поскольку всем игрокам сложнее повышать свой рейтинг после того, как их рейтинг стал высоким, а их К -фактор, соответственно, снизился. Однако, играя онлайн, игроки с рейтингом 2800+ могут легче повышать свой рейтинг, просто выбирая соперников с высоким рейтингом — на игровом сайте ICC гроссмейстер может играть с рядом разных соперников, все из которых имеют рейтинг выше 2700. [34] В соревнованиях за доской только в очень высоких турнирах all-play-all игрок сможет сразиться с таким количеством соперников 2700+. В обычном открытом турнире по шахматам по швейцарской системе часто будет много соперников с рейтингом ниже 2500, что снижает возможный прирост рейтинга за один поединок для игрока с высоким рейтингом.
Вышеуказанные выражения теперь можно формально вывести, используя связь между рейтингом Эло и обновлением стохастического градиента в логистической регрессии. [35] [36]
Если предположить, что результаты игры являются бинарными , то есть можно наблюдать только победу или поражение, то проблему можно решить с помощью логистической регрессии , где результаты игры являются зависимыми переменными , рейтинги игроков являются независимыми переменными , а модель, связывающая их, является вероятностной: вероятность победы игрока в игре моделируется как
где
обозначает разницу рейтингов игроков, и мы используем масштабирующий коэффициент , и, по закону полной вероятности
Логарифмическая потеря затем рассчитывается как
и, используя стохастический градиентный спуск, логарифмические потери минимизируются следующим образом:
где находится шаг адаптации.
Так как , , и , то адаптация записывается следующим образом
что можно компактно записать как
где — новый шаг адаптации, который поглощает и , если выигрывает и , если выигрывает, а ожидаемая оценка определяется как .
Аналогично, обновление рейтинга :
С самого начала рейтинг Эло также использовался в шахматах, где мы наблюдаем победы, поражения или ничьи, и для решения последней вводится дробное значение счета, . Однако мы отмечаем, что счета и являются лишь индикаторами событий, когда игрок выигрывает или проигрывает игру. Поэтому не сразу ясно, в чем смысл дробного счета. Более того, поскольку мы не указываем явно модель, связывающую значения рейтинга и вероятность исхода игры, мы не можем сказать, какова вероятность победы, поражения или ничьи.
Чтобы преодолеть эти трудности и вывести рейтинг Эло в тернарных играх, мы определим явную вероятностную модель результатов. Затем мы минимизируем логарифмические потери с помощью стохастического градиента.
Поскольку проигрыш, ничья и выигрыш являются порядковыми переменными , нам следует принять модель, которая учитывает их порядковую природу, и мы используем так называемую модель смежных категорий, которая может быть прослежена до работы Дэвидсона [37].
где
и является параметром. Введение свободного параметра не должно вызывать удивления, поскольку у нас есть три возможных результата, и, таким образом, в модели должна появиться дополнительная степень свободы. В частности, с помощью мы восстанавливаем модель, лежащую в основе логистической регрессии
где .
Используя порядковую модель, определенную выше, логарифмическая потеря теперь рассчитывается как
что можно компактно записать как
где iff выигрывает, iff выигрывает и iff играет вничью.
Как и прежде, нам нужна производная, которая задается выражением
где
Таким образом, производная логарифмической потери по отношению к рейтингу определяется выражением
где мы использовали отношения и .
Затем стохастический градиентный спуск, применяемый для минимизации логарифмических потерь, дает следующее обновление рейтинга:
где и . Конечно, если выигрывает, если ничья, и если проигрывает. Чтобы распознать происхождение в модели, предложенной Дэвидсоном, это обновление называется рейтингом Эло-Дэвидсона. [36]
Обновление для выводится таким же образом, как
где .
Мы отмечаем, что
и таким образом, получаем обновление рейтинга, которое можно записать как
где и мы получили практически то же уравнение, что и в рейтинге Эло, за исключением того, что ожидаемый балл дается как вместо .
Конечно, как отмечено выше, для , мы имеем и, таким образом, рейтинг Эло-Дэвидсона в точности совпадает с рейтингом Эло. Однако это не поможет понять случай, когда наблюдаются ничьи (мы не можем использовать , что означало бы, что вероятность ничьи равна нулю). С другой стороны, если мы используем , мы имеем
что означает, что при использовании рейтинг Эло-Дэвидсона в точности совпадает с рейтингом Эло. [36]
В некоторых случаях рейтинговая система может препятствовать игровой активности игроков, желающих защитить свой рейтинг. [38] Чтобы препятствовать игрокам сидеть на высоком рейтинге, в 2012 году британский гроссмейстер Джон Нанн предложил отобрать участников чемпионата мира по шахматам, включив в него бонус за активность, который должен был быть объединен с рейтингом. [39]
За пределами шахматного мира опасения по поводу того, что игроки избегают соревновательной игры, чтобы защитить свои рейтинги, заставили Wizards of the Coast отказаться от системы Эло для турниров Magic: the Gathering в пользу системы собственной разработки под названием «Planeswalker Points». [40] [41]
Более тонкая проблема связана с парами. Когда игроки могут выбирать себе соперников, они могут выбирать соперников с минимальным риском проигрыша и максимальным вознаграждением за победу. Конкретные примеры игроков с рейтингом 2800+, выбирающих соперников с минимальным риском и максимальной возможностью повышения рейтинга, включают: выбор соперников, которых они знают, что могут победить с помощью определенной стратегии; выбор соперников, которые, по их мнению, переоценены; или избегание игры с сильными игроками, рейтинг которых на несколько сотен очков ниже их, но которые могут иметь шахматные звания, такие как IM или GM. В категории выбора переоцененных соперников новые участники рейтинговой системы, которые сыграли менее 50 игр, теоретически являются удобной целью, поскольку они могут быть переоценены в своем предварительном рейтинге. ICC компенсирует эту проблему, назначая более низкий К-фактор устоявшемуся игроку, если он выигрывает у нового участника рейтинга. К-фактор на самом деле является функцией количества рейтинговых игр, сыгранных новым участником.
Таким образом, рейтинги Эло онлайн по-прежнему являются полезным механизмом для предоставления рейтинга на основе рейтинга противника. Однако его общая достоверность должна рассматриваться в контексте по крайней мере двух основных проблем, описанных выше — злоупотребление движком и выборочное составление пар противников.
ICC также недавно ввела рейтинги «автоматического спаривания», которые основаны на случайных парах, но с каждой победой подряд, гарантирующей статистически гораздо более сильного противника, который также выиграл x игр подряд. При потенциальном участии сотен игроков это создает некоторые сложности крупного крупного швейцарского турнира, в котором идет ожесточенная борьба, где победители раундов встречаются с победителями раундов. Такой подход к спариванию, безусловно, максимизирует риск рейтинга участников с более высоким рейтингом, которые могут столкнуться с очень жестким сопротивлением со стороны игроков ниже 3000, например. Это отдельный рейтинг сам по себе и находится в категориях рейтинга «1 минута» и «5 минут». Максимальные рейтинги, достигнутые выше 2500, встречаются исключительно редко.
Термин «инфляция», применяемый к рейтингам, подразумевает, что уровень игровой силы, демонстрируемый рейтинговым игроком, со временем снижается; наоборот, «дефляция» предполагает, что уровень повышается. Например, если есть инфляция, современный рейтинг 2500 означает меньше, чем исторический рейтинг 2500, в то время как обратное верно, если есть дефляция. Использование рейтингов для сравнения игроков разных эпох становится более сложным, когда присутствует инфляция или дефляция. (См. также Сравнение лучших шахматистов за всю историю .)
Анализируя рейтинг-листы ФИДЕ с течением времени, Джефф Сонас предполагает, что инфляция могла иметь место примерно с 1985 года. [42] Сонас рассматривает игроков с самым высоким рейтингом, а не всех игроков с рейтингом, и признает, что изменения в распределении рейтингов могли быть вызваны повышением стандарта игры на самых высоких уровнях, но ищет и другие причины.
Число людей с рейтингом выше 2700 увеличилось. Около 1979 года был только один активный игрок ( Анатолий Карпов ) с таким высоким рейтингом. В 1992 году Вишванатан Ананд был всего лишь 8-м игроком в истории шахмат, достигшим отметки 2700 на тот момент. [43] К 1994 году это число увеличилось до 15 игроков. 33 игрока имели рейтинг 2700+ в 2009 году и 44 по состоянию на сентябрь 2012 года. Только 14 игроков когда-либо превышали рейтинг 2800.
Одной из возможных причин этой инфляции был рейтинговый пол, который долгое время был на уровне 2200, и если игрок опускался ниже этого уровня, он вычеркивался из рейтингового списка. Как следствие, игроки с уровнем мастерства чуть ниже пола могли попасть в рейтинговый список только в том случае, если их переоценивали, и это заставляло их вносить очки в рейтинговый пул. [42] В июле 2000 года средний рейтинг топ-100 составлял 2644. К июлю 2012 года он увеличился до 2703. [43]
Используя мощный шахматный движок для оценки ходов, сделанных в партиях между рейтинговыми игроками, Риган и Хоуорт анализируют наборы игр из рейтинговых турниров ФИДЕ и приходят к выводу, что с 1976 по 2009 год инфляция была незначительной или отсутствовала вовсе. [44]
В чистой системе Эло каждая игра заканчивается равной транзакцией рейтинговых очков. Если победитель получает N рейтинговых очков, проигравший теряет N рейтинговых очков. Это предотвращает попадание или покидание системы очков, когда игры проводятся и оцениваются. Однако игроки, как правило, входят в систему как новички с низким рейтингом и выходят из системы как опытные игроки с высоким рейтингом. Поэтому в долгосрочной перспективе система со строго равными транзакциями имеет тенденцию приводить к дефляции рейтинга. [45]
В 1995 году USCF признал, что несколько молодых игроков-школьников прогрессировали быстрее, чем могла отследить рейтинговая система. В результате, признанные игроки со стабильными рейтингами начали терять рейтинговые очки в пользу молодых и недооцененных игроков. Несколько из более старых признанных игроков были разочарованы тем, что они считали несправедливым снижением рейтинга, и некоторые даже бросили шахматы из-за этого. [46]
Из-за существенной разницы во времени возникновения инфляции и дефляции, а также в целях борьбы с дефляцией, большинство реализаций рейтингов Эло имеют механизм для введения очков в систему для поддержания относительных рейтингов с течением времени. ФИДЕ имеет два инфляционных механизма. Во-первых, выступления ниже «рейтингового пола» не отслеживаются, поэтому игрок с истинным мастерством ниже пола может быть только неоцененным или переоцененным, но никогда не иметь правильного рейтинга. Во-вторых, у признанных и высокорейтинговых игроков более низкий К-фактор. У новых игроков К = 40 , который падает до К = 20 после 30 сыгранных игр и до К = 10 , когда игрок достигает 2400. [31] Текущая система в Соединенных Штатах включает схему бонусных очков, которая вводит рейтинговые очки в систему для отслеживания улучшающихся игроков, и различные значения К для разных игроков. [46] Некоторые методы, используемые, например, в Норвегии, различают юниоров и ветеранов и используют больший К-фактор для молодых игроков, даже увеличивая прогресс рейтинга на 100%, когда они набирают очки, значительно превышающие их прогнозируемые результаты. [47]
Рейтинговые полы в Соединенных Штатах работают, гарантируя, что игрок никогда не опустится ниже определенного предела. Это также борется с дефляцией, но председатель Комитета по рейтингам USCF критиковал этот метод, поскольку он не дает дополнительных очков улучшающимся игрокам. Возможным мотивом для этих рейтинговых полов является борьба с песочницей, т. е. преднамеренным понижением рейтингов для получения права на разделы и призы более низкого рейтингового класса. [46]
Матчи человек-компьютер в шахматы между 1997 ( Deep Blue против Гарри Каспарова ) и 2006 годами продемонстрировали, что шахматные компьютеры способны победить даже сильнейших игроков-людей. Однако рейтинги шахматных движков трудно поддаются количественной оценке из-за переменных факторов, таких как контроль времени и оборудование, на котором работает программа, а также тот факт, что шахматы — это нечестная игра. Наличие и величина преимущества первого хода в шахматах становятся очень важными на уровне компьютера. За пределами некоторого порога мастерства движок с белыми должен быть способен форсировать ничью по требованию из начальной позиции даже против идеальной игры, просто потому, что белые начинают со слишком большим преимуществом, чтобы потерять его по сравнению с небольшой величиной ошибок, которые они, вероятно, совершат. Следовательно, такой движок более или менее гарантированно наберет не менее 25% даже против идеальной игры. Различия в мастерстве за пределами определенной точки могут быть обнаружены только в том случае, если не начинать с обычной начальной позиции, а вместо этого выбрать начальную позицию, которая едва ли не проиграна для одной из сторон. Из-за этих факторов рейтинги зависят от пар и выбранных дебютов. [48] Опубликованные списки рейтингов движков, такие как CCRL, основаны на играх, сыгранных только на движке на стандартных аппаратных конфигурациях, и их нельзя напрямую сравнивать с рейтингами ФИДЕ.
Оценки некоторых рейтингов см. в разделе Рейтинги шахматного движка .
Система рейтинга Эло используется в шахматной части шахбокса . Чтобы иметь право заниматься профессиональным шахбоксом, необходимо иметь рейтинг Эло не менее 1600, а также принять участие в 50 или более матчах любительского бокса или боевых искусств.
Американский студенческий футбол использовал метод Эло как часть своих рейтинговых систем Bowl Championship Series с 1998 по 2013 год, после чего BCS был заменен на College Football Playoff . Джефф Сагарин из USA Today публикует рейтинги команд для большинства американских видов спорта, которые включают рейтинги системы Эло для студенческого футбола. Использование рейтинговых систем было фактически отменено с созданием College Football Playoff в 2014 году.
В других видах спорта рейтинги составляются на основе алгоритма Эло. Обычно они неофициальные и не одобрены руководящим органом вида спорта. Рейтинг Эло мирового футбола является примером метода, применяемого к мужскому футболу . [51] В 2006 году рейтинги Эло были адаптированы для команд Главной лиги бейсбола Нейтом Сильвером , тогдашним сотрудником Baseball Prospectus . [52] На основе этой адаптации оба также провели моделирование Монте-Карло на основе Эло для вероятности выхода команд в плей-офф. [53] В 2014 году Beyond the Box Score, сайт SB Nation , представил систему рейтинга Эло для международного бейсбола. [54]
В теннисе рейтинг Universal Tennis Rating (UTR), основанный на Эло, оценивает игроков в глобальном масштабе, независимо от возраста, пола или национальности. Это официальная рейтинговая система крупных организаций, таких как Intercollegiate Tennis Association и World TeamTennis , и часто используется в сегментах на Tennis Channel . Алгоритм анализирует более 8 миллионов результатов матчей более 800 000 теннисистов по всему миру. 8 мая 2018 года Рафаэль Надаль , выиграв 46 последовательных сетов в матчах на грунтовых кортах, имел почти идеальный грунтовый UTR 16,42. [55]
В пуле для ранжирования игроков в организованных любительских и профессиональных соревнованиях используется система, основанная на рейтинге Эло, называемая Fargo Rate. [56]
Одним из немногих рейтингов на основе Эло, одобренных руководящим органом вида спорта, является женский мировой рейтинг ФИФА , основанный на упрощенной версии алгоритма Эло, который ФИФА использует в качестве официальной рейтинговой системы для национальных сборных по женскому футболу .
Начиная с первого рейтингового списка после чемпионата мира по футболу FIFA 2018 года , ФИФА использовала Эло для своего мирового рейтинга ФИФА . [57]
В 2015 году Нейт Сильвер, главный редактор статистического комментаторского сайта FiveThirtyEight , и Рубен Фишер-Баум составили рейтинги Эло для каждой команды Национальной баскетбольной ассоциации и сезона до сезона 2014 года. [58] [59] В 2014 году FiveThirtyEight создал рейтинги на основе Эло и прогнозы побед для Американской профессиональной Национальной футбольной лиги . [60]
Английская ассоциация корфбола составила рейтинг команд на основе рейтинга Эло, чтобы определить гандикапы для их кубковых соревнований в сезоне 2011/12.
Разработан рейтинг игроков Национальной хоккейной лиги на основе индекса Эло. [61] Метрика хоккейного Эло оценивает общую двустороннюю игру игрока: результативность И защиту как в равных составах, так и в ситуациях игры в большинстве/убийства штрафных.
Rugbyleagueratings.com использует систему рейтинга Эло для ранжирования международных и клубных команд регбийной лиги .
Hemaratings.com был запущен в 2017 году и использует алгоритм Glicko-2 для ранжирования отдельных исторических европейских фехтовальщиков боевых искусств по всему миру в различных категориях, таких как длинный меч , рапира , историческая сабля и меч и баклер . [62]
Многие видеоигры используют модифицированные системы Эло в соревновательном игровом процессе. Игра MOBA League of Legends использовала систему рейтинга Эло до второго сезона соревновательной игры. [63] Киберспортивная игра Overwatch , основа уникальной профессиональной спортивной организации Overwatch League , использует производную от системы Эло для ранжирования соревновательных игроков с различными корректировками, вносимыми между соревновательными сезонами. [64] World of Warcraft также ранее использовала систему Glicko-2 для объединения в команды и сравнения игроков Арены, но теперь использует систему, похожую на TrueSkill от Microsoft . [65] Игра Puzzle Pirates использует систему рейтинга Эло для определения позиций в различных головоломках. Эта система также используется в FIFA Mobile для режимов Division Rivals. Еще одна недавняя игра, которая начала использовать систему рейтинга Эло, — это AirMech , использующая рейтинги Эло [66] для случайного/командного подбора игроков 1 на 1, 2 на 2 и 3 на 3. RuneScape 3 использовала систему Эло в переиздании мини-игры охотника за головами в 2016 году. [67] Mechwarrior Online ввела систему Эло для своего нового режима «Очередь компов», вступившего в силу с патчем от 20 июня 2017 года. [68] Age of Empires II DE и Age of Empires III DE используют систему Эло для своей таблицы лидеров и подбора игроков, при этом новые игроки начинают с Эло 1000. [69] Соревновательный классический тетрис ( тетрис, в который играли на Nintendo Entertainment System ) выводит свои рейтинги, используя комбинацию личных лучших результатов игроков и сильно модифицированной системы Эло. [70]
Немногие видеоигры используют оригинальную систему рейтинга Эло. Согласно Lichess , онлайн-шахматному серверу, система Эло устарела, и теперь многие шахматные организации используют Glicko-2. [71] PlayerUnknown's Battlegrounds — одна из немногих видеоигр, которая использует самую первую систему Эло. В Guild Wars рейтинги Эло используются для записи рейтинга гильдии, полученного и потерянного в сражениях гильдий. В 1998 году была запущена онлайн-игра под названием Clanbase [72] , которая использовала систему подсчета очков Эло для ранжирования команд. Первоначальное значение K было 30, но было изменено на 5 в январе 2007 года, затем изменено на 15 в июле 2009 года. [73] Позже сайт был закрыт в 2013 году. [74] Похожий альтернативный сайт был запущен в 2016 году под названием Scrimbase , [75] который также использовал систему подсчета очков Эло для ранжирования команд. С 2005 года Golden Tee Live оценивает игроков на основе системы Эло. Новые игроки начинают с 2100, а рейтинг лучших игроков превышает 3000. [76]
Несмотря на то, что во многих видеоиграх используются различные системы подбора игроков , игроки рейтинговых видеоигр часто называют все рейтинги подбора игроков Эло .
Система рейтинга Эло использовалась в мягкой биометрии , [77] которая касается идентификации людей с использованием человеческих описаний. Сравнительные описания использовались вместе с системой рейтинга Эло для обеспечения надежных и дискриминационных «относительных измерений», позволяющих проводить точную идентификацию.
Система рейтинга Эло также использовалась в биологии для оценки иерархий доминирования самцов [78] , а также в автоматизации и компьютерном зрении для проверки тканей [79] .
Более того, сайты онлайн-судей также используют систему рейтинга Эло или ее производные. Например, Topcoder использует модифицированную версию, основанную на нормальном распределении, [80] в то время как Codeforces использует другую версию, основанную на логистическом распределении. [81] [82] [83]
Система рейтинга Эло также была отмечена в приложениях для знакомств, таких как приложение для подбора пар Tinder , которое использует вариант системы рейтинга Эло. [84]
YouTuber Marques Brownlee и его команда использовали рейтинговую систему Elo, когда позволили людям голосовать за цифровые фотографии, сделанные с помощью разных моделей смартфонов, выпущенных в 2022 году. [85]
Система рейтинга Эло также использовалась в рейтингах колледжей США, составленных , например, компанией Parchment, предоставляющей цифровые сертификаты. [86] [87] [88]
Система рейтинга Эло также была принята для оценки моделей ИИ. В 2021 году Anthropic использовала систему Эло для ранжирования моделей ИИ в своих исследованиях. [89] Таблица лидеров LMSYS недолгое время использовала систему рейтинга Эло для ранжирования моделей ИИ [90] перед переходом на модель Брэдли–Терри . [91]
Система рейтинга Эло была представлена в «Социальной сети» во время сцены алгоритма, где Марк Цукерберг выпустил Facemash . В этой сцене Эдуардо Саверин пишет математические формулы для системы рейтинга Эло на окне общежития Цукерберга. За кулисами, как утверждается в фильме, система Эло используется для ранжирования девушек по их привлекательности. Уравнения, управляющие алгоритмом, показаны кратко, написанными на окне; [92] однако они немного неверны. [ необходима цитата ]