Рейтинговая система Эло

Арпад Эло , изобретатель рейтинговой системы Эло

Рейтинговая система Эло ^[a] — это метод расчета относительных уровней навыков игроков в играх с нулевой суммой, таких как шахматы . Он назван в честь своего создателя Арпада Эло , венгерско-американского профессора физики.

Система Эло была изобретена как улучшенная шахматная рейтинговая система по сравнению с ранее использовавшейся системой Харкнесса ^[1] , но также используется в качестве рейтинговой системы в футболе , американском футболе , бейсболе , баскетболе , бильярде , настольном теннисе , различных настольных играх и киберспорт , а в последнее время и большие языковые модели .

Разница в рейтингах двух игроков служит предсказателем исхода матча. Ожидается, что два игрока с равными рейтингами, играющие друг против друга, одержат равное количество побед. Ожидается, что игрок, чей рейтинг на 100 очков превышает рейтинг противника, наберет 64%; если разница составляет 200 очков, то ожидаемый результат более сильного игрока составит 76%.

Рейтинг Эло игрока — это число, которое может меняться в зависимости от исхода сыгранных рейтинговых игр. После каждой игры победивший игрок забирает очки у проигравшего. Разница рейтингов победителя и проигравшего определяет общее количество очков, полученных или потерянных после игры. Если победит игрок с более высоким рейтингом, то у игрока с более низким рейтингом будет отнято лишь несколько очков рейтинга. Однако если игрок с более низким рейтингом одержит досадную победу , многие рейтинговые очки будут переведены. Игрок с более низким рейтингом также получит несколько очков от игрока с более высоким рейтингом в случае ничьей. Это означает, что данная рейтинговая система является самокорректирующейся. Игроки, чьи рейтинги слишком низкие или слишком высокие, в конечном итоге должны показывать лучшие или худшие результаты соответственно, чем предсказывает рейтинговая система, и, таким образом, набирать или терять рейтинговые очки до тех пор, пока рейтинги не отразят их истинную игровую силу.

Рейтинги Эло являются только сравнительными и действительны только в пределах рейтингового пула, в котором они были рассчитаны, а не являются абсолютной мерой силы игрока.

Хотя системы, подобные Эло, широко используются в играх для двух игроков, их вариации также применяются в многопользовательских соревнованиях. ^[2]

История

Арпад Эло был шахматистом мастерского уровня и активным участником Шахматной федерации США (USCF) с момента ее основания в 1939 году. ^[3] USCF использовала систему числовых рейтингов, разработанную Кеннетом Харкнессом , чтобы позволить членам отслеживать свои результаты. индивидуальный прогресс, помимо турнирных побед и поражений. Система Харкнесса была достаточно справедливой, но в некоторых обстоятельствах приводила к рейтингам, которые многие наблюдатели считали неточными. По поручению USCF Эло разработал новую систему с более надежной статистической основой. ^[4] Примерно в то же время Дьёрдь Карой и Роджер Кук независимо друг от друга разработали систему, основанную на тех же принципах, для Шахматной ассоциации Нового Южного Уэльса. ^[5]

Система Эло заменила более ранние системы конкурентных вознаграждений системой, основанной на статистической оценке. Системы рейтингов для многих видов спорта начисляют баллы в соответствии с субъективными оценками «величия» тех или иных достижений. Например, победа в важном турнире по гольфу может принести произвольно выбранное в пять раз больше очков, чем победа в менее значимом турнире.

В статистических исследованиях, напротив, используется модель, которая связывает результаты игры с базовыми переменными, отражающими способности каждого игрока.

Центральное предположение Эло заключалось в том, что шахматная результативность каждого игрока в каждой игре является нормально распределенной случайной величиной . Хотя игрок может выступать значительно лучше или хуже от одной игры к другой, Эло предположил, что средняя ценность результатов любого конкретного игрока меняется со временем очень медленно. Эло рассматривал истинное мастерство игрока как среднее значение случайной переменной производительности этого игрока.

Необходимо еще одно предположение, поскольку шахматная результативность в указанном выше смысле все еще не поддается измерению. Невозможно просмотреть последовательность ходов и получить число, отражающее мастерство игрока. Об эффективности можно судить только по победам, ничьим и поражениям. Следовательно, если игрок выигрывает игру, предполагается, что он выступил на более высоком уровне, чем его противник в этой игре. И наоборот, если игрок проигрывает, предполагается, что он выступил на более низком уровне. Если игра завершилась вничью, предполагается, что оба игрока выступили примерно на одном уровне.

Эло не уточнил, насколько близкими должны быть два выступления, чтобы привести к ничьей, а не к победе или поражению. На самом деле существует вероятность ничьей, которая зависит от разницы в производительности, поэтому последняя является скорее доверительным интервалом, чем любой детерминированной границей. И хотя он считал, что вполне вероятно, что у игроков могут быть разные стандартные отклонения в их выступлениях, он сделал упрощающее предположение об обратном.

Чтобы еще больше упростить вычисления, Эло предложил простой метод оценки переменных в своей модели (т. е. истинного мастерства каждого игрока). По таблицам можно сравнительно легко подсчитать, сколько игр игроки, как ожидается, выиграют, основываясь на сравнении их рейтингов с рейтингами их оппонентов. Рейтинги игрока, выигравшего больше игр, чем ожидалось, будут скорректированы в сторону повышения, а рейтинги игрока, выигравшего меньше, чем ожидалось, будут скорректированы в сторону понижения. Более того, эта корректировка должна была быть линейно пропорциональна количеству побед, на которые игрок превысил или не дотянул до ожидаемого числа. ^[6]

С современной точки зрения, в упрощающих предположениях Эло нет необходимости, поскольку вычислительная мощность недорога и широко доступна. Несколько человек, в первую очередь Марк Гликман , предложили использовать более сложную статистическую технику для оценки тех же переменных. С другой стороны, вычислительная простота системы Эло оказалась одним из ее главных достоинств. С помощью карманного калькулятора информированный шахматист может с точностью до одного балла рассчитать, каким будет его следующий официально опубликованный рейтинг, что помогает создать впечатление, что рейтинги справедливы.

Реализация схемы Эло

USCF реализовал предложения Эло в 1960 году ^[7] , и система быстро получила признание как более справедливая и точная, чем рейтинговая система Харкнесса . Система Эло была принята Всемирной шахматной федерацией (ФИДЕ) в 1970 году. ^[8] Эло подробно описал свою работу в «Рейтинге шахматистов прошлого и настоящего» , впервые опубликованном в 1978 году. ^[9]

Последующие статистические тесты показали, что результаты в шахматах почти наверняка не распределяются по нормальному распределению , поскольку более слабые игроки имеют больше шансов на победу, чем предсказывает модель Эло. ^[10]^[11] Часто в данных парных сравнений очень мало практической разницы в том, предполагается ли, что различия в сильных сторонах игроков распределены нормально или логистически. Однако с математической точки зрения работать с логистической функцией удобнее, чем с нормальным распределением. ^[12] ФИДЕ продолжает использовать таблицу разницы рейтингов, предложенную Эло. ^[13]^{: таблица 8.1б.}

Разработка Таблицы процентных ожиданий (таблица 2.11) более подробно описана Эло следующим образом: ^[14]

Нормальные вероятности могут быть взяты непосредственно из стандартных таблиц площадей под нормальной кривой, если разница в рейтингах выражается как балл az. Поскольку стандартное отклонение σ отдельных показателей определяется как 200 баллов, стандартное отклонение σ' различий в показателях становится σ√2 или 282,84. Тогда значение z разницы составит D/282,84. Затем это разделит область под кривой на две части: большая дает P для игрока с более высоким рейтингом, а меньшая дает P для игрока с более низким рейтингом.
Например, пусть D = 160. Тогда z = 160/282,84 = 0,566. В таблице указаны площади двух частей под кривой 0,7143 и 0,2857. Эти вероятности округлены до двух цифр в таблице 2.11.

На самом деле таблица построена со стандартным отклонением 200(10/7) как приближением к 200√2. ^{[ нужна цитата ]}

Нормальное и логистическое распределения — это в каком-то смысле произвольные точки в спектре распределений, которые хорошо работают. На практике оба этих дистрибутива очень хорошо работают для множества различных игр.

Различные системы рейтингов

Фраза «рейтинг Эло» часто используется для обозначения шахматного рейтинга игрока, рассчитанного ФИДЕ. Однако такое использование может сбивать с толку или вводить в заблуждение, поскольку общие идеи Эло были приняты многими организациями, включая USCF (до ФИДЕ), многие другие национальные шахматные федерации, недолговечную Профессиональную шахматную ассоциацию (PCA) и шахматные онлайн-серверы, включая Интернет -шахматный клуб (ICC), Бесплатный Интернет-шахматный сервер (FICS), Lichess , Chess.com и Yahoo! Игры. Каждая организация имеет уникальную реализацию, и ни одна из них не следует в точности оригинальным предложениям Эло.

Вместо этого можно обратиться к организации, присвоившей рейтинг. Например: «По состоянию на август 2002 года Григорий Кайданов имел рейтинг ФИДЕ 2638 и рейтинг USCF 2742». Рейтинги Эло этих различных организаций не всегда напрямую сопоставимы, поскольку рейтинги Эло измеряют результаты внутри закрытого пула игроков, а не абсолютное мастерство.

Рейтинги ФИДЕ

Для топ-игроков самым важным рейтингом является рейтинг ФИДЕ . ФИДЕ опубликовала следующие списки:

С 1971 по 1980 год выпускался один список в год.
С 1981 по 2000 год выпускалось два списка в год: в январе и июле.
С июля 2000 г. по июль 2009 г. выпускалось четыре списка в год: в начале января, апреля, июля и октября.
С июля 2009 года по июль 2012 года выпускалось шесть списков в год: в начале января, марта, мая, июля, сентября и ноября.
С июля 2012 года список обновляется ежемесячно.

Следующий анализ рейтингового списка ФИДЕ за июль 2015 года дает приблизительное представление о том, что означает тот или иной рейтинг ФИДЕ с точки зрения мирового рейтинга:

5323 игрока имели активный рейтинг в диапазоне от 2200 до 2299, который обычно ассоциируется со званием Кандидат в мастера .
2869 игроков имели активный рейтинг в диапазоне от 2300 до 2399, что обычно ассоциируется со званием Мастера ФИДЕ .
1420 игроков имели активный рейтинг от 2400 до 2499, большинство из которых имели звание международного мастера или международного гроссмейстера .
542 игрока имели активный рейтинг от 2500 до 2599, большинство из них имели звание международного гроссмейстера .
187 игроков имели активный рейтинг от 2600 до 2699, все они имели звание международного гроссмейстера .
40 игроков имели активный рейтинг от 2700 до 2799.
4 игрока имели активный рейтинг выше 2800. ( Магнус Карлсен имел рейтинг 2853, а 3 игрока имели рейтинг между 2814 и 2816).

Самый высокий рейтинг ФИДЕ за всю историю составил 2882, он был у Магнуса Карлсена в списке мая 2014 года. Список игроков с самым высоким рейтингом за всю историю можно найти на сайте « Сравнение лучших шахматистов за всю историю» .

Рейтинг производительности

Рейтинг результативности или специальный рейтинг — это гипотетический рейтинг, который может быть получен только по результатам игр одного турнира. Некоторые шахматные организации ^[15]^{: с. 8} используют «алгоритм 400» для расчета рейтинга производительности. Согласно этому алгоритму рейтинг результативности мероприятия рассчитывается следующим образом:

За каждую победу прибавляйте рейтинг противника плюс 400,
За каждое поражение прибавляйте рейтинг противника минус 400,
И разделите эту сумму на количество сыгранных игр.

Пример: 2 победы (противники w и x ), 2 поражения (противники y и z ) .

{\begin{aligned}&{\frac {w+400+x+400+y-400+z-400}{4}}\\[6pt]&{\frac {w+x+y+z+400(2)-400(2)}{4}}\end{aligned}}

Это можно выразить следующей формулой:

{\text{performance rating}}={\frac {{\text{total of opponents' ratings }}+400\times ({\text{wins}}-{\text{losses}})}{\text{games}}}

Пример: Если вы победили игрока с рейтингом Эло 1000,

{\text{performance rating}}={\frac {1000+400\times (1)}{1}}=1400

Если вы победите двух игроков с рейтингом Эло 1000,

{\text{performance rating}}={\frac {2000+400\times (2)}{2}}=1400

Если ты рисуешь,

{\text{performance rating}}={\frac {1000+400\times (0)}{1}}=1000

Это упрощение, но оно предлагает простой способ получить оценку PR (рейтинга производительности).

Однако ФИДЕ рассчитывает рейтинг результативности по формуле

{\text{performance rating}}={\text{average of opponents' ratings}}+d_{p},

d_{p}

p

p

d_{p}

Живые рейтинги

ФИДЕ обновляет свой рейтинговый список в начале каждого месяца. Напротив, неофициальные «Живые рейтинги» рассчитывают изменение рейтингов игроков после каждой игры. Эти рейтинги в реальном времени основаны на ранее опубликованных рейтингах ФИДЕ, поэтому рейтинг игрока в реальном времени должен соответствовать тому, каким был бы рейтинг ФИДЕ, если бы ФИДЕ в тот же день выпустила новый список.

Хотя рейтинги Live являются неофициальными, интерес к рейтингам Live возник в августе/сентябре 2008 года, когда пять разных игроков заняли первое место в рейтинге Live. ^[16]

Неофициальные живые рейтинги игроков более 2700 публиковались и поддерживались Гансом Арильдом Рунде на веб-сайте Live Rating до августа 2011 года. Другой веб-сайт, 2700chess.com, с мая 2011 года поддерживается Артемом Цепотаном , который также охватывает 100 лучших игроков. как 50 лучших игроков женского пола.

Изменения рейтингов можно рассчитать вручную с помощью калькулятора изменения рейтингов ФИДЕ. ^[17] У всех лучших игроков К-фактор равен 10, что означает, что максимальное изменение рейтинга за одну игру составляет чуть менее 10 очков.

Рейтинги Шахматной федерации США

Федерация шахмат США (USCF) использует собственную классификацию игроков: ^[18]

2400 и выше: Старший Мастер
2200–2399: Национальный мастер.
- 2200–2399 плюс 300 игр выше 2200: Original Life Master ^[19]
2000–2199: Эксперт или кандидат в мастера.
1800–1999: Класс А.
1600–1799: Класс Б.
1400–1599: Класс С.
1200–1399: Класс D.
1000–1199: Класс Е
800–999: Класс F
600–799: Класс G
400–599: Класс H
200–399: Класс I.
100–199: Класс J

К-фактор, используемый USCF

К -фактор в рейтинговой системе USCF можно оценить, разделив 800 на эффективное количество игр, на которых основан рейтинг игрока ( N _e ), плюс количество игр, завершенных игроком в турнире ( m ). ^[20]

K={\frac {800}{N_{e}+m}}\,

Этажи рейтинга

USCF поддерживает абсолютный нижний предел рейтинга 100 для всех рейтингов. Таким образом, ни один участник не может иметь рейтинг ниже 100, независимо от его выступлений на мероприятиях, санкционированных USCF. Однако игроки могут иметь более высокие индивидуальные абсолютные рейтинги, рассчитываемые по следующей формуле:

AF=\operatorname {min} \{100+4N_{W}+2N_{D}+N_{R},150\}

где – количество выигранных рейтинговых игр, – количество сыгранных вничью рейтинговых игр, – количество событий, в которых игрок завершил три и более рейтинговых игр. $N_{W}$ $N_{D}$ $N_{R}$

Более высокие уровни рейтинга существуют для опытных игроков, достигших значительных рейтингов. Существуют такие более высокие уровни рейтинга, начиная с рейтинга 1200 с шагом в 100 пунктов до 2100 (1200, 1300, 1400, ..., 2100). Минимальный рейтинг рассчитывается путем вычитания максимального установленного рейтинга игрока из 200 очков и последующего округления до ближайшего нижнего уровня рейтинга. Например, игрок, достигший максимального рейтинга 1464, будет иметь минимальный рейтинг 1464 − 200 = 1264, который будет округлен до 1200. Согласно этой схеме только игроки класса C и выше могут иметь более высокий рейтинг. этаже, чем их абсолютный рейтинг игрока. У всех остальных игроков будет не более 150 этажей.

Есть два способа достичь более высоких ступеней рейтинга, кроме стандартной схемы, представленной выше. Если игрок достиг рейтинга Original Life Master, его минимальный рейтинг устанавливается на уровне 2200. Достижение этого титула уникально тем, что ни один другой признанный титул USCF не приведет к новому уровню. Для игроков с рейтингом ниже 2000 выигрыш денежного приза в размере 2000 долларов США или более повышает нижний рейтинг этого игрока до ближайшего уровня в 100 баллов, который дисквалифицирует игрока для участия в турнире. Например, если игрок выиграл $4000 в турнире среди игроков до 1750 человек и ниже, его минимальный рейтинг теперь будет равен 1800.

Теория

Парные сравнения составляют основу методологии рейтинга Эло. ^[21] Эло ссылался на статьи Гуда, ^[22] Дэвида, ^[23] Травински и Дэвида, ^[24] и Бюльмана и Хубера. ^[25]

Математические детали

Производительность не измеряется абсолютно; он выводится из побед, поражений и ничьих против других игроков. Рейтинги игроков зависят от рейтингов их противников и результатов, набранных против них. Разница в рейтинге между двумя игроками определяет оценку ожидаемого результата между ними. Как среднее значение, так и разброс рейтингов могут быть выбраны произвольно. Первоначально USCF стремился к тому, чтобы средний клубный игрок имел рейтинг 1500, и Эло предложил масштабировать рейтинги таким образом, чтобы разница в 200 рейтинговых очков в шахматах означала, что более сильный игрок имеет ожидаемый результат ( по сути, ожидаемый средний балл) примерно 0,75. .

Ожидаемый результат игрока — это вероятность его выигрыша плюс половина вероятности выпадения ничьей. Таким образом, ожидаемый результат 0,75 может представлять собой 75% вероятность победы, 25% вероятность проигрыша и 0% вероятность ничьей. С другой стороны, это может представлять собой 50% вероятность выигрыша, 0% вероятность проигрыша и 50% вероятность ничьей. Вероятность выпадения, в отличие от решающего результата, не указана в системе Эло. Вместо этого ничья считается половиной победы и половиной поражения. На практике, поскольку истинная сила каждого игрока неизвестна, ожидаемые очки рассчитываются с использованием текущих рейтингов игрока следующим образом.

Если рейтинг игрока A равен , а рейтинг игрока B равен , то точная формула (с использованием логистической кривой с основанием 10 ) ^[26] для ожидаемого результата игрока A будет равна $\,R_{\mathsf {A}}\,$ $\,R_{\mathsf {B}}\,$

E_{\mathsf {A}}={\frac {1}{1+10^{(R_{\mathsf {B}}-R_{\mathsf {A}})/400}}}~.

Аналогично, ожидаемый результат для игрока B равен

E_{\mathsf {B}}={\frac {1}{1+10^{(R_{\mathsf {A}}-R_{\mathsf {B}})/400}}}~.

Это также может быть выражено через

E_{\mathsf {A}}={\frac {Q_{\mathsf {A}}}{Q_{\mathsf {A}}+Q_{\mathsf {B}}}}

E_{\mathsf {B}}={\frac {Q_{\mathsf {B}}}{Q_{\mathsf {A}}+Q_{\mathsf {B}}}}~,

где и Обратите внимание, что в последнем случае к обоим выражениям применяется один и тот же знаменатель, и ясно, что Это означает, что, изучая только числители, мы обнаруживаем, что ожидаемый результат для игрока A в раз превышает ожидаемый результат для игрока B. Отсюда следует, что на каждые 400 рейтинговых очков преимущества над противником ожидаемый результат увеличивается в десять раз по сравнению с ожидаемым результатом противника. $\;Q_{\mathsf {A}}=10^{R_{\mathsf {A}}/400}\;,$ $\;Q_{\mathsf {B}}=10^{R_{\mathsf {B}}/400}~.$ $\;E_{\mathsf {A}}+E_{\mathsf {B}}=1~.$ $\;Q_{\mathsf {A}}/Q_{\mathsf {B}}\;$

Когда фактические турнирные результаты игрока превышают его ожидаемые результаты, система Эло воспринимает это как свидетельство того, что рейтинг игрока слишком низок и его необходимо повысить. Аналогичным образом, когда фактические турнирные результаты игрока не соответствуют ожидаемым, рейтинг этого игрока снижается. Первоначальное предложение Эло, которое до сих пор широко используется, представляло собой простую линейную корректировку, пропорциональную тому, насколько игрок превысил или не достиг ожидаемого результата. Максимально возможная корректировка за игру, называемая К-фактором, была установлена для мастеров и для более слабых игроков. $\;K=16\;$ $\;K=32\;$

Предположим, что игрок А (опять же с рейтингом ) должен был набрать очки, но на самом деле набрал очки. Формула обновления рейтинга этого игрока: $R_{\mathsf {A}}$ $\,E_{\mathsf {A}}\,$ $\,S_{\mathsf {A}}\,$

R_{\mathsf {A}}'=R_{\mathsf {A}}+K\cdot (S_{\mathsf {A}}-E_{\mathsf {A}})~.

^[1]

Это обновление можно выполнять после каждой игры или каждого турнира или после любого подходящего рейтингового периода.

Пример может помочь прояснить:

Предположим, игрок А имеет рейтинг 1613 и участвует в турнире из пяти раундов. Они проигрывают игроку с рейтингом 1609, играют вничью с игроком с рейтингом 1477, побеждают игрока с рейтингом 1388, побеждают игрока с рейтингом 1586 и проигрывают игроку с рейтингом 1720. Фактический счет игрока равен ( 0 + 0,5 + 1 + 1 + 0 ) = 2,5 . Ожидаемый балл, рассчитанный по приведенной выше формуле, составил $(0,51 + 0,69 + 0,79 + 0,54 + 0,35)$ = 2,88.
Следовательно, новый рейтинг игрока составит [1613 + 32·(2,5 − 2,88)] = 1601, предполагая, что используется $К$ -фактор, равный 32. Аналогичным образом, в каждой игре можно сказать, что игрок вложил в банк ставку, равную $K$ , умноженную на его ожидаемый результат в игре, противостоящий игрок делает то же самое, и победитель забирает полный банк стоимостью $K$ ; в случае ничьей игроки делят банк и получают очки каждый. $\;{\tfrac {1}{2}}K\;$
Обратите внимание: хотя две победы, два поражения и одна ничья могут показаться номинальным счетом, для игрока А это хуже, чем ожидалось, поскольку его противники в среднем имели более низкий рейтинг. Следовательно, игрок А слегка оштрафован. Если бы игрок А одержал две победы, одно поражение и две ничьи, набрав в общей сложности три очка, это было бы немного лучше, чем ожидалось, и новый рейтинг игрока был бы [1613 + 32·(3 − 2,88) ] = 1617 .

Эта процедура обновления лежит в основе рейтингов, используемых ФИДЕ , USCF , Yahoo! Games , Интернет-шахматный клуб (ICC) и бесплатный шахматный сервер в Интернете (FICS). Однако каждая организация пошла по-своему, чтобы справиться с неопределенностью, присущей рейтингам, особенно рейтингам новичков, и решить проблему инфляции/дефляции рейтингов. Новым игрокам присваиваются предварительные рейтинги, которые корректируются более радикально, чем установленные рейтинги.

Принципы, используемые в этих рейтинговых системах, можно использовать для оценки других соревнований, например международных футбольных матчей.

Рейтинги Эло также применялись к играм без возможности ничьей , а также к играм, в которых результат может иметь не только качество (выигрыш/проигрыш), но и количественный (маленький/большой перевес). Дополнительную информацию см. в рейтинге Го с Эло .

Предлагаемая модификация

В 2011 году, проанализировав 1,5 миллиона игр с рейтингом ФИДЕ, Джефф Сонас продемонстрировал, согласно формуле Эло, что два игрока, имеющие разницу в рейтингах X, на самом деле имеют истинную разницу, больше похожую на X (5/6). Точно так же вы можете оставить разницу в рейтинге и разделить ее на 480 вместо 400. Поскольку формула Эло неправильно переоценивает вероятность победы более сильного игрока, он теряет очки за победу, потому что его реальный процент побед ниже, чем предсказывает формула. Аналогично, более слабые игроки получают очки за поражение. Когда применяется модификация, наблюдаемые проценты выигрышей отклоняются менее чем на 0,1% от прогнозируемого, в то время как традиционное Эло может отклоняться от прогнозируемого на 4%. ^[27]

Самая точная модель распределения

Первой математической проблемой, решенной USCF, было использование нормального распределения . Они обнаружили, что это неточно отражает фактические результаты, достигнутые, особенно игроками с более низким рейтингом. Вместо этого они перешли на модель логистического распределения , которая, по мнению USCF, лучше соответствует фактически достигнутым результатам. ^[28]^{[ нужна ссылка ]} ФИДЕ также использует приближение к логистическому распределению. ^[13]

Самый точный К-фактор

Второй основной проблемой является правильное использование « $К$ -фактора». Шахматный статистик Джефф Сонас считает, что исходное значение (для игроков с рейтингом выше 2400) в работе Эло неточно. Если коэффициент $К$ -фактора установлен слишком большим, будет слишком большая чувствительность всего лишь к нескольким недавним событиям с точки зрения большого количества очков, обмениваемых в каждой игре. А если значение K слишком низкое, чувствительность будет минимальной, и система не сможет достаточно быстро реагировать на изменения фактического уровня игры игрока. $\;K=10\;$

$Первоначальная оценка К$ -фактора Эло была сделана без использования огромных баз данных и статистических данных. Сонас указывает, что $К$ -фактор, равный 24 (для игроков с рейтингом выше 2400), может быть более точным как в качестве инструмента прогнозирования будущих результатов, так и более чувствительным к результатам. ^[29]

Некоторые шахматные сайты в Интернете, похоже, избегают трехуровневого К-фактора, основанного на диапазоне рейтингов. Например, ICC, судя по всему, принимает глобальное значение K=32, за исключением игр против игроков с предварительным рейтингом.

USCF (который использует логистическое распределение в отличие от нормального распределения ) ранее распределял К-фактор в соответствии с тремя основными рейтинговыми диапазонами:

В настоящее время USCF использует формулу, которая рассчитывает $К$ -фактор на основе таких факторов, как количество сыгранных игр и рейтинг игрока. К-фактор также снижается для игроков с высоким рейтингом, если в соревновании предусмотрен более короткий контроль времени. ^[15]

ФИДЕ использует следующие диапазоны: ^[30]

До июля 2014 года ФИДЕ использовала следующие диапазоны: ^[31]

Градация $К$ -фактора уменьшает изменение рейтинга в верхней части рейтингового диапазона, уменьшая возможность быстрого повышения или падения рейтинга для тех, у кого рейтинг достаточно высок, чтобы достичь низкого $К$ -фактора.

Теоретически это может в равной степени относиться и к онлайн-шахматистам, и к игрокам за доской, поскольку всем игрокам труднее поднять свой рейтинг после того, как их рейтинг стал высоким, а их $К$ -фактор, как следствие, снизился. Однако, играя онлайн, более 2800 игроков могут легче поднять свой рейтинг, просто выбрав противников с высоким рейтингом — на игровом сайте ICC гроссмейстер может сыграть с несколькими разными противниками, рейтинг которых выше 2700. ^[33] В более чем -события на доске, только в турнирах «все-играй-все» очень высокого уровня игрок сможет сразиться с таким количеством более 2700 противников. В обычном открытом шахматном турнире с участием швейцарских пар часто бывает много противников с рейтингом ниже 2500, что снижает возможный прирост рейтинга в одном состязании для игрока с высоким рейтингом.

Формальный вывод для игр с победой/проигрышем

Вышеупомянутые выражения теперь можно формально получить, используя связь между рейтингом Эло и обновлением стохастического градиента в логистической регрессии. ^[34]^[35]

Если предположить, что результаты игры являются двоичными , то есть можно наблюдать только выигрыш или проигрыш, проблему можно решить с помощью логистической регрессии , где результаты игр являются зависимыми переменными , рейтинги игроков являются независимыми переменными , а Модель, связывающая оба фактора, является вероятностной: вероятность того, что игрок выиграет игру, моделируется как ${\mathsf {A}}$

\Pr\{{\mathsf {A}}~{\textrm {wins}}\}=\sigma (r_{\mathsf {A,B}}),\quad \sigma (r)={\frac {1}{1+10^{-r/s}}},

где

r_{\mathsf {A,B}}=(R_{\mathsf {A}}-R_{\mathsf {B}})

обозначает разницу рейтингов игроков, мы используем масштабный коэффициент и по закону полной вероятности $s=400$

\Pr\{{\mathsf {B}}~{\textrm {wins}}\}=1-\sigma (r_{\mathsf {A,B}})=\sigma (-r_{\mathsf {A,B}}).

Потери журнала затем рассчитываются как

\ell ={\begin{cases}-\log \sigma (r_{\mathsf {A,B}})&{\textrm {if}}~{\mathsf {A}}~{\textrm {wins}},\\-\log \sigma (-r_{\mathsf {A,B}})&{\textrm {if}}~{\mathsf {B}}~{\textrm {wins}},\end{cases}}

и, используя стохастический градиентный спуск, потери журнала минимизируются следующим образом:

R_{\mathsf {A}}\leftarrow R_{\mathsf {A}}-\eta {\frac {{\textrm {d}}\ell }{{\textrm {d}}R_{\mathsf {A}}}}

R_{\mathsf {B}}\leftarrow R_{\mathsf {B}}-\eta {\frac {{\textrm {d}}\ell }{{\textrm {d}}R_{\mathsf {B}}}}

где этап адаптации. $\eta$

Поскольку , , и адаптация записывается следующим образом: ${\frac {\textrm {d}}{{\textrm {d}}r}}\log \sigma (r)={\frac {\log 10}{s}}\sigma (-r)$ ${\frac {{\textrm {d}}r_{\mathsf {A,B}}}{{\textrm {d}}R_{\mathsf {A}}}}=1$ ${\frac {{\textrm {d}}r_{\mathsf {A,B}}}{{\textrm {d}}R_{\mathsf {B}}}}=-1$

R_{\mathsf {A}}\leftarrow {\begin{cases}R_{\mathsf {A}}+K\sigma (-r_{\mathsf {A,B}})&{\textrm {if}}~{\mathsf {A}}~{\textrm {wins}}\\R_{\mathsf {A}}-K\sigma (r_{\mathsf {A,B}})&{\textrm {if}}~{\mathsf {B}}~{\textrm {wins}},\end{cases}}

что можно компактно записать как

R_{\mathsf {A}}\leftarrow R_{\mathsf {A}}+K(S_{\mathsf {A}}-E_{\mathsf {A}})

где новый шаг адаптации, который поглощает и , если выигрывает и если выигрывает, а ожидаемый балл определяется как . $K=\eta \log 10/s$ $\eta$ $s$ $S_{\mathsf {A}}=1$ ${\mathsf {A}}$ $S_{\mathsf {A}}=0$ ${\mathsf {B}}$ $E_{\mathsf {A}}=\sigma (r_{\mathsf {A,B}})$

Аналогично происходит обновление рейтинга. $R_{\mathsf {B}}$

R_{\mathsf {B}}\leftarrow R_{\mathsf {B}}+K(S_{\mathsf {B}}-E_{\mathsf {B}})

Формальный вывод для игр с победой/ничьей/проигрышем

С самого начала рейтинг Эло также использовался в шахматах, где мы наблюдаем победы, поражения или ничьи, и для борьбы с последними вводится дробное значение очков . Однако отметим, что очки и являются лишь индикаторами событий, когда игрок выигрывает или проигрывает игру. Поэтому не сразу понятно, в чем смысл дробного балла. Более того, поскольку мы не оговариваем явно модель, связывающую значения рейтингов и вероятность исхода игры, мы не можем сказать, какова вероятность выигрыша, проигрыша или ничьи. $S_{\mathsf {A}}=0.5$ $S_{\mathsf {A}}=1$ $S_{\mathsf {A}}=0$ ${\mathsf {A}}$ $R_{\mathsf {A}}$ $R_{\mathsf {B}}$

Чтобы решить эти трудности и получить рейтинг Эло в троичных играх, мы определим явную вероятностную модель результатов. Далее мы минимизируем потери журнала с помощью стохастического градиента.

Поскольку проигрыш, ничья и выигрыш являются порядковыми переменными , мы должны принять модель, которая учитывает их порядковый характер, и мы используем так называемую модель смежных категорий, которую можно проследить до работы Дэвидсона ^[36]

\Pr\{{\mathsf {A}}~{\textrm {wins}}\}=\sigma (r_{\mathsf {A,B}};\kappa ),

\Pr\{{\mathsf {B}}~{\textrm {wins}}\}=\sigma (-r_{\mathsf {A,B}};\kappa ),

\Pr\{{\mathsf {A}}~{\textrm {draws}}\}=\kappa {\sqrt {\sigma (r_{\mathsf {A,B}};\kappa )\sigma (-r_{\mathsf {A,B}};\kappa )}},

где

\sigma (r;\kappa )={\frac {10^{r/s}}{10^{-r/s}+\kappa +10^{r/s}}}

и является параметром. Введение свободного параметра не должно вызывать удивления, поскольку у нас есть три возможных результата и, следовательно, в модели должна появиться дополнительная степень свободы. В частности, мы восстанавливаем модель, лежащую в основе логистической регрессии. $\kappa \geq 0$ $\kappa =0$

\Pr\{{\mathsf {A}}~{\textrm {wins}}\}=\sigma (r_{\mathsf {A,B}};0)={\frac {10^{r_{\mathsf {A,B}}/s}}{10^{-r_{\mathsf {A,B}}/s}+10^{r_{\mathsf {A,B}}/s}}}={\frac {1}{1+10^{-r_{\mathsf {A,B}}/s'}}},

где . $s'=s/2$

Используя порядковую модель, определенную выше, потери журнала теперь рассчитываются как

\ell ={\begin{cases}-\log \sigma (r_{\mathsf {A,B}};\kappa )&{\textrm {if}}~{\mathsf {A}}~{\textrm {wins}},\\-\log \sigma (-r_{\mathsf {A,B}};\kappa )&{\textrm {if}}~{\mathsf {B}}~{\textrm {wins}},\\-\log \kappa -{\frac {1}{2}}\log \sigma (r_{\mathsf {A,B}};\kappa )-{\frac {1}{2}}\log \sigma (-r_{\mathsf {A,B}};\kappa )&{\textrm {if}}~{\mathsf {A}}~{\textrm {draw}},\end{cases}}

что можно компактно записать как

\ell =-(S_{\mathsf {A}}+{\frac {1}{2}}D)\log \sigma (r_{\mathsf {A,B}};\kappa )-(S_{\mathsf {B}}+{\frac {1}{2}}D)\log \sigma (-r_{\mathsf {A,B}};\kappa )-D\log \kappa

где выигрывает iff , выигрывает iff и ничья . $S_{\mathsf {A}}=1$ ${\mathsf {A}}$ $S_{\mathsf {B}}=1$ ${\mathsf {B}}$ $D=1$ ${\mathsf {A}}$

Как и раньше, нам нужна производная которой определяется выражением $\log \sigma (r;\kappa )$

{\frac {\textrm {d}}{{\textrm {d}}r}}\log \sigma (r;\kappa )={\frac {2\log 10}{s}}[1-g(r;\kappa )]

где

g(r;\kappa )={\frac {10^{r/s}+\kappa /2}{10^{-r/s}+\kappa +10^{r/s}}}.

Таким образом, производная логарифмических потерь по рейтингу определяется выражением $R_{\mathsf {A}}$

{\begin{aligned}{\frac {\textrm {d}}{{\textrm {d}}R_{\mathsf {A}}}}\ell &=-{\frac {2\log 10}{s}}\left((S_{\mathsf {A}}+0.5D)[1-g(r_{\mathsf {A,B}};\kappa )]-(S_{\mathsf {B}}+0.5D)g(r_{\mathsf {A,B}};\kappa )\right)\\&=-{\frac {2\log 10}{s}}\left(S_{\mathsf {A}}+0.5D-g(r_{\mathsf {A,B}};\kappa )\right),\end{aligned}}

где мы использовали отношения и . $S_{\mathsf {A}}+S_{\mathsf {B}}+D=1$ $g(-r;\kappa )=1-g(r;\kappa )$

Затем стохастический градиентный спуск, примененный для минимизации потерь журнала, дает следующее обновление рейтинга: $R_{\mathsf {A}}$

R_{\mathsf {A}}\leftarrow R_{\mathsf {A}}+K({\hat {S}}_{\mathsf {A}}-g(r_{\mathsf {A,B}};\kappa ))

где и . Конечно, если выиграет, если сыграет вничью и если проиграет. Чтобы понять происхождение модели, предложенной Дэвидсоном, это обновление называется рейтингом Эло-Дэвидсона. ^[35] $K=2\eta \log 10/s$ ${\hat {S}}_{\mathsf {A}}=S_{\mathsf {A}}+0.5D$ ${\hat {S}}_{\mathsf {A}}=1$ ${\textsf {A}}$ ${\hat {S}}_{\mathsf {A}}=0.5$ ${\textsf {A}}$ ${\hat {S}}_{\mathsf {A}}=0$ ${\textsf {A}}$

Обновление для создается таким же образом, как и $R_{\mathsf {B}}$

R_{\mathsf {B}}\leftarrow R_{\mathsf {B}}+K({\hat {S}}_{\mathsf {B}}-g(r_{\mathsf {B,A}};\kappa ))

где . $r_{\mathsf {B,A}}=R_{\mathsf {B}}-R_{\mathsf {A}}=-r_{\mathsf {A,B}}$

Мы отмечаем, что

{\begin{aligned}E[{\hat {S}}_{\mathsf {A}}]&=\Pr\{{\mathsf {A}}~{\text{wins}}\}+0.5\Pr\{{\mathsf {A}}~{\text{draws}}\}\\&=\sigma (r_{\mathsf {A,B}};\kappa )+0.5\kappa {\sqrt {\sigma (r_{\mathsf {A,B}};\kappa )\sigma (-r_{\mathsf {A,B}};\kappa )}}\\&=g(r_{\mathsf {A,B}};\kappa )\end{aligned}}

и, таким образом, мы получаем обновление рейтинга, которое можно записать как

R_{\mathsf {A}}\leftarrow R_{\mathsf {A}}+K({\hat {S}}_{\mathsf {A}}-E_{\mathsf {A}})

где и мы получили практически то же уравнение, что и для рейтинга Эло, за исключением того, что ожидаемый балл указан вместо . $E_{\mathsf {A}}=E[{\hat {S}}_{\mathsf {A}}]$ $E_{\mathsf {A}}=g(r_{\mathsf {A,B}};\kappa )$ $E_{\mathsf {A}}=\sigma (r_{\mathsf {A,B}})$

Конечно, как отмечалось выше, для , мы имеем и, таким образом, рейтинг Эло-Дэвидсона точно такой же, как и рейтинг Эло. Однако это не поможет понять случай, когда наблюдаются ничьи (мы не можем использовать это, что означало бы, что вероятность ничьи равна нулю). С другой стороны, если мы используем , у нас есть $\kappa =0$ $g(r;0)=\sigma (r)$ $\kappa =0$ $\kappa =2$

g(r;2)={\frac {10^{r/s}+1}{10^{-r/s}+2+10^{r/s}}}={\frac {1}{1+10^{-r/s}}}=\sigma (r)

это означает, что при использовании рейтинг Эло-Дэвидсона точно такой же, как и рейтинг Эло. ^[35] $\kappa =2$

Практические вопросы

Игровая активность vs защита своего рейтинга

В некоторых случаях рейтинговая система может препятствовать игровой активности игроков, желающих защитить свой рейтинг. ^[37] Чтобы отбить у игроков желание занимать высокий рейтинг, британский гроссмейстер Джон Нанн в 2012 году предложил выбрать отборочных игроков на чемпионат мира по шахматам, включив бонус за активность, который должен быть объединен с рейтингом. ^[38]

За пределами шахматного мира опасения по поводу того, что игроки избегают соревновательной игры ради защиты своих рейтингов, заставили Wizards of the Coast отказаться от системы Эло для турниров Magic: the Gathering в пользу разработанной ими системы под названием «Очки Planeswalker». ^[39]^[40]

Выборочное спаривание

Более тонкий вопрос связан с спариванием. Когда игроки могут выбирать себе противников, они могут выбирать противников с минимальным риском проигрыша и максимальной наградой за победу. Конкретные примеры того, как игроки с рейтингом 2800+ выбирают противников с минимальным риском и максимальной вероятностью увеличения рейтинга, включают: выбор противников, которых, как они знают, они могут победить с помощью определенной стратегии; выбирать оппонентов, которые, по их мнению, переоценены; или избегать игры с сильными игроками, рейтинг которых на несколько сотен очков ниже их, но которые могут иметь такие шахматные титулы, как IM или GM. В категории выбора переоцененных соперников новички рейтинговой системы, сыгравшие менее 50 игр, теоретически являются удобной мишенью, поскольку их предварительный рейтинг может быть переоценен. ICC компенсирует эту проблему, присваивая более низкий К-фактор известному игроку, если он выигрывает у нового участника рейтинга. К-фактор на самом деле является функцией количества рейтинговых игр, сыгранных новым участником.

Таким образом, онлайн-рейтинги Эло по-прежнему предоставляют полезный механизм выставления рейтинга на основе рейтинга оппонента. Однако ее общую достоверность необходимо рассматривать в контексте, по крайней мере, двух описанных выше основных проблем — злоупотребления двигателем и избирательного объединения противников.

ICC также недавно ввел рейтинги «автоматического спаривания», которые основаны на случайных парах, но при этом каждая победа подряд гарантирует статистически более сильного противника, который также выиграл x игр подряд. Учитывая потенциальное участие сотен игроков, это создает некоторые трудности на крупном крупном швейцарском турнире, в котором ведется ожесточенная борьба, где победители раундов встречаются с победителями раундов. Такой подход к составлению пар, безусловно, максимизирует рейтинговый риск участников с более высоким рейтингом, которые могут столкнуться, например, с очень жестким сопротивлением со стороны игроков ниже 3000. Это отдельный рейтинг, который относится к категориям «1 минута» и «5 минут». Максимальные рейтинги, превышающие 2500, встречаются исключительно редко.

Рейтинги инфляции и дефляции

Термин «инфляция», применяемый к рейтингам, предполагает, что уровень игровой силы, демонстрируемый игроком с рейтингом, со временем снижается; и наоборот, «дефляция» предполагает, что уровень повышается. Например, если есть инфляция, современный рейтинг 2500 означает меньше, чем исторический рейтинг 2500, тогда как в случае дефляции верно обратное. Использование рейтингов для сравнения игроков разных эпох затрудняется, когда присутствует инфляция или дефляция. (См. также «Сравнение лучших шахматистов за всю историю ».)

Анализируя рейтинговые списки ФИДЕ с течением времени, Джефф Сонас предполагает, что инфляция могла иметь место примерно с 1985 года. ^[41] Сонас рассматривает игроков с самым высоким рейтингом, а не всех игроков с самым высоким рейтингом, и признает, что изменения в распределении рейтингов могли иметь было вызвано повышением уровня игры на самых высоких уровнях, но ищет и другие причины.

Увеличилось количество людей с рейтингом выше 2700. Примерно в 1979 году был только один действующий игрок ( Анатолий Карпов ) с таким высоким рейтингом. В 1992 году Вишванатан Ананд был лишь восьмым игроком в истории шахмат, достигшим на тот момент отметки в 2700 очков. ^[42] К 1994 году это число увеличилось до 15 игроков. 33 игрока имели рейтинг 2700+ в 2009 году и 44 по состоянию на сентябрь 2012 года. Текущий ориентир для элитных игроков находится за пределами 2800.

Одной из возможных причин такого инфляции был минимальный рейтинг, который долгое время находился на уровне 2200, и если игрок опускался ниже этого уровня, его исключали из рейтингового списка. Как следствие, игроки с уровнем квалификации чуть ниже минимального попадут в рейтинговый список только в том случае, если их рейтинг будет переоценен, и это приведет к тому, что они будут вносить очки в рейтинговый пул. ^[41] В июле 2000 года средний рейтинг топ-100 составлял 2644. К июлю 2012 года он увеличился до 2703. ^[42]

Используя мощный шахматный движок для оценки ходов, сыгранных в играх между рейтинговыми игроками, Риган и Хаворт анализируют серии игр турниров с рейтингом ФИДЕ и приходят к выводу, что с 1976 по 2009 год инфляция была незначительной или отсутствовала вообще. ^[43]

В чистой системе Эло каждая игра заканчивается получением равного количества рейтинговых очков. Если победитель наберет N очков рейтинга, проигравший потеряет N очков рейтинга. Это предотвращает попадание очков в систему или выход из нее во время игр и оценок. Однако игроки, как правило, входят в систему новичками с низким рейтингом и покидают систему опытными игроками с высоким рейтингом. Таким образом, в долгосрочной перспективе система со строго равными сделками имеет тенденцию приводить к дефляции рейтинга. ^[44]

В 1995 году USCF признал, что несколько молодых игроков-учеников прогрессировали быстрее, чем могла отследить рейтинговая система. В результате состоявшиеся игроки со стабильным рейтингом начали терять рейтинговые очки молодым и недооцененным игрокам. Некоторые из опытных игроков старшего возраста были разочарованы тем, что они считали несправедливым снижением рейтинга, а некоторые даже бросили шахматы из-за этого. ^[45]

Борьба с дефляцией

Из-за значительной разницы во времени возникновения инфляции и дефляции, а также в целях борьбы с дефляцией в большинстве реализаций рейтингов Эло имеется механизм введения баллов в систему для поддержания относительных рейтингов с течением времени. У ФИДЕ есть два инфляционных механизма. Во-первых, выступления ниже «минимального рейтинга» не отслеживаются, поэтому игроку с истинным мастерством ниже этого уровня рейтинг может быть только не оценен или переоценен, но никогда не будет оценен правильно. Во-вторых, у авторитетных игроков с более высоким рейтингом К-фактор ниже. У новых игроков есть K = 40, который падает до K = 20 после 30 сыгранных игр и до K = 10, когда игрок достигает 2400. ^[30] Текущая система в Соединенных Штатах включает схему бонусных очков, которая вводит рейтинговые очки в система для отслеживания прогресса игроков и разные значения K для разных игроков. ^[45] Некоторые методы, используемые, например, в Норвегии, проводят различие между юниорами и взрослыми и используют больший К-фактор для молодых игроков, даже повышая прогресс рейтинга на 100%, когда они набирают очки значительно выше прогнозируемых результатов. ^[46]

Минимальные рейтинги в США гарантируют, что игрок никогда не опустится ниже определенного предела. Это также борется с дефляцией, но председатель рейтингового комитета USCF критиковал этот метод, поскольку он не приносит дополнительных очков улучшающимся игрокам. Возможным мотивом введения этих минимальных рейтингов является борьба с мешками с песком, т.е. преднамеренное понижение рейтингов, чтобы иметь право на получение разделов и призов более низких рейтинговых классов. ^[45]

Рейтинги компьютеров

Шахматные матчи человека и компьютера в период с 1997 года ( Deep Blue против Гарри Каспарова ) по 2006 год продемонстрировали, что шахматные компьютеры способны победить даже самых сильных игроков-людей. Однако рейтинги шахматного движка сложно оценить количественно из-за переменных факторов, таких как контроль времени и оборудование, на котором работает программа, а также того факта, что шахматы не являются честной игрой. Существование и величина преимущества первого хода в шахматах становятся очень важными на компьютерном уровне. За пределами некоторого порога мастерства машина с белыми должна быть в состоянии заставить ничью по требованию из стартовой позиции даже при идеальной игре просто потому, что белые начинают со слишком большим преимуществом, чтобы их можно было потерять по сравнению с небольшой величиной ошибок, которые они могут совершить. делать. Следовательно, такой движок более или менее гарантированно наберет не менее 25% даже при идеальной игре. Различия в навыках, выходящие за пределы определенного уровня, могут быть обнаружены только в том случае, если человек не начинает с обычной стартовой позиции, а вместо этого выбирает стартовую позицию, которая едва не теряется для одной стороны. Из-за этих факторов рейтинги зависят от пар и выбранных дебютов. ^[47] Опубликованные рейтинговые списки движков, такие как CCRL , основаны на играх, использующих только движок, на стандартных конфигурациях оборудования и не могут быть напрямую сопоставлены с рейтингами ФИДЕ.

Некоторые оценки рейтингов см. в разделе «Шахматный движок § Рейтинги» .

Использование вне шахмат

Другие настольные и карточные игры

Го : Европейская федерация го приняла рейтинговую систему на основе Эло, первоначально разработанную Чешской федерацией го.
Нарды : популярный сервер First Internet Backgammon Server (FIBS) рассчитывает рейтинги на основе модифицированной системы Эло. Новым игрокам присваивается рейтинг 1500, а рейтинг лучших людей и ботов превышает 2000. Та же формула была принята несколькими другими сайтами, посвященными нардам, такими как Play65 , DailyGammon, GoldToken и VogClub. VogClub устанавливает рейтинг нового игрока на уровне 1600. Федерация нард Великобритании использует формулу FIBS для своих национальных рейтингов в Великобритании.^[48]
Scrabble : Национальные организации Scrabble рассчитывают нормально распределенные рейтинги Эло, за исключением Соединенного Королевства , где используется другая система. Североамериканская ассоциация игроков в скрэббл имеет самое большое количество активных членов, насчитывающее около 2000 по состоянию на начало 2011 года. Lexulous также использует систему Эло.
Несмотря на вопросы о целесообразности использования системы Эло для оценки игр, в которых удача является фактором, производители коллекционных карточных игр часто используют рейтинги Эло для своей организованной игры. DCI (бывшая организация Duelists' Convocation International) использовала рейтинги Эло для турниров Magic : The Gathering и других игр Wizards of the Coast . Однако в 2012 году DCI отказалась от этой системы в пользу новой накопительной системы «Очков Planeswalker», главным образом из-за вышеупомянутой обеспокоенности тем, что Эло призывает игроков с высоким рейтингом избегать игры, чтобы «защитить свой рейтинг». ^[39]^[40] Pokémon USA использует систему Эло для ранжирования своих участников организованной игры TCG. ^[49] Призы для лучших игроков в различных регионах включали праздники и приглашения на чемпионаты мира до сезона 2011–2012 годов, где награды основывались на системе очков чемпионата, их обоснование было таким же, как и у DCI для Magic: The Gathering . Точно так же компания Decipher, Inc. использовала систему Эло для своих рейтинговых игр, таких как настраиваемая карточная игра «Звездный путь» и настраиваемая карточная игра «Звездные войны» .

Спортивные виды спорта

Рейтинговая система Эло используется в шахматной части шахматного бокса . Чтобы иметь право заниматься профессиональным шахматным боксом, необходимо иметь рейтинг Эло не ниже 1600, а также участвовать в 50 или более матчах любительского бокса или боевых искусств.

Американский студенческий футбол использовал метод Эло как часть своей рейтинговой системы Bowl Championship Series с 1998 по 2013 год , после чего BCS был заменен плей-офф студенческого футбола . Джефф Сагарин из USA Today публикует рейтинги команд по большинству американских видов спорта, включая рейтинги по системе Эло для студенческого футбола. Использование рейтинговых систем было фактически отменено с созданием плей-офф студенческого футбола в 2014 году.

В других видах спорта люди поддерживают рейтинги на основе алгоритма Эло. Обычно они неофициальные и не одобрены руководящим органом спорта. Мировые футбольные рейтинги Эло являются примером метода, применяемого к мужскому футболу . ^[50] В 2006 году рейтинги Эло были адаптированы для команд Высшей лиги бейсбола Нейтом Сильвером , тогда работавшим в Baseball Prospectus . ^[51] Основываясь на этой адаптации, оба также провели моделирование Монте-Карло на основе Эло шансов на то, что команды выйдут в плей-офф. ^[52] В 2014 году сайт Beyond the Box Score, сайт SB Nation , представил систему рейтинга Эло для международного бейсбола. ^[53]

В теннисе универсальный теннисный рейтинг (UTR) на основе Эло оценивает игроков в глобальном масштабе, независимо от возраста, пола или национальности. Это официальная рейтинговая система крупных организаций, таких как Межвузовская теннисная ассоциация и World TeamTennis , и она часто используется в сегментах теннисного канала . Алгоритм анализирует более 8 миллионов результатов матчей более 800 000 теннисистов со всего мира. 8 мая 2018 года Рафаэль Надаль , выигравший 46 сетов подряд в матчах на грунтовом корте, имел почти идеальный UTR на грунтовом покрытии 16,42. ^[54]

В пуле для ранжирования игроков в организованных любительских и профессиональных соревнованиях используется основанная на Elo система под названием Fargo Rank. ^[55]

Одним из немногих рейтингов на основе Эло, одобренных руководящим органом спорта, является Мировой женский рейтинг ФИФА , основанный на упрощенной версии алгоритма Эло, который ФИФА использует в качестве официальной системы ранжирования национальных сборных в женском футболе .

Из первого рейтингового списка после чемпионата мира по футболу 2018 года FIFA использовала Elo для составления мирового рейтинга FIFA . ^[56]

В 2015 году Нейт Сильвер, главный редактор сайта статистических комментариев FiveThirtyEight , и Рубен Фишер-Баум составили рейтинги Эло для каждой команды и сезона Национальной баскетбольной ассоциации в течение сезона 2014 года. ^[57]^[58] В 2014 году FiveThirtyEight разработала рейтинги и прогнозы побед на основе Эло для Американской профессиональной Национальной футбольной лиги . ^[59]

Английская ассоциация корфбола оценивала команды на основе рейтингов Эло, чтобы определить гандикапы для их кубковых соревнований в сезоне 2011/12.

Разработан рейтинг игроков Национальной хоккейной лиги на основе Эло . ^[60] Показатель хоккея-Эло оценивает общую двустороннюю игру игрока: результативность И защита как в равной силе, так и в ситуациях игры в большинстве/убийства с пенальти.

Rugbyleagueratings.com использует рейтинговую систему Эло для ранжирования команд международных и клубных лиг регби .

Сайт Hemaratings.com был запущен в 2017 году и использует алгоритм Glicko-2 для ранжирования отдельных исторических европейских фехтовальщиков боевых искусств по всему миру в различных категориях, таких как длинный меч , рапира , историческая сабля и меч и баклер . ^[61]

Видеоигры и онлайн-игры

Во многих видеоиграх в соревновательном игровом процессе используются модифицированные системы Эло. В игре MOBA League of Legends перед вторым сезоном соревновательной игры использовалась рейтинговая система Эло. ^[62] Киберспортивная игра Overwatch , основа уникальной профессиональной спортивной организации Overwatch League , использует производную от системы Эло для ранжирования конкурентоспособных игроков с различными корректировками, вносимыми между соревновательными сезонами . ^[63] Раньше World of Warcraft также использовала систему Glicko-2 для объединения и сравнения игроков Арены, но теперь использует систему, аналогичную TrueSkill от Microsoft . ^[64] В игре Puzzle Pirates используется рейтинговая система Эло для определения позиций в различных головоломках. Эта система также используется в FIFA Mobile для режимов Division Rivals. Еще одна недавняя игра, в которой начала использоваться рейтинговая система Эло, — это AirMech , в которой используются рейтинги Эло ^[65] для случайного/командного подбора игроков 1 на 1, 2 на 2 и 3 на 3. RuneScape 3 использовала систему Elo в переиздании мини-игры об охотнике за головами в 2016 году. ^[66]Mechwarrior Online ввела систему Elo для своего нового режима «Comp Queue», вступившего в силу с патчем от 20 июня 2017 года. ^[67]Age of Empires II DE использует систему Эло для своей таблицы лидеров и подбора игроков, при этом новые игроки начинаются с Эло 1000. ^[68]

Немногие видеоигры используют оригинальную систему рейтингов Эло. По данным шахматного онлайн-сервера Lichess , система Эло устарела, и сейчас Glicko-2 используется многими шахматными организациями. ^[69] PlayerUnknown's Battlegrounds — одна из немногих видеоигр, в которой используется самая первая система Эло. В Guild Wars рейтинги Эло используются для записи рейтинга гильдии, полученного и потерянного в сражениях между гильдиями. В 1998 году была запущена онлайн-игровая лестница под названием Clanbase ^[70] , в которой для ранжирования команд использовалась система подсчета очков Эло. Первоначальное значение K составляло 30, но было изменено на 5 в январе 2007 года, а затем изменено на 15 в июле 2009 года. ^[71] Позднее сайт отключился в 2013 году. ^[72] Аналогичный альтернативный сайт был запущен в 2016 году под названием Scrimbase , ^[73] который также использовал систему подсчета очков Эло для ранжирования команд. С 2005 года Golden Tee Live оценивает игроков по системе Эло. Новые игроки начинают с 2100, рейтинг лучших игроков превышает 3000. ^[74]

Несмотря на то, что во многих видеоиграх используются разные системы подбора игроков , игроки в рейтинговые видеоигры обычно называют все рейтинги подбора игроков Эло .

Другое использование

Рейтинговая система Эло использовалась в мягкой биометрии ^[75] , которая касается идентификации людей по человеческим описаниям. Сравнительные описания использовались наряду с рейтинговой системой Эло для обеспечения надежных и различительных «относительных измерений», позволяющих точную идентификацию.

Рейтинговая система Эло также использовалась в биологии для оценки иерархии доминирования самцов ^[76] , а также в автоматизации и компьютерном зрении для проверки тканей . ^[77]

Более того, сайты онлайн-судей также используют рейтинговую систему Эло или ее производные. Например, Topcoder использует модифицированную версию, основанную на нормальном распределении ^[78] , а Codeforces использует другую версию, основанную на логистическом распределении. ^[79]^[80]^[81]

Система рейтингов Эло также была отмечена в приложениях для знакомств, например, в приложении для поиска партнеров Tinder , которое использует вариант рейтинговой системы Эло. ^[82]

Ютубер Маркес Браунли и его команда использовали рейтинговую систему Elo, когда позволяли людям голосовать между цифровыми фотографиями, сделанными на разные модели смартфонов , выпущенные в 2022 году. ^[83]

Рейтинговая система Эло также использовалась в рейтингах колледжей в США , например, в рейтингах компании Parchment, занимающейся цифровыми учетными данными. ^[84]^[85]^[86]

Упоминания в СМИ

Система рейтингов Эло широко освещалась в социальной сети во время сцены с алгоритмами, где Марк Цукерберг выпустил Facemash . В этой сцене Эдуардо Саверин пишет математические формулы для рейтинговой системы Эло на окне комнаты общежития Цукерберга. В фильме утверждается, что за кадром используется система Эло для ранжирования девушек по их привлекательности. Уравнения, управляющие алгоритмом, кратко показаны и записаны в окне; ^[87] , однако они несколько неверны. ^{[ нужна цитата ]}

Смотрите также

Модель Брэдли – Терри
Шахматная рейтинговая система , другие шахматные рейтинговые системы
Эло ад
Рейтинговая система Глико , методы рейтингования, разработанные Марком Гликманом.

Примечания

^ Это пишется как «Эло», а не «ЭЛО», и обычно произносится как / ˈ iː l oʊ / или / ˈ ɛ l oʊ / на английском языке. Настоящее имя Эло произносится [ˈeːløː]. ^ⓘ на венгерском языке.

дальнейшее чтение

Харкнесс, Кеннет (1967). Официальный справочник по шахматам . Маккей.

Внешние ссылки

Страница исследований Марка Гликмана с рядом ссылок на технические статьи по шахматным рейтинговым системам.

Рейтинговая система Эло

История

Реализация схемы Эло

Различные системы рейтингов

Рейтинги ФИДЕ

Рейтинг производительности

Живые рейтинги

Рейтинги Шахматной федерации США

К-фактор, используемый USCF

Этажи рейтинга

Теория

Математические детали

Предлагаемая модификация

Самая точная модель распределения

Самый точный К-фактор

Формальный вывод для игр с победой/проигрышем

Формальный вывод для игр с победой/ничьей/проигрышем

Практические вопросы

Игровая активность vs защита своего рейтинга

Выборочное спаривание

Рейтинги инфляции и дефляции

Борьба с дефляцией

Рейтинги компьютеров

Использование вне шахмат

Другие настольные и карточные игры

Спортивные виды спорта

Видеоигры и онлайн-игры

Другое использование

Упоминания в СМИ

Смотрите также

Примечания

Рекомендации

Примечания

Источники

дальнейшее чтение

Внешние ссылки