Perché FIDE utilizza ancora Elo?

Sono rimasto colpito dal modo in cui funziona il sistema di classificazione Glicko . In particolare:

più giochi giocati di recente fanno stabilizzare la tua valutazione
un numero minore di partite giocate di recente causa la fluttuazione della valutazione fino a quando non si ottengono diverse partite recenti

L'USCF ha modificato il proprio sistema per renderlo simile qualche anno fa (dove esiste una scala mobile per amplificare o smorzare il cambio di valutazione per una data partita), e ora che Glickman (l'inventore di Glicko) è nel comitato di valutazione dell'USCF, Immagino che alla fine adotteranno un sistema ancora più flessibile, come il suo.

C'è una ragione (oltre a essere resistenti ai cambiamenti, o che non ci sono ancora riusciti) che FIDE non adotta un sistema di valutazione più accurato?

rating fide glicko

— Eve Freeman
fonte

Non è dimostrato che Glicko sia più preciso. Glicko risolve il problema in un modo diverso, con un'enfasi diversa. Considera che tutti questi sistemi astraggono una mente umana a un numero di 4 cifre.

C'è molta politica nelle valutazioni; è un argomento delicato. Se la FIDE lo adottasse, produrrebbe una nuova top-100 list e molti GM verrebbero probabilmente turbati.

Il sistema ELO è molto facile da capire; la trasparenza è importante. I sistemi più complessi presentano svantaggi immediati.

— Tony Ennis
fonte

+1, anche se non sono d'accordo con il primo paragrafo, il resto è abbastanza vero. 1) Glicko si è dimostrato in media più preciso (misurato in base alla frequenza con cui è in grado di pronosticare chi vincerà un determinato incontro). 2) Sull'astrarre una mente umana su un numero, questo non è davvero il caso. È una misura di abilità, tale da poter calcolare le probabilità (per vincere / pareggiare / perdere) quando si confrontano i livelli di abilità. È tutto supportato da matematica e statistiche. In Glicko-2 c'è persino un nuovo fattore di volatilità, per quei giocatori che giocano in modo incoerente (permettendo alle loro valutazioni di fluttuare di più).

— Eve Freeman,

Interessante. Tuttavia, affermerei che "meglio in media" non è necessariamente "migliore". Cosa succede se i momenti in cui non è più preciso causano danni reali? Vado a leggerlo, comunque.

— Tony Ennis,

en.wikipedia.org/wiki/Glicko_rating_system

— Tony Ennis

Questo è informativo. chess.com/article/view/chess-ratings---how-they-work

— Tony Ennis

Per quanto ho capito, il sistema di valutazione Glicko aggiunge un punteggio di affidabilità al numero di valutazione, che può fornire una maggiore equità per quanto riguarda i calcoli di regolazione del punteggio di valutazione. Ovviamente questo potrebbe portare all'ipotesi errata che esista una correlazione tra giocare ai giochi classificati e la forza di gioco risultante (poiché non giocare diminuisce il punteggio di affidabilità che a sua volta declassifica il numero del tuo punteggio). Vedo molti problemi legati al punteggio di affidabilità, anche se devo ammettere che non sono un esperto delle sottigliezze del sistema. Solo per sceglierne tre:

Un giocatore che gioca solo ai rari giochi valutati potrebbe non ricevere più inviti. Immagina di essere un direttore di torneo che invita giocatori attraenti. Ora devi scegliere tra 10 giocatori, tutti con lo stesso numero di valutazione, ma con numeri di affidabilità diversi. Probabilmente sceglierai quelli con i migliori numeri di affidabilità prima. Nel tempo il divario di affidabilità tra i giocatori con molti giochi classificati e meno giochi potrebbe aumentare.
La manipolazione dei numeri di valutazione potrebbe diventare più semplice. Anche il sistema ELO non è imbrogliare, perché alcune persone hanno ottenuto valutazioni o norme IM / GM giocando in tornei truccati. Un buon punteggio di affidabilità potrebbe aiutare i giocatori senza un punteggio di affidabilità molto economico - il buon giocatore dà punti di valutazione senza perdere molto se stesso. Non appena il denaro è coinvolto, essere truffatori è una questione importante. Ho la sensazione che il sistema di classificazione Glicko sia più soggetto a manipolazioni.
La comunicazione e la comprensione della forza di gioco potrebbero diventare più difficili per le masse. Quando si comunica un elenco di classificazione, si verificano problemi. Un giocatore con un punteggio di 2000-50 ha una "vera forza di gioco" tra il 1900 e il 2100. Un altro giocatore ha il 1950-2000, che si traduce in un numero compreso tra il 1750 e il 2150. Quindi il giocatore con il 1950-2000 potrebbe in effetti essere il giocatore migliore, ma sarà probabilmente classificato sotto l'altro, solo perché ha giocato meno partite o contro avversari meno affidabili. Rendi più difficile spiegare il tuo sistema di classificazione alle persone, senza davvero garantire più equità. Un GM che smette di giocare potrebbe guadagnare "potenziale forza" e vantarsi del suo potenziale campione del mondo, perché il suo numero di affidabilità fa aumentare lo spazio per la deviazione (attenzione:

Per riassumere: potresti ottenere più di quanto ti aspettassi, perché l'intero pacchetto non offre solo miglioramenti. E poiché ci sono pesanti problemi monetari quando si guarda all'estremità superiore delle classifiche, non vedo i vantaggi di cambiare un sistema esistente.

— raggio
fonte

La maggior parte delle classifiche ha un limite per il punteggio di affidabilità (RD), piuttosto che cercare di usarlo per classificare i giocatori. Quindi un 2000 (50) sarebbe sempre classificato più in alto di un 1950 (100). Secondo la loro valutazione attuale, sono più alti, indipendentemente dall'affidabilità. Se il giocatore del 1950 (100) vincesse contro il 2000 (50), il loro punteggio aumenterà in modo più significativo rispetto al 1950 (50). Puoi descrivere come si potrebbe imbrogliare il sistema con Glicko in modo più dettagliato? Stai parlando del sandbagging della tua valutazione se hai un RD elevato?

— Eve Freeman,

@West Freeman: dubito che questo sia il posto perfetto per dimostrare la relativa imbroglione di un sistema di classificazione e sto solo ipotizzando, perché per me sembra più economico manipolare il sistema, poiché non perderò così tanti punti di valutazione me stesso quando perdo intenzionalmente contro un giocatore senza punteggio. Il punto più importante della mia risposta è che dovresti controllare un sistema non solo per la correttezza del calcolo, ma per imbrogliare, predisposizione, comunicabilità ecc., Prima di buttare via un sistema funzionante.

— Ray,

Ma come può aiutarli ad aumentare artificialmente la valutazione di qualcuno? Di solito, le persone che cercano di giocare con il sistema stanno cercando di abbassare il loro punteggio in modo da poter giocare nelle sezioni inferiori e vincere il primo premio. Questo potrebbe essere più facile con Glicko, se eviti di giocare per un lungo periodo di tempo, e poi perdi alcune partite che avresti dovuto vincere. Ma combinato con i piani di valutazione e il fatto che ciò può essere fatto solo una volta ogni tanto a causa del tempo impiegato da RD per risalire.

— Eve Freeman,

Potresti aver bisogno di voti alti per ottenere un titolo, ricevere inviti o essere pagato dai club per giocare per loro o lavorare come allenatore. Sto parlando di scacchi professionali qui e dove sono i soldi veri, perché hai messo in dubbio il comportamento di FIDE.

— Ray,