C'è stata molta ricerca sull'inflazione di rating?


24

Il sorteggio di Magnus Carlsen nel round di ieri del London Chess Classic 2012 ha assicurato che il suo rating nel prossimo elenco di rating FIDE pubblicato supererà il precedente record di Kasparov del 2851. Ho visto / sentito appassionati appassionati di scacchi discutere i meriti relativi del raggiungimento del rating di Carlsen rispetto a Kasparov contro, diciamo, di Fischer. Per essere chiari, non è quello che sto cercando qui.

Un elemento cruciale di tali discussioni è la nozione di se i rating Elo in generale abbiano subito l'inflazione nel tempo: ci sono così tanti più 2700+ maestri oggi di quanti ce ne fossero 20 anni fa a causa di un aumento generale della forza di gioco, o semplicemente a causa di alcuni andamento inflazionistico complessivo nei numeri? Inoltre, non sto cercando di sollecitare opinioni nude sul fatto che sia così. Quello che mi interessa sapere:

Quali seri tentativi di ricerca sono stati fatti per rispondere alla domanda empirica sul fatto che le valutazioni Elo di FIDE si siano naturalmente gonfiate nel tempo a causa di qualcosa di diverso da un aumento della forza complessiva nel pool di giocatori?

La voce di Wikipedia sul sistema di classificazione Elo ha un po 'da dire sull'argomento e indica anche un articolo di Jeff Sonas di Chessmetrics . Oltre a qualsiasi suggerimento per il lavoro di altri, io, per uno, accolgo con favore anche una risposta che fornisca un riassunto chiaro e conciso dei punti principali di Sonas.


Un'altra cosa a cui pensare è l'inflazione nei rating USCF. C'è stato, e periodicamente l'USCF si adegua molto all'orrore dei giocatori. Dato che USCF e FIDE usano lo stesso sistema, fondamentalmente, sarei sorpreso se l'inflazione potrebbe influenzare USCF e non FIDE.
Tony Ennis,

2
I sistemi non sono gli stessi, ad esempio l'USCF ha piani di valutazione che sono chiaramente un fattore inflazionistico.
RemcoGerlich,

Risposte:


19

Sono sorpreso che l'articolo "Intrinsic Chess Ratings" di Ken Regan e Guy Haworth non sia stato ancora pubblicato. È esattamente ciò che viene richiesto, una seria ricerca sull'inflazione di rating. PDF

Fondamentalmente hanno ottenuto giochi di tre periodi (1976-1979, 1991-1994, 2006-2009), in diversi intervalli di valutazione (ad es. Entrambi i giocatori entro 10 punti su 2200, entro 10 punti su 2300, ecc.) Ed hanno escluso tipi di giochi che potrebbe essere anomalo, come le partite di squadra. Leggi il documento, sembra abbastanza approfondito.

Quindi hanno confrontato sistematicamente i giochi con Rybka 3.

Alcune frasi dalla conclusione:

Concludiamo che esiste una relazione regolare tra le classifiche Elo dei giocatori effettivi e la qualità intrinseca delle scelte di movimento misurate dal programma di scacchi e dall'adattamento dell'agente. Inoltre, i valori di sfit finali ottenuti sono quasi gli stessi per le voci corrispondenti di tutti e tre i periodi di tempo.

Dal mio punto di vista, sono prove abbastanza solide contro l'esistenza dell'inflazione di rating.


1
Grazie per aver pubblicato questo, sono anche venuto a condividere questo. Questa è l'unica linea di ricerca che ha confrontato i giocatori con uno standard oggettivo. Tutti gli argomenti che ho visto per valutare l'inflazione sono soggettivi e generalmente aneddotici. Da un punto di vista personale, non penso che il fatto che Morphy fosse probabilmente 2300 toglie il mio apprezzamento per i suoi giochi o la sua abilità rispetto ai suoi concorrenti in quel momento.
Sam Copeland,

12

Ne ho frugato un po '. Probabilmente hai visto queste pagine, ma le posterò comunque:

un. Questa pagina ti interesserà . Include una fotocopia di una lettera dello stesso Elo che indica la possibilità:

Pertanto, nel tempo, la scala di valutazione potrebbe spostarsi a meno che non vengano prese misure per stabilizzarla.

Egli menziona inoltre che la scala dei rating non ha ancora, né punti fissi. Confronta con un atleta che corre una gara in un'ora; un'ora ora è uguale a un'ora 50 anni fa. Il tempo è un punto fisso.

b. Inoltre, la recente domanda di "inflazione" non ha già ricevuto risposta dalle recenti rivelazioni di valutazioni elevate provenienti da aree isolate? Vedi la sezione "Pool of Players" di questa pagina per un'allusione al problema. Supporto aggiuntivo , sebbene non sia accademico né particolarmente informativo. Cerca "isol". Ecco un altro aneddoto che mostra cosa succede con le popolazioni isolate (e un altro candidato per il thread "perché i giocatori di scacchi sono pazzi"!) Non l'ho verificato, ma dovrebbe essere abbastanza facile da fare.

c. L' articolo della wiki di Elo parla dell'inflazione come se fosse un fatto accettato.

d. Ecco un articolo germano sull'inflazione e sul seguito . Guarda quella pistola fumante nel 1986!


Non avevo visto la pagina da un., Grazie per quello. Per quanto riguarda b., Non sono a conoscenza di ciò a cui ti riferisci; Puoi elaborare?
ETD

2
Direi che senza un vero ancoraggio, è impossibile regolare con precisione; alla fine, ci stiamo semplicemente adeguando aneddoticamente verso un valore arbitrario.
Daniel B,

Possibilmente. Ma aggiustare i rating per produrre una curva di distribuzione simile sarebbe probabilmente un buon inizio. Ad esempio, alcuni anni fa, l'USCF modifica le classificazioni in modo che il giocatore medio del club fosse un 1500. Non so se lo fanno ancora.
Tony Ennis,

1
@TonyEnnis Certo, e penso che probabilmente sia buono come sarà, per ora. In particolare, intendo: cosa succede se il "giocatore medio di club" oggi è effettivamente migliore di 50 anni fa? Non è come se riuscissimo a farli giocare contro giocatori del passato ... Quindi ci resta da stimare la forza dei giocatori in qualche modo e adattarli. Forse con i programmi per computer (eseguiti su una piattaforma standard prescritta), potremmo avere una sorta di ancoraggio imparziale e duraturo. Ma anche questo avrebbe problemi, come la scoperta di strategie che funzionano bene contro il programma di riferimento, ecc.
Daniel B,

5

In termini assoluti, Carlsen 2012 è sicuramente un giocatore più forte di Kasparov 1985.

Se Carlsen 2012 viaggiasse nel tempo giocasse una partita con Kasparov 1986, Carlsen avrebbe sconfitto Kasparov. Questo semplicemente perché la preparazione assistita dalla tecnologia è molto più efficiente e Carlsen ha anche un vantaggio nella teoria dell'apertura, perché ha le conoscenze accumulate che 1987-2012 non ha Kasparov.

Tuttavia, Kasparov è probabilmente un giocatore più forte di Carlsen. Se prendiamo la Top 100 della FIDE per giugno 2000 (la più vecchia che si può ottenere), vediamo che Kasparov con 2849 Elo compete con una media di 2641 per i 99 follower (distanza Elo 208 punti) mentre Calsen nella Top 100 di Fide per dicembre 2012 con un 2848 Elo compete con una media di 2702 per i suoi 99 seguaci (distanza Elo di 146 punti).

Elo riguarda la differenza di punti, non i valori assoluti (100 punti di differenza per Elo indicano che il giocatore A è 2 volte meglio del giocatore B, 200 punti significa 4 volte meglio, e così via. Quindi, con quell'elenco, significa che Kasparov era in media più di 4 volte migliore di tutti i suoi 99 seguaci, mentre Carlsen è probabilmente meno solo 3 volte migliore della media dei suoi 99 seguaci.

Se prendiamo la lista se Kasparov ha la distanza massima con i suoi 99 follower e confrontiamo quella distanza con la migliore per Carlsen, saremo in grado di determinare quale giocatore è stato effettivamente il più grande, perché con 99 punti dati, valori anomali (come un altro genio) mitigalo.

Mi chiedo comunque se Carlsen o Kasparov si preoccupino davvero di chi fosse il migliore.


3
La tua argomentazione sul fatto che Kasparov sia un giocatore più forte di Carlsen si basa sul confronto tra i successivi 99 migliori giocatori. Notate, giustamente, che le classificazioni Elo sono relative, ma la vostra argomentazione fa una seconda ipotesi non dichiarata, vale a dire che i prossimi 99 giocatori oggi hanno la stessa forza di gioco media dei prossimi 99 nel periodo d'oro di Kasparov. Se questa seconda ipotesi non è vera, allora stai confrontando Kasparov e Carlsen con standard diversi. Devi trovare un gruppo di persone che sono le stesse oggi come ai giorni di Kasparov. Quella piscina è probabilmente il tuo principiante medio, non i super-Grandmaster.
Tucidide411

4

Il sistema di Elo aveva due componenti. Uno era indipendente dalla storia, l'altro no. Il suo sistema per la creazione di una "valutazione delle prestazioni" nel corso di un evento o di un periodo di tempo non aveva alcuna componente storica; era semplicemente una misura della prestazione nel tempo specificato. (La memoria non mi riesce su questo punto, ma penso che quando stava calcolando le valutazioni per FIDE questo era il metodo che usava.)

Tuttavia, il sistema Elo utilizzato dalle federazioni di tutto il mondo ha una componente storica, in quanto le valutazioni vengono calcolate calcolando un delta, una variazione rispetto alla valutazione precedente.

Il sistema storico ha una naturale tendenza alla deflazione. Il sistema è un sistema chiuso, senza la creazione di nuovi punti. Quindi entrano nuovi giocatori, prendono punti da giocatori affermati e poi escono (attraverso la morte o la pensione) prima di restituire tutti quei punti al gruppo successivo di giocatori in aumento.

Molte idee sono state tentate di compensare questo, alcune funzionano meglio di altre. Aggiungete a ciò la pressione commerciale nell'USCF dei primi anni '70 per far salire le classifiche più velocemente (l'opinione piuttosto cinica era che i giocatori avrebbero acquistato un libro dall'USCF e giocato in un torneo, il loro punteggio sarebbe salito, incoraggiandoli a comprarne un altro libro, ecc.) e l'inflazione è stata una cosa reale in alcuni punti della storia.

Poiché il sistema di Elo era basato su una curva normale (a campana), non ha senso cercare di misurare l'inflazione misurando uno dei due estremi; gli estremi hanno maggiori probabilità di essere influenzati dal numero totale di giocatori che vengono valutati che dalle variazioni della forza effettiva o da qualsiasi tipo di inflazione.


1

Ho un'idea semplice Prendiamo un computer per scacchi (hardware + software) che ha avuto la sua valutazione misurata 20 anni fa, tramite il gioco con altri computer per scacchi con valutazioni conosciute che avevano 20 anni fa. Ora misuriamo la sua valutazione ora (esattamente lo stesso hardware più esattamente lo stesso software), tramite il gioco con i moderni computer di scacchi, con la valutazione di oggi nota. La differenza tra due misurazioni costituirebbe un'inflazione di rating negli ultimi 20 anni. Abbastanza semplice?


Calcolerebbe più o meno l'inflazione del rating per i computer , non per i giocatori umani. Gli umani giocano diversamente contro i computer che tra di loro.
Glorfindel

1

Le conclusioni dell'articolo di Regan-Haworth dovrebbero essere prese con un pizzico di sale, in quanto sembra contraddire altre analisi al computer dei giochi, su software e hardware migliori e con metodi matematici più avanzati. Lì concludono (vedi tabella 9), ad esempio, che Karpov nel 1977 ha giocato a un livello leggermente inferiore rispetto a Kasparov nel 2001 e Anand nel 2008 (dovrebbe segnare circa il 47% dei punti), e in realtà migliore di Topalov nel 2005 e Ponomariov in 2011. Dal momento che Kasparov-2001 ha un punteggio superiore di 150 punti rispetto a Karpov-1977, il punteggio si aspetta che raggiunga il 70% dei punti. Non vedo come conciliare questo con l'affermazione che non vi era inflazione da rating.

Si noti inoltre che, contrariamente all'affermazione implicita nella domanda, non esiste alcun meccanismo in base al quale il rating rifletta un cambiamento nella forza complessiva nel pool di giocatori . Potrebbe essere empiricamente il caso che un punto di forza tipico di un giocatore di 2600 non sia cambiato in un certo periodo di tempo, ma ciò sarebbe semplicemente una coincidenza piuttosto che un riflesso delle proprietà fondamentali del sistema ELO, e certamente non generalizzabile.

Se piuttosto definiamo l'inflazione in modo ingenuo e misuriamo solo la valutazione media dei primi 100 giocatori, allora, come si può vedere da questo link , si è verificata un'inflazione costante fino al 2012 e nessuna inflazione da allora - la valutazione media dei 100 maggiori oscillò tra 2700 e 2705 negli ultimi 7 anni .


0

Innanzitutto, devi definire cosa intendi meglio. Ad esempio, significa che sei il giocatore più dominante per la tua era? O significa che la qualità del tuo giocatore è superiore a tutti gli altri giocatori. E se la qualità è ciò che intendi, come si definisce la qualità?

Paul Morphy era probabilmente il giocatore più dominante. Ad esempio, quando aveva 12 anni, ha sconfitto un top ten (Lowenthal) in una partita 3-0. Secondo Edo e chessmetrics, probabilmente era già uno dei migliori giocatori del mondo all'età di 12 anni! All'età di 21 anni, ha giocato contro una simultanea contro 5 dei primi dieci giocatori (Bird, Barnes, Boden, De Reviere e Lowenthal) e ha segnato 3-2.

Tuttavia, molti sosterrebbero che il dominio è un cattivo indicatore di chi è il migliore. Dopo tutto, Morphy è stato descritto come il primo giocatore di scacchi moderno. La sua competizione era debole rispetto ai campioni successivi.

Un'altra definizione che è stata utilizzata è la qualità del gioco. Tuttavia, questa definizione presenta anche molti problemi. Nel 1900, un certo numero di persone sostenne che Steinitz o Lasker erano i migliori giocatori di tutti i tempi sostenendo che la loro conoscenza dell'apertura e della teoria moderna li avrebbe resi superiori ai giocatori del passato. Tuttavia, Louis Paulsen fece alcune argomentazioni molto intelligenti contro questa ipotesi. Ha sostenuto che Morphy (che aveva una memoria fotografica e memorizzava il codice a barre Louisana all'età di 19 anni) se riportato in vita avrebbe imparato aperture e teoria moderna entro un anno e sarebbe stato in grado di competere con successo contro i moderni giocatori di scacchi.

Regan sostiene che i giocatori di scacchi moderni che hanno accesso ai computer di scacchi e ai moderni metodi di allenamento giocano più come i computer che i giocatori del passato. Non è una sorpresa perché sono stati addestrati dai computer, ma significa che i giocatori moderni sono davvero migliori? Ciò pone la domanda che cosa farebbe Fischer o Capablanca se avessero accesso ai computer moderni?

Inoltre, il computer di analisi del professor Regan mi sembra piuttosto incompleto in quanto coinvolge solo alcuni periodi di cinque anni e i giocatori inclusi nell'analisi non sono menzionati. Un'analisi computerizzata più approfondita dei professori Matej Guid e Ivan Bratko ha scoperto che in effetti Capablanca suonava più come un computer che con i giocatori moderni! https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-. Tuttavia, Guid e Bratko hanno notato che esiste un problema nel concludere che Capablanca era un giocatore migliore. Forse il suo stile piuttosto tranquillo ha portato a un minor numero di posizioni in cui sarebbe probabile che si sbagliasse. Pertanto, la sua percentuale di errore era inferiore, ma stava anche mettendo meno pressione sui suoi avversari rispetto ai giocatori più aggressivi. In effetti, Capablanca aveva un'alta percentuale di pareggio rispetto ai suoi contemporanei.

Al contrario, un giocatore altamente tattico come Kasparov potrebbe essere penalizzato dal suo stile di gioco, che è più probabile che porti a posizioni altamente tattiche in cui i computer sono particolarmente bravi a trovare errori. In effetti, i computer tendono a esibirsi meglio contro i giocatori tattici rispetto ai giocatori posizionali o in posizione chiusa in cui le tattiche svolgono un ruolo minore. Pertanto, è probabile che l'analisi del computer che si basa sul numero di errori rilevati dal computer favorisca la sedazione dei giocatori in posizione chiusa. Al contrario, un giocatore aggressivo come Kasparov può commettere più errori tattici di altri giocatori perché ha cercato posizioni molto complesse ma i suoi avversari ne faranno ancora di più!

Pertanto, è necessario un sistema di ponderazione degli errori che non calcoli solo la percentuale di errori per 100 mosse (che è fondamentalmente ciò che hanno fatto Regan, Guid e Bratko). Invece, è necessario calcolare la differenza tra il tasso di errore e il tasso di errore degli avversari. Dopotutto, gli scacchi consistono nel commettere meno errori del tuo avversario. Fare pressione sul tuo avversario per indurre più errori è considerata una buona qualità.

Tuttavia, il mio metodo di calcolo rivisto porta ad un altro problema che è che queste analisi al computer non prendono in considerazione la forza del tuo avversario. Ad esempio, forse Larson ottiene un punteggio chessmetrico molto alto perché il suo stile aggressivo (ottimista) ha portato al dominio su giocatori con un punteggio più basso. Tuttavia, ha avuto problemi nei giochi contro giocatori di pari rating. Altri giocatori hanno spesso sostenuto che era troppo ottimista nel suo gioco contro altri giocatori di alto livello. Per evitare questo problema, l'analisi del controllo degli errori del computer dovrebbe guardare solo i giochi contro concorrenti forti (ad esempio, i primi 10, 20 o 100 giocatori). Tuttavia, ciò non affronta ancora il problema di aumentare la forte concorrenza nel tempo.

Il problema di aumentare la qualità del gioco può essere corretto osservando le valutazioni precedenti come Chessmetrics? In realtà, preferisco il sistema di back rating Edo http://www.edochess.ca/perché le ipotesi statistiche sono migliori. Ad esempio, Chessmetrics presume che il punteggio massimo di un giocatore si verifichi quando ha 40 anni. Dubito che sia vero per tutti e molti giocatori rinunciano agli scacchi prima di quell'età o il loro gioco è stato il massimo per alcuni anni (ad esempio, Harry Nelson Pillsbury, Charousek, Fischer, Morphy, Rubinstein, Fine). Sfortunatamente, Edo confronta solo i punteggi dei giocatori dal 1811 al 1920. Secondo Edo, Capablanca e Morphy sono classificati i due giocatori più alti di questa era. Secondo Chessmetrics, Capablanca e Lasker sono stati i due migliori giocatori (Morphy non è nemmeno tra i primi dieci.) Secondo Chessmetrics, Zukertort, Steinitz, Tarrasch, Lasker, Pillsbury, Maroczy, Marshall, Janowsky, Chigorin, Schelecter, Blackburne, Duras, Teichmann, Neumann, Vidmar, Gunsberg, Rubinstein e Burn erano meglio di Morphy.

Se l'innovazione porta al dominio all'interno di una specifica era degli scacchi nel tempo e diventa sempre più difficile innovare nel tempo man mano che aumenta la forza della competizione, non è possibile misurare il dominio reale semplicemente guardando i record delle partite dei primi 30 giocatori. Cioè, è molto più difficile per Magnus Carlsen dominare i suoi avversari di quanto non lo fosse per i campioni del passato. Se guardi le classifiche retroattive è facile vedere che l'entità della differenza tra le classifiche dei migliori giocatori è diminuita nel tempo. Quindi credo che un modello statistico di tipo Edo che tenga conto della difficoltà di dominare nel tempo sarebbe un approccio migliore di quello che è stato provato in precedenza. Ad esempio, Fischer è stato un giocatore piuttosto dominante per la sua era perché ha vinto 20 partite di fila. Qual è stata la striscia vincente più lunga di Kasparov o Karpov rispetto a questa serie vincente? Secondo Seirawan, le loro vittorie più lunghe sono state sette partite.

Naturalmente, non sto affermando che le serie vincenti siano una buona metrica. Sto solo sostenendo che il predominio in base alle classificazioni o nelle partite individuali contro altri migliori giocatori è una metrica utile che non viene esplicitamente presa in considerazione negli attuali sistemi di back rating.

Quindi la mia analisi dei sogni è che usi le classifiche Edo basate su un database che include solo i migliori 20 o 30 giocatori per ogni periodo di cinque anni. Dopo aver completato questa analisi, i risultati vengono ponderati in base a un fattore di dominanza. Cioè, i giocatori più recenti ottengono un fattore bonus che viene calcolato stimando la traiettoria della difficoltà di dominare nel tempo (la diminuzione delle disparità di classificazione tra i primi 30 giocatori nel tempo). Successivamente, si convaliderà questa analisi confrontando la percentuale dei giocatori degli errori calcolati dal computer a scacchi che i loro avversari fanno meno i propri errori. Se ciò invalida quanto sopra, è necessario ripetere la ponderazione in base all'analisi del controllo degli errori del computer se mostra che c'è una tendenza per i giocatori più recenti a giocare in modo più accurato anche dopo aver preso in considerazione il mio fattore di dominanza.

La mia ipotesi si basa sul fatto che il mio occhio sia quello che Kasparov farebbe molto bene. Ma è solo una supposizione.


2
Questo non sembra rispondere alla domanda.
Herb Wolfe,

Il punto è che non puoi rispondere alla domanda sull'inflazione di valutazione fino a quando non definisci l'abilità di scacchi. Ho esaminato la ricerca che cercava di adeguarsi all'inflazione del rating o che cercava di determinare in che modo variano le abilità dei campioni di scacchi nel tempo (che è esattamente l'inflazione del rating). Credo che il problema sia che i ricercatori non hanno davvero identificato le loro ipotesi su ciò che credono sia la capacità di scacchi. Secondo me, senza definire l'abilità di scacchi, non puoi rispondere alla domanda se l'abilità di scacchi cambia nel tempo o dire qualcosa sull'inflazione di valutazione.
ToddM,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.