Ecco una rapida analisi sporca basata sul database PGN "Million Base". L'ho fatto in fretta, quindi potrebbero esserci errori nella mia programmazione o logica. Per favore, non usarlo per qualcosa di troppo serio. Aggiornamento - Nota: in realtà, ho appena notato che ho fatto un errore con il set di dati e l'ho limitato al primo milione di record. Pubblicherò un aggiornamento quando avrò del tempo libero per eseguirlo di nuovo sull'intera cosa. Nel frattempo, questi numeri dovrebbero essere interessanti, tuttavia.
Ottenere i dati:
Ho ottenuto il file Million Base 1.74 da questo URL , poiché il sito top-5000.nl sembra 404 quando si tenta effettivamente di scaricarlo. Il file contiene poco più di 1 milione di giochi in formato di esportazione PGN (vale a dire, facili da analizzare).
Sfortunatamente, oltre il 60% dei giochi mancava di informazioni sulla valutazione (stavo cercando i tag "WhiteELO" e "BlackELO"), e ancora meno aveva valutazioni per entrambi i giocatori. Alla fine, ho deciso di ottenere un campione quanto più grande possibile e ho contato le mosse di un giocatore se fosse noto il suo punteggio, indipendentemente da quello dell'altro giocatore.
Processi:
I giochi venivano analizzati uno a uno e, se si conosceva la valutazione di un giocatore, tutte le loro mosse per quella partita venivano aggiunte all'aggregato per il gruppo di valutazione del giocatore. Ho scelto di dividere le classificazioni in gruppi di 100, quindi ad esempio dal 1600 al 1699 era un singolo gruppo.
Dato che il movetext effettivo in PGN è SAN, ho usato la seguente scorciatoia per contare le mosse: Knight (N), Bishop (B), Rook (R), Queen (Q) e King (K) muovono tutte con la lettera del loro pezzo . Castling (OO e OOO) è stato conteggiato separatamente, come un caso speciale. Tutte le mosse rimanenti sono state contate come mosse di pedone senza ulteriore esame.
Non è stata eseguita la pulizia dei dati. Non c'è stato alcun tentativo di identificare i valori anomali e rimuoverli (ad es. Giochi eccessivamente corti e lunghi, ecc.). Ho tenuto, ma non ho incluso nella seguente analisi, i risultati delle valutazioni inferiori a 1600 - la dimensione del campione per questi giochi era ben al di sotto di 100, portando a grandi variazioni nei risultati. I dati non elaborati vengono forniti alla fine di questo post.
Alcune carenze delle informazioni: al momento, ho raccolto solo totali di base e fornito medie. Sono abbastanza sicuro che, in generale, i dati NON sono normalmente distribuiti, ma non saranno in grado di dire di più senza effettivamente emettere i conteggi grezzi ed eseguirli attraverso un programma statistico. Potrei farlo, se c'è interesse. Per il momento, ciò non significa intervalli di confidenza o altre informazioni sulla distribuzione dei numeri rappresentati da tali medie. Inoltre, non ho verificato per quanti anni il set di dati dura - se rappresenta molti anni, potrebbe essere utile tentare di correggere la forza complessiva del campo.
Alcune tendenze:
Una parola sulle valutazioni dei giocatori: i gruppi di valutazione più frequenti incontrati sono stati, nell'ordine: da 2400 a 2500, da 2500 a 2600 e da 2300 a 2400. Questi gruppi di valutazione hanno fornito il 72% dei giochi conteggiati.
Guardando i risultati reali, la durata media del gioco è stata un po 'una sorpresa:
I gruppi di valutazione inferiori al 2000 avevano tutti giochi significativamente più brevi rispetto ai gruppi più alti. Ciò potrebbe essere spiegato dalla possibilità che stessero giocando avversari più forti (vedi il punteggio medio sopra) e che furono sconfitti in meno mosse. Ciò sembra andare contro i giochi leggermente più corti giocati dal gruppo con il punteggio più alto, sebbene ciò possa contribuire a una dimensione del campione inferiore.
Le differenze relativamente grandi nella lunghezza media del gioco hanno significato che fornire la frequenza di spostamento di un determinato pezzo, piuttosto che il numero totale di volte in cui un pezzo viene spostato, è forse il confronto più equo. Il calcolo delle frequenze risulta nel seguente grafico:
Le seguenti tendenze sembrano essere presenti:
- La frequenza delle mosse dei cavalieri sembra tendersi leggermente verso il basso con il punteggio.
- Bishop sposta la tendenza verso il basso fino a circa 2000, quindi lentamente tende verso l'alto.
- Rook muove la tendenza bruscamente verso l'alto all'incirca allo stesso punto, e rimane più frequente di Bishop quando gioca ad alto livello.
- Le mosse del pedone sembrano tendersi leggermente verso il basso con una valutazione maggiore. Una grande eccezione è la prima categoria, da 2800 a 2900. Questo ci porta al punto successivo:
- La categoria di rating superiore fornisce valori anomali o controtendenze in numerose misurazioni. Ciò può essere spiegato in vari modi: 1) la dimensione del campione è abbastanza bassa a 363, non minuscola, ma inclusa il 10% della dimensione del campione più piccola successiva. 2) Dato che sono in cima ai gruppi di rating, non giocano mai avversari "più forti" di loro stessi. 3) O semplicemente a questo livello, il loro stile di gioco ha trasceso i livelli sottostanti. La mia ipotesi sarebbe una combinazione di 1) e 2).
- Le differenze tra mosse regina e mosse di castling sono molto piccole senza tendenze reali, tranne una piccola tendenza al ribasso in entrambi i casi.
- La frequenza delle mosse del re presenta alcune delle maggiori differenze. Non è visibile alcuna tendenza chiara e sembra cambiare direzione 3 o 4 volte.
Ulteriore analisi
Alcune idee per analisi future:
- Correzioni statistiche di base: ritengo che i giochi estremamente corti e lunghi dovrebbero probabilmente essere esclusi. Inoltre, la distribuzione dei conteggi effettivi potrebbe essere molto significativa.
- Dividere ulteriormente l'analisi può anche dare risultati interessanti. Ad esempio, sarei interessato a sapere come si abbinano le frequenze per il bianco e nero (sono uguali o diverse? Perché?).
- Anche la categorizzazione in base alla differenza nella valutazione può essere interessante, i giocatori che giocano un avversario molto più forte (diciamo, 200 valutazioni sopra di loro) giocano con frequenze di movimento diverse? Sfortunatamente ciò richiede che l'ELO di entrambi i giocatori sia noto, cosa rara in questo set di dati.
- La tendenza al corto-lungo castello potrebbe anche variare in base alla valutazione.
- Le statistiche di promozione del pezzo, alcune analisi strutturali leggere (ad es. Incidenza di pedine doppie, en passant, spille, forchette, mostrate per valutazione) potrebbero essere approfondite.
- Anche le "mappe di calore" del posizionamento dei pezzi sulla tavola reale, mostrate per valutazione, potrebbero essere piuttosto interessanti.
Dati aggregati in formato CSV
Per coloro che vogliono giocare con i dati, sentiti libero.
Gamma di valutazione, Dimensione del campione, Lunghezza media del gioco, Mosse medie del pedone, Mosse medie del cavaliere, Mosse medie del vescovo, Mosse medie del corvo, Mosse medie della regina, Mosse medie del re, Castling medio
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857