Valutazioni al computer: quanto sono affidabili?

14

Fritz 12 con Rybka ha dato a un mio amico una valutazione di +3 per il bianco in questa posizione di fine gioco ,

Bianco da spostare

che si è rivelato essere un pareggio. Ma ho sentito che +3 da un computer significa una vittoria garantita con un gioco perfetto. Ho appena sentito male? Come dovrebbero essere interpretate le valutazioni al computer in generale? Cosa significano anche i vantaggi di apertura di <.5?

— chubbycantorset
fonte

3

Sfiderei il commento "vincita garantita". Il numero di valutazione è un indicatore euristico, fondamentalmente un "sentimento" che il computer ha per la posizione. Gli endgame possono avere esiti "sorprendenti" e, a meno che il computer non sia stato programmato per rilevare tutti i possibili schemi (o sia in grado di calcolare fino in fondo), ne mancheranno alcuni. A guardarlo in un altro modo, se +3 fosse davvero garantito, non sarebbe +3, sarebbe + infinito.

— Daniel B,

Per la cronaca, ho controllato questo con i basamenti da tavolo a 7 pezzi Lichess, ed è, in effetti, un pareggio.

— PhishMaster il

8

Ci sono un paio di cose qui.

Innanzitutto, ogni programma avrà il proprio modo di valutare le posizioni in modo che i punteggi non possano essere confrontati direttamente. Ad esempio, di recente ho eseguito StockFish contro Rybka e ho scoperto che i punteggi di Stockfish erano circa il doppio di quelli di Rybka. Sono stato sorpreso da questo, ma è abbastanza chiaro che un punteggio di 1 non significa sempre "1 pedone". Penso che dovremmo guardare come cambia il punteggio. Un'altra curiosità che ho visto ieri (mentre rispondevo a una delle tue altre domande, per coincidenza) era che l'algoritmo di valutazione di Stockfish non gradisce molto i numeri dispari. In effetti la maggior parte dei punteggi erano multipli di 0,04. Dato che l'entità del valore è arbitraria, non presumo che un certo valore significhi "una vittoria sicura" a meno che la macchina non sostenga di aver trovato un compagno.

In secondo luogo, sono stati creati i tavoli da gioco finali perché la risoluzione dei giochi finali richiede molta profondità di ricerca. I computer che giocano a velocità di torneo semplicemente non lo fanno bene. Stavo lavorando su un gioco diverso qualche giorno fa e ho annunciato su questo sito che una parte aveva un vantaggio. Ed ha usato una base per mostrare che non era rimasto alcun mistero nella posizione, teoricamente disegnato. Certo, c'è un'enorme differenza tra draw-with-perfect-play e draw; i giocatori devono trovare le mosse giuste.

Il piccolo valore generalmente dato a White nelle prime fasi del gioco significa sostanzialmente che il bianco può rivendicare proprietà immobiliari di maggior valore. Ad esempio, sulla mossa 1, il Bianco può rivendicare e4 e attaccare e5 e f5. Il nero può contrastare. Ma poi White può giocare a Nc3 e attaccare / rafforzare a4, b5, d5 ed e4. Ma il Nero può contrastare. Quindi significa molto poco.

Infine, per rispondere alla domanda nell'oggetto - le valutazioni sono molto affidabili in quanto basate su fatti concreti e su una profondità di ricerca impressionante. Certo, le macchine non sono infallibili. Ma noi b-giocatori dobbiamo ricordare che Stockfish (o Rybka) gioca con i punti di forza di GM su hardware modesto. Sul miglior hardware comune , stimano le loro valutazioni a FIDE 3200. Questo è così alto che solo i migliori umani hanno una leggera possibilità di non perdere.

Considera cosa significa; Io (USCF 1650-ish) non ho alcuna possibilità contro una persona (diciamo, USCF 2050) che non ha alcuna possibilità contro una persona (diciamo, USCF 2450) che non ha alcuna possibilità contro una persona (diciamo, USCF 2850) che ha una scheggia di una possibilità contro un programma commerciale di punta (FIDE 3200).

Pertanto, quando lo stoccafisso dice che una mossa è migliore di un'altra, di solito la prendo al valore nominale. Quando collegherò le basi di un tavolo da gioco, questa cosa inizierà ad annunciare il compagno negli anni '30, lol.

— Tony Ennis
fonte

1

Risposta molto bella. Ho sempre pensato che una valutazione di 1 significasse 1 pedina di materiale. Inoltre, chesstempo afferma che le mosse migliori nei suoi problemi sono quelle che vincono almeno 2 pedine di materiale, quindi ho ritenuto che una valutazione del motore di +2 o più fosse vincente indipendentemente dal livello in una partita. Tuttavia, ho scoperto che l'analisi dello stoccafisso è errata prima e ho visto come non riesca a valutare correttamente i giochi finali. In quella nota, sai dove posso trovare una base di endgame?

— chubbycantorset,

Ecco il tavolo da tavolo per

— Tony Ennis,

+1 per "Non presumo che un certo valore significhi" una vittoria sicura "a meno che la macchina non stia sostenendo di aver trovato un compagno."

— ferit

14

Motori diversi hanno "scale" diverse per le loro valutazioni numeriche. Ad esempio, in una tipica posizione di medio periodo con molto gioco rimasto, quando Houdini dice +2,00 o meglio, è molto probabile che il Bianco abbia un vantaggio vincente (anche se anche qui ho incluso le qualifiche per un motivo). Ma considera: si potrebbe modificare il codice sorgente di Houdini e raddoppiare i valori assoluti di tutti i numeri coinvolti nelle valutazioni; si ottiene un motore di identica forza che produce un gioco identico, ma ora +4,00 significa che significava +2,00. Ciò dimostra che non ci si dovrebbe aspettare una soglia numerica uniforme tra i motori che indica in genere un vantaggio vincente.

Più di questo, tuttavia, è importante capire che una valutazione numerica del motore di una posizione (al contrario di una dichiarazione dichiarata dell'inevitabile compagno) non si traduce mai strettamente in "una partita vinta", nemmeno per un singolo motore fisso. Un punto chiave è che le valutazioni numeriche non hanno un "significato" ben definito in termini di scacchi ampi e sono piuttosto solo un sostituto del pensiero senziente che viene utilizzato per guidare meccanicamente un motore verso risultati generalmente desiderabili influenzando quale mossa seleziona in ogni punto nel gioco; in questa luce, ciò che è in definitiva più importante per il gioco di un motore è solo la differenza di valutazione assegnata a potenziali mosse, piuttosto che qualsiasi cosa sui valori assoluticoinvolti. I numeri sono utili al motore stesso, che ha bisogno di qualcosa di così concreto per prendere una decisione per spostarsi da un altro, ma noi umani non dovremmo essere troppo veloci per leggere più significato nelle magnitudini coinvolte in pensieri come "+ X significa una vittoria ".

In particolare, più ci avviciniamo a un endgame rispetto a un middlegame, tanto meno possiamo usare una regola empirica (come il mio +2,00 per Houdini nei middlegames sopra) su una certa soglia che è sufficiente per una vittoria. Uno dei motivi principali di ciò è la difficoltà che i motori hanno di riconoscere le fortezze, dove un'abbondanza di materiale extra non è ancora sufficiente per vincere. Ad esempio, quando do da mangiare allo stoccafisso in questa posizione,

NN - NN

dopo un paio di minuti ho pensato che stesse dando una valutazione di circa +7,00, e in una posizione tipica, quando Stockfish lo dice, quasi sicuramente hai una vittoria tra le mani. Tuttavia, questo è un pareggio morto, e un essere umano può vederlo facilmente una volta realizzato il fatto che il Nero può semplicemente mescolare la torre tra f6 e h6, quindi (1) il pedone h è inutile e (2) il bianco il re non potrà mai aiutare l'attacco della regina bianca. Alla fine , lo stoccafisso riconoscerà anche un pareggio qui, una volta che si imbatterà in 50 mosse, diciamo, o infine finirà le mosse diverse per provare e alla fine non può evitare una ripetizione, ma quegli eventi sono molto in fondo alla linea di profondità della ricerca.

La posizione di fine gioco della tua precedente domanda a cui hai collegato è simile a questo tipo di fortezza, in quanto le pedine passate extra collegate di White ci sono belle e tutte, ma alla fine non abbastanza per vincere in quella posizione. Se un motore dovesse calcolare per un tempo sufficiente per vedere quante più informazioni sono contenute nelle tabelle, allora la sua valutazione scenderebbe a 0, ma nel frattempo il suo algoritmo di valutazione non ha niente di meglio da fare che dare un + per quello materiale extra (che non conosce ancora non ha senso).

— ETD
fonte

+1 per "Oltre a questo, però, è importante capire che una valutazione del motore numerico di una posizione (al contrario di una dichiarazione dichiarata dell'inevitabile compagno) non si traduce mai rigorosamente in una partita vinta"

— ferit

8

Penso che questa immagine descriva abbastanza bene la situazione. È stato creato da giochi da 400k e considera solo materiale in pezzi semplici.

Vincere probabilità / vantaggio pedina

Fonte: Pawn Advantage, Win Percentage ed ELO

— Thomas Ahle
fonte

1

Bel contributo! +1

— ferit

@Thomas Ahle: il grafico è interessante. Ma l'articolo originale non è più disponibile, il link wikispaces è tristemente andato giù. Ricordi il significato esatto di W = Win Probability? È stata la vittoria contro la sconfitta ignorando i pareggi? O è stato il "punteggio atteso" che ha tenuto conto delle estrazioni?

— Diedrsch,

@Diedrsch Ho aggiornato il link

— Thomas Ahle il