In che modo Alpha Zero è “più umano”?


35

Ho una domanda forse ingenua su AlphaZero. L'ho visto descritto come uno stile "più umano" rispetto ad altri computer, ma qualunque cosa faccia, guadagna circa 100 punti ELO facendolo. Kasparov, e molti altri, hanno affermato che un uomo forte in collaborazione con un computer batterà un computer forte (forse di circa 100 ELO ??). Quindi una domanda ovvia è: come si confronta AlphaZero con una combinazione "centauro"?

Dopo aver visto solo alcuni giochi, ciò che noto è che la maggior parte dei computer gioca a giochi spalancati che massimizzano la propria mobilità, ma AlphaZero sembra molto preoccupato di limitare la mobilità degli avversari. In un giocatore umano lo descriverei come una questione di stile, non più o meno umana.


4
Per quello che vale, l'affermazione di Kasparov è molto datata. Un umano e un computer in collaborazione ("scacchi avanzati" o "scacchi centauro") non possono più sovraperformare un computer da soli - i computer sono semplicemente troppo buoni - Stockfish 8 è valutato da qualche parte intorno a ~ 3400 IIRC, rispetto a ~ 2825 per Magnus Carlsen .
Stephen Touset,

8
@StephenTouset Solo un'attenzione a stare attenti alle classificazioni Elo per i motori. Quelli che ho visto più comunemente provengono dai confronti tra motore e motore che non sono stati standardizzati per un vero essere umano. Citazione Wikipedia pertinente : "Questi voti, non [...] hanno alcuna relazione diretta con i punteggi FIDE Elo o con altri voti della federazione di scacchi di giocatori umani. Tranne alcuni giochi uomo contro macchina che la SSDF aveva organizzato molti anni fa (che erano lontani dal livello odierno), non esiste alcuna calibrazione tra nessuno di questi elenchi di valutazione e gruppi di giocatori. "
mbrig

1
Penso che gli umani potrebbero, ma non con i controlli orari standard. I giochi per corrispondenza lunga dovrebbero essere ok.
SmallChess,

4
ma AlphaZero è un prodotto Google. Quindi non c'è da stupirsi che sentirai più propaganda al riguardo rispetto ai prodotti di altre aziende. Immagino che abbiano accordi migliori con autori ed editori. Prendilo con un mucchio di sale, come qualsiasi cosa su Waymo.
programmatori

Risposte:


33

La pagina 5 nel documento ha la tua risposta:

... AlphaZero compensa il minor numero di valutazioni usando la sua profonda rete neurale per costi molto più selettivi sulle variazioni più promettenti - probabilmente un approccio più "umano" agli scacchi ...

"selettivamente" è la parola chiave. Cosa significa? Usiamo questa posizione seguente per il nostro esempio:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

Si muove

Questo è un gioco recente vinto da Caruana nel 2017 London Chess Classic. Il vescovo bianco è sotto attacco e sai che devi spostarlo. Ma dove?

Possibilità (non perdere un pezzo):

  • BH4
  • BE3
  • BD2
  • bc1

Cosa stava pensando Caruana?

Mi sentivo come se potessi perdere ad un certo punto, ma quando ho visto, 25 a.C., improvvisamente ho iniziato a diventare un po 'più ottimista sulle mie possibilità. Mi sono reso conto che la mia posizione era negativa, ma almeno avevo un piano e questo era davvero tutto ciò di cui avevo bisogno per avere un po 'di fiducia in questa posizione. Quando ho visto questo b3, c4 la posizione è a doppio taglio e ho alcune possibilità.

Questo è il pensiero umano e una "mossa umana". Caruana non aveva considerato Bh4, Be3 e Bd2 perché "sembravano" cattivi. Si era concentrato solo e solo sulla mossa Bc1.

Gli umani giocano a scacchi in modo molto selettivo , scartiamo le mosse irragionevoli perché non abbiamo tempo di esaminare tutte le possibilità allo stesso modo.

  • Scartiamo Bh4 perché rilascia la tensione sul pedone h6
  • Scartiamo Be3 perché blocca le due torri bianche al terzo grado
  • Scartiamo Bd2 perché blocca la regina bianca sul lato re

Questo è ciò che AlphaZero sta cercando di rivendicare nel documento. Sostengono che il loro algoritmo, sebbene più lento dello Stoccafisso, è in grado di selezionare selettivamente mosse migliori dello Stoccafisso nella ricerca. Mentre lo stoccafisso è più veloce, si perde tempo in mosse sbagliate. AlphaZero è più lento, ma è più preciso (come quello che stava facendo Caruana).

Ad esempio, AlphaZero potrebbe spendere l'80% delle risorse in Bc1 e il 20% in tutte le altre mosse dei vescovi. Lo stoccafisso potrebbe dare il 25% per ogni mossa (Bh4, Be3, Bd2, Bc1).


1
Quindi, fondamentalmente, lo stile di gioco non è necessariamente più umano, ma l'approccio per trovare quale sarà la prossima mossa da giocare. Almeno secondo il documento. Inoltre, non posso modificarlo, ma la tua citazione su Caruana ha un errore di battitura piuttosto grande: "Quando ho visto il suo b3, c4" dovrebbe essere "Quando ho visto questo b3, c4"
Arthur,

@Arthur Secondo il giornale (e solo il giornale), lo stile di gioco non è necessariamente più umano. Non sto dicendo NO, ma nulla nel documento lo dice.
SmallChess

Gli algoritmi Monte Carlo hanno un parametro per controllare exploit exploit x, quindi mosse che alpha-beta non prenderebbe mai in considerazione (a causa del tempo), lo fa alpha zero.
Fernando,

@Fernando Puoi spiegare a cosa rispondi? Faccio fatica a capire il punto. Inoltre sono confuso da "non considerare mai a causa del tempo". La ricerca alfa-beta ignora i rami che sono chiaramente peggiori di altri rami già esplorati. Non vedo cosa abbia a che fare con il tempo.
IA Petr Harasimovic,

Fondamentalmente, se una linea è +0.32 e l'altra è +0.13, AlphaZero passerà del tempo sul primo.
Jossie Calderon,

16

I motori più potenti enfatizzano lo sguardo molto in profondità, a spese di avere una funzione di valutazione superficiale. Nel documento AlphaZero, affermano che lo stoccafisso esamina 70 milioni di posizioni al secondo.

I grandmaster umani osservano davvero pochissime posizioni rispetto ai motori, ma hanno una migliore sensazione di chi è migliore in una determinata posizione.

AlphaZero ha esaminato solo 80.000 posizioni al secondo, quindi dedica molto più tempo alla sua funzione di valutazione.

Questo è il senso in cui intendevano "più umano come", niente di più.


11

AlphaZero sembra già suonare come un normale "centauro" -> correspodenza GM con assistenza al motore.

Come FM mi divertirei molto di più giocando a AlphaZero contro un motore normale.

Un confronto sarebbe che gioca come Karpov avrebbe con tattiche perfette. (Game 9 AlphaZero gioca un pezzo in giù per 15 movimenti che è molto simile a Tal).

Non è solo stile, AlphaZero dà l'impressione di comprendere meglio le posizioni dello stoccafisso.

AlphaZero inoltre non soffre dell'effetto Horizon di cui TUTTI i motori di scacchi avevano sofferto fino ad ora. Più volte è in grado di valutare correttamente una posizione che si sposta più in basso rispetto allo stoccafisso.

Ecco un esempio:

AlphaZero - Stoccafisso, Alphazero vs Stoccafisso: AlphaZero - Stoccafisso, 2017-12-05, 1-0
1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 5. f4 c5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. Bd2 Bc5 9. b4 Be7 10. Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13. cxd4 Nb6 14. a4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 b6 18. g4 h5 19. Qg1 hxg4 20. Qxg4 Bf8 21. h4 Qe7 22. Rhc1 g6 23. Rc2 Kd8 24. Rac1 Qe8 25. RC7 RC8 26. Rxc8 + Bxc8 27. rc6 Bb7 28. Rc2 KD7 29. Ng5 Ae7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. f5 RG8 33. Qh6 QF7 34. f6 Rd8 35. Kd2 KD7 36. Rc1 Rd8 37. Qe3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Bc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 Kc7 45. a5 Bd7 46. ​​axb6 + Kxb6 47. Ra6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

AlphaZero gioca il re al centro 16. Kxd2! in una partita intermedia giudicare correttamente che il Nero non sarà in grado di trarne vantaggio.

È in grado di valutare correttamente un sacrificio di un pezzo 30. Bxg6! mentre i motori normali non sono in grado di vedere che sono persi per una serie di mosse.

  1. f5 è anche abbastanza bello.

Ci sono altri esempi come lo scambio del sacrificio nel gioco 3.


8

È facile saltare su un carrozzone dicendo che il gioco di Alpha-Zero è "più" umano rispetto ai precedenti programmi di scacchi per computer in quanto è saltare sul carro opposto e dire che il gioco di Alpha-Zero è completamente "alieno". Non è chiaro che la commedia di Alpha-zero sia "più umana", specialmente data la nostra tendenza umana verso l'antropomorfismo.

Gli scacchi come una lotta della mente (umana)

Ma negli scacchi questa tendenza è vera? Magnus Carlsen una volta ha parlato di come i computer "tradizionali" in generale non abbiano creatività umana dicendo:

"Gli scacchi riguardano la lotta tra le menti umane. Questo è ciò che lo rende eccitante. Gli scacchi del computer sono meccanici, asciutti e insipidi. Le mosse sono molto forti, ovviamente, ma non c'è stile. Se provi a giocare contro un computer di scacchi , non solo perderai con una certezza molto elevata, ma ti annoierai anche nel processo.

Magnus Carlsen non ha visto prove di stili umani di gioco nei tradizionali computer di scacchi. Quindi esaminiamo se il recente risultato di Alpha-Zero ha annullato questa prospettiva e ci ha spostato verso qualcosa di più simile a noi stessi.

Se per "simil-umano" intendi recitare un comportamento che mostra più probabilità di attrarre il nostro senso di antropomorfismo "lo stile di Alpha-zero sembra più umano? Come testiamo davvero questo miope soggettivo che ama proiettare su cose non umane? Chiediamolo: l'algoritmo "seleziona selettivamente meglio" o mostra "una scelta creativa più umana" nel suo stile di gioco?

I creatori dell'algoritmo indicano che, a differenza dello Stoccafisso che utilizza un algoritmo di ricerca Alpha-Beta, Alpha-Zero utilizza un algoritmo di ricerca dell'albero di Monte-Carlo (MCTS) che accetta come input parametri ponderati θ costruiti da risultati precedenti ~ Pagina 3. Mastering Chess and Shogi di Self-Play con un algoritmo di apprendimento di rinforzo generale ).

Quindi l'algoritmo non mostra alcuna scelta. Si impegna effettivamente in una ricerca Monty-carlo casuale ma probabilistica in cui i possibili percorsi di ricerca disponibili sono sempre più pregiudicati dai risultati precedenti. Alpha-zero ha scelto di ottimizzare il suo stile di gioco in questo modo o è stata la scelta dei suoi programmatori?

Alpha-zero ha sempre tutte le mosse possibili a sua disposizione per essere prese in considerazione o alcune mosse sono pregiudicate algoritmicamente in un modo che imita l'esperienza che può essere interpretata dall'uomo in modo antropomorfico?

Inizialmente aveva tutte le mosse disponibili, quindi il suo "stile" era del tutto casuale. Tuttavia, poiché la sua ricerca è sempre più e in modo ottimale vincolata da precedenti successi o insuccessi, il suo stile sta effettivamente cambiando verso la modalità con cui i suoi programmatori l'hanno incatenato. Questo è "più umano" però? Confronta questo con Magnus Carlesen che a volte sceglierà mosse meno ottimali perché sono più creative :

Magnus Carlsen: "Apprezzo creare qualcosa di unico"

Scacchi come lotta della mente (aliena)

Gli umani possono scegliere i criteri che guidano il loro stile di gioco (ad esempio, ho spesso scelto impulso ed errore nel mio stile). Molti vedono il gioco Alpha-Zero sia scacchi e andare come decisamente Alien . Nick Hynes, uno studente laureato presso il MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) osserva:

“Quello che stiamo vedendo qui è un modello libero da pregiudizi e presupposti umani: può imparare tutto ciò che determina è ottimale, il che può effettivamente essere più sfumato delle nostre stesse concezioni dello stesso. È come una civiltà aliena che inventa la propria matematica che gli permette di fare cose come viaggiare nel tempo ... "

Allo stesso modo il GM Peter Heine Nielsen disse a Chess.com :

"Dopo aver letto il giornale ma soprattutto visto i giochi che ho pensato, beh, mi sono sempre chiesto come sarebbe se una specie superiore fosse atterrata sulla terra e ci avesse mostrato come giocano a scacchi. Sento che ora lo so."

Sembra che la maggior parte reagisca allo stile di gioco emergente di Alpha-zero come "gioco alieno" e non come "più umano".

Pertanto c'è motivo di non essere d'accordo con le risposte sopra che dicono "sì".


3
La tua risposta è abbastanza fuorviante e inaccurata in alcuni punti. L'uso di MCTS non è la differenza cruciale, non è per questo che ha battuto lo stoccafisso. Potevano usare anche la ricerca alfa-beta, sentivano solo che MCTS funzionava meglio per loro. Gli elementi principali dell'algoritmo AlphaZero sono una rete neurale convoluzionale molto profonda, l'apprendimento del rinforzo (cioè la rete è sintonizzata dall'auto-gioco) e una ricerca dell'albero (che sembra essere MCTS ma che non è necessario). Non c'è nulla di fatto a mano in questo modo dicendo che "il suo stile sta effettivamente cambiando verso la modalità con cui i suoi programmatori l'hanno incatenato" non è corretto.
IA Petr Harasimovic,

"Gli scacchi si basano sulla lotta tra le menti umane. Questo è ciò che lo rende eccitante. Gli scacchi per computer sono meccanici, asciutti e insipidi. Le mosse sono molto forti, ovviamente, ma non c'è stile". Qualcuno ha fatto un esperimento ben condotto in stile test di Turing con un certo numero di GM che giocano un avversario anonimo che può essere un umano o un computer?

Se ritieni che il mio punto fosse che MCTS è la differenza cruciale (tra Alpha-zero e Stoccafisso), mi stai perdendo il punto. Il mio punto era che gli umani, non gli algoritmi hanno deciso lo stile di gioco di Alpha-zero, hanno deciso la decisione di Alpha-zero. Il mio punto era che queste scelte molto umane sembrano conferire uno stile di gioco che colpisce sia i GM che i dilettanti come decisamente non umani.
user34445


1
@ user34445 In realtà, penso che il paragrafo non abbia assolutamente senso, stavo solo cercando di razionalizzarlo. Gli umani non hanno deciso lo stile di gioco di AlphaZero, hanno deciso il suo stile di apprendimento. Certamente non gli hanno imposto la loro visione di come giocare a scacchi.
IA Petr Harasimovic,

5

Questo è un momento incredibilmente interessante per essere vivi.

I computer a scacchi a partire dagli anni '70 sono stati algoritmi di ricerca basati su alberi minimox usando la potatura alfa-beta. Questi programmi sono diventati sempre più forti sia a causa dei progressi nella velocità del computer e nel parallelismo sia a causa dei miglioramenti della funzione euristica di valutazione utilizzata per potare i rami e selezionare i nodi fogliari. Ma la gente ha da tempo notato quanto sia materialistico e noioso il gioco al computer, e molte persone (me compreso) hanno pensato che fosse impossibile codificare l'intuizione "umana" nel software.

Ma hai visto questi giochi?

AlphaZero esibisce giochi incredibilmente belli, tra cui diversi esempi di sacrificio materiale per un vantaggio posizionale a lungo termine. Questo ricorda alcuni dei giochi più belli dei maestri umani, ma anche con un'accuratezza tecnica senza pari. Questo è il primo esempio che ho visto nella mia vita di qualcosa che è generato dal computer e ha anche una profonda bellezza .


Il reclamo del centauro:

Ho sentito Garry dirlo molte volte, ma non è vero. O almeno, non sarà più vero con AlphaZero sulla scena.

Immagina questo: c'è un sacco di pezzi che ha 10.000 continuazioni rilevanti, in cui 5.000 di esse sono puramente tattiche (ma per lo più non correlate l'una all'altra) e altre 5.000 che sono per lo più posizionali (ma per lo più non correlate). Come può un essere umano setacciare tutte queste variazioni senza sbagliare? Se AlphaZero ora può guardare a queste mosse altamente creative, quale contributo potrebbe dare un essere umano?


L'ultima frontiera:

È rimasto un posto in cui il calcolo del bruto batterà ancora le reti neurali profonde: i giochi finali. Non c'è una quantità di intuizione che batterà un tablebase. Ma i finali che richiedono un tablebase (perché un albero di ricerca non può andare abbastanza in profondità per calcolare solo la mossa giusta) sono piuttosto rari. E potresti semplicemente collegare un tablebase ad AlphaZero, ma ciò distruggerebbe la purezza di un motore "autodidatta", giusto?


3

Poiché gli umani non hanno la capacità di effettuare ricerche approfondite, come i tradizionali programmi di scacchi per computer (fritz, stoccafisso e altri), creano "principi strategici" o regole del pollice (controllo centrale, sviluppo, sicurezza del re) e concetti o trucchi applicabili in un'ampia varietà di situazioni in modi diversi, come sacrificio, torri collegate, coppia di vescovi, finali specifici, ad esempio come angolare il re con una torre e una pedina.

Penso che l'alfa zero abbia reinventato indipendentemente molti di questi concetti (concetti e concetti) e ne abbia anche appreso tonnellate di nuovi - perché la sua conoscenza non doveva essere costruita su funzioni di valutazione umana e la forte ricerca di minmax che presume sempre che l'avversario sia un genio.

Certo, tali principi stessi sono in conflitto in alcune situazioni, ecco perché vari giochi di apertura e insidie ​​sono attentamente studiati - ad esempio non sviluppare regina troppo presto.

D'altra parte, gli umani notano anche che una volta perso un pezzo (senza scambio) indebolisci le tue forze in modo che siano estremamente attenti a non perdere un pezzo senza una compensazione.

Penso che il gioco di Alphazero abbia liberato gli scacchi al computer (e gli scacchi umani) dalla paura schiava di perdere piccoli materiali e affidamento eccessivo sull'apertura di libri e valori di pezzi.

I giochi Alphazero mostrano cose come i "principi strategici" come controllo centrale, sviluppo, spazio, iniziativa sono molto più importanti se il tuo avversario è sciatto. In altre parole, il "sacrificio" non è in realtà un sacrificio, ma scambia un pezzo per guadagnare in iniziativa, posizione, mossa diretta.

Alphago (non lo zero) si basava sulla valutazione umana, ma alphazero imposta l'intera catena di valutazione alla "ricerca o simulazione" come un processo end-to-end unico e trova un modo completamente nuovo di giocare.

Se ci pensate, grandi maestri del passato come Morphy, Fischer, Kasparov sono stati applauditi per questo tipo di gioco -contra-intuitivo in cui non sono limitati dalla valutazione scritta su pietra sfruttando situazioni speciali che emergere. Penso che i giochi di alpha zero abbiano un tale fattore "wow".

Perché reti neurali. Mentre i programmi per computer che usano la rappresentazione simbolica e la ricerca discreta possono usare solo un 'unico' modo di pensare, le reti neurali possono elaborare in parallelo situazioni con valutazioni alternative e contrastanti e passare alla vista più preziosa nei livelli successivi.


2

Più umani nel senso che le mosse che gioca sembrano coincidere più o meno con un approccio umano: giocare per un vantaggio a lungo termine, sacrifici posizionali, attività a pezzi. Vi è un'apparente convergenza con la conoscenza degli scacchi umani e i principi strategici accettati perfezionati nel corso dei secoli (ad esempio, "ha scoperto" molte stesse aperture). Ciò è notevole dato che AlphaZero non è stato seminato con la conoscenza degli scacchi costruita dall'uomo.

Ma le somiglianze finiscono qui. AlphaZero lo porta al livello successivo e lo fa meglio, e in un modo che gli umani non hanno mai concepito. AlphaZero possiede capacità "sovrumane" per citare il documento: "AlphaZero ha raggiunto un livello di gioco superumano [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). Inoltre non ha le debolezze inerenti agli esseri umani: problemi di concentrazione, paura, stanchezza, sentimenti, intuizione, ecc. Che limitano gli esseri umani. E il suo cervello di silicio consente combinazioni tattiche al di là delle capacità umane quando necessario.


2
Poi c'è un paradosso. Lo stoccafisso beneficia dell'esperienza umana; Alphazero no. Ma Alpha zero sembra più umano. Significa forse che non abbiamo fatto, con la generazione di Stackfish, un ottimo lavoro di distillazione dei nostri pensieri
Philip Roe,

1

Voglio ringraziare tutti coloro che hanno risposto a questa domanda, spesso con sottigliezza e perspicacia. La differenza principale nelle risposte, mi sembra, sta nell'interpretazione della parola umano.

AlphaZero non gioca a scacchi umani nel senso di sviste e calcoli sbagliati, ma il suo processo di "pensiero" sembra corrispondere, in una forma accresciuta, a come penso che i giocatori più forti pensano. Redigi, abbastanza rapidamente, un elenco di "mosse candidate" che vorresti giocare, e per i giocatori più forti questo elenco è incredibilmente accurato, persino giocando qualcosa come un gioco sensibilmente riconoscibile in un minuto. Il resto del tempo viene dedicato a chiedere, quale delle mosse in quella lista funziona davvero? Petrosian disse di sentirsi maggiormente in forma quando la mossa che alla fine suonò fu quella a cui pensò per la prima volta. Sappiamo tutti quanto sia soddisfacente quando la mossa che volevamo maggiormente giocare risulta tatticamente giocabile. Posso relazionarmi con l'algoritmo AlphaZero molto più facilmente di quanto possa fare con la ricerca AlphaBeta,

Ciò che sembra più interessante è il modo in cui la macchina è stata in grado di riconoscere autonomamente i candidati promettenti. È qui che esiste il potenziale per una vera rivoluzione. Mi chiedo se ciò sia possibile solo per domini come gli scacchi, dove gli obiettivi possono essere chiaramente definiti. Ma trovo sorprendente che AlphaZero sembri mostrare un gioco intenzionale, ma Stockfish non ha idea di cosa stia succedendo.


0

Il modo in cui capisco le reti neurali, il vero vantaggio di A0 è la sua valutazione superiore delle posizioni del consiglio. Questa valutazione comprende sia la conoscenza tattica a breve termine (che in un certo senso funge da moltiplicatore del numero di posizioni esaminate) sia una valutazione superiore del valore strategico.


1
Benvenuti in Chess SE! Potresti fornire un riferimento per i motivi per cui pensi che le reti neurali funzionino in questo modo?
Pablo S. Ocal,

0

Una cosa che mi è sfuggita da tutta la discussione è che A0 può giocare a scacchi, shogi e andare, tutto molto bene e tutto grazie all'auto-allenamento. Questo è molto più umano. Inoltre, con il passare del tempo ha rivelato idee profondamente nuove ai migliori giocatori (a quanto ho capito). Altri motori sono molto specifici per compito, A0 sembra diversamente. Mi piacerebbe vederlo giocare a scacchi960.


1
Non vedo come questo risponda alla domanda.
SmallChess,

-2

Non penso che ci sia qualcosa di "umano" in Alpha. Usava solo hardware molto più potente e giocava a scacchi di qualità superiore. Le buone mosse di apertura che trova (ad esempio, sul lato del fidanzato con Bg2) sono interamente dovute al suo libro di apertura simulato. I concetti che mi hanno impressionato e che ho formulato in "Il segreto degli scacchi": http://davidsmerdon.com/?p=1970 , che Alpha utilizza per la prima volta tra i motori di punta, sono catene più lunghe avanzate, ad esempio la d4 -e5-f6 catena che ha battuto un pezzo intero nel gioco del sacrificio Bg6, e produttori di backward centrali, come visto nei giochi di difesa francese tra i due motori. Entrambi i concetti riguardano la ricerca di grandi profondità, e probabilmente qui Alpha è stato aiutato dal suo straordinario hardware. Altrimenti, non vedo nulla di umano nel suo gioco. Molti dei giochi erano, certamente,


5
Queste due affermazioni sono errate: 1) "Ha usato solo hardware molto più potente" - Sì, ha usato hardware molto più forte di Stockfish ma non è questo che fa la differenza. È il software molto diverso che richiede l'hardware forte. 2) "Le buone mosse di apertura che trova sono interamente dovute al suo libro di apertura simulato." - Non utilizza alcun libro di aperture.
IA Petr Harasimovic,

È proprio questo che fa la differenza: l'hardware Alpha esponenzialmente più grande. Ogni tester di scacchi sa che il raddoppio della velocità aumenta la forza degli scacchi di circa 70 elos circa, a seconda del software. La differenza tra 32 core e 4TPU, 1000-2000 core, è di circa 6 duplicati. Ciò comporterebbe 420 elos. Quindi, in realtà, mentre ha eseguito 100 elos in più su quell'hardware, a parità di condizioni Alpha è più debole di circa 300 elos.
Lyudmil Tsvetkov,

Utilizza un libro di apertura, ovviamente, non importa quello che sostengono. Alpha è stato addestrato sui migliori giochi vincitori di GM. Ciò traspare molto chiaramente, se si vede la selezione di apertura di Alpha: proprio le aperture consigliate dalla teoria moderna e precisamente quelle, dove le possibilità di vincita sono le migliori. Non sei fidanzato con Bg2 proprio così.
Lyudmil Tsvetkov,

3
@Lyudmil, Google ha realizzato qualcosa di sorprendente in Alpha Zero. Si è insegnato queste mosse giocando contro se stesso conoscendo solo le regole del gioco! Accusando il team Alpha Zero di imbrogli dimostra che non hai capito affatto i loro risultati o la loro missione: stanno spingendo avanti le frontiere dell'IA e mentre un piccolo gesto lungo la strada ha battuto tutti i motori di scacchi e il talento umano esistenti in un pomeriggio!
saille

1
@LyudmilTsvetkov Sei completamente sbagliato. Alpha Zero (e questo è il punto) viene allenato senza giochi umani. E 'detto le regole e poi inventato ogni aspetto del suo gioco in quattro ore di gioco da solo senza alcun nuovi dati al di fuori.
Maverick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.