Seguendo le risposte a:
La mia domanda sarebbe come la rete neurale "impara" cosa fare in una posizione che non ha incontrato. Dire che la AZ reale esegue un MCTS usando i pesi bias + dalla rete neurale addestrata fa semplicemente un passo indietro nel modo in cui la rete neurale calcola questi valori. Se fosse attraverso l'autoproduzione casuale, senza conoscenza umana, come può decidere come ponderare una posizione che non ha mai visto?