Versione computazionalmente limitata dell'equilibrio di Nash?

Mi chiedo se esiste una versione limitata dal punto di vista computazionale del concetto di equilibrio di Nash, qualcosa che segue le seguenti linee.

Immagina una sorta di gioco di informazioni perfette per due giocatori che si gioca su una tavola , e che è complesso nel senso che il gioco ottimale è EXPTIME-hard. Supponiamo anche per semplicità che i disegni non siano possibili. Immagina una coppia di macchine Turing a tempo polinomiale randomizzate che giocano questa partita l'una contro l'altra. Per ogni , lasciate la probabilità che batte a degli ordini gioco. (Per concretezza, diciamo che arriva a giocare per primo con probabilità 0,5.) Ciò che penso sarebbe bello è se si potesse provare l'esistenza di una coppia $n\times n$ $(A, B)$ $n$ $p_{A,B}(n)$ $A$ $B$ $n$ $A$ $(A,B)$ con la proprietà che nessuna macchina di Turing a tempo polinomiale randomizzata domina (dove " domina "significa per tutti sufficientemente grandi ), e allo stesso modo nessuna macchina di Turing a tempo polinomiale randomizzata domina (dove " domina "significa per tutte sufficientemente grandi ) . $A'$ $A$ $A'$ $A$ $p_{A',B}(n) > p_{A,B}(n)$ $n$ $B'$ $B$ $B'$ $B$ $p_{A,B'}(n) < p_{A,B}(n)$ $n$

In qualche modo, sospetto che questo sia troppo da sperare, ma c'è qualche speranza che qualcosa di simile sia vero, forse per una classe ristretta di giochi?

Una motivazione per questa domanda è che sto cercando un modo per formalizzare l'idea che una determinata posizione degli scacchi sia "vantaggiosa per il bianco". Classicamente, una posizione è una vittoria per il Bianco o non lo è. Tuttavia, i giocatori di scacchi, sia umani che informatici, hanno una comprensione intuitiva di cosa significhi per White avere un vantaggio. Sembra avere qualcosa a che fare con la probabilità che il Bianco vincerà, dato che i giocatori sono limitati dal punto di vista computazionale e devono indovinare la mossa migliore. Per una specifica coppia di algoritmi randomizzati si può ovviamente parlare della probabilità che White vincerà, ma quello che mi chiedo è se ci possa essere, in un certo senso, un canonico coppia di giocatori limitati dal punto di vista computazionale le cui probabilità di vincita producono un valore per la posizione che dipende solo dal gioco stesso e non dalle idiosincrasie dei giocatori.

gt.game-theory

— Timothy Chow
fonte

I concetti di equilibrio computazionalmente limitato che conosco hanno un sapore diverso: pensare a Halpern, Pass e Seeman come in Truth Behind the Myth of the Folk Theorem , 2014. Non ipotizziamo che trovare una strategia di equilibrio per il gioco dato è difficile (perché per un determinato gioco, potrebbe o non potrebbe essere). Piuttosto, permettiamo a qualsiasi strategia impostata di essere un equilibrio se è difficile per qualsiasi giocatore calcolare una deviazione redditizia. (Nota che questo presuppone uno spazio esponenziale per la strategia, altrimenti possiamo controllare tutte le deviazioni.)

— usul

Non riesco a pensare in alcun modo a una risposta facile, completamente elegante / soddisfacente a questa domanda, in particolare perché il risultato finale è così difficile da calcolare; tuttavia, i miei pensieri sono troppo lunghi per essere pubblicati come commenti.

L'idea migliore che ho è questa: nel caso degli scacchi, prova ad approssimare la probabilità che il Bianco vincerà in base al vantaggio materiale del Bianco (p. Es. Pedine extra, cavalieri, ecc.) Per una data posizione selezionando casualmente posizioni con quell'esatto importo -di configurazione materiale. Forse nel caso degli "all-rooks chess", potremmo dire: "Con quale probabilità White vincerà con 8 rooks ai Black 17 rooks?" Forse questa probabilità è del 4%; per calcolarlo, dovremmo esaminare (diciamo) 1000 diverse posizioni di scacchi generate casualmente che hanno 8 torri bianche e 17 torri nere, e quindi guardare avanti (diciamo) 10 mosse profonde in ogni caso e vedere qual è la nuova configurazione del materiale . Quindi, prendi le probabilità previste in base alla configurazione del materiale alla fine,

Certo, sarebbe necessario trovare la configurazione del materiale per ogni possibilità rilevante ( M , N ) di M torri bianche a N corvi nere ... presumibilmente a partire dalla coppia più bassa ordinata ( M = 1, N = 1) e funzionante da lì.

Per la posizione originale, non limitarti a seguire la statistica che ottieni (ovvero, se la posizione originale ha ( M = 6, N = 7) torre, non dare per scontato che il Bianco abbia una probabilità del 25% di vincere perché è le probabilità di vittoria previste per (6,7)); invece, poiché puoi essere più preciso, guarda 10 movimenti in profondità come al solito con solo questa posizione e trova ogni possibile posizione finale. Quindi, trova il percorso giusto (che implica un gioco ottimale da entrambi i lati) verso una configurazione profonda di 10 mosse e seleziona le probabilità attese di questo percorso come quote attese della posizione originale.

Penso che questo processo possa essere fatto in tempi polinomiali. Guardare k si sposta in profondità per k fissi negli scacchi è polinomiale nelle dimensioni della scacchiera, e il numero totale di corvi bianchi e neri è espresso in unario (in un certo senso) perché quel numero deve essere inferiore alla dimensione della scacchiera.

Se questo sembra complicato e difficile da spiegare, è perché lo è. Un riassunto più conciso di ciò che sto descrivendo è: Usa la ricorsione e le statistiche di base per calcolare le probabilità di vittoria per bianco dato M bianco torre e N nero torre sul tabellone. Quindi usa questi valori per osservare k mosse profonde e accertare le probabilità che il Bianco vincerà nella posizione originale.

Commento finale: penso che questo problema sia interessante anche per i giochi non EXPTIME completi, come il tic-tac-toe, che secondo Wikipedia è PSPACE completo. Inoltre, credo che un processo come quello che ho descritto sopra potrebbe essere utile anche lì, sebbene ovviamente sarebbe impossibile avere un vantaggio "materiale" in tic-tac-toe; ci dovrebbe essere qualche altra base per giudicare la superiorità della posizione di X o O.

— Philip White
fonte