Stavo leggendo gli appunti di Andrew Ng sull'apprendimento per rinforzo e stavo cercando di capire perché l'iterazione politica convergesse alla funzione di valore ottimale e politica ottimale .
L'iterazione della politica di richiamo è:
Perché un algoritmo goloso porta a una politica ottimale e alla funzione di valore ottimale? (So che algoritmi avidi non sempre lo garantiscono, o potrebbero rimanere bloccati negli optima locali, quindi volevo solo vedere una prova della sua ottimalità dell'algoritmo).
Inoltre, mi sembra che l'iterazione politica sia qualcosa di analogo al clustering o alla discesa gradiente. Al clustering, perché con l'attuale impostazione dei parametri, ottimizziamo. Simile alla discesa del gradiente perché sceglie solo un valore che sembra aumentare alcune funzioni. Questi due metodi non convergono sempre in massimi ottimali e stavo cercando di capire come questo algoritmo fosse diverso dai precedenti che ho menzionato.
Questi sono i miei pensieri finora:
Supponiamo che iniziamo con una politica , quindi dopo il primo passaggio, per quella politica fissa abbiamo che:
Dove V ^ {(1)} è la funzione valore per la prima iterazione. Quindi dopo il secondo passaggio scegliamo alcune nuove politiche per aumentare il valore di . Ora, con la nuova politica , se facciamo il secondo passo dell'algoritmo, vale la seguente disuguaglianza:
Poiché scegliamo nel secondo passaggio per aumentare la funzione valore nel passaggio precedente (ovvero per migliorare . Finora, è chiaro che la scelta di può solo aumentare V ^ {(1)}, perché è così che scegliamo . Tuttavia, la mia confusione arriva nel passaggio di ripetizione, poiché una volta ripetuti e tornati al passaggio 1, in realtà cambiamo completamente le cose perché ricalcoliamo per la nuova politica . Che dà:
ma NON è:
Il che sembra essere un problema perché stato scelto per migliorare e non questo nuovo . Fondamentalmente il problema è che garantisce di migliorare facendo invece di quando la funzione valore è . Ma nel passaggio ripetuto cambiamo in , ma non vedo come ciò garantisca che la funzione valore migliora monotonicamente ad ogni ripetizione perché stato calcolato per migliorare la funzione valore quando le funzioni valore rimangono su V π 1, ma il passaggio 1 modifica in (il che è negativo perché I migliorato solo la precedente funzione di valore che avevamo).