Che cos'è l'efficienza del campione e come può essere utilizzato il campionamento per importanza per raggiungerlo?

Ad esempio, il titolo di questo documento recita: "Esempio di attore efficiente critico con esperienza Replay".

Che cos'è l' efficienza del campione e come può essere utilizzato il campionamento per importanza per raggiungerlo?

reinforcement-learning statistical-ai importance-sampling

— Gokul NC
fonte

Risposte:

Un algoritmo è efficiente a livello di campione se può ottenere il massimo da ogni campione. Immagina di imparare cercando di imparare a giocare a PONG per la prima volta. Come umano, ti occorrerebbero pochi secondi per imparare a giocare basandosi su pochissimi campioni. Questo ti rende molto "campione efficiente". I moderni algoritmi RL dovrebbero vedere $100$ migliaia di volte più dati di te, quindi sono relativamente inefficienti.

Nel caso dell'apprendimento off-policy, non tutti i campioni sono utili in quanto non fanno parte della distribuzione a cui siamo interessati. Campionamento dell'importanzaÈ una tecnica per filtrare questi campioni. Il suo uso originale era comprendere una distribuzione pur essendo in grado di prelevare campioni da una distribuzione diversa ma correlata. In RL, questo spesso si presenta quando si tenta di apprendere off-policy. Vale a dire, che i tuoi campioni sono prodotti da una politica comportamentale ma vuoi imparare una politica target. Pertanto, è necessario misurare l'importanza / la somiglianza dei campioni generati con i campioni che la politica target potrebbe aver creato. Pertanto, si sta campionando da una distribuzione ponderata che favorisce questi campioni "importanti". Esistono molti metodi, tuttavia, per caratterizzare ciò che è importante e la loro efficacia può variare a seconda dell'applicazione.

L'approccio più comune a questo stile off-policy di campionamento di importanza è trovare un rapporto tra la probabilità che un campione debba essere generato dalla politica target. L'articolo su una connessione tra il campionamento dell'importanza e il gradiente della politica del rapporto di verosimiglianza (2010) di Tang e Abbeel tratta questo argomento.

— Jaden Travnik
fonte

Grazie ancora. Domanda di base: ..finding a ratio of how likely a sample is to be generated by the target policycome possiamo decidere, dato che conosciamo solo la politica di comportamento? La politica target non è qualcosa che dobbiamo trovare?

— Gokul NC,

Possiamo ottenere una stima di questo prontamente trovando il rapporto tra la politica target, pi, intraprendendo quella azione rispetto alla politica comportamentale, mu. Quindi il rapporto è P = pi (s, a) / mu (s, a) dove a e s sono rispettivamente l'azione scelta da mu e dallo stato.

— Jaden Travnik

La mia domanda era: da dove otteniamo pi (s, a), mentre abbiamo solo mu (s, a)? Cioè, da dove prendiamo la politica di destinazione, mentre è il nostro obiettivo trovarla?

— Gokul NC,

La tua politica di destinazione è inizializzata in modo casuale, è solo una questione di aggiornamento.

— Jaden Travnik

L'efficienza del campione indica la quantità di esperienza che un agente / algoritmo deve generare in un ambiente (ad es. Il numero di azioni che prende e il numero di stati risultanti + premi che osserva) durante l'addestramento al fine di raggiungere un certo livello di prestazione. Intuitivamente, si potrebbe dire che un algoritmo è efficiente dal punto di vista del campione se può fare buon uso di ogni singola esperienza che capita di generare e migliorare rapidamente la sua politica. Un algoritmo ha una scarsa efficienza del campione se non riesce a imparare qualcosa di utile da molti campioni di esperienza e non migliora rapidamente.

La spiegazione del campionamento di importanza nella risposta di Jaden sembra per lo più corretta.

Nel documento in questione, il campionamento di importanza è uno degli ingredienti che consente una corretta combinazione di 1) apprendimento da traiettorie multi-step e 2) esperienza dei buffer di riproduzione. Queste due cose non erano facili da combinare prima (perché i ritorni in più fasi senza campionamento di importanza sono corretti solo nell'apprendimento sulla politica, e i vecchi campioni in un replay buffer sono stati generati da una vecchia politica, il che significa che l'apprendimento da loro è fuori politica ). Entrambe queste cose migliorano individualmente l'efficienza del campione, il che implica che è anche utile per l'efficienza del campione se possono ancora essere combinati in qualche modo.

— Dennis Soemers
fonte