Non riesco a capire lo scopo dei pesi di campionamento per importanza (IS) in Replay prioritario (pagina 5) .
È più probabile che una transizione venga campionata per esperienza, più grande è il suo "costo". La mia comprensione è che "IS" aiuta ad abbandonare senza problemi l'uso del replay prioritario dopo che ci siamo allenati abbastanza a lungo. Ma cosa usiamo invece, campionamento uniforme?
Immagino di non riuscire a capire come ogni componente in un tale coefficiente sta influenzando il risultato. Qualcuno potrebbe spiegarlo a parole?
Viene quindi utilizzato per smorzare il gradiente, che proviamo a ottenere dalle transizioni.
Dove:
- è "IS"
- N è la dimensione del buffer Experience Replay
- P (i) è la possibilità di selezionare la transizione , a seconda di "quanto è grasso il suo costo".
- inizia da 0 e viene trascinato sempre più vicino a 1 con ogni nuova epoca.
Anche la mia comprensione di questi parametri è corretta?
Modifica Qualche tempo dopo l'accettazione della risposta ho trovato una fonte aggiuntiva, un video che potrebbe essere utile per i principianti - Simulazioni MC: 3.5 Campionamento dell'importanza
Modifica Come ha detto @avejidah nel commento alla sua risposta " viene utilizzato per calcolare la media dei campioni in base alla probabilità che vengano campionati" .
Per capire perché è importante, supponiamo che sia fissato a 1, abbiamo 4 campioni, ognuno ha come segue:
0.1 0.2 0.3 0.4
Cioè, la prima voce ha il 10% di essere scelta, la seconda è il 20% ecc. Ora, invertendoli, otteniamo:
10 5 3.333 2.5
Media tramite (che nel nostro caso è ) noi abbiamo:
2.5 1.25 0.8325 0.625 ...which would add up to '5.21'
Come possiamo vedere, sono molto più vicini allo zero rispetto alle versioni semplicemente invertite (). Ciò significa che il gradiente per la nostra rete non sarà ingrandito tanto, con conseguente minore varianza durante l'allenamento della nostra rete.
Quindi, senza questo siamo stati fortunati a selezionare il campione meno probabile (), il gradiente verrebbe ridimensionato 10 volte. Sarebbe ancora peggio con valori più piccoli, diciamo possibilità, se la nostra esperienza di riproduzione ha molte migliaia di voci, il che è abbastanza normale.