Durante l'addestramento di un modello parametrico (ad es. Per massimizzare la probabilità) tramite la discesa stocastica del gradiente su alcuni set di dati, si presume comunemente che i campioni di allenamento siano estratti dalla distribuzione dei dati di allenamento. Quindi, se l'obiettivo è quello di modellare una distribuzione congiunta , ogni campione di allenamento dovrebbe essere estratto da quella distribuzione.( x i , y i )
Se l'obiettivo è invece quello di modellare una distribuzione condizionale , come cambia il requisito iid, se non del tutto?
- Dobbiamo ancora trarre ciascun campione dalla distribuzione congiunta?
- Dovremmo disegnare iid da , quindi disegnare iid da ? P ( X ) y i P ( Y | X )
- Possiamo disegnare non iid da (ad es. Correlato nel tempo), quindi disegnare iid da ? P ( X ) y i P ( Y | X )
Puoi commentare la validità di questi tre approcci per la discesa gradiente stocastica? (O aiutami a riformulare la domanda, se necessario.)
Vorrei fare il n. 3 se possibile. La mia applicazione è l'apprendimento per rinforzo, dove sto usando un modello condizionale parametrizzato come criterio di controllo. La sequenza degli stati è altamente correlata, ma le azioni sono campionate in base a una politica stocastica condizionata sullo stato. I campioni risultanti (o un sottoinsieme di essi) vengono utilizzati per addestrare la politica. (In altre parole, immagina di eseguire una politica di controllo a lungo in un ambiente, raccogliendo un set di dati di esempi stato / azione. Quindi, anche se gli stati sono correlati nel tempo, le azioni vengono generate in modo indipendente, condizionate dallo stato.) Questo è in qualche modo simile alla situazione in questo documento .y i ( x i , y i )
Ho trovato un articolo, Ryabko, 2006, " Pattern Recognition for Conditionally Independent Data ", che all'inizio sembrava rilevante; tuttavia, lì la situazione è invertita da ciò di cui ho bisogno, dove (l'etichetta / categoria / azione) può essere disegnato non iid da , e (l'oggetto / modello / stato) è disegnato da . P ( Y ) x i P ( X | Y )
Aggiornamento: due articoli ( qui e qui ) citati nel documento Ryabko sembrano rilevanti qui. Essi assumono i provengono da un processo arbitrario (ad esempio non IID, possibilmente non stazionaria). Mostrano che gli stimatori del vicino più vicino e del kernel sono coerenti in questo caso. Ma sono più interessato al fatto che la stima basata sulla discesa del gradiente stocastica sia valida in questa situazione.