È possibile addestrare un modello di P (Y | X) mediante discesa gradiente stocastica da campioni non iid di P (X) e campioni iid di P (Y | X)?


10

Durante l'addestramento di un modello parametrico (ad es. Per massimizzare la probabilità) tramite la discesa stocastica del gradiente su alcuni set di dati, si presume comunemente che i campioni di allenamento siano estratti dalla distribuzione dei dati di allenamento. Quindi, se l'obiettivo è quello di modellare una distribuzione congiunta , ogni campione di allenamento dovrebbe essere estratto da quella distribuzione.( x i , y i )P(X,Y)(xi,yi)

Se l'obiettivo è invece quello di modellare una distribuzione condizionale , come cambia il requisito iid, se non del tutto?P(Y|X)

  1. Dobbiamo ancora trarre ciascun campione dalla distribuzione congiunta?(xi,yi)
  2. Dovremmo disegnare iid da , quindi disegnare iid da ? P ( X ) y i P ( Y | X )xiP(X)yiP(Y|X)
  3. Possiamo disegnare non iid da (ad es. Correlato nel tempo), quindi disegnare iid da ? P ( X ) y i P ( Y | X )xiP(X)yiP(Y|X)

Puoi commentare la validità di questi tre approcci per la discesa gradiente stocastica? (O aiutami a riformulare la domanda, se necessario.)

Vorrei fare il n. 3 se possibile. La mia applicazione è l'apprendimento per rinforzo, dove sto usando un modello condizionale parametrizzato come criterio di controllo. La sequenza degli stati è altamente correlata, ma le azioni sono campionate in base a una politica stocastica condizionata sullo stato. I campioni risultanti (o un sottoinsieme di essi) vengono utilizzati per addestrare la politica. (In altre parole, immagina di eseguire una politica di controllo a lungo in un ambiente, raccogliendo un set di dati di esempi stato / azione. Quindi, anche se gli stati sono correlati nel tempo, le azioni vengono generate in modo indipendente, condizionate dallo stato.) Questo è in qualche modo simile alla situazione in questo documento .y i ( x i , y i )xiyi(xi,yi)

Ho trovato un articolo, Ryabko, 2006, " Pattern Recognition for Conditionally Independent Data ", che all'inizio sembrava rilevante; tuttavia, lì la situazione è invertita da ciò di cui ho bisogno, dove (l'etichetta / categoria / azione) può essere disegnato non iid da , e (l'oggetto / modello / stato) è disegnato da . P ( Y ) x i P ( X | Y )yiP(Y)xiP(X|Y)

Aggiornamento: due articoli ( qui e qui ) citati nel documento Ryabko sembrano rilevanti qui. Essi assumono i provengono da un processo arbitrario (ad esempio non IID, possibilmente non stazionaria). Mostrano che gli stimatori del vicino più vicino e del kernel sono coerenti in questo caso. Ma sono più interessato al fatto che la stima basata sulla discesa del gradiente stocastica sia valida in questa situazione.xi


1
Forse mi manca qualcosa e non ho letto il documento, ma: stai disegnando non-iid da e poi campionando iid da . Ryabko (2006) sta disegnando non-iid da e quindi campionando iid da . Questi sembrano uguali fino alla ridenominazione. C'è qualcosa di fondamentalmente diverso sugli oggetti e che rende questa non è la stessa situazione? P ( X ) y i P (xiP(X)yiP(YX)yiP(Y)xiP(XY)xy
Dougal,

@Dougal: La differenza è che i modelli di distribuzione condizionale, come i campi casuali condizionali, trattano e ("input" e "output") in modo diverso ... modellano solo una direzione ( ma non ). XYP(Y|X)P(X|Y)
Tyler Streeter,

2
Considererei la seguente analogia in questo caso. Supponiamo che e siano due serie temporali correlate (correlazione nel tempo). Vorremmo capire una funzione , che equivale a trovare . Se , che è il residuo, è IID (quindi stazionario e non correlato), la procedura di stima converge senza distorsioni. Fondamentalmente l'elaborazione delle serie temporali in ordine temporale o qualsiasi ordine randomizzato non dovrebbe importare in una procedura MLE a condizione che la probabilità condizionale sia specificata correttamente e i residui siano IID. X i Y i = f ( X i ; θ ) PYiXiYi=f(Xi;θ)P ( Y i | X i ; θ )P(Yi|Xi;θ)P(Yi|Xi;θ)
Cagdas Ozgenc,

Risposte:


1

Penso che potresti fare 2 o 3. Tuttavia, il problema con 3 è che nel consentire distribuzioni arbitrarie per X includi distribuzioni che avrebbero concentrato tutta o quasi tutta la probabilità è un piccolo intervallo nello spazio x. Ciò danneggerebbe la stima complessiva di P (Y | X) perché avresti pochi o nessun dato per determinati valori di X.


Quindi stai dicendo che con l'approccio n. 3 otterrei un risultato imparziale con una varianza potenzialmente elevata?
Tyler Streeter,

Se non ci sono dati in corrispondenza o in prossimità di un punto x non è nemmeno possibile stimare P (Y | X = x ) e se sono presenti solo pochi punti, la varianza della stima sarà elevata. 111
Michael R. Chernick,

Sì, ha senso che la varianza potrebbe essere grande. Immagino che la mia preoccupazione principale sia se la P stimata (Y | X) sarà distorta.
Tyler Streeter,

Non abbiamo discusso di una stima puntuale. Se disponi di stime imparziali per P (X), P (Y) e P (X | Y) e inseriscile nella formula P (Y | X) = P (X | Y) P (Y) / P (X) otterrai una stima parziale.
Michael R. Chernick,

Dovrei sottolineare che sto parlando di stimare P (Y | X) tramite discesa gradiente stocastica, nel qual caso l'ordine dei campioni di allenamento può influenzare la velocità o se converge al modello corretto. Non sto solo usando le medie dei campioni, dove l'ordine dei campioni non ha importanza.
Tyler Streeter,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.