Una buona analisi teorica di con e senza schemi di sostituzione nel contesto di algoritmi iterativi basati su disegni casuali (che sono il numero di reti neurali profonde discriminanti (DNN) discriminate) può essere trovata qui
In breve, risulta che il campionamento senza sostituzione, porta a una convergenza più rapida rispetto al campionamento con sostituzione.
Darò qui una breve analisi basata sull'esempio di giocattolo che forniscono: Diciamo che vogliamo ottimizzare la seguente funzione oggettiva:
xopt=argminx12∑i=1N(x−yi)2
dove il target . In questo esempio, stiamo cercando di risolvere la ottimale , date ovviamente le etichette di .x N y iyi∼N(μ,σ2)xNyi
Ok, quindi se dovessimo risolvere direttamente la ottimale di cui sopra, prenderemmo qui la derivata della funzione di perdita, la imposteremmo su 0 e risolveremo per . Quindi, per il nostro esempio sopra, la perdita èxxx
L=12∑i=1N(x−yi)2
ed è il primo derivato sarebbe:
δLδx=∑i=1N(x−yi)
Impostando su 0 e risolvendo per , si ottiene: xδLδxx
xopt=1N∑i=1Nyi
In altre parole, la soluzione ottimale non è altro che la media campionaria di tutti gli campioni di .yNy
Ora, se non potessimo eseguire tutto il calcolo sopra in una sola volta, dovremmo farlo in modo ricorsivo, tramite l'equazione di aggiornamento della discesa del gradiente di seguito:
xi=xi−1−λi∇(f(xi−1))
e semplicemente inserendo i nostri termini qui si ottiene:
xi=xi−1−λi(xi−1−yi)
Se eseguiamo quanto sopra per tutti , stiamo effettivamente eseguendo questo aggiornamento senza sostituzione. La domanda allora diventa: possiamo ottenere anche il valore ottimale di in questo modo? (Ricorda che il valore ottimale di non è altro che la media campionaria di ). La risposta è sì, se si lascia . Per vedere, questo espandiamo: x x y λ i = 1 / ii∈1,2,...Nxxyλi=1/i
xi=xi−1−λi(xi−1−yi) xi=xi−1−1i(xi−1−yi) xi=ixi−1−(xi−1−yi)i xi=(i−1)xi−1+yii ixi=(i−1)xi−1+yi
L'ultima equazione tuttavia non è altro che la formula per la media corrente! Pertanto, mentre eseguiamo il ciclo attraverso l'insieme da , , ecc., Fino a , avremmo eseguito i nostri aggiornamenti senza sostituzione e la nostra formula di aggiornamento ci offre la soluzione ottimale di , che è il campione medio!i = 2 i = Ni=1i=2i=Nx
NxN=(N−1)xN−1+yN==>xN=1N∑i=1Nyi=μ
Al contrario, se effettivamente disegnassimo con la sostituzione, allora mentre i nostri disegni sarebbero quindi veramente indipendenti, il valore ottimizzato sarebbe diverso dalla media (ottimale) , e l'errore quadrato sarebbe dato da:xNμ
E{(xN−μ)2}
che sarà un valore positivo e questo semplice esempio di giocattolo può essere esteso a dimensioni più elevate. Ciò ha come conseguenza che vorremmo eseguire il campionamento senza sostituzione come soluzione più ottimale.
Spero che questo lo chiarisca ancora!