Aggiornamento ricorsivo dell'MLE come flusso di nuove osservazioni


15

Domanda generale

Supponiamo che abbiamo iid dati x1 , , ... \ sim f (x \, | \, \ boldsymbol {\ theta}) in streaming. Vogliamo calcolare ricorsivamente la stima della massima verosimiglianza di \ boldsymbol {\ theta} . Ossia, avendo calcolato \ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ { i = 1} ^ {n-1} f (x_i \, | \, \ boldsymbol {\ theta}), osserviamo un nuovo x_n e desideriamo in qualche modo aggiornare in modo incrementale il nostro preventivo \ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n} senza dover ricominciare da zero. Ci sono algoritmi generici per questo?x2f(x|θ)θθ n - 1 = arg max θ R p n - 1 Π i = 1 f ( x i

θ^n1=argmaxθRpi=1n1f(xi|θ),
xnθ n - 1 ,
θ^n1,xnθ^n

Esempio di giocattoli

Se x1 , x2 , ... N(x|μ,1) , quindi

μ^n1=1n1i=1n1xiandμ^n=1ni=1nxi,
quindi
μ^n=1n[(n1)μ^n1+xn].


6
Non dimenticare il contrario di questo problema: l'aggiornamento dello stimatore quando vengono eliminate le vecchie osservazioni.
Hong Ooi

I minimi quadrati ricorsivi (RLS) sono una soluzione (molto famosa) a una particolare istanza di questo problema, non è vero? In generale, credo che la letteratura sui filtri stocastici potrebbe essere utile da esaminare.
jhin

Risposte:


13

Vedere il concetto di sufficienza e, in particolare, statistiche sufficienti minime . In molti casi è necessario l'intero campione per calcolare la stima a una determinata dimensione del campione, senza un modo banale di aggiornare da un campione una dimensione più piccola (cioè non esiste un risultato generale conveniente).

Se la distribuzione è una famiglia esponenziale (e in alcuni altri casi oltre; l'uniforme è un chiaro esempio) c'è una buona statistica sufficiente che in molti casi può essere aggiornata nel modo che cerchi (cioè con un numero di distribuzioni comunemente usate ci sarebbe un aggiornamento veloce).

Un esempio di cui non sono a conoscenza di alcun modo diretto per calcolare o aggiornare è la stima della posizione della distribuzione di Cauchy (ad es. Con scala dell'unità, per rendere il problema un semplice problema con un parametro). Potrebbe esserci un aggiornamento più veloce, tuttavia, che semplicemente non ho notato: non posso dire di aver fatto molto più che dare un'occhiata per considerare il caso di aggiornamento.

D'altra parte, con gli MLE ottenuti tramite metodi di ottimizzazione numerica, la stima precedente sarebbe in molti casi un ottimo punto di partenza, poiché in genere la stima precedente sarebbe molto vicina alla stima aggiornata; almeno in tal senso, spesso dovrebbe essere possibile un rapido aggiornamento. Anche questo non è il caso generale, tuttavia - con le funzioni di probabilità multimodali (di nuovo, vedi il Cauchy per un esempio), una nuova osservazione potrebbe portare alla modalità più alta a una certa distanza dalla precedente (anche se le posizioni di ciascuna delle poche modalità più grandi non ha cambiato molto, quale è la più alta potrebbe benissimo cambiare).


1
Grazie! Il punto sul MLE che potrebbe cambiare modalità a metà flusso è particolarmente utile per capire perché questo sarebbe difficile in generale.
jcz

1
Puoi vederlo da solo con il modello di Cauchy in scala unitaria sopra riportato e i dati (0.1.0.11,0.12.2.91,2.921.2.933). Le probabilità logaritmiche per l'ubicazione delle modalità sono vicine a 0,5 e 2,5 e il picco (leggermente) più alto è quello vicino a 0,5. Ora fai l'osservazione successiva 10 e la modalità di ciascuna delle due cime si sposta a malapena ma il secondo picco è ora sostanzialmente più alto. La discesa gradiente non ti aiuterà quando ciò accade, è quasi come ricominciare. Se la tua popolazione è una miscela di due sottogruppi di dimensioni simili con posizioni diverse, potrebbero verificarsi circostanze del genere -. ... ctd
Glen_b -Reinstate Monica

ctd ... anche in un campione relativamente grande. Nella giusta situazione, il cambio di modalità può avvenire abbastanza spesso.
Glen_b

n

Si corretto; Ho discusso con me stesso sull'opportunità di discuterne nella risposta.
Glen_b

4

Nell'apprendimento automatico, si parla di apprendimento online .

Come sottolineato da @Glen_b, ci sono casi speciali in cui l'MLE può essere aggiornato senza la necessità di accedere a tutti i dati precedenti. Come sottolinea anche, non credo che ci sia una soluzione generica per trovare l'MLE.

Un approccio abbastanza generico per trovare la soluzione approssimativa è usare qualcosa come la discesa gradiente stocastica. In questo caso, quando ogni osservazione arriva, calcoliamo il gradiente rispetto a questa osservazione individuale e spostiamo i valori dei parametri di una quantità molto piccola in questa direzione. In determinate condizioni, possiamo dimostrare che questo converge in un quartiere del MLE con alta probabilità; il quartiere è sempre più stretto quando riduciamo le dimensioni del gradino, ma per la convergenza sono necessari più dati. Tuttavia, questi metodi stocastici in generale richiedono molta più fatica per ottenere buone prestazioni rispetto, per esempio, agli aggiornamenti a forma chiusa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.