Perché dovremmo discutere i comportamenti di convergenza di diversi stimatori in diverse topologie?


14

Nel primo capitolo del libro Geometria algebrica e teoria dell'apprendimento statistico che parla della convergenza delle stime in diversi spazi funzionali, menziona che la stima bayesiana corrisponde alla topologia di distribuzione di Schwartz, mentre la stima della massima verosimiglianza corrisponde alla topologia delle suporegole (a pagina 7):

Ad esempio, super-norma, Lp -norm, topologia debole dello spazio di Hilbert L2 , topologia di distribuzione di Schwartz e così via. Dipende fortemente dalla topologia dello spazio delle funzioni se la convergenza Kn(w)K(w) valida o meno. La stima di Bayes corrisponde alla topologia di distribuzione di Schwartz, mentre la massima verosimiglianza o il metodo a posteriori corrisponde alla sup-norma. Questa differenza influenza fortemente i risultati di apprendimento in modelli singolari.

dove Kn(w) e K(w) sono rispettivamente la divergenza KL empirica (somma sulle osservazioni) e la vera divergenza KL (integrale rispetto alla distribuzione dei dati) tra il modello vero e un modello parametrico (con parametro w ).

Qualcuno può dare una spiegazione o suggerirmi quale posto nel libro ha la giustificazione? Grazie.

Aggiornamento : i contenuti del copyright vengono rimossi.


cosa sono K e Kn ?
Taylor,

@Taylor Ho aggiunto alcune informazioni necessarie.
ziyuang,

Risponderò alla tua domanda più tardi, conosco il libro di Watanabe relativamente bene. Eppure non mi piace molto il modo in cui citi un libro. Potrebbe causare potenziali problemi di copyright se si inseriscono sezioni direttamente qui. L'uso di numeri di pagina e la digitazione di citazioni con pettorale appropriato sarà una scelta migliore.
Henry.L,

@ Henry.L Grazie e i contenuti del copyright sono stati rimossi.
ziyuang,

@Henry: anche se credo che valga la pena essere cauti e coscienziosi nel riprodurre parti di opere protette da copyright, penso che in questo caso ziyuang non abbia assolutamente nulla di cui preoccuparsi. L'uso da parte dell'OP di piccoli estratti per la critica accademica rientra in modo molto preciso nella dottrina del "fair use" (USA). In effetti, avere la riproduzione esatta a volte può essere particolarmente prezioso poiché rimuove qualsiasi ambiguità che potrebbe essere introdotta dalle riformulazioni del contenuto. (Detto questo, IANAL.)
Cardinale

Risposte:


2

Per comprendere la discussione di Watanabe, è importante capire che cosa intendeva per "singolarità". La singolarità (rigorosa) coincide con la nozione geometrica di metrica singolare nella sua teoria.

p.10 [Watanabe]: "Un modello statistico si dice che sia regolare se è identificabile e ha una definita positiva metrica Se un modello statistico non è regolare, allora si chiama rigorosamente singolare.".p(xw)

In pratica, la singolarità di solito insorge quando la metrica di informazioni di Fisher indotta dal modello è degenerata sul collettore definito dal modello, come i casi di basso rango o sparsi nei lavori di "machine learning".

Ciò che Watanabe ha detto sulla convergenza della divergenza empirica di KL al suo valore teorico può essere inteso come segue. Un'origine della nozione di divergenza deriva da solide statistiche. Gli stimatori M, che includono MLE come un caso speciale con funzione di contrasto , sono di solito discussi usando una topologia debole. È ragionevole discutere il comportamento di convergenza usando una topologia debole sullo spazio M ( X ) (la varietà di tutte le possibili misure definite nello spazio polacco Xρ(θ,δ(X))=logp(Xθ)M(X)X) perché vogliamo studiare il comportamento di robustezza di MLE. Un teorema classico in [Huber] affermava che con una funzione di divergenza ben separata . inf | θ - θ 0 | ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D(θ0,θ)=Eθ0ρ(θ,δ)

inf|θθ0|ϵ(|D(θ0,θ)D(θ0,θ0)|)>0
e buona approssimazione empirica della funzione di contrasto alla divergenza, insieme alla regolarità, possiamo dare consistenza in senso ^ θ n :=arg
supθ|1niρ(θ,δ(Xi))D(θ0,θ)|0,n
convergeranno in θ 0 nella probabilità P θ 0 . Questo risultato richiede condizioni molto più precise se confrontato con il risultato di Doob [Doob] nella debole coerenza dello stimatore bayesiano.
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0

Quindi qui stimatori bayesiani e MLE divergono. Se usiamo ancora una topologia debole per discutere della coerenza degli stimatori bayesiani, non ha senso perché gli stimatori bayesiani saranno sempre (con probabilità uno) coerenti con Doob. Pertanto una topologia più appropriata è la topologia di distribuzione di Schwarz che consente derivati ​​deboli e la teoria di von Mises è entrata in gioco. Barron aveva un bellissimo rapporto tecnico su questo argomento su come usare il teorema di Schwartz per ottenere coerenza.

D

Il "risultato dell'apprendimento singolare" è influenzato perché, come vediamo, il teorema di coerenza di Doob assicura che gli stimatori bayesiani siano debolmente coerenti (anche nel modello singolare) nella topologia debole mentre l'MLE dovrebbe soddisfare determinati requisiti nella stessa topologia.

Solo una parola, [Watanabe] non è per i principianti. Ha alcune profonde implicazioni su insiemi analitici reali che richiedono più maturità matematica rispetto alla maggior parte degli statistici, quindi probabilmente non è una buona idea leggerlo senza una guida appropriata.

[Watanabe] Watanabe, Sumio. Geometria algebrica e teoria dell'apprendimento statistico. Vol. 25. Cambridge University Press, 2009.

[Huber] Huber, Peter J. "Il comportamento delle stime di massima verosimiglianza in condizioni non standard." Atti del quinto simposio di Berkeley su statistiche matematiche e probabilità. Vol. 1. No. 1. 1967.

[Doob] Doob, Joseph L. "Applicazione della teoria delle martingala." Le calcul des probabilites et ses application (1949): 23-27.


Sto cercando di dare qualche intuizione per parti della risposta, quindi correggimi se sbaglio. Lo stimatore di Bayes è coerente se lo vediamo come uno stimatore del punto (MAP, piuttosto che una distribuzione probabilistica). Richiede meno condizioni per la sua coerenza rispetto a MLE intuitivamente a causa del precedente agire come regolarizzazione. D'altra parte, la topologia di distribuzione di Schwartz è più adatta quando vediamo lo stimatore di Bayes come una distribuzione, aiuta anche a costruire una relazione più stretta tra la coerenza di MLE e lo stimatore di Bayes, in modo che non si verifichi il caso in cui uno diverge e l'altro converge .
ziyuang,

Scusa ma non credo che la tua spiegazione sia corretta. Il precedente agisce come una regolarizzazione ma ciò non controlla necessariamente il tasso di convergenza. Priori in realtà piatti in realtà rallentano la convergenza. Sono semplicemente due diverse topologie.
Henry.L,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.