Per comprendere la discussione di Watanabe, è importante capire che cosa intendeva per "singolarità". La singolarità (rigorosa) coincide con la nozione geometrica di metrica singolare nella sua teoria.
p.10 [Watanabe]: "Un modello statistico si dice che sia regolare se è identificabile e ha una definita positiva metrica Se un modello statistico non è regolare, allora si chiama rigorosamente singolare.".p(x∣w)
In pratica, la singolarità di solito insorge quando la metrica di informazioni di Fisher indotta dal modello è degenerata sul collettore definito dal modello, come i casi di basso rango o sparsi nei lavori di "machine learning".
Ciò che Watanabe ha detto sulla convergenza della divergenza empirica di KL al suo valore teorico può essere inteso come segue. Un'origine della nozione di divergenza deriva da solide statistiche. Gli stimatori M, che includono MLE come un caso speciale con funzione di contrasto , sono di solito discussi usando una topologia debole. È ragionevole discutere il comportamento di convergenza usando una topologia debole sullo spazio M ( X ) (la varietà di tutte le possibili misure definite nello spazio polacco Xρ(θ,δ(X))=−logp(X∣θ)M(X)X) perché vogliamo studiare il comportamento di robustezza di MLE. Un teorema classico in [Huber] affermava che con una funzione di divergenza ben separata . inf | θ - θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D(θ0,θ)=Eθ0ρ(θ,δ)
inf|θ−θ0|≥ϵ(|D(θ0,θ)−D(θ0,θ0)|)>0
e buona approssimazione empirica della funzione di contrasto alla divergenza,
insieme alla regolarità, possiamo dare consistenza in senso
^ θ n :=argsupθ∣∣∣1n∑iρ(θ,δ(Xi))−D(θ0,θ)∣∣∣→0,n→∞
convergeranno in
θ 0 nella probabilità
P θ 0 . Questo risultato richiede condizioni molto più precise se confrontato con il risultato di Doob [Doob] nella debole coerenza dello stimatore bayesiano.
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0
Quindi qui stimatori bayesiani e MLE divergono. Se usiamo ancora una topologia debole per discutere della coerenza degli stimatori bayesiani, non ha senso perché gli stimatori bayesiani saranno sempre (con probabilità uno) coerenti con Doob. Pertanto una topologia più appropriata è la topologia di distribuzione di Schwarz che consente derivati deboli e la teoria di von Mises è entrata in gioco. Barron aveva un bellissimo rapporto tecnico su questo argomento su come usare il teorema di Schwartz per ottenere coerenza.
D
Il "risultato dell'apprendimento singolare" è influenzato perché, come vediamo, il teorema di coerenza di Doob assicura che gli stimatori bayesiani siano debolmente coerenti (anche nel modello singolare) nella topologia debole mentre l'MLE dovrebbe soddisfare determinati requisiti nella stessa topologia.
Solo una parola, [Watanabe] non è per i principianti. Ha alcune profonde implicazioni su insiemi analitici reali che richiedono più maturità matematica rispetto alla maggior parte degli statistici, quindi probabilmente non è una buona idea leggerlo senza una guida appropriata.
■
[Watanabe] Watanabe, Sumio. Geometria algebrica e teoria dell'apprendimento statistico. Vol. 25. Cambridge University Press, 2009.
[Huber] Huber, Peter J. "Il comportamento delle stime di massima verosimiglianza in condizioni non standard." Atti del quinto simposio di Berkeley su statistiche matematiche e probabilità. Vol. 1. No. 1. 1967.
[Doob] Doob, Joseph L. "Applicazione della teoria delle martingala." Le calcul des probabilites et ses application (1949): 23-27.