Intuizione grafica delle statistiche su una varietà


12

In questo post , puoi leggere la dichiarazione:

I modelli sono generalmente rappresentati da punti θ su una varietà dimensionale finita.

Su Geometria differenziale e Statistica di Michael K Murray e John W Rice questi concetti sono spiegati in prosa leggibili anche ignorando le espressioni matematiche. Sfortunatamente, ci sono pochissime illustrazioni. Lo stesso vale per questo post su MathOverflow.

Voglio chiedere aiuto con una rappresentazione visiva che funga da mappa o motivazione per una comprensione più formale dell'argomento.

Quali sono i punti sul collettore? Questa citazione di questo ritrovamento online indica apparentemente che possono essere i punti dati o i parametri di distribuzione:

Le statistiche sulle varietà e sulla geometria dell'informazione sono due modi diversi in cui la geometria differenziale incontra le statistiche. Mentre nelle statistiche sulle varietà, sono i dati che si trovano su una varietà, nella geometria dell'informazione i dati sono in Rn , ma la famiglia parametrizzata di funzioni di densità di probabilità di interesse viene trattata come una varietà. Tali varietà sono note come varietà statistiche.


Ho disegnato questo diagramma ispirato da questa spiegazione dello spazio tangente qui :

inserisci qui la descrizione dell'immagine

[ Modifica per riflettere il commento qui sotto su :C ] Su una varietà, , lo spazio tangente è l'insieme di tutte le possibili derivate ("velocità") in un punto p M associato ad ogni possibile curva ( ψ : RM ) sul collettore che scorre attraverso p . Questo può essere visto come un insieme di mappe da ogni curva che attraversa p , ovvero C ( t ) R , definita come composizione ( f(M)pM(ψ:RM)p.p,C(t)R,, conψ cheindica una curva (funzione dalla linea reale alla superficie del collettore M ) che attraversa il puntop,e raffigurata in rosso sul diagramma sopra; ef,che rappresenta una funzione di test. Lelinee di contorno bianche"iso-f" si mappano sullo stesso punto sulla linea reale e circondano il puntop.(fψ)(t)ψMp,f,fp

L'equivalenza (o una delle equivalenze applicate alle statistiche) è discussa qui e verrebbe correlata alla seguente citazione :

Se lo spazio dei parametri per una famiglia esponenziale contiene un set aperto dimensionale , viene chiamato rango completo.s

Una famiglia esponenziale che non è full rank viene generalmente chiamata famiglia esponenziale curva, poiché in genere lo spazio dei parametri è una curva in di dimensione inferiore a s .Rss.

Questo sembra rendere l'interpretazione della trama come segue: i parametri distributivi (in questo caso delle famiglie di distribuzioni esponenziali) si trovano sul molteplice. I punti dati in verrebbero mappati su una linea sul collettore attraverso la funzione ψ : RM nel caso di un problema di ottimizzazione non lineare carente del rango. Ciò equivarrebbe al calcolo della velocità in fisica: ricerca della derivata della funzione f lungo il gradiente delle linee "iso-f" (derivata direzionale in arancione): ( f ψ ) ( t ) . La funzione f : MRψ:RMf(fψ)(t). avrebbe il ruolo di ottimizzare la selezione di un parametro distributivo mentre la curva ψ si sposta lungo le linee di contorno di f sul collettore.f:MRψf


FONDO AGGIUNTO DI FONDO:

Da notare che credo che questi concetti non siano immediatamente correlati alla riduzione della dimensionalità non lineare in ML. Sembrano più simili alla geometria dell'informazione . Ecco una citazione:

Rnn


Le seguenti informazioni dalle statistiche sui collettori con applicazioni per modellare le deformazioni delle forme di Oren Freifeld :

inserisci qui la descrizione dell'immagine

MTpMpMTpMMTpMpMTpMMpMgiace completamente da una parte. Gli elementi di TpM sono chiamati vettori tangenti.

[...] Su varietà, i modelli statistici sono spesso espressi in spazi tangenti.

[...]

M

DL={p1,,pNL}M

DS={q1,,qNS}M

Let e rappresentano due, forse sconosciuta, punti in . Si presume che i due set di dati soddisfino le seguenti regole statistiche:µLµSM

{logμL(p1),,logμL(pNL)}TμLM,logμL(pi)i.i.dN(0,ΣL) {logμS(q1),,logμS(qNS)}TμSM,logμS(qi)i.i.dN(0,ΣS)

[...]

In altre parole, quando è espresso (come vettori tangenti) nello spazio tangente (a ) in , può essere visto come un insieme di campioni iid da un gaussiano a media zero con covarianza . Allo stesso modo, quando è espresso nello spazio tangente in , può essere visto come un insieme di campioni iid da un gaussiano a media zero con covarianza . Questo generalizza il caso euclideo.DLMμLΣLDSμSΣS

Sullo stesso riferimento, trovo l'esempio più vicino (e praticamente solo) online di questo concetto grafico di cui sto chiedendo:

inserisci qui la descrizione dell'immagine

Ciò indicherebbe che i dati si trovano sulla superficie del collettore espresso come vettori tangenti e che i parametri sarebbero mappati su un piano cartesiano?


1
Cosa stai cercando di fare qui? Disegna le varietà? Molti di loro sono troppo noiosi per disegnare. Ad esempio, prova la distribuzione gaussiana.
Aksakal,

Normalmente penserei agli spazi dei parametri come spazi vettoriali, ad esempio . Se dovessi pensare a "varietà" parametriche, la prima cosa che mi viene in mente sarebbe "sistemi di vincoli", ad esempio . Altrimenti, perché lo spazio non è "completo"? (Cosa sta definendo il sottoinsieme che è il "collettore"?)θRnf(θ)=0
GeoMatt22

2
Speriamo che @whuber arrivi ed elabori i commenti che stava facendo in chat.
gung - Ripristina Monica

1
La risposta breve alla domanda modificata è "no". Lo spazio tangente descrive le velocità di tutti i percorsi regolari nel collettore. Il suo ruolo principale nelle statistiche è di massimizzare le probabilità, dove la varietà descrive una famiglia finemente parametrizzata. Nell'apprendimento collettivo, un collettore viene utilizzato come approssimazione locale ai dati: è una versione curva dello "spazio colonna" in regressione lineare. Lì, lo spazio tangente è incorporato nello spazio euclideo ambientale. A livello locale, descrive le "direzioni" dei dati e il suo normale pacchetto fornisce le indicazioni "di errore".
whuber

1
Sì: lo spazio cotangente at può essere definito come derivazioni di germi di funzioni attorno a . Lo spazio tangente in (quindi!) È semplicemente il suo doppio. e acquisiscono una topologia - cioè, ammettere una nozione di due spazi tangenti e essere "vicino" - mediante i grafici delle coordinate . Ciò riduce la definizione (e il problema della visualizzazione) a quella della definizione dello spazio tangente . Questo è l'insieme di tutti i vettori che hanno origine in . Spivak, in Calcolo su collettoriTpMpppTMTMTpMTqMMTxRnx, fornisce una definizione chiara ed elementare di questo tipo.
whuber

Risposte:


3

Una famiglia di distribuzioni di probabilità può essere analizzata come punti su una varietà con coordinate intrinseche corrispondenti ai parametri della distribuzione. L'idea è di evitare una rappresentazione con una metrica errata: Gaussiani univariati possono essere tracciati come punti nella varietà euclidea come sul lato destro della trama sotto con la media nell'asse e la SD nell'asse (metà positiva nel caso di tracciare la varianza):(Θ)N(μ,σ2),R2xy

inserisci qui la descrizione dell'immagine

Tuttavia, la matrice identità (distanza euclidea) non riuscirà a misurare il grado di (dis) somiglianza tra i singoli : sulle curve normali a sinistra della trama sopra, dato un intervallo nel dominio, l'area senza sovrapposizione (in blu scuro) è più grande per le curve gaussiane con varianza inferiore, anche se la media viene mantenuta fissa. In effetti, l'unica metrica riemanniana che "ha senso" per le varietà statistiche è la metrica delle informazioni di Fisher .pdf

A distanza di informazioni Fisher: una lettura geometrica , Costa SI, Santos SA e Strapasson JE sfruttano la somiglianza tra la matrice di informazioni Fisher delle distribuzioni gaussiane e la metrica nel modello di disco Beltrami-Pointcaré per derivare una formula chiusa.

Il cono "nord" dell'iperboloide diventa una varietà non euclidea, in cui ogni punto corrisponde a una deviazione media e standard (spazio dei parametri) e la distanza più breve tra ad es. e nel diagramma seguente, è una curva geodetica, proiettata (mappa cartografica) sul piano equatoriale come linee rette iperparaboliche e che consente la misurazione delle distanze tra attraverso un tensore metrico - la metrica di informazioni di Fisher :p d f s , P Q , p d f s g μ νx2+y2x2=1pdfs,PQ,pdfsgμν(Θ)eμeν

D(P(x;θ1),Q(x;θ2))=minθ(t)|θ(0)=θ1,θ(1)=θ201(dθdt)I(θ)dθdtdt

con

I(θ)=1σ2[1002]

inserisci qui la descrizione dell'immagine

La divergenza di Kullback-Leibler è strettamente correlata, sebbene manchi la geometria e la metrica associata.

Ed è interessante notare che la matrice di informazioni di Fisher può essere interpretata come l' entropia dell'Assia dello Shannon :

gij(θ)=E[2logp(x;θ)θiθj]=2H(p)θiθj

con

H(p)=p(x;θ)logp(x;θ)dx.

Questo esempio è simile nel concetto alla più comune mappa stereografica terrestre .

L'incorporamento multidimensionale ML o l'apprendimento multiplo non sono trattati qui.


1

Esiste più di un modo per collegare le probabilità alla geometria. Sono sicuro che hai sentito parlare di distribuzioni ellittiche (ad es. Gaussiane). Il termine stesso implica un collegamento geometrico ed è evidente quando si disegna la sua matrice di covarianza. Con le varietà inserisce semplicemente ogni possibile valore di parametro nel sistema di coordinate. Ad esempio, un collettore gaussiano sarebbe in due dimensioni: . Puoi avere qualsiasi valore di ma solo varianze positive . Quindi, la varietà gaussiana sarebbe la metà dell'intero spazio . Non così interessanteμ,σ2μRσ2>0R2


Immagino di aver pensato che una "varietà" dovrebbe essere di dimensione inferiore rispetto al suo spazio incorporato? Quindi un mezzo spazio non conta?
GeoMatt22,

Con Gaussian non è nemmeno una varietà, giusto. Hai bisogno di vincoli, quindi diventa una specie di piano o linea
Aksakal,

Sto cercando di capire le implicazioni della tua risposta ... Intendi " un collegamento geometrico"? Inoltre, ho appena trovato questo post correlato su MathOverflow .
Antoni Parellada,

3
Diventa più interessante con una metrica appropriata ... come quella di Fisher-Rao, e poi diventa la mezza posizione iperbolica di Poincaré en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model
mic

2
A tutti: (1) le varietà che descrivono le famiglie parametriche sono varietà intrinseche : non devono essere incorporate in nessuno spazio vettoriale. (2) Sono più che semplici varietà differenziabili: le Informazioni Fisher forniscono loro una metrica riemanniana - una distanza locale - che consente loro di essere studiati geometricamente. Questo rende la "metà dell'intero spazio di " in una superficie curva. R2
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.