Cosa dice l'inverso della matrice di covarianza sui dati? (Intuitivamente)


46

Sono curioso della natura di . Qualcuno può dire qualcosa di intuitivo su "Cosa dice sui dati?"Σ1Σ1

Modificare:

Grazie per le risposte

Dopo aver seguito alcuni ottimi corsi, vorrei aggiungere alcuni punti:

  1. È una misura di informazione, cioè è la quantità di informazioni lungo la direzione .xTΣ1xx
  2. Dualità: poiché è definito positivo, così è , quindi sono norme punto-prodotto, più precisamente sono doppie norme l'una dall'altra, quindi possiamo derivare Fenchel doppia per il problema dei minimi quadrati regolarizzati, e massimizzare il doppio problema. Possiamo scegliere uno di essi, a seconda del loro condizionamento.ΣΣ1
  3. Spazio di Hilbert: le colonne (e le righe) di e coprono lo stesso spazio. Quindi non vi è alcun vantaggio (altro che quando una di queste matrici è mal condizionata) tra rappresentazione con oΣ1ΣΣ1Σ
  4. Statistiche bayesiane: la norma di gioca un ruolo importante nelle statistiche bayesiane. Cioè ha determinato quante informazioni abbiamo in precedenza, ad esempio, quando la covarianza della densità precedente è come abbiamo non informativo (o probabilmente Jeffreys precedente)Σ1Σ10
  5. Statistiche del frequentista: è strettamente correlato alle informazioni di Fisher, usando il limite di Cramér – Rao. In effetti, la matrice di informazioni del pescatore (prodotto esterno del gradiente della verosimiglianza con se stessa) è legata da Cramér-Rao, cioè Σ1F (cono semi-definito positivo wrt, concentrazione di iewrt ellissoidi). Pertanto, quando Σ1=F lo stimatore della massima verosimiglianza è efficiente, ovvero esiste la massima informazione nei dati, quindi il regime frequentista è ottimale. In parole più semplici, per alcune funzioni di verosimiglianza (si noti che la forma funzionale della verosimiglianza dipende esclusivamente dal modello probabilistico che presumibilmente ha generato dati, alias modello generativo), la verosimiglianza massima è stimatore efficiente e coerente, regole come un boss. (scusa per l'eccesso di esso)

3
Penso che PCA raccolga autovettori con grandi autovalori anziché piccoli autovalori.
mercoledì

2
(3) È errato, perché equivale ad affermare che le colonne di sono quelle di (fino a una permutazione), che è vero solo per la matrice identità. Σ1Σ
whuber

Risposte:


15

È una misura di precisione proprio come è una misura di dispersione.Σ

Più elaboratamente, è una misura di come le variabili sono disperse attorno alla media (gli elementi diagonali) e di come essi variano con altre variabili (gli elementi non diagonali). Quanto più la dispersione è tanto più lontana dalla media e tanto più variano (in valore assoluto) con le altre variabili tanto più forte è la tendenza a "muoversi insieme" (nella stessa direzione o opposta a seconda della segno della covarianza).Σ

Allo stesso modo, è una misura di come le variabili sono strettamente raggruppate attorno alla media (gli elementi diagonali) e la misura in cui non variano tra loro e le altre variabili (gli elementi fuori diagonale). Pertanto, maggiore è l'elemento diagonale, più stretta è la variabile raggruppata attorno alla media. L'interpretazione degli elementi off-diagonali è più sottile e vi rimando alle altre risposte per quella interpretazione.Σ1


3
Un forte contro-esempio alla tua ultima affermazione sugli elementi off-diagonali in è fornito dal più semplice esempio non banale in due dimensioni, I valori più grandi della diagonale corrispondono a valori più estremi del coefficiente di correlazione che è l'opposto di quello che sembra stia dicendo. Σ1Σ1=(11ρ2ρ1ρ2ρ1ρ211ρ2).ρ,
whuber

@whuber Giusto. Dovrei liberarmi della parola "assoluta" nell'ultima frase. Grazie
prop

3
Grazie, ma ciò non risolve ancora il problema: la relazione che asserisci tra gli elementi off-diagonali dell'inverso e la co-variazione non esiste.
whuber

@whuber Penso di si. Nel tuo esempio, gli elementi fuori diagonale sono negativi. Pertanto, all'aumentare di diminuiscono gli elementi off-diagonali. Puoi verificarlo osservando quanto segue: at l'elemento off-diagonal è ; quando avvicina a gli elementi off-diagonali si avvicinano e la derivata dell'elemento off-diagonale rispetto a è negativa. ρρ=00ρ1ρ
prop

2
I miei elementi off-diagonali sono positivi quandoρ<0.
whuber

17

Usando i superscript per indicare gli elementi dell'inverso, è la varianza del componente della variabile che non è correlata con le altre variabili e è la correlazione parziale delle variabili e , che controlla per le altre variabili .1/σiiip1σij/σiiσjjijp2

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.