Perché l'inversione di una matrice di covarianza produce correlazioni parziali tra variabili casuali?


32

Ho sentito che correlazioni parziali tra variabili casuali possono essere trovate invertendo la matrice di covarianza e prendendo le cellule appropriate da tale matrice di precisione risultante (questo fatto è menzionato in http://en.wikipedia.org/wiki/Partial_correlation , ma senza una prova) .

Perché è così?


1
Se intendi ottenere una correlazione parziale in una cella controllata per tutte le altre variabili, l'ultimo paragrafo qui potrebbe far luce.
ttnphns

Risposte:


34

Quando una variabile casuale multivariata ha una matrice di covarianza non degenerata , l'insieme di tutte le combinazioni lineari reali di formano uno spazio vettoriale reale dimensionale con base e un prodotto interno non degenerato dato da(X1,X2,,Xn)C=(γij)=(Cov(Xi,Xj))XinE=(X1,X2,,Xn)

Xi,Xj=γij .

La sua duplice base rispetto a questo prodotto interno , , è definita in modo univoco dalle relazioniE=(X1,X2,,Xn)

Xi,Xj=δij ,

il delta di Kronecker (uguale a quando e altrimenti).1i=j0

La doppia base è interessante qui perché la correlazione parziale di e si ottiene come correlazione tra la parte di che rimane dopo averlo proiettato nello spazio attraversato da tutti gli altri vettori (chiamiamolo semplicemente "residuo", ) e la parte comparabile di , il suo residuo . Eppure è un vettore ortogonale a tutti i vettori oltre a e ha un prodotto interno positivo con da cui deve essere un multiplo non negativo di , e allo stesso modo perX j X i X i X j X j X i X i X i X i X i X jXiXjXiXiXjXjXiXiXiXiXiXj. Scriviamo quindi

Xi=λiXi, Xj=λjXj

per numeri reali positivi e .λ jλiλj

La correlazione parziale è il prodotto punto normalizzato dei residui, che è invariato dal riscalaggio:

ρij=Xi,XjXi,XiXj,Xj=λiλjXi,Xjλi2Xi,Xiλj2Xj,Xj=Xi,XjXi,XiXj,Xj .

(In entrambi i casi la correlazione parziale sarà zero ogni volta che i residui sono ortogonali, indipendentemente dal fatto che siano o meno zero.)

Dobbiamo trovare i prodotti interni degli elementi a doppia base. A tal fine, espandere gli elementi a doppia base in termini di base originale :E

Xi=j=1nβijXj .

Quindi per definizione

δik=Xi,Xk=j=1nβijXj,Xk=j=1nβijγjk .

In notazione matriciale con la matrice identità e la matrice change-of-base, questo affermaB = ( β i j )I=(δij)B=(βij)

I=BC .

Cioè, , che è esattamente ciò che afferma l'articolo di Wikipedia. La formula precedente per la correlazione parziale dàB=C1

ρij=βijβiiβjj=Cij1Cii1Cjj1 .

3
+1, ottima risposta. Ma perché chiamate questa doppia base "doppia base rispetto a questo prodotto interno" - cosa significa esattamente "rispetto a questo prodotto interno"? Sembra che tu usi il termine "doppia base" come definito qui mathworld.wolfram.com/DualVectorSpace.html nel secondo paragrafo ("Data una base di spazio vettoriale per esiste una doppia base .. . ") oppure qui en.wikipedia.org/wiki/Dual_basis ed è indipendente da qualsiasi prodotto scalare. Vv1,...,vnV
ameba dice Ripristina Monica l'

3
@amoeba Esistono due tipi di dual. Il doppio (naturale) di qualsiasi spazio vettoriale su un campo è l'insieme di funzioni lineari , chiamato . Non esiste un modo canonico per identificare con , anche se hanno la stessa dimensione quando è di dimensione finita. Qualsiasi prodotto interno corrisponde a tale mappa e viceversa , tramite(La non generosità di assicura che sia un isomorfismo dello spazio vettoriale.) Questo dà un modo per visualizzare elementi diR ϕ : V R V V V V γ g : V V g ( v ) ( w ) = γ ( v , w ) . γ g V V γVRϕ:VRVVVVγg:VV
g(v)(w)=γ(v,w).
γgVcome se fossero elementi del doppio - ma dipende da . Vγ
whuber

3
@mpettis Quei punti erano difficili da notare. Li ho sostituiti con piccoli cerchi aperti per facilitare la lettura della notazione. Grazie per averlo segnalato.
whuber

4
Le risposte al piano di @Andy Ron Christensen a domande complesse potrebbero essere il tipo di cosa che stai cercando. Sfortunatamente, il suo approccio fa (IMHO) un'indebita dipendenza da argomenti e calcoli coordinati. Nell'introduzione originale (vedi p. Xiii), Christensen spiega che è per ragioni pedagogiche.
whuber

3
@whuber, La tua prova è fantastica. Mi chiedo se un libro o un articolo contenga una prova del genere in modo da poterlo citare.
Harry

12

Ecco una prova con solo calcoli di matrice.

Apprezzo la risposta di Whuber. È molto approfondito sulla matematica dietro la scena. Tuttavia, non è ancora così banale come utilizzare la sua risposta per ottenere il segno meno nella formula indicata nella Wikipedia Partial_correlation # Using_matrix_inversion .

ρXiXjV{Xi,Xj}=pijpiipjj

Per ottenere questo segno meno, ecco una prova diversa che ho trovato in "Modelli grafici Lauriten 1995 Pagina 130". È semplicemente fatto da alcuni calcoli di matrice.

La chiave è la seguente identità matrice: dove , e . E=A-BD - 1 CF=D - 1 CG=BD - 1

(ABCD)1=(E1E1GFE1D1+FE1G)
E=ABD1CF=D1CG=BD1

Annota la matrice di covarianza come dove è matrice di covarianza di e è matrice di covarianza di . Ω 11 ( X i , X j ) Ω 22 V{ X i , X j }

Ω=(Ω11Ω12Ω21Ω22)
Ω11(Xi,Xj)Ω22V{Xi,Xj}

Sia . Allo stesso modo, annota come P P = ( P 11 P 12 P 21 P 22 )P=Ω1P

P=(P11P12P21P22)

Dall'identità della matrice chiave,

P111=Ω11Ω12Ω221Ω21

Sappiamo anche che è la matrice di covarianza di (da Multivariate_normal_distribution # Conditional_distributions ). La correlazione parziale è quindi Uso la notazione che la th voce della matrice è indicata da . ( X i , X j ) | V{ X i , X j } ρ X i X jV{ X i , X j } = [ P - 1 11 ] 12Ω11Ω12Ω221Ω21(Xi,Xj)|V{Xi,Xj}(k,l)M[M]kl

ρXiXjV{Xi,Xj}=[P111]12[P111]11[P111]22.
(k,l)M[M]kl

Solo una semplice formula di inversione della matrice 2 per 2,

([P111]11[P111]12[P111]21[P111]22)=P111=1detP11([P11]22[P11]12[P11]21[P11]11)

Pertanto, che è esattamente ciò che afferma l'articolo di Wikipedia .

ρXiXjV{Xi,Xj}=[P111]12[P111]11[P111]22=1detP11[P11]121detP11[P11]221detP11[P11]11=[P11]12[P11]22[P11]11

Se lasciamo i=j, quindi rho_ii V\{X_i, X_i} = -1, come interpretiamo quegli elementi diagonali nella matrice di precisione?
Jason,

Buon punto. La formula dovrebbe essere valida solo per i = / = j. Dalla dimostrazione, il segno meno deriva dall'inversione della matrice 2 per 2. Non accadrebbe se i = j.
Po C.

Quindi i numeri diagonali non possono essere associati alla correlazione parziale. Cosa rappresentano? Non sono solo inversioni delle varianze, vero?
Jason,

Questa formula è valida per i = / = j. Non ha senso per i = j.
Po C.

4

Si noti che il segno della risposta dipende in realtà da come si definisce la correlazione parziale. C'è una differenza tra regredire e sulle altre variabili separatamente rispetto alla regressione di e sulle altre variabili insieme. Sotto la seconda definizione, lascia che la correlazione tra i residui e sia . Quindi la correlazione parziale dei due (regredendo su e viceversa) è .X j n - 1 X i X j n - 2 ϵ i ϵ j ρ ϵ i ϵ j - ρXiXjn1XiXjn2ϵiϵjρϵiϵjρ

Questo spiega la confusione nei commenti sopra, così come su Wikipedia. La seconda definizione è usata universalmente da quello che posso dire, quindi dovrebbe esserci un segno negativo.

Inizialmente avevo pubblicato una modifica sull'altra risposta, ma ho fatto un errore - mi dispiace per quello!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.