Interpretazione matrice varianza-covarianza

12

Supponiamo di avere un modello lineare Model1e vcov(Model1)dare la seguente matrice:

             (Intercept)    latitude  sea.distance   altitude
(Intercept)    28.898100 -23.6439000  -34.1523000  0.50790600
latitude      -23.643900  19.7032500   28.4602500 -0.42471450
sea.distance  -34.152300  28.4602500   42.4714500 -0.62612550
altitude        0.507906  -0.4247145   -0.6261255  0.00928242

Per questo esempio, cosa mostra effettivamente questa matrice? Quali ipotesi possiamo fare in modo sicuro per il nostro modello e le sue variabili indipendenti?

— Murania
fonte

11

Questa matrice mostra le stime della varianza e della covarianza tra i coefficienti di regressione. In particolare, per la matrice di progettazione e una stima della varianza, , la matrice visualizzata è . $\mathbf{X}$ $\widehat{\sigma}^2$ $\widehat{\sigma}^2(\mathbf{X}'\mathbf{X})^{-1}$

Le voci diagonali sono la varianza dei coefficienti di regressione e le off-diagonali sono la covarianza tra i coefficienti di regressione corrispondenti.

Per quanto riguarda i presupposti, applica la funzione cov2cor () alla tua matrice varianza-covarianza. Questa funzione converte la matrice data in una matrice di correlazione. Otterrai stime delle correlazioni tra i coefficienti di regressione. Suggerimento: per questa matrice, ciascuna delle correlazioni avrà grandi dimensioni.

Per dire qualcosa sul modello in particolare, abbiamo bisogno di stime puntuali dei coefficienti di regressione per dire qualcosa di più.

— Donnie
fonte

11

@Donnie ha fornito una buona risposta (+1). Vorrei aggiungere un paio di punti.

Scendendo lungo la diagonale principale della matrice varianza-covarianza ci sono le varianze delle distribuzioni campionarie delle stime dei parametri (ovvero, 's). Quindi, prendendo le radici quadrate di quei valori si ottengono gli errori standard che vengono riportati con output statistico: $\hat\beta_j$

SEs   = sqrt(diag(vcov(Model1)))
SEs
# [1] 5.37569530 4.43883431 6.51701235 0.09634532

Questi sono usati per formare intervalli di confidenza e testare ipotesi sui tuoi beta.

Gli elementi fuori diagonale sarebbero se tutte le variabili fossero ortogonali, ma i tuoi valori sono lontani da . L'uso della funzione o la standardizzazione delle covarianze da parte delle radici quadrate delle varianze delle variabili costitutive rivela che tutte le variabili sono altamente correlate ( ), quindi si ha una sostanziale multicollinearità . Questo rende i tuoi errori standard molto più grandi di quanto sarebbero altrimenti. Allo stesso modo, significa che ci sono molte informazioni sulle distribuzioni campionarie dei beta che sono state escluse dai test di ipotesi standard ( ), quindi potresti voler usare un strategia di sperimentazione sequenziale basata su somme di tipo I di piazze . $0$ $0$ cov2cor() $|r| > .97$ $\hat\beta_j/SE(\hat\beta_j)$

— gung - Ripristina Monica
fonte