La funzione lm in R può stampare la covarianza stimata dei coefficienti di regressione. Cosa ci danno queste informazioni? Ora possiamo interpretare meglio il modello o diagnosticare i problemi che potrebbero essere presenti nel modello?
La funzione lm in R può stampare la covarianza stimata dei coefficienti di regressione. Cosa ci danno queste informazioni? Ora possiamo interpretare meglio il modello o diagnosticare i problemi che potrebbero essere presenti nel modello?
Risposte:
L'uso più basilare della matrice di covarianza è quello di ottenere gli errori standard delle stime di regressione. Se il ricercatore è interessato solo agli errori standard dei singoli parametri di regressione, può semplicemente prendere la radice quadrata della diagonale per ottenere i singoli errori standard.
Tuttavia, spesso potresti essere interessato a una combinazione lineare di parametri di regressione. Ad esempio, se hai una variabile indicatore per un determinato gruppo, potresti essere interessato alla media del gruppo, che sarebbe
.
Quindi, per trovare l'errore standard per la media stimata di quel gruppo, dovresti
,
dove è un vettore dei tuoi contrasti e è la matrice di covarianza. Nel nostro caso, se abbiamo solo la covariata di addizione "grp", allora ( per l'intercetta, per l'appartenenza al gruppo).S X = ( 1 , 1 ) 1 1
Inoltre, la matrice di covarianza (o più oltre, la matrice di correlazione, identificata in modo univoco dalla matrice di covarianza ma non viceversa) può essere molto utile per la diagnostica di alcuni modelli. Se due variabili sono altamente correlate, un modo per pensarci è che il modello ha difficoltà a capire quale variabile è responsabile di un effetto (perché sono così strettamente correlate). Questo può essere utile per una varietà di casi, come la scelta di sottoinsiemi di covariate da utilizzare in un modello predittivo; se due variabili sono altamente correlate, è possibile utilizzare solo una delle due nel modello predittivo.
Esistono due "tipi" di coefficienti di regressione:
Ora pensa a cosa significa covarianza. Prendere qualsiasi due variabili casuali e . Seè alto, quindi ogni volta che disegni un grande valore assoluto di puoi anche aspettarti di disegnare un grande valore assoluto di nella stessa direzione. Si noti che "alto" qui è relativo alla quantità di variazione in e , come sottolineato nei commenti.
La covarianza (stimata) di due coefficienti di regressione è la covarianza delle stime , . Se la covarianza tra i coefficienti stimati e è alta, allora in qualsiasi campione in cui è alta, puoi anche aspettarti che sia alta. In un senso più bayesiano, contiene informazioni su .
Notare ancora che "alto" è relativo. Qui " è alto" significa che " è elevato rispetto al suo errore standard" e la loro covarianza essendo "alta" significa "alta rispetto al prodotto dei loro errori standard". Un modo per appianare questi singhiozzi interpretativi è standardizzare ogni input di regressione dividendo per la sua deviazione standard (o due deviazioni standard in alcuni casi).
Un utente su questo sito ha descritto come "un po 'di confusione", ma non sono del tutto d'accordo. Per prima cosa, potresti usare questa interpretazione per inventare priori informativi nella regressione bayesiana.
Per quanto riguarda ciò a cui viene effettivamente utilizzato, la risposta di Cliff AB è un buon riassunto.