Come interpretare gli errori standard dei coefficienti nella regressione lineare?


26

Mi chiedo come interpretare gli errori standard del coefficiente di una regressione quando si utilizza la funzione di visualizzazione in R.

Ad esempio nel seguente output:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

Un errore standard più elevato implica un significato maggiore?

Anche per la deviazione standard residua, un valore più elevato significa una maggiore diffusione, ma il quadrato R mostra un adattamento molto vicino, non è questa una contraddizione?

Risposte:


52

Le stime dei parametri, come una media campionaria o un coefficiente di regressione OLS, sono statistiche campionarie che utilizziamo per trarre inferenze sui corrispondenti parametri della popolazione. I parametri di popolazione sono ciò che ci interessa davvero, ma poiché non abbiamo accesso a tutta la popolazione (di solito ritenuta infinita), dobbiamo invece utilizzare questo approccio. Tuttavia, ci sono alcuni fatti scomodi che derivano da questo approccio. Ad esempio, se prendessimo un altro campione e calcolassimo la statistica per stimare nuovamente il parametro, scopriremmo quasi sicuramente che differisce. Inoltre, nessuna delle due stime corrisponde probabilmente al vero valore del parametro che vogliamo conoscere. In effetti, se lo facessimo ripetutamente, continuando a campionare e stimare per sempre, scopriremmo che la frequenza relativa dei diversi valori di stima seguiva una distribuzione di probabilità. Il teorema del limite centrale suggerisce che è probabile che questa distribuzione sia normale. Abbiamo bisogno di un modo per quantificare la quantità di incertezza in tale distribuzione. Ecco cosa fa l'errore standard per te.

Nel tuo esempio, vuoi conoscere la pendenza della relazione lineare tra x1 e y nella popolazione, ma hai accesso solo al tuo campione. Nel tuo campione, quella pendenza è .51, ma senza sapere quanta variabilità c'è nella sua corrispondente distribuzione di campionamento , è difficile sapere cosa fare di quel numero. L'errore standard, in questo caso 0,05, è la deviazione standard di quella distribuzione di campionamento. Per calcolare la significatività, dividi la stima per SE e cerca il quoziente nella tabella. Pertanto, gli ES più grandi significano un significato inferiore .

La deviazione standard residua non ha nulla a che fare con le distribuzioni campionarie delle tue pendenze. È solo la deviazione standard del campione a seconda del modello. Non c'è contraddizione, né potrebbe esserci. Per quanto riguarda il modo in cui hai una SD più grande con un R ^ 2 elevato e solo 40 punti dati, immagino che tu abbia l'opposto della limitazione dell'intervallo - i tuoi valori x sono sparsi molto ampiamente.


Risposta eccellente e molto chiara! Quindi, fondamentalmente, per la seconda domanda, la SD indica la dispersione orizzontale e la R ^ 2 indica l'adattamento globale o la dispersione verticale?
sopra l'

7
@Dbr, felice di aiutarti. Di solito pensiamo alla variabile di risposta come sull'asse verticale e alla variabile predittore sull'asse orizzontale. Con questa configurazione, tutto è verticale: la regressione sta minimizzando le distanze verticali tra le previsioni e la variabile di risposta (SSE). Allo stesso modo, la DS residua è una misura della dispersione verticale dopo aver tenuto conto dei valori previsti. Infine, R ^ 2 è il rapporto tra la dispersione verticale delle tue previsioni e la dispersione verticale totale dei tuoi dati grezzi.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.