Riportare i risultati di una semplice regressione lineare: quali informazioni includere?


11

Ho appena eseguito una regressione lineare (molto) semplice in Genstat e vorrei includere un riassunto sintetico e significativo dell'output nel mio rapporto. Non sono sicuro esattamente quali o quante informazioni dovrei includere.

I bit principali del mio output di Genstat si presentano così:

Summary of analysis 
Source      d.f.    s.s.       m.s.       v.r.    F pr.
Regression    1   8128935.   8128935.    814.41   <.001
Residual     53    529015.      9981.        
Total        54   8657950.    160332.        

Percentage variance accounted for 93.8
Standard error of observations is estimated to be 99.9.

Estimates of parameters 
Parameter    estimate    s.e.     t(53)   t pr.
Constant      41.5      30.7       1.35   0.182
UKHR_Ref       0.8659    0.0303   28.54   <.001

Volevo segnalarlo semplicemente come:

Adjusted R2 = 0.94 (slope = 0.87, p < 0.001; intercept not significantly different from 0).

ma un collega ha suggerito che dovrei includere almeno il root mean squared error(che credo in questo caso sia uguale all'errore standard delle osservazioni, vale a dire 99,9?).

Includere l'RMSE fornisce ulteriori informazioni utili o la bontà dell'adattamento è già adeguatamente spiegata dal valore di R2 modificato?

Ci sono regole rigide per quante informazioni segnalare o sono abbastanza soggettive?

Grazie mille!


1
"Esistono regole rigide per la quantità di informazioni da segnalare": dipende davvero da cosa si desidera fare dopo la regressione. Si potrebbe essere contenti solo del coefficiente di correlazione; uno potrebbe aver bisogno del valore di Durbin-Watson oltre a quello, e ancora un altro potrebbe voler vedere la diagonale della matrice del cappello ... dipende davvero.
JM non è uno statistico il

2
Alcune organizzazioni hanno regole. Vedi le linee guida APA per esempio.
whuber

Risposte:


6

Per una semplice regressione lineare, produrrei sempre un grafico della variabile x rispetto alla variabile y, con la linea di regressione sovrapposta al grafico (traccia sempre i tuoi dati ogni volta che è fattibile!). Questo ti dirà molto facilmente quanto bene si adatta il tuo modello ed è facile da leggere per 1 regressione variabile. Aggiungerlo a ciò che hai già sarebbe probabilmente sufficiente, anche se potresti voler includere alcuni grafici diagnostici (leva, distanza di cottura, residui, ecc.). Dipende da quanto è buona la trama di xy, dal tuo pubblico previsto e da tutti i protocolli che il tuo pubblico si aspetta.

R2

R2±±2R2


Grazie @probabilityislogic. Ho incluso una trama nel mio rapporto, e sembra che in questo caso la mia frase originale dovrebbe essere sufficiente. Penso che l'inclusione di grafici diagnostici non sia probabilmente necessaria per questo pubblico, anche se ovviamente li ho controllati da solo e sembrano ragionevoli. Grazie anche per la spiegazione di R2 vs. RMSE - è molto utile.
JamesS

Che dire dei valori t e df (s)? Quando dovrebbero essere inclusi? Ha senso includere entrambi o nessuno dei due?
pazzo di natty il

1

Uso per segnalare il coefficiente β più il 95% CI, il valore p e R rettificato. Ex:

(β = 1,46, IC 95% [1,19, 1,8], p = 0,001 **, R2 rettificato = 0,48)

Se sto segnalando una regressione multipla o una regressione con variabili di fattore, riporto il coefficiente, l'IC 95%, i valori p e quindi separatamente le statistiche F (gradi della libertà), R2 rettificato e il valore p del modello.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.