Qui c'è un semplice esempio. Non so se hai familiarità con R, ma spero che il codice sia sufficientemente autoesplicativo.
set.seed(9) # this makes the example reproducible
N = 36
# the following generates 3 variables:
x1 = rep(seq(from=11, to=13), each=12)
x2 = rep(rep(seq(from=90, to=150, by=20), each=3 ), times=3)
x3 = rep(seq(from=6, to=18, by=6 ), times=12)
cbind(x1, x2, x3)[1:7,] # 1st 7 cases, just to see the pattern
x1 x2 x3
[1,] 11 90 6
[2,] 11 90 12
[3,] 11 90 18
[4,] 11 110 6
[5,] 11 110 12
[6,] 11 110 18
[7,] 11 130 6
# the following is the true data generating process, note that y is a function of
# x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
# & that x2 tends to have less influence on the response variable than x1:
y = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)
reg.Model = lm(y~x1+x2+x3) # fits a regression model to these data
Ora, vediamo come appare:
. . .
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.76232 27.18170 -0.065 0.94871
x1 3.11683 2.09795 1.486 0.14716
x2 0.21214 0.07661 2.769 0.00927 **
x3 0.17748 0.34966 0.508 0.61524
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
. . .
F-statistic: 3.378 on 3 and 32 DF, p-value: 0.03016
Possiamo concentrarci sulla sezione "Coefficienti" dell'output. Ogni parametro stimato dal modello ottiene la propria riga. La stima effettiva stessa è elencata nella prima colonna. La seconda colonna elenca gli errori standard delle stime, ovvero una stima di quante stime "rimbalzerebbero" da un campione all'altro, se dovessimo ripetere questo processo ancora e ancora e ancora. Più specificamente, si tratta di una stima della deviazione standard della distribuzione campionaria della stima. Se dividiamo ogni stima di parametro per la sua SE, otteniamo un punteggio t , che è elencato nella terza colonna; questo viene utilizzato per il test delle ipotesi, in particolare per verificare se la stima dei parametri è "significativamente" diversa da 0. L'ultima colonna è lavalore p associato a quel punteggio t. È la probabilità di trovare un valore stimato così lontano da 0, se l'ipotesi nulla fosse vera. Nota che se l'ipotesi nulla non è vera, non è chiaro che questo valore ci dica qualcosa di significativo.
Se guardiamo avanti e indietro tra la tabella dei coefficienti e il vero processo di generazione dei dati sopra, possiamo vedere alcune cose interessanti. Si stima che l'intercetta sia -1,8 e che SE sia 27, mentre il valore reale è 15. Poiché il valore p associato è 0,95, non sarebbe considerato "significativamente diverso" da 0 (un errore di tipo II ), ma è comunque all'interno di una SE del vero valore. Non vi è quindi nulla di terribilmente estremo in questa stima dal punto di vista del valore reale e dell'importo che dovrebbe fluttuare; abbiamo semplicemente un potere insufficiente per differenziarlo da 0. La stessa storia vale, più o meno, perx1
. Gli analisti di dati direbbero in genere che non è nemmeno "marginalmente significativo" perché il suo valore p è> .10, tuttavia, si tratta di un altro errore di tipo II. La stima per x2
è abbastanza precisa , e il valore p è 'altamente significativo', una decisione corretta. inoltre non è stato possibile differenziare da 0, p = .62, un'altra decisione corretta (x3 non viene visualizzato nel processo di generazione dei dati vero sopra). È interessante notare che il valore p è maggiore di quello per , ma inferiore a quello dell'intercettazione, entrambi errori di tipo II. Infine, se guardiamo sotto la tabella dei coefficienti, vediamo il valore F per il modello, che è un test simultaneo. Questo test verifica se il modello nel suo insieme.21214 ≈ .2x3
x1
predice la variabile di risposta meglio del solo caso. Un altro modo per dirlo è se tutte le stime debbano essere considerate incapaci di differenziarsi da 0. I risultati di questo test suggeriscono che almeno alcune delle stime dei parametri non sono uguali a 0, un'altra decisione corretta. Poiché ci sono 4 test sopra, non avremmo alcuna protezione dal problema di confronti multipli senza questo. (Tieni presente che poiché i valori p sono variabili casuali - se qualcosa di significativo varierebbe da esperimento a esperimento, se l'esperimento fosse ripetuto - è possibile che questi siano incoerenti tra loro. CV qui: Significato dei coefficienti nella regressione multipla: test t significativo rispetto a statistica F non significativae la situazione opposta qui: in che modo una regressione può essere significativa ma tutti i predittori non sono significativi , e qui: statistiche F e t in una regressione .) Forse curiosamente, non ci sono errori di tipo I in questo esempio. Ad ogni modo, tutti e 5 i test discussi in questo paragrafo sono test di ipotesi.
Dal tuo commento, mi risulta che potresti anche chiederti come determinare se una variabile esplicativa è più importante di un'altra. Questa è una domanda molto comune, ma è piuttosto complicata. Immagina di voler prevedere il potenziale di successo in uno sport in base all'altezza e al peso di un atleta e di chiederti quale sia più importante. Una strategia comune è cercare di vedere quale coefficiente stimato è maggiore. Tuttavia, queste stime sono specifiche per le unità utilizzate: ad esempio, il coefficiente di peso cambierà a seconda che vengano utilizzate libbre o chilogrammi. Inoltre, non è chiaro da remoto come equiparare / confrontare libbre e pollici, o chilogrammi e centimetri. Una strategia adottata dalle persone è quella di standardizzare(cioè, trasformati in punteggi z) prima i loro dati. Quindi queste dimensioni sono in unità comuni (vale a dire, deviazioni standard) e i coefficienti sono simili ai punteggi r . Inoltre, è possibile verificare se un punteggio r è maggiore di un altro . Sfortunatamente, questo non ti fa uscire dal bosco; a meno che la vera r sia esattamente 0, la r stimata è guidata in gran parte dall'intervallo di valori di covariata utilizzati. (Non so quanto sia facile sarà riconoscere, ma @ eccellente risposta di whuber qui: Is utili o pericoloseR2 , illustra questo punto, a vederlo, basta pensare a comer = r2--√.) Pertanto, il meglio che si possa mai dire è che la variabilità in una variabile esplicativa all'interno di un intervallo specificato è più importante per determinare il livello della risposta rispetto alla variabilità in un'altra variabile esplicativa all'interno di un altro intervallo specificato.