Regressione lineare multipla per test di ipotesi


15

Conosco le regressioni lineari multiple per creare modelli di varie variabili. Tuttavia, ero curioso di sapere se i test di regressione sono mai stati usati per fare qualsiasi tipo di test di ipotesi di base. In tal caso, come sarebbero questi scenari / ipotesi?


1
Puoi spiegare ulteriormente cosa intendi? È molto comune verificare se il parametro di pendenza per una variabile è diverso da zero. Definirei questo "test di ipotesi". Ne sei inconsapevole o intendi qualcosa di diverso? Cosa costituisce uno scenario per i tuoi scopi?
gung - Ripristina Monica

Non ne sono consapevole. Non ero anche sicuro che l'analisi basata sulla regressione fosse utilizzata per qualsiasi altro tipo di verifica delle ipotesi (forse sul significato di una variabile rispetto a un'altra, ecc.).
cryptic_star

Risposte:


25

Qui c'è un semplice esempio. Non so se hai familiarità con R, ma spero che il codice sia sufficientemente autoesplicativo.

set.seed(9)        # this makes the example reproducible
N = 36
    # the following generates 3 variables:
x1 =     rep(seq(from=11, to=13),           each=12)
x2 = rep(rep(seq(from=90, to=150, by=20),   each=3 ), times=3)
x3 =     rep(seq(from=6,  to=18,  by=6 ),  times=12)
cbind(x1, x2, x3)[1:7,]    # 1st 7 cases, just to see the pattern
      x1  x2 x3
 [1,] 11  90  6
 [2,] 11  90 12
 [3,] 11  90 18
 [4,] 11 110  6
 [5,] 11 110 12
 [6,] 11 110 18
 [7,] 11 130  6 
    # the following is the true data generating process, note that y is a function of
    #   x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
    #   & that x2 tends to have less influence on the response variable than x1:
y  = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)

reg.Model = lm(y~x1+x2+x3)    # fits a regression model to these data

Ora, vediamo come appare:

. . . 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -1.76232   27.18170  -0.065  0.94871   
x1           3.11683    2.09795   1.486  0.14716   
x2           0.21214    0.07661   2.769  0.00927 **
x3           0.17748    0.34966   0.508  0.61524   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
. . . 
F-statistic: 3.378 on 3 and 32 DF,  p-value: 0.03016 

Possiamo concentrarci sulla sezione "Coefficienti" dell'output. Ogni parametro stimato dal modello ottiene la propria riga. La stima effettiva stessa è elencata nella prima colonna. La seconda colonna elenca gli errori standard delle stime, ovvero una stima di quante stime "rimbalzerebbero" da un campione all'altro, se dovessimo ripetere questo processo ancora e ancora e ancora. Più specificamente, si tratta di una stima della deviazione standard della distribuzione campionaria della stima. Se dividiamo ogni stima di parametro per la sua SE, otteniamo un punteggio t , che è elencato nella terza colonna; questo viene utilizzato per il test delle ipotesi, in particolare per verificare se la stima dei parametri è "significativamente" diversa da 0. L'ultima colonna è lavalore p associato a quel punteggio t. È la probabilità di trovare un valore stimato così lontano da 0, se l'ipotesi nulla fosse vera. Nota che se l'ipotesi nulla non è vera, non è chiaro che questo valore ci dica qualcosa di significativo.

Se guardiamo avanti e indietro tra la tabella dei coefficienti e il vero processo di generazione dei dati sopra, possiamo vedere alcune cose interessanti. Si stima che l'intercetta sia -1,8 e che SE sia 27, mentre il valore reale è 15. Poiché il valore p associato è 0,95, non sarebbe considerato "significativamente diverso" da 0 (un errore di tipo II ), ma è comunque all'interno di una SE del vero valore. Non vi è quindi nulla di terribilmente estremo in questa stima dal punto di vista del valore reale e dell'importo che dovrebbe fluttuare; abbiamo semplicemente un potere insufficiente per differenziarlo da 0. La stessa storia vale, più o meno, perx1. Gli analisti di dati direbbero in genere che non è nemmeno "marginalmente significativo" perché il suo valore p è> .10, tuttavia, si tratta di un altro errore di tipo II. La stima per x2è abbastanza precisa , e il valore p è 'altamente significativo', una decisione corretta. inoltre non è stato possibile differenziare da 0, p = .62, un'altra decisione corretta (x3 non viene visualizzato nel processo di generazione dei dati vero sopra). È interessante notare che il valore p è maggiore di quello per , ma inferiore a quello dell'intercettazione, entrambi errori di tipo II. Infine, se guardiamo sotto la tabella dei coefficienti, vediamo il valore F per il modello, che è un test simultaneo. Questo test verifica se il modello nel suo insieme0,21,214 mila.2x3x1predice la variabile di risposta meglio del solo caso. Un altro modo per dirlo è se tutte le stime debbano essere considerate incapaci di differenziarsi da 0. I risultati di questo test suggeriscono che almeno alcune delle stime dei parametri non sono uguali a 0, un'altra decisione corretta. Poiché ci sono 4 test sopra, non avremmo alcuna protezione dal problema di confronti multipli senza questo. (Tieni presente che poiché i valori p sono variabili casuali - se qualcosa di significativo varierebbe da esperimento a esperimento, se l'esperimento fosse ripetuto - è possibile che questi siano incoerenti tra loro. CV qui: Significato dei coefficienti nella regressione multipla: test t significativo rispetto a statistica F non significativae la situazione opposta qui: in che modo una regressione può essere significativa ma tutti i predittori non sono significativi , e qui: statistiche F e t in una regressione .) Forse curiosamente, non ci sono errori di tipo I in questo esempio. Ad ogni modo, tutti e 5 i test discussi in questo paragrafo sono test di ipotesi.

Dal tuo commento, mi risulta che potresti anche chiederti come determinare se una variabile esplicativa è più importante di un'altra. Questa è una domanda molto comune, ma è piuttosto complicata. Immagina di voler prevedere il potenziale di successo in uno sport in base all'altezza e al peso di un atleta e di chiederti quale sia più importante. Una strategia comune è cercare di vedere quale coefficiente stimato è maggiore. Tuttavia, queste stime sono specifiche per le unità utilizzate: ad esempio, il coefficiente di peso cambierà a seconda che vengano utilizzate libbre o chilogrammi. Inoltre, non è chiaro da remoto come equiparare / confrontare libbre e pollici, o chilogrammi e centimetri. Una strategia adottata dalle persone è quella di standardizzare(cioè, trasformati in punteggi z) prima i loro dati. Quindi queste dimensioni sono in unità comuni (vale a dire, deviazioni standard) e i coefficienti sono simili ai punteggi r . Inoltre, è possibile verificare se un punteggio r è maggiore di un altro . Sfortunatamente, questo non ti fa uscire dal bosco; a meno che la vera r sia esattamente 0, la r stimata è guidata in gran parte dall'intervallo di valori di covariata utilizzati. (Non so quanto sia facile sarà riconoscere, ma @ eccellente risposta di whuber qui: Is utili o pericoloseR2 , illustra questo punto, a vederlo, basta pensare a comer=r2.) Pertanto, il meglio che si possa mai dire è che la variabilità in una variabile esplicativa all'interno di un intervallo specificato è più importante per determinare il livello della risposta rispetto alla variabilità in un'altra variabile esplicativa all'interno di un altro intervallo specificato.


2

Il test essenziale nei modelli di regressione è il test Full-Reduced. Qui è dove si stanno confrontando 2 modelli di regressione, il modello completo contiene tutti i termini e il test ridotto ha un sottoinsieme di tali termini (il modello ridotto deve essere nidificato nel modello completo). Il test quindi verifica l'ipotesi nulla che il modello ridotto si adatti esattamente come il modello completo e ogni differenza è dovuta al caso.

Stampe comuni dal software statistico includono un test F complessivo, questo è solo il test Full-Reduced in cui il test ridotto è un modello di sola intercettazione. Inoltre spesso stampano un valore p per ogni singolo predittore, questa è solo una serie di test del modello a riduzione completa, in ognuno il modello ridotto non include quel termine specifico. Esistono molti modi per utilizzare questi test per rispondere a domande di interesse. In effetti praticamente ogni test insegnato in un corso introduttivo sulle statistiche può essere calcolato usando i modelli di regressione e il test Full-Reduced e i risultati saranno identici in molti casi e un'approssimazione molto stretta in pochi altri.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.