Quando si dovrebbe includere una variabile in una regressione nonostante non sia statisticamente significativa?


37

Sono uno studente di economia con una certa esperienza in econometria e R. Vorrei sapere se c'è mai una situazione in cui dovremmo includere una variabile in una regressione nonostante non sia statisticamente significativa?


1
Nella ricerca medica lo includeresti se implica interazioni qualitative. Guarda il lavoro di Lacey Gunter a cui ho fatto riferimento qui prima. Anche il libro di Chakraborty e Moodie pubblicato da Springer nel 2013. Il titolo è Metodi statistici per i regimi di trattamento dinamico: apprendimento di rinforzo, inferenza causale e medicina personalizzata.
Michael R. Chernick,

11
Considera anche che il significato statistico è completamente arbitrario. Cosa è significativo? 0.05? 0.1? 0.001? Se la base teorica esiste per includere un predittore, questa è una ragione sufficiente per mantenerlo.
Ashe,

2
Quando dici "non statisticamente significativo" ti rendi conto che è al livello di confidenza del 5%, che è una scelta arbitraria? (E più variabili ci sono, si incorre nel problema dei test multipli).
smci,

1
@smci 0,05 = 5% di livello di significatività corrisponde al 95% di livello di confidenza, motivo sufficiente per evitare di mescolare i termini nella stessa frase. Poiché esistono procedure di significato senza un intervallo di confidenza in vista, di solito è più facile usare qualunque termine sia più pertinente. Le eccezioni sono quando stai spiegando il link a livello introduttivo.
Nick Cox,

Risposte:


30

Sì!

Il fatto che un coefficiente sia statisticamente indistinguibile da zero non implica che il coefficiente sia effettivamente zero, che il coefficiente sia irrilevante. Il fatto che un effetto non superi un limite arbitrario per il significato statistico non implica che non si debba tentare di controllarlo.

In generale, il problema attuale e il progetto di ricerca dovrebbero guidare cosa includere come regressori.

Alcuni esempi rapidi:

E non prenderlo come un elenco esaustivo. Non è difficile inventarne tonnellate in più ...

1. Effetti fissi

Una situazione in cui ciò accade spesso è una regressione con effetti fissi .

Supponiamo che tu abbia i dati del pannello e desideri stimare nel modello:b

yit=bxit+ui+ϵit

Stimando questo modello con minimi quadrati ordinari dove sono trattati come effetti fissi equivale all'esecuzione minimi quadrati con una variabile indicatore per ciascun i .uii

Comunque, il punto è che i variabili (cioè i coefficienti delle variabili indicatore) sono spesso scarsamente stimati. Ogni individuo effetti fissi u mi è spesso statisticamente insignificante. Ma includi comunque tutte le variabili dell'indicatore nella regressione se stai tenendo conto degli effetti fissi.uiui

(Inoltre, la maggior parte dei pacchetti di statistiche non ti darà nemmeno gli errori standard per i singoli effetti fissi quando usi i metodi integrati. Non ti interessa davvero il significato dei singoli effetti fissi. Probabilmente ti interessa il loro significato collettivo .)

2. Funzioni che vanno insieme ...

(a) Adattamento della curva polinomiale (punta del cappello @NickCox nei commenti)

Se stai adattando un polinomio di grado ad una curva, includi quasi sempre termini polinomiali di ordine inferiore.k

Ad esempio, se stavi inserendo un polinomio di secondo ordine, eseguiresti:

yi=b0+b1xi+b2xi2+ϵi

Di solito sarebbe abbastanza strano forzare e invece eseguire y i = b 0 + b 2 x 2 i + ϵ ib1=0

yi=b0+b2xi2+ϵi

ma gli studenti della meccanica newtoniana saranno in grado di immaginare eccezioni.

(b) Modelli AR (p):

Supponiamo che stiate stimando un modello AR (p) includendo anche i termini di ordine inferiore. Ad esempio per un AR (2) dovresti eseguire:

yt=b0+b1yt1+b2yt2+ϵt

E sarebbe strano correre:

yt=b0+b2yt2+ϵt

(c) Funzioni trigonometriche

Come menziona @NickCox, anche i termini e sin tendono ad andare insieme. Per ulteriori informazioni, vedere ad esempio questo documento .cospeccato

Più in generale...

Vuoi includere le variabili del lato destro quando ci sono buone ragioni teoriche per farlo.

E come altre risposte qui e attraverso StackExchange discutono, la selezione delle variabili per gradi può creare numerosi problemi statistici.

È anche importante distinguere tra:

  • un coefficiente statisticamente indistinguibile da zero con un piccolo errore standard.
  • un coefficiente statisticamente indistinguibile da zero con un errore standard elevato .

In quest'ultimo caso, è problematico sostenere che il coefficiente non ha importanza. Potrebbe semplicemente essere misurato male.


Toccando il vostro primo esempio, il motivo per cui tenere nel modello sembra essere che l'interpretazione di B cambia se u i è nel modello oppure no. (Vedi ad esempio en.wikipedia.org/wiki/Partial_regression_plot --abbiamo uso qualcosa come la frase "controllando gli effetti lineari di u iuibuiuiui

5
Alcune risposte molto buone che tuttavia si sovrappongono già un po 'troppo, quindi limiterò i miei esempi a un commento qui. Adattamento polinomiale : più comunemente, un quadratico dovrebbe quasi sempre essere adattato da un doppio atto di termini lineari e quadrati. Anche se solo un termine è significativo ai livelli convenzionali, il loro effetto comune è fondamentale. Predittori trigonometrici Allo stesso modo, seno e coseno di solito appartengono insieme anche se non si riesce a qualificarsi a livelli convenzionali. I doppi atti dovrebbero essere montati come tali.
Nick Cox,

2
@NickCox Poiché si tratta di un wiki della comunità e il tuo punto è direttamente pertinente a quello sollevato qui, penso che il tuo commento meriterebbe di essere modificato nella risposta in un momento appropriato. È troppo importante rimanere un semplice commento, secondo me, anche se penso che tu abbia ragione che non sarebbe meglio come risposta indipendente
Silverfish

@Silverfish Matthew è invitato a copiarlo. Tuttavia, mi sembra un po 'presuntuoso modificarlo.
Nick Cox,

1
@NickCox Haha, non mi interessa. :) Ho aggiunto i tuoi suggerimenti e sentiti libero di modificare !.
Matthew Gunn,

14

Si ci sono. Qualsiasi variabile che potrebbe correlarsi con la variabile di risposta in modo significativo, anche a un livello statisticamente insignificante, potrebbe confondere la tua regressione se non è inclusa. Questo è noto come specifica insufficiente e porta a stime dei parametri che non sono così accurate come potrebbero essere altrimenti.

https://onlinecourses.science.psu.edu/stat501/node/328

Dall'alto:

Un modello di regressione non è specificato (risultato 2) se all'equazione di regressione mancano una o più variabili predittive importanti. Questa situazione è forse lo scenario peggiore, perché un modello non specificato produce coefficienti di regressione distorti e previsioni distorte della risposta. Cioè, usando il modello, sottovaluteremmo o sopravvalutavamo costantemente le pendenze della popolazione e i mezzi della popolazione. A peggiorare le cose già peggiori, l'errore quadratico medio MSE tende a sovrastimare σ², producendo così intervalli di confidenza più ampi di quanto dovrebbe.


4
Questo non è del tutto vero. Per essere una variabile confondente deve causare la variabile spiegata e le variabili esplicative di interesse. Se le variabili esplicative di interesse causa della variabile, e influenza il risultato, allora è una variabile interveniente, e si dovrebbe non controllare per esso (a meno che non si vuole scomporre l'effetto totale).
Maarten Buis,

1
Questa è una discussione molto inadeguata sul tema del controllo del confondimento. La correlazione con il risultato non è una condizione sufficiente per il confondimento e può portare a una errata specificazione dei modelli causali controllando per i mediatori: questo porta a errori come "l'interruzione del fumo non riduce il rischio di malattie cardiovascolari dopo il controllo del calcio arterioso coronarico (CAC)". CAC è il modo principale in cui il fumo ti dà malattie cardiache. Vedi Causalità di Pearl, 2a ed., Capitolo 3, sezione 3.
AdamO,

Sentiti libero di modificare. Non pensavo che stesse cercando quel tipo di profondità nella risposta, mi scuso se la mia brevità ha portato a una grave inesattezza.
doubleletrouble

11

Di solito non si includono o si escludono variabili per la regressione lineare a causa del loro significato. Li includi perché presumi che le variabili selezionate siano (buone) predittori dei criteri di regressione. In altre parole, la selezione del predittore si basa sulla teoria.

L'insignificanza statistica nella regressione lineare può significare due cose (di cui so):

  1. I predittori insignificanti non sono correlati ai criteri. Escludili, ma tieni presente che l'insignificanza non dimostra che non sono correlati. Controlla la tua teoria.
  2. I predittori sono insignificanti perché possono essere espressi in funzione di altri predittori. L'insieme di predittori viene quindi chiamato multicollineare. Ciò non rende i predittori "cattivi" in alcun senso ma ridondanti.

Un motivo valido per escludere predittori insignificanti è che stai cercando il sottoinsieme più piccolo di predittori che spiegano la varianza dei criteri o la maggior parte di esso. Se l'hai trovato controlla la tua teoria.


[P] redittori dei criteri di regressione ? Potresti voler riformulare questo.
Richard Hardy,

8

In econometria questo accade a destra e a sinistra. Ad esempio, se si utilizzano manichini di stagionalità trimestrali Q2, Q3 e Q4, capita spesso che come gruppo siano significativi, ma alcuni di essi non sono significativi individualmente. In questo caso di solito li conservi tutti.

yxzzxz è. In questo caso è consuetudine mantenere l'effetto principale. Ci sono molti motivi per cui non dovresti lasciarlo cadere, e alcuni di questi sono stati discussi nel forum.

AGGIORNAMENTO: un altro esempio comune è la previsione. L'economia viene di solito insegnata dal punto di vista dell'inferenza nei dipartimenti di economia. Nella prospettiva di inferenza molta attenzione è sui valori-p e sul significato, perché stai cercando di capire cosa causa cosa e così via. Nella previsione, non c'è molta enfasi su queste cose, perché tutto ciò che ti interessa è quanto bene il modello può prevedere la variabile di interesse.

Questo è simile alle applicazioni di machine learning, tra l'altro, che recentemente si stanno facendo strada nell'economia. Puoi avere un modello con tutte le variabili significative che non prevedono bene. In ML è spesso associato al cosiddetto "over fitting". Ovviamente c'è un uso scarso di questo modello nelle previsioni.


1
Questo sembra un po 'esagerato in alcuni punti. Ad esempio, è evidente anche a me come non economista dai soli libri di testo che la previsione è stata ampiamente insegnata agli economisti per almeno alcuni decenni. Se ci sia stato un aumento "recente" (intendendo precisamente?) È un punto più sottile che lascio agli addetti ai lavori.
Nick Cox,

@NickCox, concordato, sembrava che non ci fosse alcuna previsione nei curricula, il che non è vero.
Aksakal,

7

Stai ponendo due diverse domande:

  1. Quando non importa il significato statistico?
  2. Quando dovremmo includere una variabile in una regressione nonostante non sia statisticamente significativa?

Modifica: questo era vero per il post originale, ma potrebbe non essere più vero dopo le modifiche.


Per quanto riguarda il primo trimestre, penso che sia al limite dell'essere troppo ampio. Esistono molte risposte possibili, alcune già fornite. Un altro esempio è quando si creano modelli per la previsione (vedere la fonte citata di seguito per una spiegazione).


Per quanto riguarda il secondo trimestre, la significatività statistica non è un criterio valido per la costruzione di modelli. Rob J. Hyndman scrive quanto segue nel suo post sul blog "Test statistici per la selezione delle variabili" :

Il significato statistico non è di solito una buona base per determinare se una variabile debba essere inclusa in un modello, nonostante il fatto che molte persone che dovrebbero conoscerle meglio le usano esattamente per questo scopo. <...> I test statistici sono stati progettati per verificare le ipotesi, non per selezionare le variabili.

Si noti inoltre che spesso è possibile trovare alcune variabili statisticamente significative puramente per caso (la possibilità è controllata dalla scelta del livello di significatività). L'osservazione che una variabile è statisticamente significativa non è sufficiente per concludere che la variabile appartiene al modello.


4

Aggiungerò un altro "sì". Mi è sempre stato insegnato - e ho provato a passarlo - che la considerazione principale nella scelta della covariata è la conoscenza del dominio, non la statistica. In biostatistica, ad esempio, se sto modellando alcuni risultati sulla salute degli individui, quindi, indipendentemente da ciò che dice la regressione, avrai bisogno di alcune buone argomentazioni per non includere età, razza e sesso nel modello.

Dipende anche dallo scopo del tuo modello. Se lo scopo è ottenere una migliore comprensione di quali fattori siano maggiormente associati ai risultati, la costruzione di un modello parsimonioso ha alcune virtù. Se ti interessa la previsione e non tanto la comprensione, l'eliminazione delle covariate potrebbe essere una preoccupazione minore.

(Infine, se hai intenzione di utilizzare le statistiche per la selezione delle variabili, controlla cosa ha da dire Frank Harrell sull'argomento: http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ e il suo libro Regressione Modeling Strategies . In breve, quando hai usato strategie basate su statisticamente per gradi o simili per scegliere i migliori predittori, allora tutti i test di "sono questi buoni predittori?" sono terribilmente distorti - ovviamente loro ' per quanto riguarda i buoni predittori, li hai scelti su quella base e quindi i valori di p per quei predittori sono falsamente bassi.)


1
R2

4

L'unica cosa che dice veramente il risultato di "insignificanza statistica" è che, al livello selezionato di errore di tipo I, non possiamo nemmeno dire se l'effetto del regressore sulla variabile dipendente è positivo o negativo (vedi questo post).

Quindi, se manteniamo questo regressore, qualsiasi discussione sul proprio effetto sulla variabile dipendente non ha prove statistiche a sostegno.

Ma questo errore di stima non dice che il regressore non appartiene alla relazione strutturale, dice solo che con il set di dati specifico non siamo stati in grado di determinare con certezza il segno del suo coefficiente.

Quindi, in linea di principio, se ci sono argomenti teorici a supporto della sua presenza, il regressore dovrebbe essere mantenuto.

Altre risposte qui hanno fornito modelli / situazioni specifici per i quali tali regressori sono mantenuti nelle specifiche, ad esempio la risposta che menziona il modello di dati del pannello a effetti fissi.


Perché trascinare il "livello di confidenza" in una discussione di significato? Leggo spesso mostruosità in testi e articoli scadenti come "significativo al livello di confidenza del 99%". C'è sicuramente una relazione tra le idee, ma non hai bisogno di questa formulazione (che a livello elementare confonde tanto quanto spiega).
Nick Cox,

@ Nick Cox Hai ragione. L'ho cambiato in "Errore di tipo I".
Alecos Papadopoulos,

1

Puoi includere una variabile di particolare interesse se è al centro della ricerca, anche se non statisticamente significativa. Inoltre, in biostatistica, il significato clinico è spesso diverso dal significato statistico.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.