Sono uno studente di economia con una certa esperienza in econometria e R. Vorrei sapere se c'è mai una situazione in cui dovremmo includere una variabile in una regressione nonostante non sia statisticamente significativa?
Sono uno studente di economia con una certa esperienza in econometria e R. Vorrei sapere se c'è mai una situazione in cui dovremmo includere una variabile in una regressione nonostante non sia statisticamente significativa?
Risposte:
Sì!
Il fatto che un coefficiente sia statisticamente indistinguibile da zero non implica che il coefficiente sia effettivamente zero, che il coefficiente sia irrilevante. Il fatto che un effetto non superi un limite arbitrario per il significato statistico non implica che non si debba tentare di controllarlo.
In generale, il problema attuale e il progetto di ricerca dovrebbero guidare cosa includere come regressori.
E non prenderlo come un elenco esaustivo. Non è difficile inventarne tonnellate in più ...
Una situazione in cui ciò accade spesso è una regressione con effetti fissi .
Supponiamo che tu abbia i dati del pannello e desideri stimare nel modello:
Stimando questo modello con minimi quadrati ordinari dove sono trattati come effetti fissi equivale all'esecuzione minimi quadrati con una variabile indicatore per ciascun i .
Comunque, il punto è che i variabili (cioè i coefficienti delle variabili indicatore) sono spesso scarsamente stimati. Ogni individuo effetti fissi u mi è spesso statisticamente insignificante. Ma includi comunque tutte le variabili dell'indicatore nella regressione se stai tenendo conto degli effetti fissi.
(Inoltre, la maggior parte dei pacchetti di statistiche non ti darà nemmeno gli errori standard per i singoli effetti fissi quando usi i metodi integrati. Non ti interessa davvero il significato dei singoli effetti fissi. Probabilmente ti interessa il loro significato collettivo .)
Se stai adattando un polinomio di grado ad una curva, includi quasi sempre termini polinomiali di ordine inferiore.
Ad esempio, se stavi inserendo un polinomio di secondo ordine, eseguiresti:
Di solito sarebbe abbastanza strano forzare e invece eseguire y i = b 0 + b 2 x 2 i + ϵ i
ma gli studenti della meccanica newtoniana saranno in grado di immaginare eccezioni.
Supponiamo che stiate stimando un modello AR (p) includendo anche i termini di ordine inferiore. Ad esempio per un AR (2) dovresti eseguire:
E sarebbe strano correre:
Come menziona @NickCox, anche i termini e sin tendono ad andare insieme. Per ulteriori informazioni, vedere ad esempio questo documento .
Vuoi includere le variabili del lato destro quando ci sono buone ragioni teoriche per farlo.
E come altre risposte qui e attraverso StackExchange discutono, la selezione delle variabili per gradi può creare numerosi problemi statistici.
È anche importante distinguere tra:
In quest'ultimo caso, è problematico sostenere che il coefficiente non ha importanza. Potrebbe semplicemente essere misurato male.
Si ci sono. Qualsiasi variabile che potrebbe correlarsi con la variabile di risposta in modo significativo, anche a un livello statisticamente insignificante, potrebbe confondere la tua regressione se non è inclusa. Questo è noto come specifica insufficiente e porta a stime dei parametri che non sono così accurate come potrebbero essere altrimenti.
https://onlinecourses.science.psu.edu/stat501/node/328
Dall'alto:
Un modello di regressione non è specificato (risultato 2) se all'equazione di regressione mancano una o più variabili predittive importanti. Questa situazione è forse lo scenario peggiore, perché un modello non specificato produce coefficienti di regressione distorti e previsioni distorte della risposta. Cioè, usando il modello, sottovaluteremmo o sopravvalutavamo costantemente le pendenze della popolazione e i mezzi della popolazione. A peggiorare le cose già peggiori, l'errore quadratico medio MSE tende a sovrastimare σ², producendo così intervalli di confidenza più ampi di quanto dovrebbe.
Di solito non si includono o si escludono variabili per la regressione lineare a causa del loro significato. Li includi perché presumi che le variabili selezionate siano (buone) predittori dei criteri di regressione. In altre parole, la selezione del predittore si basa sulla teoria.
L'insignificanza statistica nella regressione lineare può significare due cose (di cui so):
Un motivo valido per escludere predittori insignificanti è che stai cercando il sottoinsieme più piccolo di predittori che spiegano la varianza dei criteri o la maggior parte di esso. Se l'hai trovato controlla la tua teoria.
In econometria questo accade a destra e a sinistra. Ad esempio, se si utilizzano manichini di stagionalità trimestrali Q2, Q3 e Q4, capita spesso che come gruppo siano significativi, ma alcuni di essi non sono significativi individualmente. In questo caso di solito li conservi tutti.
è. In questo caso è consuetudine mantenere l'effetto principale. Ci sono molti motivi per cui non dovresti lasciarlo cadere, e alcuni di questi sono stati discussi nel forum.
AGGIORNAMENTO: un altro esempio comune è la previsione. L'economia viene di solito insegnata dal punto di vista dell'inferenza nei dipartimenti di economia. Nella prospettiva di inferenza molta attenzione è sui valori-p e sul significato, perché stai cercando di capire cosa causa cosa e così via. Nella previsione, non c'è molta enfasi su queste cose, perché tutto ciò che ti interessa è quanto bene il modello può prevedere la variabile di interesse.
Questo è simile alle applicazioni di machine learning, tra l'altro, che recentemente si stanno facendo strada nell'economia. Puoi avere un modello con tutte le variabili significative che non prevedono bene. In ML è spesso associato al cosiddetto "over fitting". Ovviamente c'è un uso scarso di questo modello nelle previsioni.
Stai ponendo due diverse domande:
Modifica: questo era vero per il post originale, ma potrebbe non essere più vero dopo le modifiche.
Per quanto riguarda il primo trimestre, penso che sia al limite dell'essere troppo ampio. Esistono molte risposte possibili, alcune già fornite. Un altro esempio è quando si creano modelli per la previsione (vedere la fonte citata di seguito per una spiegazione).
Per quanto riguarda il secondo trimestre, la significatività statistica non è un criterio valido per la costruzione di modelli. Rob J. Hyndman scrive quanto segue nel suo post sul blog "Test statistici per la selezione delle variabili" :
Il significato statistico non è di solito una buona base per determinare se una variabile debba essere inclusa in un modello, nonostante il fatto che molte persone che dovrebbero conoscerle meglio le usano esattamente per questo scopo. <...> I test statistici sono stati progettati per verificare le ipotesi, non per selezionare le variabili.
Si noti inoltre che spesso è possibile trovare alcune variabili statisticamente significative puramente per caso (la possibilità è controllata dalla scelta del livello di significatività). L'osservazione che una variabile è statisticamente significativa non è sufficiente per concludere che la variabile appartiene al modello.
Aggiungerò un altro "sì". Mi è sempre stato insegnato - e ho provato a passarlo - che la considerazione principale nella scelta della covariata è la conoscenza del dominio, non la statistica. In biostatistica, ad esempio, se sto modellando alcuni risultati sulla salute degli individui, quindi, indipendentemente da ciò che dice la regressione, avrai bisogno di alcune buone argomentazioni per non includere età, razza e sesso nel modello.
Dipende anche dallo scopo del tuo modello. Se lo scopo è ottenere una migliore comprensione di quali fattori siano maggiormente associati ai risultati, la costruzione di un modello parsimonioso ha alcune virtù. Se ti interessa la previsione e non tanto la comprensione, l'eliminazione delle covariate potrebbe essere una preoccupazione minore.
(Infine, se hai intenzione di utilizzare le statistiche per la selezione delle variabili, controlla cosa ha da dire Frank Harrell sull'argomento: http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ e il suo libro Regressione Modeling Strategies . In breve, quando hai usato strategie basate su statisticamente per gradi o simili per scegliere i migliori predittori, allora tutti i test di "sono questi buoni predittori?" sono terribilmente distorti - ovviamente loro ' per quanto riguarda i buoni predittori, li hai scelti su quella base e quindi i valori di p per quei predittori sono falsamente bassi.)
L'unica cosa che dice veramente il risultato di "insignificanza statistica" è che, al livello selezionato di errore di tipo I, non possiamo nemmeno dire se l'effetto del regressore sulla variabile dipendente è positivo o negativo (vedi questo post).
Quindi, se manteniamo questo regressore, qualsiasi discussione sul proprio effetto sulla variabile dipendente non ha prove statistiche a sostegno.
Ma questo errore di stima non dice che il regressore non appartiene alla relazione strutturale, dice solo che con il set di dati specifico non siamo stati in grado di determinare con certezza il segno del suo coefficiente.
Quindi, in linea di principio, se ci sono argomenti teorici a supporto della sua presenza, il regressore dovrebbe essere mantenuto.
Altre risposte qui hanno fornito modelli / situazioni specifici per i quali tali regressori sono mantenuti nelle specifiche, ad esempio la risposta che menziona il modello di dati del pannello a effetti fissi.
Puoi includere una variabile di particolare interesse se è al centro della ricerca, anche se non statisticamente significativa. Inoltre, in biostatistica, il significato clinico è spesso diverso dal significato statistico.