Le covariate non statisticamente significative dovrebbero essere "mantenute" durante la creazione di un modello?


39

Ho diverse covariate nel mio calcolo per un modello e non tutte sono statisticamente significative. Devo rimuovere quelli che non lo sono?

Questa domanda discute il fenomeno, ma non risponde alla mia domanda: come interpretare l'effetto non significativo di una covariata in ANCOVA?

Non c'è nulla nella risposta a quella domanda che suggerisce che le covariate non significative siano eliminate, quindi, in questo momento sono propenso a credere che dovrebbero rimanere dentro. Prima ancora di leggere quella risposta, stavo pensando lo stesso da una covariata può ancora spiegare parte della varianza (e quindi aiutare il modello) senza necessariamente spiegare un importo oltre una certa soglia (la soglia di significatività, che considero non applicabile alle covariate).

C'è un'altra domanda da qualche parte sul CV per cui la risposta sembra implicare che le covariate debbano essere mantenute indipendentemente dal significato, ma non è chiaro. (Voglio collegarmi a quella domanda, ma non sono stato in grado di rintracciarla di nuovo proprio ora.)

Quindi ... Le covariate che non risultano statisticamente significative dovrebbero essere mantenute nel calcolo per il modello? (Ho modificato questa domanda per chiarire che le covariate non sono mai nel modello in output dal calcolo comunque.)

Per aggiungere una complicazione, cosa succede se le covariate sono statisticamente significative per alcuni sottoinsiemi di dati (sottoinsiemi che devono essere elaborati separatamente). Per impostazione predefinita manterrei una tale covariata, altrimenti si dovrebbero utilizzare modelli diversi o si avrebbe una covariata statisticamente significativa mancante in uno dei casi. Se hai anche una risposta per questo caso diviso, per favore, menzionalo.


6
In generale, direi che dovresti mantenere variabili teoricamente importanti o che sono state significative in studi precedenti, anche se i tuoi dati non ne supportano l'effetto. Detto questo, per ottenere una risposta più specifica, penso che dovresti aggiungere un paio di righe per spiegare il tuo modello e il suo scopo (ad esempio, identificare i fattori di rischio, fare previsioni, ...).
Ocram,

Direi che dipende. I test sono solo indicatori. Se ritieni che ci dovrebbe essere una piccola dipendenza, pensa a mantenere il modello. Se anche tu credi che la dipendenza non dovrebbe esserci, allora lasciala fuori.
Bene

OK, quindi state entrambi dicendo che la non significatività non impone che una covariata venga rimossa dalla considerazione, quindi entrambi avete effettivamente risposto alla mia domanda. Dovrei effettivamente riformulare la mia domanda per indicare più chiaramente che ciò che sto chiedendo è se il significato stastografico di una covariata è una condizione necessaria per mantenerlo ("La non significatività di una covariata significa che dovrebbe essere rimosso ..."), e Accetterei uno dei tuoi commenti come risposte.
AM

Prima di farlo, tuttavia, vorrei assicurarmi di utilizzare la terminologia corretta. Inizialmente ho scritto "mantenuto nel modello", ma ciò non sembrava giusto perché le covariate non appaiono mai nel modello. Ho optato per "mantenuto nel calcolo per il modello " (e "rimosso dalla considerazione "), ma esiste un modo migliore per dirlo? Qual è il termine giusto per cui la covariata viene mantenuta o rimossa?
AM

3
Dovresti convalidare la corretta esecuzione di tali procedure di selezione. Altri hanno fallito.
Frank Harrell,

Risposte:


32

Hai già ottenuto diverse risposte valide. Ci sono ragioni per mantenere le covariate e ragioni per eliminare le covariate. Il significato statistico non dovrebbe essere un fattore chiave, nella stragrande maggioranza dei casi.

  1. Le covariate possono essere di tale importanza sostanziale che devono esserci.
  2. La dimensione dell'effetto di una covariata può essere elevata, anche se non significativa.
  3. La covariata può influire su altri aspetti del modello.
  4. La covariata può far parte di come è stata formulata la tua ipotesi.

Se sei in una modalità molto esplorativa e la covariata non è importante in letteratura e la dimensione dell'effetto è piccola e la covariata ha scarso effetto sul tuo modello e la covariata non era nella tua ipotesi, probabilmente potresti eliminarla solo per semplicità .


6
Una situazione molto importante ma spesso trascurata è trattata qui dal # 4, ma lo spiegherò. Spesso - anzi di solito - dovresti voler confrontare i tuoi risultati con quelli dei precedenti lavoratori con dati simili. Se altri hanno trovato particolari covariate degne di essere incluse nei loro modelli, dovresti confrontare i tuoi risultati con i loro, indipendentemente dal fatto che le tue covariate raggiungano livelli di significatività (convenzionali). Tieni presente che i casi qui possono variare dai modelli di report che ritieni non siano (specialmente) validi per i modelli di report che ritieni siano validi.
Nick Cox,

1
Stavo decisamente propendendo a 'keep in' (e non facendo molto valore-p per le covariate in primo luogo), ma la tua risposta fa una lista di controllo molto bella (beh ... due) che una minoranza deve eliminare. La dimensione dell'effetto è qualcosa che non avevo considerato, e mentre consideravo le ipotesi mi piace molto che tu l'abbia incluso, per i motivi menzionati da @NickCox e semplicemente per scoraggiare la pesca.
AM

26

P


10
La lunga risposta è "sì"! +1 e un LOL.
Peter Flom - Ripristina Monica

Se non i valori p, quali sono gli altri motivi per rimuovere i predittori? Lei menziona l'interpretazione degli intervalli di confidenza, ma sembra che un "intervallo interessante" sia zero, il che significa che le persone interpreterebbero gli IC come valori p (inclusione o esclusione di zero).
Mark White,

1
Quali sono i motivi per rimuovere i predittori quando questo distorce le proprietà statistiche? Non chiaro sulla tua domanda e lo "zero".
Frank Harrell,

7

Un'intuizione utile è che non c'è davvero nulla di specifico su una covariata dal punto di vista statistico, vedi ad esempio Aiuto nella scrittura di covariate nella formula di regressione . Per inciso, potrebbe spiegare perché non esiste un covariatetag. Di conseguenza, il materiale qui e altrove sui termini non significativi in ​​un modello lineare è rilevante, così come i ben noti critici della regressione graduale, anche se ANCOVA non è esplicitamente menzionato.

In generale, è una cattiva idea selezionare i predittori in base al solo significato. Se per qualche motivo non è possibile specificare in anticipo il modello, è necessario prendere in considerazione altri approcci, ma se si prevede di includerli in primo luogo, raccogliere i dati di conseguenza e non affrontare problemi specifici (ad esempio collinearità), conservarli.

Per quanto riguarda i motivi per mantenerli, le obiezioni che hai sollevato mi sembrano sane. Un altro motivo sarebbe che la rimozione di predittori non significativi distorce le inferenze in base al modello. Un altro modo per esaminare tutto ciò è quello di chiedere cosa si otterrebbe rimuovendo queste covariate dopo il fatto.


4

Abbiamo davvero bisogno di maggiori informazioni sui tuoi obiettivi per rispondere a questa domanda. Le regressioni vengono utilizzate per due scopi principali:

  1. Predizione
  2. Inferenza

La previsione è quando il tuo obiettivo è quello di poter indovinare i valori della variabile di risultato per le osservazioni che non sono nel campione (sebbene di solito rientrino nell'intervallo dei dati del campione, altrimenti a volte usiamo la parola "previsione"). La previsione è utile per scopi pubblicitari, finanziari, ecc. Se sei solo interessato a prevedere alcune variabili di risultato, ho poco da offrirti.

L'inferenza è dove si trova il divertimento (anche se non è dove sono i soldi). L'inferenza è dove stai cercando di trarre conclusioni su parametri specifici del modello, di solito per determinare un effetto causale di una variabile su un'altra. Nonostante la percezione comune, l'analisi di regressione non è mai sufficiente per l'inferenza causale. Devi sempre sapere di più sul processo di generazione dei dati per sapere se la tua regressione acquisisce l'effetto causale. Il problema chiave per l'inferenza causale dalle regressioni è se la media condizionale dell'errore (condizionata dai regressori) è zero. Questo non può essere noto dai valori p sui regressori. È possibile avere stimatori della regressione che siano imparziali o coerenti, ma ciò richiede uno sforzo molto maggiore rispetto al semplice lancio di alcuni controlli ovvi nella regressione e alla speranza di ottenere quelli importanti.Mastering 'Metrics: The Path from Cause to Effect and Mostly Harmless Econometrics ). La padronanza delle metriche è la lettura più semplice ed è abbastanza economica, ma tieni presente che non è un trattamento di come fare regressioni ma piuttosto di cosa significano. Per una buona copertura di esempi di progetti di ricerca osservativa buona e cattiva, raccomando "Statistical Models and Scar Leather" di David Freedman (1991), Metodologia sociologica , volume 21 (una breve e facile lettura con esempi affascinanti).

A parte: l'ossessione per la tecnica statistica sulla buona progettazione della ricerca nella maggior parte dei corsi universitari è una mia idea pedagogica.

In secondo luogo per motivare l'importanza attuale di questo problema: la differenza tra previsione e inferenza è il motivo per cui i big data non sostituiscono la scienza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.