Quando eliminare un termine da un modello di regressione?


20

Qualcuno potrebbe avvisare se ha senso quanto segue:

Ho a che fare con un normale modello lineare con 4 predittori. Ho due menti se abbandonare il termine meno significativo. Il valore è leggermente superiore a 0,05. Ho discusso a favore di lasciarlo cadere in questo modo: moltiplicare la stima di questo termine per (ad esempio) l'intervallo interquartile dei dati del campione per questa variabile, dà un significato all'effetto clinico che il mantenimento di questo termine ha sul modello globale . Dato che questo numero è molto basso, approssimativamente uguale all'intervallo tipico di valori infragiornalieri che la variabile può assumere quando la misura in un contesto clinico, lo vedo come non clinicamente significativo e potrebbe quindi essere lasciato cadere per dare un modello più parsimonioso, anche sebbene la caduta riduca un po ' l' regolato .R 2pR2


1
perché cerchi un modello più parsimonioso?
Michael Bishop,

3
La parsimonia non è una buona cosa in sé? Per come la vedo io, un modello con variabili che aggiungono poca o nessuna potenza esplicativa in senso clinico, è peggio di un modello più piccolo senza quelle variabili, anche se quelle variabili sono significative in senso statistico
P Sellaz,

Ho deciso di scrivere una risposta: stats.stackexchange.com/questions/17624/… . Ma insomma, no, non penso che la parsimonia sia una cosa positiva in sé. A volte è utile per motivi specifici.
Michael Bishop,

1
Sono d'accordo con Michael. È meglio includere variabili senza apparente capacità esplicativa se si fosse data loro la possibilità di essere "significative"; hai già trascorso quei gradi di libertà.
Frank Harrell,

Tieni presente che i predittori che non sono regressori significativi possono comunque contribuire con importi diversi da zero alla varianza spiegata nel caso di regressori correlati, influenzando altri regressori significativi. Soprattutto con solo quattro predittori, se i regressori sono correlati, direi a favore di mantenere quello non significativo nel modello.
Torvon,

Risposte:


18

Non ho mai capito il desiderio di parsimonia. La ricerca della parsimonia distrugge tutti gli aspetti dell'inferenza statistica (distorsione dei coefficienti di regressione, errori standard, intervalli di confidenza, valori P). Un buon motivo per mantenere le variabili è che ciò preserva l'accuratezza degli intervalli di confidenza e di altre quantità. Pensala in questo modo: sono stati sviluppati solo due stimatori imparziali della varianza residua nella regressione multipla ordinaria: (1) la stima dal modello (grande) pre-specificato e (2) la stima da un modello ridotto che sostituisce i gradi generalizzati di libertà (GDF) per gradi di libertà apparenti (ridotti) di regressione. GDF sarà molto più vicino al numero di parametri candidati che al numero di parametri "significativi" finali.

Ecco un altro modo di pensarci. Supponiamo che stavi facendo un ANOVA per confrontare 5 trattamenti, ottenendo un test F a 4 giorni. Quindi, per qualche motivo, osservi le differenze a coppie tra i trattamenti usando i test t e decidi di combinare o rimuovere alcuni dei trattamenti (è lo stesso che fare una selezione graduale usando P, AIC, BIC, Cp sulle 4 variabili fittizie). Il test F risultante con 1, 2 o 3 df avrà un errore di tipo I gonfiato. Il test F originale con 4 df conteneva una perfetta regolazione della molteplicità.


3
+1 La parsimonia è qualcosa che spesso ha senso solo in contesti molto specifici. Non c'è motivo di giocare al gioco bias vs. precision se hai abbastanza precisione per fare entrambe le cose.
Fomite

2
+1 per un'ottima risposta. Ma cosa succede se si dispone di multicollinearità e la rimozione di una variabile la riduce? (Questo non è il caso della domanda originale, ma spesso è presente in altri dati). Il modello risultante non è spesso superiore in tutti i modi (ridurre la varianza degli stimatori, i segni dei coefficienti hanno maggiori probabilità di riflettere la teoria sottostante, ecc.)? Se usi ancora i gradi di libertà corretti (modello originale).
Peter Ellis,

4
È ancora meglio includere entrambe le variabili. L'unico prezzo da pagare è l'aumento dell'errore standard nella stima di uno degli effetti della variabile corretto per l'altro. I test congiunti delle due variabili collineari sono molto potenti in quanto combinano le forze invece di competere l'una contro l'altra. Inoltre, se si desidera eliminare una variabile, i dati non sono in grado di dirti quale eliminare.
Frank Harrell,

17

Queste risposte sulla selezione delle variabili presuppongono tutte che il costo dell'osservazione delle variabili sia 0.

E questo non è vero.

Mentre la questione della selezione di variabili per un determinato modello può o meno implicare la selezione, le implicazioni per il comportamento futuro coinvolgono la selezione.

Considera il problema di prevedere quale guardalinee del college farà meglio nella NFL. Sei uno scout. Devi considerare quali qualità degli attuali guardalinee della NFL sono più predittive del loro successo. Misuri 500 quantità e inizi il compito di selezionare le quantità che saranno necessarie in futuro.

Cosa dovresti fare Dovresti conservare tutti i 500? Alcuni (segno zodiacale, giorno della settimana nato il) dovrebbero essere eliminati?

Questa è una domanda importante e non è accademica. L'osservazione dei dati comporta un costo e il quadro di efficacia in termini di costi suggerisce che alcune variabili NON DEVONO essere osservate in futuro, poiché il loro valore è basso.


4
+1: un punto importante e interessante. Rivela anche che la domanda è incompleta, perché non indica lo scopo del modello. (I costi sarebbero meno rilevanti per un modello scientifico che cerca di costruire una teoria esplicativa ma che emergerebbe in un modello predittivo destinato a un uso ripetuto.)
whuber

6

Esistono almeno altri due possibili motivi per mantenere una variabile: 1) Influisce sui parametri di ALTRE variabili. 2) Il fatto che sia piccolo è clinicamente interessante in sé

Per vedere circa 1, puoi guardare i valori previsti per ogni persona da un modello con e senza la variabile nel modello. Suggerisco di creare un diagramma a dispersione di questi due insiemi di valori. Se non ci sono grandi differenze, questo è un argomento contro questo motivo

Per 2, pensa al motivo per cui hai avuto questa variabile nell'elenco delle possibili variabili. Si basa sulla teoria? Altre ricerche hanno riscontrato effetti di grandi dimensioni?


C'è poca collinearità di cui parlare, quindi la rimozione di questa variabile non fa molta differenza per le altre. Questo è un punto interessante sul fatto che è clinicamente interessante se fosse piccolo. I dati provengono da un sondaggio esplorativo in cui, almeno in questa fase, non vi è motivo di aspettarsi che una variabile sia più significativa di qualsiasi altra. Tuttavia, c'è una fluttuazione infragiornaliera in questa variabile, quindi a prima vista, se un effetto era di dimensioni simili a questa fluttuazione, non mi sembra molto clinicamente significativo.
P Sellaz,

OK, allora sembra un buon candidato per la rimozione.
Peter Flom - Ripristina Monica

@P Sellaz - se "i dati provengono da un sondaggio esplorativo" significa che i partecipanti si sono selezionati? Trovo che i commenti di @Frank Harrell siano qualcosa da non sottovalutare, ma la preoccupazione per l'accuratezza dei valori p, degli intervalli di confidenza, ecc. Diventa discutibile se il campione è stato auto-selezionato.
rolando2,

Penso che diventi discutibile solo se non li stai usando.
Frank Harrell,

@FrankHarrel - per favore chiarisci: "them" =?
rolando2,

6

Il consiglio più comune in questi giorni è quello di ottenere l'AIC dei due modelli e prendere quello con l'AIC inferiore. Quindi, se il tuo modello completo ha un AIC di -20 e il modello senza il predittore più debole ha un AIC> -20, mantieni il modello completo. Alcuni potrebbero obiettare che se la differenza <3 si mantiene quella più semplice. Preferisco il consiglio che potresti usare il BIC per rompere i "legami" quando gli AIC si trovano entro 3 l'uno dall'altro.

Se stai usando R poi il comando per ottenere l'AIC è ... AIC.

Ho un libro di testo sulla modellazione qui dei primi anni '90 che suggerisce che lasci cadere tutti i tuoi predittori che non sono significativi. Tuttavia, ciò significa che cadrai indipendentemente dalla complessità che il predittore aggiunge o sottrae dal modello. È anche solo per ANOVA in cui viene spiegato il significato della variabilità piuttosto che l'entità della pendenza alla luce di ciò che è stato spiegato. I consigli più moderni sull'uso di AIC tengono conto di questi fattori. Esistono tutti i tipi di motivi per cui il predittore non significativo deve essere incluso anche se non è significativo. Ad esempio, potrebbero esserci problemi di correlazione con altri predittori in quanto potrebbe essere un predittore relativamente semplice. Se vuoi il consiglio più semplice, vai con AIC e usa BIC per rompere i legami e usare una differenza di 3 come finestra di uguaglianza.


Più piccolo è meglio nella rappresentazione R, sì?
Aaron - Ripristina Monica il

Grazie per la tua risposta. Ho scoperto che la differenza in AIC tra i due modelli è solo di 2.
P Sellaz,

Il modello più piccolo ha un AIC leggermente più grande e un AIC BIC: AIC grande-piccolo = -2 BIC: BIC grande-piccolo- 7.8
P Sellaz

Aaron .. oops ... inferiore, fisso ...
Giovanni

1
Giusto per chiarire qualcosa, questo termine aggiuntivo è solo un'altra covariata e la collinearità è molto scarsa.
P Sellaz,

4

Per cosa stai usando questo modello? La parsimonia è un obiettivo importante?

Modelli più parsimoniosi sono preferiti in alcune situazioni, ma non direi che la parsimonia è una cosa positiva in sé. I modelli parsimoniosi possono essere compresi e comunicati più facilmente, e la parsimonia può aiutare a evitare un eccesso di adattamento, ma spesso queste problematiche non rappresentano problemi importanti o possono essere affrontate in altro modo.

Avvicinarsi dalla direzione opposta, incluso un termine aggiuntivo in un'equazione di regressione, presenta alcuni benefici anche in situazioni in cui il termine extra stesso non è di interesse e non migliora molto il modello in forma ... potresti non pensare che sia è una variabile importante da controllare, ma altri potrebbero. Naturalmente, ci sono altre ragioni sostanziali molto importanti per escludere una variabile, ad esempio potrebbe essere causata dal risultato.


3

Dalle tue parole sembra che tu sia propenso a lasciare l'ultimo predittore perché il suo valore predittivo è basso; un cambiamento sostanziale su quel predittore non implicherebbe un cambiamento sostanziale sulla variabile di risposta. In tal caso, mi piace questo criterio per includere / eliminare il predittore. È più radicato nella realtà pratica di quanto l'AIC o il BIC possano essere e più spiegabile al tuo pubblico per questa ricerca.


Sì, questo è esattamente ciò che intendevo.
P Sellaz,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.