Perché applicare la selezione del modello usando AIC mi dà valori p non significativi per le variabili


14

Ho alcune domande sull'AIC e spero che tu mi possa aiutare. Ho applicato la selezione del modello (indietro o avanti) in base all'AIC sui miei dati. E alcune delle variabili selezionate hanno finito con un p-value> 0,05. So che le persone stanno dicendo che dovremmo selezionare modelli basati sull'AIC anziché sul valore p, quindi sembra che l'AIC e il valore p siano due concetti di differenza. Qualcuno potrebbe dirmi qual è la differenza? Quello che ho capito finora è che:

  1. Per la selezione all'indietro utilizzando l'AIC, supponiamo di avere 3 variabili (var1, var2, var3) e l'AIC di questo modello è AIC *. Se l'esclusione di una di queste tre variabili non si tradurrebbe in un AIC significativamente inferiore a AIC * (in termini di distribuzione ch-square con df = 1), si direbbe che queste tre variabili sono i risultati finali.

  2. Un valore p significativo per una variabile (ad es. Var1) in un modello a tre variabili significa che la dimensione dell'effetto standardizzata di quella variabile è significativamente diversa da 0 (secondo Wald, o t-test).

Qual è la differenza fondamentale tra questi due metodi? Come posso interpretarlo se ci sono alcune variabili che hanno valori p non significativi nel mio modello migliore (ottenuto tramite l'AIC)?

Risposte:


13

AIC e le sue varianti sono più vicine alle variazioni su e sui valori di p di ciascun regressore. Più precisamente, sono versioni penalizzate della verosimiglianza.R2

Non vuoi testare le differenze di AIC usando il chi-quadrato. È possibile verificare le differenze della verosimiglianza usando il chi-quadrato (se i modelli sono nidificati). Per AIC, inferiore è meglio (nella maggior parte delle implementazioni, comunque). Non sono necessari ulteriori aggiustamenti.

Volete davvero evitare metodi di selezione automatica dei modelli, se possibile. Se devi usarne uno, prova LASSO o LAR.


2
Grazie per la risposta. Si hai ragione. AIC non applica alcun test, invece, fornisce una semplice misura di quanto il modello si adatta al campione e se anche il modello può essere mantenuto semplice, aggiungendo -2 * loglikelihood con 2 * number_of_parameters. Forse questo spiega perché le variabili con valori p non significativi sono state mantenute nel modello selezionato?
tiantianchen,

Quale modello dovremmo scegliere se abbiamo due modelli con AIC quasi identico, ma in uno abbiamo termini più significativi rispetto all'altro?
Agus Camacho

Qualunque cosa tu voglia.
Peter Flom - Ripristina Monica

11

χ12 oltre 2 ... che è il 15,7%)

Quindi non sorprende se lo confronti con l'uso di un valore soglia più piccolo per i valori p che a volte include variabili con valori p più alti di quel valore soglia.


puoi indicarmi un URL o un riferimento per la connessione tra valori AIC e valori p tramite Wal-chi-square? Grazie.
Meh,

Ciò è relativamente facile da mostrare usando il valore 2 come valore critico, che corrisponde a una soglia del valore p del 15,73% (quando i gradi di libertà del test sono 1, come nel caso della selezione graduale mediante regressione lineare modelli e variabili continue). Questo può essere calcolato come 1-chi2cdf (2,1).
George,

@aginensky Non ha visto un riferimento reale, sebbene la connessione sia semplice. Immagino di poterne andare su Google, aspetta.
Glen_b

@aginensky Lindsey, JK & Jones, B. (1998) Scelta tra modelli lineari generalizzati applicati a dati medici. Statistica in medicina , 17, 59-68. ... vedi la metà di pagina 62. Ci sarebbe di più.
Glen_b

@ Glen_b- grazie, non avevo mai visto niente del genere prima.
meh

9

Si noti che né i valori p né AIC sono stati progettati per la selezione del modello graduale, in realtà le assunzioni alla base di entrambi (ma ipotesi diverse) vengono violate dopo il primo passo di una regressione graduale. Come menzionato da @PeterFlom, LASSO e / o LAR sono alternative migliori se si sente la necessità di una selezione automatica del modello. Quei metodi riportano le stime che sono grandi per caso (che ricompensa gradualmente per caso) indietro verso 0 e quindi tendono ad essere meno distorte rispetto a quelle graduali (e il pregiudizio rimanente tende ad essere più conservativo).

Un grosso problema con AIC che viene spesso trascurato è la dimensione della differenza nei valori AIC, è tutto comune vedere "abbassare è meglio" e fermarsi lì (e i procedimenti automatizzati sottolineano solo questo). Se stai confrontando 2 modelli e hanno valori AIC molto diversi, allora c'è una chiara preferenza per il modello con AIC inferiore, ma spesso avremo 2 (o più) modelli con valori AIC vicini l'uno all'altro, in in questo caso, usando solo il modello con il valore AIC più basso, si perderanno informazioni preziose (e dedurre cose sui termini che sono o meno in questo modello ma differiscono negli altri modelli simili sarà insignificante o peggiore). Le informazioni al di fuori dei dati stessi (come quanto sia difficile / costoso) raccogliere l'insieme delle variabili predittive) possono rendere un modello con AIC leggermente superiore più desiderabile da usare senza molta perdita di qualità. Un altro approccio consiste nell'utilizzare una media ponderata dei modelli simili (ciò comporterà probabilmente previsioni finali simili ai metodi penalizzati come la regressione della cresta o il lazo, ma il processo di pensiero che porta al modello potrebbe aiutare a comprendere).


Grazie @GregSnow per la tua risposta. Posso chiedere quali sono le (diverse) ipotesi per la selezione del modello basato su valore p e AIC? Applicare una bi-direzione (avanti / indietro) o provare un sottoinsieme completo risolverà più o meno il problema di trovare il modello locale ottimale di semplicemente utilizzando una selezione graduale in avanti o indietro? (anche se il problema del sovradimensionamento esiste sempre nel metodo AIC / p-value e LASSO e / o LAR è un'opzione migliore)
tiantianchen

Poiché né i valori p né AIC sono stati progettati per la selezione del modello, non hanno presupposti per la selezione del modello. Entrambi sono stati progettati per fare un unico confronto, pensare a quanti confronti avvengono in una regressione graduale, pensi davvero che il passo "migliore" venga fatto ogni volta?
Greg Snow,

@GregSnow. Il mio riferimento per l'apprendimento dell'AIC era questo: stat.cmu.edu/~larry/=stat705/Lecture16.pdf che sembra mettere AIC nel settore della selezione dei modelli. Inoltre, quando ho visto AIC utilizzato nei modelli arima di serie storiche, è stato sempre utilizzato per la selezione dei modelli.
Meh,

@aginensky, Sì, AIC (e altri) vengono utilizzati per la selezione del modello. Ciò non significa che AIC sia stato designato per la selezione del modello o che sia persino appropriato per la selezione del modello o che la selezione automatica del modello risponda a una domanda significativa. Ho usato un cacciavite come martello prima, ciò non significa che sia una buona idea in generale.
Greg Snow,

"Questo documento descrive come il problema della selezione del modello statistico possa essere sistematicamente gestito utilizzando un criterio di informazione (AIC) introdotto dall'autore nel 1971" di Akaike, "Un nuovo sguardo all'identificazione del modello statistico". Quindi, anche se AIC è un martello utilizzato su un problema che è meglio risolto da un cacciavite, era opinione del progettista di questo martello, che un martello fosse il modo corretto di risolvere questo problema. Correttamente o erroneamente, AIC è stato progettato per la selezione del modello. Sarei felice di vedere una visione diversa di AIC. Sentiti libero di rispondere, ma ho finito.
Meh,

1

La mia esperienza con l'AIC è che se le variabili sembrano non significative, ma appaiono ancora nel modello con il più piccolo AIC, quelle risultano essere possibili confondenti.

Ti suggerisco di controllare se c'è confusione. La rimozione di tali variabili non significative dovrebbe modificare la magnetude di alcuni coefficienti stimati rimanenti di oltre il 25%.


Spiegare come OP "può verificare la presenza di confusione".
Jim,

0

Penso che la migliore selezione del modello sia usando il pacchetto MuMIn. Questo sarà il risultato immediato e non dovrai cercare i valori AIC più bassi. Esempio:

d<-read.csv("datasource")
library(MuMIn)
fit<-glm(y~x1+x2+x3+x4,family=poisson,data=d)
get.models(dredge(fit,rank="AIC"))[1]

2
Dire quale codice potresti usare non risponde realmente alla domanda a meno che tu non possa spiegare come questo affronta statisticamente la domanda. In ogni caso, nulla nella domanda è specifico di un determinato software.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.