Approcci contrastanti alla selezione delle variabili: AIC, valori p o entrambi?


13

Da quanto ho capito, la selezione delle variabili basata su valori p (almeno nel contesto di regressione) è altamente imperfetta. Sembra che la selezione delle variabili basata su AIC (o simili) sia anche considerata imperfetta da alcuni, per ragioni simili, anche se questo sembra un po 'poco chiaro (ad esempio, vedi la mia domanda e alcuni link su questo argomento qui: Che cosa è esattamente la "selezione di modelli graduale"? ).

Ma supponiamo che tu scelga uno di questi due metodi per scegliere il miglior set di predittori nel tuo modello.

Burnham and Anderson 2002 (Selezione del modello e inferenza multimodello: un approccio teorico-informativo pratico, pagina 83) affermano che non si dovrebbe mescolare la selezione variabile basata su AIC con quella basata su test di ipotesi : "I test di ipotesi nulle e approcci teorici dell'informazione dovrebbero non essere usati insieme; sono paradigmi di analisi molto diversi ".

D'altra parte, Zuur et al. 2009 (Modelli di effetti misti con estensioni in ecologia con R, pagina 541) sembrano sostenere l'uso dell'AIC per trovare prima il modello ottimale, quindi eseguire la "messa a punto" usando il test di ipotesi : "Lo svantaggio è che l'AIC può essere conservativo e potrebbe essere necessario applicare una messa a punto (utilizzando i test di verifica dell'ipotesi dell'approccio uno) una volta che l'AIC abbia selezionato un modello ottimale. "

Puoi vedere come questo lascia confuso il lettore di entrambi i libri su quale approccio seguire.

1) Questi sono solo "campi" diversi del pensiero statistico e un argomento di disaccordo tra gli statistici? Uno di questi approcci è semplicemente "obsoleto" ora, ma era considerato appropriato al momento della stesura? O uno è semplicemente sbagliato dall'inizio?

2) Ci sarebbe uno scenario in cui questo approccio sarebbe appropriato? Ad esempio, vengo da un background biologico, dove spesso sto cercando di determinare quali, se del caso, le variabili sembrano influenzare o guidare la mia risposta. Ho spesso un numero di variabili esplicative candidate e sto cercando di trovare quali sono "importanti" (in termini relativi). Inoltre, si noti che l'insieme delle variabili predittive candidate è già ridotto a quelle considerate di rilevanza biologica, ma ciò può includere ancora 5-20 predittori candidati.


3
Mi chiedo quale sarebbe l'argomento statistico di Zuur per la messa a punto con test di ipotesi dopo la selezione AIC. Non sembra una strategia coerente di costruzione di modelli. Ma non ne so abbastanza di queste cose.
Richard Hardy,

2
Il mio sospetto è che il suggerimento di Zuur et al. Sia negativo (perché dovresti mai usare i test di significatività per la selezione del modello?), Anche se non sono sicuro che anche l'affermazione di Burnham e Anderson sia corretta. È una buona domanda, ma dovrei leggere più approfonditamente i dettagli tecnici di quanto non abbia letto finora per rispondere.
Kodiologo

Ho usato entrambi i metodi nei modelli per prevedere le vendite dei panel. La regressione all'indietro graduale basata su AIC sembrava dare risultati migliori dalla mia esperienza.
Souptik Dhar,

1
@SouptikDhar, quando dici risultati "migliori", in che modo intendi esattamente?
Fino al

Forse la risposta dipende dall'obiettivo dell'analisi? In uno studio osservazionale, potrebbe essere desiderabile trovare il modello più parcimoniale dato il set di dati, basandosi quindi sulla "selezione di variabili basata su AIC" per esempio. Tuttavia, se l'obiettivo è mettere alla prova un'ipotesi, allora il modello, essendo una traduzione dell'ipotesi in termini di proxy adeguati per le variabili di interesse per la nostra ipotesi, è già specificato dall'inizio, quindi non c'è spazio per selezione variabile IMHO?
Rodolphe,

Risposte:


6

Una breve risposta

L'approccio di fare la selezione o l'ottimizzazione del modello basata sui dati , quindi utilizzare metodi inferenziali standard sul modello selezionato / sintonizzato (à la Zuur et al. E molti altri ecologi rispettati come Crawley), darà sempre risultati eccessivamente ottimistici : fiducia eccessivamente ristretta intervalli (scarsa copertura), valori p eccessivamente piccoli (errore di tipo I elevato). Questo perché i metodi inferenziali standard presuppongono che il modello sia specificato a priori ; non tengono conto del processo di ottimizzazione del modello.

Questo è il motivo per cui ricercatori come Frank Harrell ( Regressione Modeling Strategies ) disapprovano fortemente le tecniche di selezione basate sui dati come la regressione graduale e avvertono che si deve fare una riduzione della complessità del modello ("riduzione dimensionale", ad es. Calcolare un PCA delle variabili predittive e selezionando i primi assi PCA come predittori) osservando solo le variabili predittive.

Se sei interessato solo a trovare il miglior modello predittivo (e non sei interessato a nessun tipo di stima attendibile dell'incertezza della tua previsione, che rientra nel regno dell'inferenza!), La regolazione del modello basata sui dati va bene (anche se la selezione graduale è raramente la migliore opzione disponibile); gli algoritmi di apprendimento automatico / di apprendimento statistico effettuano molte ottimizzazioni per cercare di ottenere il miglior modello predittivo. L'errore "test" o "out-of-sample" deve essere valutato su un campione separato, tenuto fuori, o qualsiasi metodo di ottimizzazione deve essere integrato in una procedura di validazione incrociata.

Sembra che ci sia stata un'evoluzione storica nelle opinioni su questo argomento; molti libri di testo statistici classici, in particolare quelli che si concentrano sulla regressione, presentano approcci graduali seguiti da procedure inferenziali standard senza tener conto degli effetti della selezione del modello [citazione necessaria ...]

Esistono molti modi per quantificare l'importanza delle variabili e non tutte rientrano nella trappola della selezione post-variabile.

  • Burnham e Anderson raccomandano di sommare i pesi AIC; c'è un po 'di disaccordo su questo approccio.
  • È possibile adattare il modello completo (con predittori adeguatamente ridimensionati / senza unità) e classificare i predittori in base all'entità stimata [dimensione dell'effetto biologico] o al punteggio Z ["chiarezza" / dimensione dell'effetto statistico].

1

Vengo da un background biologico e sono un biostatista assunto, che lavora in un ospedale universitario. Ho letto molto su questo, soprattutto di recente, comprese in particolare le opinioni di Harrell sul www e il suo libro Regression Modeling Strategies. Non citandolo più, ma parlando per esperienza: è fortemente legato al campo, penso che questo sia il primo livello che deve essere preso in considerazione. Il secondo livello sarebbe quello di ottenere un buon approccio razionale, nel senso che i tuoi predittori dovrebbero essere fondamentali per esprimere ciò che vuoi predire, per esperienza scientifica. Terzo sarebbe spiegare le interazioni, che è super cruciale e può essere affrontato con l'approccio statistico adottato o approfondimento. Solo il 4 ° è il metodo scelto, nel mio caso con i dati ospedalieri, che abbastanza spesso ha circa x * 10 ^ 3 punti dati e x * 10 ^ 1 osservazioni in es.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.