Da quanto ho capito, la selezione delle variabili basata su valori p (almeno nel contesto di regressione) è altamente imperfetta. Sembra che la selezione delle variabili basata su AIC (o simili) sia anche considerata imperfetta da alcuni, per ragioni simili, anche se questo sembra un po 'poco chiaro (ad esempio, vedi la mia domanda e alcuni link su questo argomento qui: Che cosa è esattamente la "selezione di modelli graduale"? ).
Ma supponiamo che tu scelga uno di questi due metodi per scegliere il miglior set di predittori nel tuo modello.
Burnham and Anderson 2002 (Selezione del modello e inferenza multimodello: un approccio teorico-informativo pratico, pagina 83) affermano che non si dovrebbe mescolare la selezione variabile basata su AIC con quella basata su test di ipotesi : "I test di ipotesi nulle e approcci teorici dell'informazione dovrebbero non essere usati insieme; sono paradigmi di analisi molto diversi ".
D'altra parte, Zuur et al. 2009 (Modelli di effetti misti con estensioni in ecologia con R, pagina 541) sembrano sostenere l'uso dell'AIC per trovare prima il modello ottimale, quindi eseguire la "messa a punto" usando il test di ipotesi : "Lo svantaggio è che l'AIC può essere conservativo e potrebbe essere necessario applicare una messa a punto (utilizzando i test di verifica dell'ipotesi dell'approccio uno) una volta che l'AIC abbia selezionato un modello ottimale. "
Puoi vedere come questo lascia confuso il lettore di entrambi i libri su quale approccio seguire.
1) Questi sono solo "campi" diversi del pensiero statistico e un argomento di disaccordo tra gli statistici? Uno di questi approcci è semplicemente "obsoleto" ora, ma era considerato appropriato al momento della stesura? O uno è semplicemente sbagliato dall'inizio?
2) Ci sarebbe uno scenario in cui questo approccio sarebbe appropriato? Ad esempio, vengo da un background biologico, dove spesso sto cercando di determinare quali, se del caso, le variabili sembrano influenzare o guidare la mia risposta. Ho spesso un numero di variabili esplicative candidate e sto cercando di trovare quali sono "importanti" (in termini relativi). Inoltre, si noti che l'insieme delle variabili predittive candidate è già ridotto a quelle considerate di rilevanza biologica, ma ciò può includere ancora 5-20 predittori candidati.