Le comuni procedure di selezione delle variabili basate su dati (ad esempio, avanti, indietro, per gradi, tutti i sottoinsiemi) tendono a produrre modelli con proprietà indesiderate, tra cui:
- Coefficienti distorti da zero.
- Errori standard troppo piccoli e intervalli di confidenza troppo stretti.
- Testare statistiche e valori p che non hanno il significato pubblicizzato.
- Stime di adattamento del modello eccessivamente ottimistiche.
- Termini inclusi che possono essere insignificanti (ad esempio, esclusione di termini di ordine inferiore).
Tuttavia, persistono procedure di selezione variabili. Dati i problemi con la selezione delle variabili, perché sono necessarie queste procedure? Cosa motiva il loro uso?
Alcune proposte per iniziare la discussione ....
- Il desiderio di coefficienti di regressione interpretabili? (Sbagliato in un modello con molti IV?)
- Eliminare la varianza introdotta da variabili irrilevanti?
- Eliminare inutili covarianze / ridondanze tra le variabili indipendenti?
- Ridurre il numero di stime dei parametri (problemi di potenza, dimensione del campione)
Ce ne sono altri? I problemi affrontati dalle tecniche di selezione delle variabili sono più o meno importanti di quelli che introducono le procedure di selezione delle variabili? Quando dovrebbero essere usati? Quando non dovrebbero essere usati?