Sto conducendo un'analisi in cui l'obiettivo principale è comprendere i dati. Il set di dati è abbastanza grande per la convalida incrociata (10k) e i predittori includono variabili continue e fittizie e il risultato è continuo. L'obiettivo principale era vedere se ha senso eliminare alcuni predittori, al fine di rendere il modello più facile da interpretare.
Domande:
La mia domanda è "quali vari spiegano il risultato e sono una parte" abbastanza forte "di quella spiegazione". Ma per selezionare il parametro lambda per il lazo, si usa la convalida incrociata, vale a dire la validità predittiva come criterio. Quando si fa l'inferenza, la validità predittiva è un proxy abbastanza buono per la domanda generale che sto ponendo?
Supponiamo che LASSO abbia mantenuto solo 3 su 8 predittori. E ora mi chiedo: "che effetto hanno questi sul risultato". Ad esempio, ho trovato una differenza di genere. Dopo il restringimento del lazo, il coefficiente suggerisce che le donne ottengono 1 punto in più rispetto agli uomini. Ma senza il restringimento (cioè, sul set di dati effettivo), ottengono 2,5 punti in più.
- Quale prenderei come il mio "reale" effetto di genere? Andando solo per validità predittiva, sarebbe il coefficiente ridotto.
- O in un contesto, dire che sto scrivendo un rapporto per le persone non ben informate nelle statistiche. Quale coefficiente dovrei riferire loro?