Ho una domanda sulla selezione del modello e sulle prestazioni del modello nella regressione logistica. Ho tre modelli basati su tre diverse ipotesi. I primi due modelli (chiamiamoli z e x) hanno solo una variabile esplicativa in ciascun modello, e il terzo (chiamiamolo w) è più complicato. Sto usando AIC per la selezione delle variabili per il modello w e quindi AIC per confrontare quale dei tre modelli che spiegano meglio la variabile dipendente. Ho scoperto che il modello w ha l'AIC più basso e ora voglio fare alcune statistiche sulle prestazioni su quel modello per avere un'idea della potenza predittiva del modello. Dal momento che tutto ciò che so è che questo modello è migliore degli altri due, ma non quanto sia buono.
Da quando ho usato tutti i dati per apprendere il modello (per poter confrontare tutti e tre i modelli) come posso procedere con le prestazioni del modello? Da quello che ho raccolto non posso semplicemente fare una convalida incrociata di k-fold sul modello finale che ho ottenuto dalla selezione del modello usando AIC ma devo iniziare dall'inizio con tutte le variabili esplicative incluse, è corretto? Penserei che sia il modello finale che ho scelto con AIC che voglio sapere quanto funziona bene, ma mi rendo conto che mi sono allenato su tutti i dati in modo che il modello possa essere distorto. Quindi, se dovessi iniziare dall'inizio con tutte le variabili esplicative in tutte le pieghe otterrò diversi modelli finali per alcune pieghe, posso semplicemente scegliere il modello dalla piega che ha dato il miglior potere predittivo e applicarlo al set completo di dati per confrontare AIC con gli altri due modelli (z e x)? O come funziona?
La seconda parte della mia domanda è una domanda di base sulla parametrizzazione eccessiva. Ho 156 punti dati, 52 è 1 il resto è 0. Ho 14 variabili esplicative tra cui scegliere per il modello w, mi rendo conto che non posso includere tutto a causa dell'eccessiva parametrizzazione, ho letto che dovresti usare solo il 10% del gruppo della variabile dipendente con il minor numero di osservazioni che sarebbe solo 5 per me. Sto cercando di rispondere a una domanda in ecologia, va bene selezionare le variabili di partenza che penso spiegano il meglio dipendente semplicemente in base all'ecologia? O come scegliere le variabili esplicative iniziali? Non sembra giusto escludere completamente alcune variabili.
Quindi ho davvero tre domande:
- Potrebbe essere giusto testare le prestazioni su un modello addestrato sul set di dati completo con validazione incrociata?
- In caso contrario, come scegliere il modello finale quando si esegue la convalida incrociata?
- Come faccio a scegliere le variabili di partenza, quindi desidero parametrizzare eccessivamente?
Ci scusiamo per le mie domande disordinate e la mia ignoranza. So che sono state poste domande simili ma mi sento ancora un po 'confuso. Apprezzo qualsiasi pensiero e suggerimento.