Ho un set di dati con circa 5.000 funzionalità / covariate spesso correlate e una risposta binaria. I dati mi sono stati forniti, non li ho raccolti. Uso il lazo e l'incremento gradiente per costruire modelli. Uso convalida incrociata nidificata iterata. Riporto i 40 coefficienti (assoluti) più grandi di Lasso e le 40 caratteristiche più importanti negli alberi potenziati con gradiente (non c'era nulla di speciale in 40; sembrava solo una ragionevole quantità di informazioni). Riporto anche la varianza di queste quantità tra le pieghe e le iterazioni del CV.
Mi ispiro alle caratteristiche "importanti", senza fare dichiarazioni sui valori p o sulla causalità o altro, ma invece considero questo processo una sorta di --- sebbene imperfetta e una sorta di visione casuale --- di alcuni fenomeni.
Supponendo di aver fatto tutto correttamente (ad es., Eseguito la validazione incrociata correttamente, ridimensionata per il lazo), questo approccio è ragionevole? Esistono problemi, ad esempio, test di ipotesi multiple, analisi post hoc, falsa scoperta? O altri problemi?
Obbiettivo
Prevedi la probabilità di un evento avverso
- Prima di tutto, stimare la probabilità con precisione
- Più secondario - come controllo di sanità mentale, ma anche forse per rivelare alcuni nuovi predittori che potrebbero essere investigati ulteriormente, ispezionare i coefficienti e le importazioni come menzionato sopra.
Consumatore
- I ricercatori interessati a prevedere questo evento e le persone che finiscono per dover riparare l'evento se si verifica
Quello che voglio che ne escano
Offri loro la possibilità di prevedere l'evento, se desiderano ripetere il processo di modellazione, come descritto, con i propri dati.
Fai luce su predittori inaspettati. Ad esempio, si potrebbe scoprire che qualcosa di completamente inaspettato è il miglior predittore. I modellisti altrove potrebbero quindi prendere in seria considerazione questo predittore.