Scoperti dati ad alta dimensione, correlati e principali caratteristiche / covariate; test di ipotesi multiple?


9

Ho un set di dati con circa 5.000 funzionalità / covariate spesso correlate e una risposta binaria. I dati mi sono stati forniti, non li ho raccolti. Uso il lazo e l'incremento gradiente per costruire modelli. Uso convalida incrociata nidificata iterata. Riporto i 40 coefficienti (assoluti) più grandi di Lasso e le 40 caratteristiche più importanti negli alberi potenziati con gradiente (non c'era nulla di speciale in 40; sembrava solo una ragionevole quantità di informazioni). Riporto anche la varianza di queste quantità tra le pieghe e le iterazioni del CV.

Mi ispiro alle caratteristiche "importanti", senza fare dichiarazioni sui valori p o sulla causalità o altro, ma invece considero questo processo una sorta di --- sebbene imperfetta e una sorta di visione casuale --- di alcuni fenomeni.

Supponendo di aver fatto tutto correttamente (ad es., Eseguito la validazione incrociata correttamente, ridimensionata per il lazo), questo approccio è ragionevole? Esistono problemi, ad esempio, test di ipotesi multiple, analisi post hoc, falsa scoperta? O altri problemi?

Obbiettivo

Prevedi la probabilità di un evento avverso

  • Prima di tutto, stimare la probabilità con precisione
  • Più secondario - come controllo di sanità mentale, ma anche forse per rivelare alcuni nuovi predittori che potrebbero essere investigati ulteriormente, ispezionare i coefficienti e le importazioni come menzionato sopra.

Consumatore

  • I ricercatori interessati a prevedere questo evento e le persone che finiscono per dover riparare l'evento se si verifica

Quello che voglio che ne escano

  • Offri loro la possibilità di prevedere l'evento, se desiderano ripetere il processo di modellazione, come descritto, con i propri dati.

  • Fai luce su predittori inaspettati. Ad esempio, si potrebbe scoprire che qualcosa di completamente inaspettato è il miglior predittore. I modellisti altrove potrebbero quindi prendere in seria considerazione questo predittore.


Sarebbe utile sapere qual è l'intento qui. Hai fatto queste cose, perché? Chi è il consumatore e cosa vuoi che escano dall'analisi?
Matthew Drury,

Risposte:


2

Non ci sono problemi con l'accuratezza delle previsioni. L'incertezza nelle tue previsioni è stimata bene dalla crossvalidation. Forse un avvertimento è che se testate molte impostazioni dei parametri, sopravvalutate l'accuratezza, quindi dovreste usare un set di validazione per stimare l'accuratezza del vostro modello finale. Inoltre, i tuoi dati dovrebbero essere rappresentativi dei dati su cui farai delle previsioni.

È chiaro per te, e dovrebbe essere chiaro al lettore, che i tuoi predittori non sono cause dell'effetto, sono solo predittori che fanno una buona previsione e funzionano bene empiricamente. Sebbene io sia completamente d'accordo con la tua cautela, inferire qualsiasi causalità dai dati osservativi è comunque problematico. Cose come il significato e tali sono concetti "validi" in studi ben progettati e controllati, e al di fuori di essi sono semplicemente strumenti che tu e gli altri dovreste interpretare saggiamente e con cautela. Possono esserci cause comuni, effetti spuri, mascheramento e altre cose che si verificano in una normale regressione lineare con intervalli di confidenza riportati, nonché in un modello di lazo, nonché in un modello di albero potenziato con gradiente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.