L'idea dell'analisi adattativa dei dati è che si modifica il piano di analisi dei dati man mano che si apprendono ulteriori informazioni al riguardo. Nel caso dell'analisi esplorativa dei dati (EDA), questa è generalmente una buona idea (stai spesso cercando modelli imprevisti nei dati), ma per uno studio di conferma, questo è ampiamente accettato come un metodo di analisi molto imperfetto (a meno che tutti i passaggi sono chiaramente definiti e adeguatamente pianificati in anticipo).
Detto questo, l'analisi adattativa dei dati è in genere il numero di ricercatori che conducono effettivamente le loro analisi, con grande disappunto degli statistici. In quanto tale, se si potesse farlo in maniera statistica valida, rivoluzionerebbe la pratica statistica.
Il seguente articolo di Science afferma di aver trovato un metodo per farlo (mi scuso per il paywall, ma se sei in un'università, probabilmente hai accesso): Dwork et al, 2015, The riutilizzabile holdout: preservare la validità nell'analisi adattativa dei dati .
Personalmente, sono sempre stato scettico sugli articoli statistici pubblicati su Science , e questo non è diverso. In effetti, dopo aver letto l'articolo due volte, incluso il materiale supplementare, non riesco a capire (affatto) perché gli autori sostengono che il loro metodo impedisce un adattamento eccessivo.
La mia comprensione è che hanno un set di dati di controllo, che potranno riutilizzare. Sembrano affermare "sfogliando" l'output dell'analisi di conferma sul set di dati di holdout, si eviterà il sovra-adattamento (vale la pena notare che il fuzzing sembra solo aggiungere rumore se la statistica calcolata sui dati di allenamento è sufficientemente lontana dalla statistica calcolata sui dati di controllo ). Per quanto ne so, non vi è alcun motivo reale per impedire un adattamento eccessivo.
Sbaglio su ciò che gli autori propongono? C'è qualche effetto sottile che sto trascurando? O la scienza ha approvato la peggiore pratica statistica fino ad oggi?