Come affrontare l'analisi esplorativa dei dati e il dragaggio dei dati negli studi su piccoli campioni?


25

L'analisi dei dati esplorativi (EDA) spesso porta ad esplorare altre "tracce" che non appartengono necessariamente alla serie iniziale di ipotesi. Devo affrontare una situazione del genere nel caso di studi con una dimensione del campione limitata e molti dati raccolti attraverso diversi questionari (dati socio-demografici, scale neuropsicologiche o mediche - ad esempio, funzionamento mentale o fisico, livello di depressione / ansia, lista di controllo dei sintomi ). Succede che l'EDA aiuti ad evidenziare alcune relazioni inattese ("inattese" nel senso che non sono state incluse nel piano di analisi iniziale) che si traducono in ulteriori domande / ipotesi.

Come nel caso del sovradimensionamento, il dragaggio o lo snoop dei dati porta a risultati che non si generalizzano. Tuttavia, quando sono disponibili molti dati, è abbastanza difficile (per il ricercatore o il medico) postulare una serie limitata di ipotesi.

Vorrei sapere se esistono metodi, raccomandazioni o regole empiriche ben noti che possono aiutare a delineare l'EDA nel caso di studi su piccoli campioni.


Non sono del tutto sicuro del perché le dimensioni del tuo campione siano importanti. Puoi offrire un ragionamento più specifico sul perché pensi che sia diverso per la piccola n che per la grande n?
Andy W,

2
13<n<25nσ

Penso di poter capire quel sentimento se ciò che ti interessa è solo la classificazione. Penso che per inferenza causale i problemi con lo snooping dei dati siano gli stessi (vale a dire che i problemi non sono risolti da un maggiore potere di identificare le relazioni). Proverò a formulare questa opinione in una risposta. Nel frattempo potrei porre una domanda sul forum principale sull'uso della convalida incrociata per l'inferenza causale, dato che non ho trovato nessun lavoro nel mio campo che lo faccia.
Andy W,

1
@ Grazie Grazie. Eventualmente, la tua domanda riceverà molte risposte interessanti.
chl

Risposte:


10

Penso che la cosa principale sia essere onesti nel riferire tali risultati che erano risultati inaspettati dall'EDA e non parte del piano di analisi iniziale basato su un'ipotesi a priori . Ad alcune persone piace etichettare tali risultati come "generazione di ipotesi": ad esempio, il primo risultato di una ricerca di questa frase su Google Scholar include quanto segue nella sezione di conclusione del suo abstract:

Trattandosi di un'analisi "esplorativa", questo effetto dovrebbe essere considerato come ipotesi generante e valutato in modo prospettico in altri studi ...

Si noti che sebbene si trattasse di un'analisi post-hoc per sottogruppi, proveniva da uno studio randomizzato di controllo, non da uno studio osservazionale, in cui il problema peggiora. Philip Cole ha disprezzato l'idea che studi osservazionali ("epidemiologici") possano generare ipotesi in un commento deliberatamente provocatorio ma divertente:

P Cole. La macchina generatrice di ipotesi. Epidemiologia 1993; 4 : 271-273.


+1 Grazie per il link (e il retag). Guarderò in questa direzione.
chl

13

Lascio cadere alcuni riferimenti sul dragaggio dei dati e sugli studi clinici per il lettore interessato. Questo ha lo scopo di estendere la risposta eccellente di @onestop . Ho cercato di evitare articoli incentrati solo su confronti multipli o problemi di progettazione, anche se gli studi con più endpoint continuano a presentare discussioni stimolanti e controverse (molto tempo dopo le affermazioni di Rothman su aggiustamenti inutili , Epidemiologia 1990, 1: 43-46; oppure vedi la recensione di Feise su BMC Metodologia della ricerca medica 2002, 2: 8).

La mia comprensione è che, sebbene abbia parlato dell'analisi dei dati esplorativi , la mia domanda riguarda più in generale l'uso del data mining, con le sue potenziali insidie, in parallelo ai test basati sulle ipotesi.

  1. Koh, HC e Tan, G (2005). Applicazioni di data mining nel settore sanitario . Journal of Healthcare Information Management , 19 (2), 64-72.
  2. Ioannidis, JPA (2005). Perché la maggior parte dei risultati di ricerca pubblicati sono falsi . PLoS Medicine , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH e Burnham, KP (2001). Suggerimenti per la presentazione dei risultati dell'analisi dei dati . The Journal of Wildlife Management , 65 (3), 373-378. - questo fa eco al commento di @onestop sul fatto che dobbiamo riconoscere l'esplorazione / modellizzazione basata sui dati oltre l'insieme iniziale di ipotesi
  4. Michels, KB e Rosner, BA (1996). Sciabica di dati: pescare o non pescare . Lancetta , 348, 1152-1153.
  5. Lord, SJ, Gebski, VJ e Keech, AC (2004). Analisi multiple negli studi clinici: scienza del suono o dragaggio dei dati? . The Medical Journal of Australia , 181 (8), 452-454.
  6. Smith, GD ed Ebrahim, S (2002). Dragaggio, distorsione o confusione dei dati . BMJ , 325, 1437-1438.
  7. Afshartous, D and Wolf, M (2007). Evitare lo "snooping dei dati" nei modelli multilivello e misti . Giornale della Royal Statistical Society A , 170 (4), 1035-1059
  8. Anderson, DR, Burnham, KP, Gould, WR e Cherry, S (2001). Preoccupazioni per trovare effetti che sono in realtà falsi . Bollettino della società Widlife , 29 (1), 311-316.

Questo è solo un riassunto di ciò che ho letto finora. Ovviamente, non accetterò la mia risposta . Qualsiasi altro pensiero sarebbe molto apprezzato.
chl

Grazie per aver accettato la mia risposta chi, sebbene la tua lista di referenze sia molto migliore e più recente. Avrei davvero dovuto pensare a un paio di loro, dato che li avevo sul mio disco rigido, e
potrei
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.