Penso che questa sia un'ottima domanda; arriva al cuore del controverso "problema" di test multipli che affligge campi che vanno dall'epidemiologia all'econometria. Dopo tutto, come possiamo sapere se il significato che troviamo è spuria o no? Quanto è vero il nostro modello multivariabile?
In termini di approcci tecnici per compensare la probabilità di pubblicare variabili del rumore, concordo vivamente con "whuber" che utilizzare una parte del campione come dati di allenamento e il resto come dati di test sia una buona idea. Questo è un approccio che viene discusso nella letteratura tecnica, quindi se prendi il tempo puoi probabilmente trovare alcune buone linee guida per quando e come usarlo.
Ma per colpire più direttamente la filosofia dei test multipli, ti suggerisco di leggere gli articoli a cui faccio riferimento di seguito, alcuni dei quali supportano la posizione secondo cui l'adeguamento per test multipli è spesso dannoso (potenza dei costi), non necessario e potrebbe persino essere un errore logico . Io per primo non accetto automaticamente l'affermazione secondo cui la nostra capacità di indagare su un potenziale predittore è inesorabilmente ridotta dall'indagine di un altro. Il tasso di errore di tipo 1 a livello familiare può aumentare in quanto includiamo più predittori in un determinato modello, ma fintanto che non andiamo oltre i limiti delle dimensioni del campione, la probabilità di errore di tipo 1 per ogni individuoil predittore è costante; e il controllo dell'errore familiare non illumina quale variabile specifica è il rumore e quale no. Naturalmente, ci sono anche argomentazioni contrarie convincenti.
Quindi, fintanto che limiterai la tua lista di potenziali variabili a quelle che sono plausibili (cioè avrebbero percorsi noti per il risultato), allora il rischio di falsità è già gestito abbastanza bene.
Tuttavia, aggiungerei che un modello predittivo non si preoccupa tanto del "valore di verità" dei suoi predittori quanto di un modello causale ; potrebbe esserci una grande confusione nel modello, ma fintanto che spieghiamo un grande grado di varianza, non ci preoccupiamo troppo. Questo rende il lavoro più semplice, almeno in un certo senso.
Saluti,
Brenden, consulente biostatistico
PS: potresti voler fare una regressione di Poisson a gonfiamento zero per i dati che descrivi, invece di due regressioni separate.
- Perneger, TV Cosa c'è che non va nelle regolazioni di Bonferroni . BMJ 1998; 316: 1236
- Cook, RJ & Farewell, VT Considerazioni sulla molteplicità nella progettazione e nell'analisi di studi clinici . Giornale della Royal Statistical Society , Serie A 1996; Vol. 159, n. 1: 93-110
- Rothman, KJ Non sono necessari aggiustamenti per confronti multipli . Epidemiologia 1990; Vol. 1, n. 1: 43-46
- Marshall, JR Data dragaggio e rilevanza . Epidemiologia 1990; Vol. 1, n. 1: 5-7
- A volte sono utili le regolazioni Groenlandia, S. & Robins, JM Empirical-Bayes per confronti multipli . Epidemiologia 1991; Vol. 2, n. 4: 244-251