Hai ragione. Il problema dei confronti multipli esiste ovunque, ma, a causa del modo in cui viene generalmente insegnato, le persone pensano solo che si tratti di confrontare molti gruppi uno contro l'altro attraverso un intero gruppo di test- . In realtà, ci sono molti esempi in cui esiste il problema dei confronti multipli, ma in cui non sembrano molti confronti a coppie; per esempio, se hai molte variabili continue e ti chiedi se ce ne sono alcune, avrai un problema di confronto multiplo (vedi qui: Guarda e troverai una correlazione ). t
Un altro esempio è quello che hai sollevato. Se dovessi eseguire una regressione multipla con 20 variabili e utilizzassi come soglia, ti aspetteresti che una delle tue variabili sia "significativa" solo per caso, anche se tutti i null fossero veri. Il problema dei confronti multipli deriva semplicemente dalla matematica di eseguire molte analisi. Se tutte le ipotesi null fossero vere e le variabili fossero perfettamente non correlate, la probabilità di non respingere falsamente qualsiasi null reale sarebbe (ad esempio, con , questo è ). α = .051 - ( 1 - α ) p p = 5 .231 - ( 1 - α )pp = 5.23
La prima strategia per mitigare questo è quella di condurre un test simultaneo del tuo modello. Se si sta adattando una regressione OLS, la maggior parte dei software fornirà un test globale come parte predefinita dell'output. Se stai eseguendo un modello lineare generalizzato, la maggior parte dei software ti darà un analogo test del rapporto di verosimiglianza globale. Questo test offre una certa protezione dall'inflazione di errore di tipo I a causa del problema di confronti multipli (cfr. La mia risposta qui: Significato dei coefficienti nella regressione lineare: test t significativo rispetto a statistica F non significativa ). Un caso simile si verifica quando si dispone di una variabile categoriale rappresentata con diversi codici fittizi; non vorresti interpretare quelleFtt-test, ma eliminerebbe tutti i codici fittizi ed eseguirà invece un test del modello nidificato.
Un'altra possibile strategia è quella di utilizzare una procedura di regolazione alfa, come la correzione Bonferroni. Dovresti capire che ciò ridurrà il tuo potere e ridurrà il tuo tasso di errore familiare di tipo I. Se questo compromesso sia utile è una richiesta di giudizio che devi fare. (FWIW, in genere non utilizzo correzioni alfa in regressione multipla.)
Per quanto riguarda il problema dell'utilizzo di -values per la selezione del modello, penso che sia una pessima idea. Non vorrei passare da un modello con 5 variabili a uno con solo 2 perché gli altri erano "non significativi". Quando le persone fanno questo, influenzano il loro modello. Può aiutarti a leggere la mia risposta qui: algoritmi per la selezione automatica del modello per capirla meglio. p
Per quanto riguarda l'aggiornamento, non consiglierei di valutare prima le correlazioni univariate in modo da decidere quali variabili utilizzare nel modello di regressione multipla finale. Ciò causerà problemi di endogeneità a meno che le variabili non siano perfettamente correlate tra loro. Ho discusso questo problema nella mia risposta qui: Stima invece diB1X1+ b2X2B1X1+ b2X2+ b3X3 .
Per quanto riguarda la domanda su come gestire le analisi con diverse variabili dipendenti, se si desidera utilizzare una sorta di aggiustamento si basa sul modo in cui si vedono le analisi l'una rispetto all'altra. L'idea tradizionale è determinare se sono significativamente considerati una "famiglia". Questo è discusso qui: quale potrebbe essere una definizione chiara e pratica per una "famiglia di ipotesi"? Potresti anche voler leggere questo thread: Metodi per prevedere più variabili dipendenti .