regressione multipla e confronti multipli


10

Supponiamo che corrisponda a una regressione multipla di p variabili esplicative. Il test t mi permetterà di verificare se uno di questi è significativo ( ). Posso fare un F-test parziale per verificare se alcuni sottoinsiemi di essi sono significativi ( ).H 0 : β i = β j = . . . = β k = 0H0:βi=0H0:βio=βj=...=βK=0

Quello che vedo spesso è che qualcuno ottiene 5 valori p da 5 test t (supponendo che avessero 5 covariate) e mantiene solo quelli con un valore p <0,05. Sembra un po 'sbagliato in quanto dovrebbe esserci un confronto multiplo, no? È davvero giusto dire che qualcosa come e sono significativi ma , e non lo sono?β 2 β 3 β 4 β 5β1β2β3β4β5

Su una nota correlata, dire che eseguo 2 regressioni su 2 modelli separati (esito diverso). È necessario un controllo comparativo multiplo per parametri significativi tra i due risultati?

Modifica: per differenziarsi dalla domanda simile, c'è qualche altra interpretazione dei valori p oltre a: "B_i è (in) significativo, quando si aggiusta per tutte le altre covariate"? Non sembra che questa interpretazione mi permetta di guardare ogni B_i e rilasciarli meno di 0,5 (che è simile all'altro post).

Mi sembra che un modo sicuro per verificare se B_i e Y abbiano una relazione sarebbe quello di ottenere un coefficiente di correlazione p-value per ogni covariata e quindi fare un multcomp (anche se ciò perderebbe sicuramente il segnale).

Infine, supponiamo di aver calcolato la correlazione tra B1 / Y1, B2 / Y1 e B3 / Y1 (quindi tre valori p). Non correlato, ho anche fatto una correlazione tra T1 / Y2, T2 / Y2, T3 / Y2. Suppongo che la corretta regolazione di Bonferroni sarebbe 6 per tutte e 6 le prove insieme (anziché 3 per il primo gruppo e 3 per il secondo gruppo - e quindi ottenere 2 valori p "semi" aggiustati).


1
Sembra un duplicato di (questa domanda) [ stats.stackexchange.com/questions/3200/… se non lo è, per favore, perché no.
Peter Flom

Ciao, è simile ma non esattamente lo stesso. Forse una domanda migliore sarebbe, quando si ottiene l'elenco dei valori p, è l'unica interpretazione possibile la seguente: "Controllando per tutti gli altri parametri, questa variabile è / significativa". Come vorresti guardarli tutti?
user1357015,

Se vuoi modificare la tua domanda, va bene, ma probabilmente è meglio farlo nella domanda stessa, in modo che la gente la veda prima. Ma non intendo dire cosa significhi "Come sembreresti pensato a tutti loro".
Peter Flom

Risposte:


10

Hai ragione. Il problema dei confronti multipli esiste ovunque, ma, a causa del modo in cui viene generalmente insegnato, le persone pensano solo che si tratti di confrontare molti gruppi uno contro l'altro attraverso un intero gruppo di test- . In realtà, ci sono molti esempi in cui esiste il problema dei confronti multipli, ma in cui non sembrano molti confronti a coppie; per esempio, se hai molte variabili continue e ti chiedi se ce ne sono alcune, avrai un problema di confronto multiplo (vedi qui: Guarda e troverai una correlazione ). t

Un altro esempio è quello che hai sollevato. Se dovessi eseguire una regressione multipla con 20 variabili e utilizzassi come soglia, ti aspetteresti che una delle tue variabili sia "significativa" solo per caso, anche se tutti i null fossero veri. Il problema dei confronti multipli deriva semplicemente dalla matematica di eseguire molte analisi. Se tutte le ipotesi null fossero vere e le variabili fossero perfettamente non correlate, la probabilità di non respingere falsamente qualsiasi null reale sarebbe (ad esempio, con , questo è ). α=.051 - ( 1 - α ) p p = 5 .231(1α)pp=5.23

La prima strategia per mitigare questo è quella di condurre un test simultaneo del tuo modello. Se si sta adattando una regressione OLS, la maggior parte dei software fornirà un test globale come parte predefinita dell'output. Se stai eseguendo un modello lineare generalizzato, la maggior parte dei software ti darà un analogo test del rapporto di verosimiglianza globale. Questo test offre una certa protezione dall'inflazione di errore di tipo I a causa del problema di confronti multipli (cfr. La mia risposta qui: Significato dei coefficienti nella regressione lineare: test t significativo rispetto a statistica F non significativa ). Un caso simile si verifica quando si dispone di una variabile categoriale rappresentata con diversi codici fittizi; non vorresti interpretare quelleFtt-test, ma eliminerebbe tutti i codici fittizi ed eseguirà invece un test del modello nidificato.

Un'altra possibile strategia è quella di utilizzare una procedura di regolazione alfa, come la correzione Bonferroni. Dovresti capire che ciò ridurrà il tuo potere e ridurrà il tuo tasso di errore familiare di tipo I. Se questo compromesso sia utile è una richiesta di giudizio che devi fare. (FWIW, in genere non utilizzo correzioni alfa in regressione multipla.)

Per quanto riguarda il problema dell'utilizzo di -values ​​per la selezione del modello, penso che sia una pessima idea. Non vorrei passare da un modello con 5 variabili a uno con solo 2 perché gli altri erano "non significativi". Quando le persone fanno questo, influenzano il loro modello. Può aiutarti a leggere la mia risposta qui: algoritmi per la selezione automatica del modello per capirla meglio. p

Per quanto riguarda l'aggiornamento, non consiglierei di valutare prima le correlazioni univariate in modo da decidere quali variabili utilizzare nel modello di regressione multipla finale. Ciò causerà problemi di endogeneità a meno che le variabili non siano perfettamente correlate tra loro. Ho discusso questo problema nella mia risposta qui: Stima invece diB1X1+B2X2B1X1+B2X2+B3X3 .

Per quanto riguarda la domanda su come gestire le analisi con diverse variabili dipendenti, se si desidera utilizzare una sorta di aggiustamento si basa sul modo in cui si vedono le analisi l'una rispetto all'altra. L'idea tradizionale è determinare se sono significativamente considerati una "famiglia". Questo è discusso qui: quale potrebbe essere una definizione chiara e pratica per una "famiglia di ipotesi"? Potresti anche voler leggere questo thread: Metodi per prevedere più variabili dipendenti .


Grazie per questo. È proprio quello di cui avevo bisogno. Per quanto riguarda il tuo commento di edogeneità. Ciò ha senso, ma sembra che se eseguo la correzione conservativa di Bonferroni sui valori p di correlazione, anche se c'è endegoneità, la correzione di bonferroni dovrebbe spiegarlo no?
user1357015

La correzione di Bonferroni non è correlata all'endogeneità. Se le covariate sono tutte correlate tra loro, le correlazioni XY univariate saranno stime distorte della relazione. Dovresti adattare il modello che intendi adattare e fermarti lì. In generale, non è necessario andare oltre. Se è necessario creare un vero modello predittivo, è necessario utilizzare la convalida incrociata o altre tecniche appropriate.
gung - Ripristina Monica

0

A livello pratico, penso che si debba considerare anche se i beta riflettono i livelli di variabili categoriali (ad esempio i manichini). In queste circostanze è ragionevole essere interessati a sapere se una determinata Beta è diversa rispetto a una (significativa) referente Beta. Ma prima ancora di fare confronti a coppie, bisognerebbe sapere se i livelli complessivi della variabile categoriale sono importanti (usando un test F comune o un test del rapporto di verosimiglianza). In questo modo si ha il vantaggio di usare meno df

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.