La regolazione dei valori di p in una regressione multipla per confronti multipli è una buona idea?


54

Supponiamo che tu sia un ricercatore / econometrico di scienze sociali che cerca di trovare predittori rilevanti della domanda di un servizio. Sono disponibili 2 variabili risultato / dipendente che descrivono la domanda (utilizzando il servizio sì / no e il numero di occasioni). Hai 10 variabili predittive / indipendenti che potrebbero teoricamente spiegare la domanda (ad es. Età, sesso, reddito, prezzo, razza, ecc.). L'esecuzione di due regressioni multiple separate produrrà 20 stime di coefficienti e i loro valori p. Con abbastanza variabili indipendenti nelle tue regressioni, prima o poi troverai almeno una variabile con una correlazione statisticamente significativa tra le variabili dipendenti e indipendenti.

La mia domanda: è una buona idea correggere i valori p per più test se voglio includere tutte le variabili indipendenti nella regressione? Qualsiasi riferimento a lavori precedenti è molto apprezzato.


hmmm ... problema interessante - regressione bivariata con una variabile [sorta di] continua e una dicotomica. la solita teoria della regressione MVN dice che fare regressioni separate su ciascuna delle due risposte normali bivariate - e quindi mettere insieme i risultati - è l'analisi corretta - nel senso gauss-markov di minimizzare la matrice vc degli stimatori di regressione tra tutti gli stimatori lineari imparziali - e nel caso MVN, tra tutti gli stimatori imparziali]. le "regressioni separate" sono ancora le migliori che si possano fare quando una regressione è logistica? [non distorsione sembra un po 'di un tratto in quel caso, ecce
ronaf

Risposte:


48

Sembra che la tua domanda più in generale affronti il ​​problema dell'identificazione di buoni predittori. In questo caso, dovresti prendere in considerazione l'uso di un qualche tipo di regressione penalizzata (anche i metodi che riguardano la selezione di variabili o caratteristiche sono rilevanti), con ad esempio le penalità L1, L2 (o una loro combinazione, la cosiddetta elasticnet )) (cerca domande correlate su questo sito, o il pacchetto R penalizzato ed elasticnet , tra gli altri).

Ora, sulla correzione dei valori p per i tuoi coefficienti di regressione (o equivalentemente i tuoi coefficienti di correlazione parziale) per proteggere dall'eccessivo ottimismo (ad esempio con Bonferroni o, meglio, metodi step-down), sembra che questo sarebbe rilevante solo se stai considerando un modello e cercare quei predittori che contribuiscono in modo significativo alla varianza spiegata, vale a dire se non si esegue la selezione del modello (con selezione graduale o test gerarchico). Questo articolo potrebbe essere un buon inizio: aggiustamenti Bonferroni nei test per i coefficienti di regressione . Tieni presente che tale correzione non ti proteggerà dal problema della multicollinearità, che influisce sui valori p riportati.

Dati i tuoi dati, consiglierei di utilizzare una sorta di tecniche di selezione dei modelli iterativi. Ad esempio, in R, la stepAICfunzione consente di eseguire la selezione graduale del modello tramite AIC esatto. Puoi anche stimare l'importanza relativa dei tuoi predittori in base al loro contributo a usando boostrap (vedi il pacchetto relaimpo ). Penso che la misura della dimensione dell'effetto di segnalazione o la percentuale della varianza spiegata siano più informative del valore p, specialmente in un modello di conferma.R2

Va notato che gli approcci graduali hanno anche i loro svantaggi (ad esempio, i test di Wald non sono adattati all'ipotesi condizionale indotta dalla procedura graduale), o come indicato da Frank Harrell su R mailing , "la selezione graduale delle variabili basata su AIC ha tutti i problemi di selezione graduale della variabile basata su valori P. AIC è solo una riaffermazione del valore P "(ma AIC rimane utile se l'insieme di predittori è già definito); una domanda correlata - Una variabile è significativa in un modello di regressione lineare? - ha sollevato interessanti commenti ( @Rob , tra gli altri) sull'uso di AIC per la selezione delle variabili. Aggiungo un paio di riferimenti alla fine (compresi gli articoli gentilmente forniti da @Stephan); ci sono anche molti altri riferimenti su P.Mean .

Frank Harrell ha scritto un libro sulla strategia di modellazione della regressione che include molte discussioni e consigli su questo problema (§4.3, pagg. 56-60). Ha inoltre sviluppato routine R efficienti per gestire modelli lineari generalizzati (vedere i pacchetti Design o rms ). Quindi, penso che dovresti assolutamente dargli un'occhiata (i suoi volantini sono disponibili sulla sua homepage).

Riferimenti

  1. Whittingham, MJ, Stephens, P, Bradbury, RB e Freckleton, RP (2006). Perché utilizziamo ancora la modellazione graduale in ecologia e comportamento? Journal of Animal Ecology , 75 , 1182-1189.
  2. Austin, PC (2008). La selezione del modello Bootstrap ha avuto prestazioni simili per la selezione di variabili autentiche e di rumore rispetto all'eliminazione delle variabili all'indietro: uno studio di simulazione . Journal of Clinical Epidemiology , 61 (10) , 1009-1017.
  3. Austin, PC e Tu, JV (2004). I metodi automatizzati di selezione delle variabili per la regressione logistica hanno prodotto modelli instabili per la previsione della mortalità acuta da infarto del miocardio . Journal of Clinical Epidemiology , 57 , 1138-1146.
  4. Groenlandia, S (1994). Regressione gerarchica per analisi epidemiologiche di esposizioni multiple . Environmental Health Perspectives , 102 (Suppl 8) , 33–39.
  5. Groenlandia, S (2008). Confronti multipli e selezione delle associazioni in epidemiologia generale . International Journal of Epidemiology , 37 (3) , 430-434.
  6. Beyene, J, Atenafu, EG, Hamid, JS, To, T e Sung L (2009). Determinare l'importanza relativa delle variabili nello sviluppo e nella validazione di modelli predittivi . Metodologia di ricerca medica BMC , 9 , 64.
  7. Bursac, Z, Gauss, CH, Williams, DK e Hosmer, DW (2008). Selezione intenzionale di variabili nella regressione logistica . Codice sorgente per biologia e medicina , 3 , 17.
  8. Brombin, C, Finos, L e Salmaso, L (2007). Regolazione dei valori p graduali nei modelli lineari generalizzati . Conferenza internazionale sulle procedure di confronto multiplo . - vedi step.adj()nel pacchetto R someMTP .
  9. Wiegand, RE (2010). Prestazioni dell'utilizzo di più algoritmi graduali per la selezione delle variabili . Statistica in medicina , 29 (15), 1647–1659.
  10. Moons KG, Donders AR, Steyerberg EW e Harrell FE (2004). Stima della probabilità massima punita per prevedere i risultati binari. Journal of Clinical Epidemiology , 57 (12) , 1262-1270.
  11. Tibshirani, R (1996). Restringimento e selezione della regressione tramite il lazo . Journal of The Royal Statistical Society B , 58 (1) , 267-288.
  12. Efron, B, Hastie, T, Johnstone, I e Tibshirani, R (2004). Regressione del minimo angolo . Annals of Statistics , 32 (2) , 407-499.
  13. Flom, PL e Cassell, DL (2007). Arresto graduale: perché i metodi di selezione graduale e simili sono errati e quali dovrebbero essere utilizzati . Atti del NESUG 2007 .
  14. Shtatland, ES, Cain, E. e Barton, MB (2001). I pericoli della regressione logistica graduale e come evitarli utilizzando i criteri di informazione e il sistema di consegna dell'output . Procedimenti SUGI 26 (pagg. 222–226).

10
Non mi dispiace il downvote, ma un commento sarebbe apprezzato (così posso imparare me stesso, capire cosa era sbagliato e migliorare le mie risposte future).
chl,

3
+1, una buona risposta e anche il distacco del commento di chl sul lasciare una spiegazione per i voti negativi per aiutare sia l'autore che i lettori a capire cosa potrebbe mancare. Grazie.
ARS

Secondo la raccomandazione di chl di usare una sorta di regressione penalizzata (ad esempio, il lazo).
S. Kolassa - Ripristina Monica l'

10
@chl: non sono contento di consigliare la selezione predittiva graduale. Di solito, questo si basa su valori p ("escludi un predittore con p> .15, includilo se p <.05") e porta a stime distorte e cattive prestazioni predittive (Whittingham et al., 2006, Perché continuiamo a utilizzare la modellazione graduale in ecologia e comportamento? J Anim Ecol, 75, 1182-1189). Tuttavia, gli approcci graduali basati su AIC hanno la stessa debolezza - Frank Harrell ne ha discusso in un post su R-help il lunedì, 09 agosto 2010 16:34:19 -0500 (CDT) nella discussione "Logistic Regression in R (SAS - come output) ".
S. Kolassa - Ripristina Monica l'

C'è un modo per includere collegamenti nei commenti?
S. Kolassa - Ripristina Monica l'

25

In larga misura puoi fare tutto ciò che ti piace a condizione che tu mostri abbastanza dati a caso per testare qualsiasi modello ti venga in base sulla base dei dati conservati. Una divisione del 50% può essere una buona idea. Sì, perdi la capacità di rilevare le relazioni, ma ciò che guadagni è enorme; vale a dire, la capacità di replicare il tuo lavoro prima che venga pubblicato. Non importa quanto siano sofisticate le tecniche statistiche che metterai in pratica, rimarrai scioccato dal numero di predittori "significativi" che risultano completamente inutili quando applicati ai dati di conferma.

Ricorda anche che "rilevante" per la previsione significa più di un basso valore p. Dopotutto, ciò significa solo che è probabile che una relazione trovata in questo particolare set di dati non sia dovuta al caso. Per la previsione è in realtà più importante trovare le variabili che esercitano un'influenza sostanziale sul predittore (senza adattamento eccessivo del modello); vale a dire, per trovare le variabili che sono probabilmente "reali" e, se variate in un intervallo ragionevole di valori (non solo i valori che potrebbero verificarsi nel campione!), fanno sì che il predittore vari in modo sensibile. Quando si dispone di dati di blocco per confermare un modello, si può essere più a proprio agio conservando provvisoriamente variabili "significative" marginali che potrebbero non avere valori p bassi.

Per questi motivi (e basandomi sulla risposta eccellente di chl), anche se ho trovato modelli graduali, confronti AIC e correzioni Bonferroni abbastanza utili (specialmente con centinaia o migliaia di possibili predittori in gioco), questi non dovrebbero essere gli unici determinanti di quali variabili inserisci il tuo modello. Non perdere nemmeno di vista la guida fornita dalla teoria: le variabili che hanno una forte giustificazione teorica per essere in un modello di solito dovrebbero essere mantenute, anche quando non sono significative, a condizione che non creino equazioni mal condizionate ( ad esempio, collinearità) .

NB : Dopo aver optato per un modello e averne confermato l'utilità con i dati di controllo, è opportuno ricombinare i dati conservati con i dati di controllo per la stima finale. Pertanto, nulla viene perso in termini di precisione con cui è possibile stimare i coefficienti del modello.


Grazie! Se non si ha accesso ai dati originali ma solo una tabella dei coefficienti di regressione, la regolazione Bonferroni è la vostra unica scelta?
Mikael M,

4
Presumibilmente hai anche i valori p :-). Ma con solo quelli e i coefficienti, è difficile immaginare cos'altro si possa fare oltre a un aggiustamento di Bonferroni. (Faccio sempre un tale aggiustamento ogni volta che leggo qualsiasi documento con più test: è un modo rapido per capire i risultati che potrebbero essere spazzatura.) La maggior parte delle persone fornisce anche statistiche riassuntive per le variabili: puoi usare intervalli o sds insieme a i coefficienti per stimare l'effetto che ciascuna variabile esplicativa potrebbe avere sul predittore.
whuber

Grazie per la tua spiegazione, esp. sulla convalida incrociata. Apprezzo il tuo ultimo argomento, vale a dire che dobbiamo anche cercare rilevanza teorica (oltre i valori p).
chl

19

Penso che questa sia un'ottima domanda; arriva al cuore del controverso "problema" di test multipli che affligge campi che vanno dall'epidemiologia all'econometria. Dopo tutto, come possiamo sapere se il significato che troviamo è spuria o no? Quanto è vero il nostro modello multivariabile?

In termini di approcci tecnici per compensare la probabilità di pubblicare variabili del rumore, concordo vivamente con "whuber" che utilizzare una parte del campione come dati di allenamento e il resto come dati di test sia una buona idea. Questo è un approccio che viene discusso nella letteratura tecnica, quindi se prendi il tempo puoi probabilmente trovare alcune buone linee guida per quando e come usarlo.

Ma per colpire più direttamente la filosofia dei test multipli, ti suggerisco di leggere gli articoli a cui faccio riferimento di seguito, alcuni dei quali supportano la posizione secondo cui l'adeguamento per test multipli è spesso dannoso (potenza dei costi), non necessario e potrebbe persino essere un errore logico . Io per primo non accetto automaticamente l'affermazione secondo cui la nostra capacità di indagare su un potenziale predittore è inesorabilmente ridotta dall'indagine di un altro. Il tasso di errore di tipo 1 a livello familiare può aumentare in quanto includiamo più predittori in un determinato modello, ma fintanto che non andiamo oltre i limiti delle dimensioni del campione, la probabilità di errore di tipo 1 per ogni individuoil predittore è costante; e il controllo dell'errore familiare non illumina quale variabile specifica è il rumore e quale no. Naturalmente, ci sono anche argomentazioni contrarie convincenti.

Quindi, fintanto che limiterai la tua lista di potenziali variabili a quelle che sono plausibili (cioè avrebbero percorsi noti per il risultato), allora il rischio di falsità è già gestito abbastanza bene.

Tuttavia, aggiungerei che un modello predittivo non si preoccupa tanto del "valore di verità" dei suoi predittori quanto di un modello causale ; potrebbe esserci una grande confusione nel modello, ma fintanto che spieghiamo un grande grado di varianza, non ci preoccupiamo troppo. Questo rende il lavoro più semplice, almeno in un certo senso.

Saluti,

Brenden, consulente biostatistico

PS: potresti voler fare una regressione di Poisson a gonfiamento zero per i dati che descrivi, invece di due regressioni separate.

  1. Perneger, TV Cosa c'è che non va nelle regolazioni di Bonferroni . BMJ 1998; 316: 1236
  2. Cook, RJ & Farewell, VT Considerazioni sulla molteplicità nella progettazione e nell'analisi di studi clinici . Giornale della Royal Statistical Society , Serie A 1996; Vol. 159, n. 1: 93-110
  3. Rothman, KJ Non sono necessari aggiustamenti per confronti multipli . Epidemiologia 1990; Vol. 1, n. 1: 43-46
  4. Marshall, JR Data dragaggio e rilevanza . Epidemiologia 1990; Vol. 1, n. 1: 5-7
  5. A volte sono utili le regolazioni Groenlandia, S. & Robins, JM Empirical-Bayes per confronti multipli . Epidemiologia 1991; Vol. 2, n. 4: 244-251

Continua: 2. Cook RJ e addio VT Considerazioni sulla molteplicità nella progettazione e nell'analisi di studi clinici. Giornale della Royal Statistical Society, Serie A 1996; Vol. 159, n. 1: 93-110
Brenden,

Grazie per i tuoi commenti, Brenden, in particolare l'ultimo sulla previsione e sulla spiegazione causale. E benvenuti nel sito! Spero di vedere molti altri tuoi contributi in futuro.
whuber

Continua: 3. Rothman KJ Non sono necessari aggiustamenti per confronti multipli. Epidemiologia 1990; Vol. 1, n. 1: 43-46 4. Marshall JR Dragaggio e rilevanza dei dati. Epidemiologia 1990; Vol. 1, n. 1: 5-7 5. Le rettifiche Greenland S. e Robins JM Empirical-Bayes per confronti multipli sono talvolta utili. Epidemiologia 1991; Vol. 2, n. 4: 244-251
Brenden,

(+1) Potresti essere interessato al seguente thread: stats.stackexchange.com/questions/3252/… . Sembra che condividiamo molti link in comune :-)
chl

6

Ci sono buone risposte qui. Vorrei aggiungere un paio di piccoli punti che non vedo coperti altrove.

Innanzitutto, qual è la natura delle variabili di risposta? Più specificamente, sono compresi come collegati tra loro? Dovresti fare due regressioni multiple separate solo se sono comprese come indipendenti (teoricamente) / se i residui dei due modelli sono indipendenti (empiricamente). Altrimenti, dovresti considerare una regressione multivariata. ('Multivariato' significa> 1 variabile di risposta; 'multiplo' significa> 1 variabile predittore.)

L'altra cosa da tenere a mente è che il modello viene fornito con un test globale , che è un test simultaneo di tutti i predittori. È possibile che il test globale sia "non significativo" mentre alcuni dei singoli predittori sembrano essere "significativi". Questo dovrebbe darti una pausa, se succede. D'altra parte, se il test globale suggerisce che almeno alcuni dei predittori sono correlati, ciò fornisce una certa protezione dal problema di confronti multipli (ovvero, suggerisce che non tutti i valori nulli sono veri). F


0

È possibile eseguire una regressione apparentemente non correlata e utilizzare un test F. Inserisci i tuoi dati in un modulo come questo:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

in modo che i predittori per il tuo primo risultato abbiano i loro valori quando quel risultato è la variabile y e 0 altrimenti e viceversa. Quindi il tuo y è un elenco di entrambi i risultati. P11 e P12 sono i due predittori per il primo risultato e P21 e P22 sono i due predittori per il secondo risultato. Se il sesso, per esempio, è un predittore per entrambi gli esiti, il suo uso per prevedere l'esito 1 dovrebbe essere in una variabile / colonna separata quando si prevede l'esito 2. Ciò consente alla regressione di avere pendenze / impatti diversi per il sesso per ogni risultato.

In questo quadro, è possibile utilizzare le procedure di test F standard.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.