Confronto tra modelli di regressione logistica binaria nidificati quando è grande


10

Per porre meglio la mia domanda, ho fornito alcuni degli output di un modello a 16 variabili ( fit) e di un modello a 17 variabili ( fit2) di seguito (tutte le variabili predittive in questi modelli sono continue, dove l'unica differenza tra questi modelli è che fitnon contiene la variabile 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

Ho usato il rmspacchetto di Frank Harrell per costruire questi lrmmodelli. Come puoi vedere, questi modelli non sembrano variare molto, se non del tutto, tra gli indici di discriminazione e il ranking Discrim. Indici ; tuttavia, utilizzando lrtest(fit,fit2), mi sono stati forniti i seguenti risultati:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

Pertanto, rifiuteremmo l'ipotesi nulla di questo test del rapporto di verosimiglianza; tuttavia, suppongo che ciò sia probabilmente dovuto alla grande dimensione del campione ( n = 102849) in quanto questi modelli sembrano funzionare in modo simile. Inoltre, sono interessato a trovare un modo migliore per confrontare formalmente i modelli di regressione logistica binaria nidificata quando n è grande.

Apprezzo molto qualsiasi feedback, script R o documentazione che mi possa guidare nella giusta direzione in termini di confronto di questi tipi di modelli nidificati! Grazie!


Qual è lo scopo di rimuovere la variabile 17?
Michael M,

Questo è un esempio di giocattolo; tuttavia, in genere mi viene chiesto di creare modelli con 8-12 variabili e la rimozione di variabili che non contribuiscono a un modello è un interesse primario per me. La variabile 17 sembra significare molto poco per il modello nel suo insieme (in termini di prevedibilità), tuttavia il test del rapporto di verosimiglianza ci dice che c'è una differenza significativa tra i due modelli (probabilmente a causa di n n piuttosto che di una differenza effettiva in questi due modelli). In quanto tale, spero di trovare un modo per confrontare questi due modelli (trovare un metodo che non indichi una differenza tra questi due modelli)
Matt Reichenbach,

(1) non sono sicuro di aver capito bene cosa stai cercando. Ma in medicina il problema dell'uso della discriminazione come la statistica c è ben definito, la statistica c può essere invariata anche con l'aggiunta di variabili significative e ha portato allo sviluppo di indici di riclassificazione ( circ.ahajournals.org/content/121/15/ 1768.full ) (2) l'AIC / BIC sono simili? una serie di criteri di acquisizione di informazioni variabili può essere più utile dei criteri di discriminazione.
charles,

1
Penso che ci sia un refuso nel tuo primo paragrafo. Si afferma che fit2è un modello con 17 variabili, ma è anche il modello che omette V17. Potresti voler modificare questo.
tomka,

1
@tomka, ho cambiato fit2a fitnell'esempio di cui sopra, secondo la vostra correzione. Grazie!
Matt Reichenbach,

Risposte:


6

(1) Esiste una vasta letteratura sul perché si dovrebbero preferire modelli completi a modelli ristretti / parsimoniosi. La mia comprensione sono alcuni motivi per preferire il modello parsimonioso. Tuttavia, modelli più grandi potrebbero non essere fattibili per molte applicazioni cliniche.

(2) Per quanto ne so, gli indici di discriminazione / discriminazione non sono (? Non dovrebbero essere) utilizzati come parametro di selezione modello / variabile. Non sono previsti per questo uso e di conseguenza potrebbe non esserci molta letteratura sul perché non dovrebbero essere usati per la costruzione di modelli.

(3) I modelli parsimoniosi possono avere limitazioni che non sono facilmente evidenti. Possono essere meno calibrati rispetto ai modelli più grandi, la validità esterna / interna può essere ridotta.

(4) La statistica c potrebbe non essere ottimale nella valutazione di modelli che prevedono il rischio futuro o stratificano gli individui in categorie di rischio. In questa impostazione, la calibrazione è importante per l'accurata valutazione del rischio. Ad esempio, un biomarker con un odds ratio di 3 può avere scarso effetto sul cstatistico, ma un livello aumentato potrebbe spostare il rischio cardiovascolare a 10 anni stimato per un singolo paziente dall'8% al 24%

Cook NR; Uso e uso improprio della curva ROC nella letteratura medica. Circolazione. 115 2007: 928-935.

(5) AUC / statistica c / discriminazione è insensibile alle variabili predittive significative. Questo è discusso nel riferimento Cook sopra e la forza motivante dietro lo sviluppo dell'indice di riclassificazione netta. Discusso anche in Cook sopra.

(6) I set di dati di grandi dimensioni possono comunque portare a modelli più grandi del desiderato se si utilizzano metodi di selezione delle variabili standard. Nelle procedure di selezione graduale viene spesso utilizzato un valore soglia di 0,05. Ma non c'è nulla di intrinseco in questo valore che significa che dovresti scegliere questo valore. Con set di dati più piccoli un valore p più grande (0,2) può essere più appropriato, in set di dati più grandi un valore p più piccolo può essere appropriato (per questo motivo è stato usato 0,01 per il set di dati GUSTO I).

(7) Mentre AIC viene spesso utilizzato per la selezione dei modelli ed è meglio supportato dalla letteratura, BIC può essere una valida alternativa in set di dati più grandi. Per la selezione del modello BIC il chi-quadrato deve superare il log (n), quindi si tradurrà in modelli più piccoli in set di dati più grandi. (La malva può avere caratteristiche simili)

(8) Ma se vuoi solo un massimo di 10 o 12 variabili, la soluzione più semplice è qualcosa di simile bestglmo leapspacchetti dove hai appena impostato il numero massimo di variabili che vuoi considerare.

(9) se vuoi solo un test che farà sembrare i due modelli uguali e non sei troppo preoccupato per i dettagli, potresti probabilmente confrontare l'AUC dei due modelli. Alcuni pacchetti ti daranno persino un valore p per il confronto. Non sembra consigliabile.

Ambler G (2002) Semplificazione di un modello prognostico: uno studio di simulazione basato su dati clinici
Cook NR; Uso e uso improprio della curva ROC nella letteratura medica. Circolazione. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Su criteri per la valutazione di modelli di rischio assoluto. BioStat. 6 2005: 227-239.

(10) Una volta che il modello è stato costruito, gli indici c-statistici / di decimazione potrebbero non essere l'approccio migliore per confrontare i modelli e avere limitazioni ben documentate. I confronti dovrebbero probabilmente includere almeno la calibrazione, l'indice di riclassificazione.

Steyerber (2010) Valutare le prestazioni dei modelli di previsione: un quadro per alcune misure tradizionali e innovative

(11) Potrebbe essere una buona idea andare oltre e utilizzare misure analitiche di decisione.

Vickers AJ, Elkin EB. Analisi della curva di decisione: un nuovo metodo per valutare i modelli di previsione. Med Decis Making. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Utilizzo delle curve di utilità relative per valutare la previsione del rischio. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Valutazione dei marker e dei modelli di previsione dei rischi: panoramica delle relazioni tra NRI e misure analitiche. Med Decis Making. 2013; 33: 490-501

--- Aggiornamento --- Trovo l'articolo di Vickers il più interessante. Ma questo non è stato ancora ampiamente accettato nonostante molti editoriali. Quindi potrebbe non essere di grande utilità pratica. Gli articoli Cook e Steyerberg sono molto più pratici.

A nessuno piace la selezione graduale. Non ho intenzione di sostenerlo. Potrei sottolineare che la maggior parte delle critiche su stepwise presuppone EPV <50 e una scelta tra un modello completo o pre-specificato e un modello ridotto. Se EPV> 50 e vi è un impegno a ridurre il modello, l'analisi costi-benefici potrebbe essere diversa.

Il pensiero debole dietro il confronto delle c-statistiche è che potrebbero non essere diverse e mi sembra di ricordare che questo test sia significativamente sottodimensionato. Ma ora non riesco a trovare il riferimento, quindi potrebbe essere molto diverso da quello.


(1) Sono consapevole che sono preferiti i modelli completi, ma ho più di 1k tra cui scegliere e sono tenuto a costruire questi modelli più piccoli a causa di requisiti specifici del settore. (2) Ha senso! (3) Concordato! (4) Vero (5) Interessante
Matt Reichenbach il

(6) concordato; tuttavia, le procedure graduali sono molto discutibili così com'è, e più basso è il valore di soglia p , più questi tipi di modelli sono distorti, indipendentemente dalle dimensioni del campione. (7) "Per la selezione del modello BIC il chi-quadrato deve superare il log (n)", questo sembra molto utile. Grazie! (8) bestglme i leapspacchetti sono molto costosi dal punto di vista computazionale e richiedono giorni per funzionare con set di dati come quelli con cui lavoro, ma grazie per le potenziali idee.
Matt Reichenbach,

(9) Questi valori p sarebbero significativi anche se i modelli fossero quasi identici a causa della grande dimensione del campione da solo. (10) Devo ricercare di più l'indice di calibrazione e riclassificazione, grazie! (11) Sono molto interessato a leggere questi articoli, mi consiglieresti di iniziare con Vickers? Grazie!
Matt Reichenbach,

5

Un'opzione consiste nell'utilizzare misure pseudo R-quadrate per entrambi i modelli. Una forte differenza nello p-quadrato R suggerirebbe che l'adattamento del modello diminuisce fortemente omettendo V17.

Sono disponibili diversi tipi di quadrati R pseudo. Una panoramica è disponibile qui, ad esempio:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Una misura popolare è Nagelkerke R-square. Varia tra 0 e 1 e, con cura, può essere interpretato come R-quadrato da un semplice modello di regressione lineare. Si basa su un rapporto trasformato delle probabilità stimate del modello completo rispetto al modello di sola intercettazione.

È possibile stimarlo per fite fit2, rispettivamente, e confrontare la dimensione relativa per ottenere un'indicazione sul problema. Un R-quadrato di Nagelkerke sostanzialmente più elevato fitsuggerirebbe che fit2perde molta potenza predittiva per omissione di V17.

lrmNel statsvalore fornisce R-squared di Nagelkerke. Quindi dare fit$statsdovrebbe fornire un preventivo. Vedi anche ?lrm.


Conosco il R-square di Nagelkerke; tuttavia, la mia domanda sta in che cosa è "una R-Square Nagelkerke sostanzialmente più alta per fit"? Nell'esempio sopra, c'è una differenza di 0,001 poiché abbiamo il quadrato R di Nagelkerke di 0,173 e 0,174 per fite fit2, rispettivamente. Hai qualche riferimento su cosa sia "un Nagelkerke R-Square sostanzialmente più alto"? Grazie!
Matt Reichenbach,

@Matt: penso che non ci siano linee guida generalizzate sull'interpretazione di R² di Nagelkerke o altre misure di pseudo R². Tuttavia, si noti che si tratta di una misura trasformata della "riduzione della probabilità" mediante l'inclusione delle covariate nel modello di sola intercettazione, che la rende simile alla "varianza spiegata" indicata dallo standard R² nella regressione lineare. In tal senso, interpreterei la differenza .173 / .174 come molto piccola. Una differenza più forte sarebbe sth. colmare i decili. Tuttavia, suggerisco di stimare altre misure pseudo R², ad esempio McFadden o Cox / Snell per verificare la solidità di questa conclusione.
tomka,

Sono d'accordo che la differenza sia molto piccola, ma vorrei poter trovare un riferimento che indichi quale sia una "piccola" differenza ... Apprezzo molto i tuoi pensieri. Grazie ancora!
Matt Reichenbach,

1
nessun problema! scusa per non averti votato prima! Pubblicherò di nuovo, se trovo una risposta su quale sia una "piccola" differenza in termini di pseduo R-quadrato! Grazie!
Matt Reichenbach,

-1

Ho appena letto di questo. Il modo corretto per farlo è usare l'output del modello finale di glm di R e cercare "Devianza residua:" e ricavare il delta tra i due modelli e usare questo valore in un test chi-quadrato usando df uguale al numero di termini predittivi rilasciati. E questo è il tuo valore p.

Modellazione di regressione applicata Iaian Pardoe 2nd edition 2012 pg 270

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.