Hosmer-Lemeshow vs AIC per la regressione logistica


12

Se l'Hosmer-Lemeshow indica una mancanza di adattamento ma l'AIC è il più basso tra tutti i modelli .... dovresti comunque usare il modello?

Se elimino una variabile, la statistica di Hosmer-Lemeshow non è significativa (il che significa che non vi è una grave mancanza di adattamento). Ma l'AIC aumenta.

Modifica : penso in generale, se gli AIC di diversi modelli sono vicini (cioè ) l'uno all'altro, sono sostanzialmente gli stessi. Ma gli AIC sono molto diversi. Questo sembra indicare che quello con l'AIC più basso è quello che dovrei usare anche se il test di Hosmer-Lemeshow indica diversamente.<2

Inoltre, forse il test HL si applica solo a campioni di grandi dimensioni? Ha una bassa potenza per campioni di piccole dimensioni (la mia dimensione del campione è ~ 300). Ma se sto ottenendo un risultato significativo ... Ciò significa che anche con una bassa potenza ottengo un rifiuto.

Farebbe differenza se avessi usato AICc contro AIC? Come si ottengono gli AICc in SAS? So che potrebbero esserci problemi con la molteplicità. Ma a priori ipotizzo che le variabili abbiano un effetto sul risultato.

Qualche commento?

Edit2 : Penso che dovrei usare il modello con una variabile in meno e l'AIC più alto con HL non significativo. Il motivo è perché due delle variabili sono correlate tra loro. Quindi sbarazzarsi di uno ha senso.


Tieni presente che tutti i tuoi modelli potrebbero essere spazzatura.

@mbq: in che modo aiuta?
Thomas,

2
Bene, anche in un gruppo di modelli non significativi ce n'è uno con il miglior AIC. Ad ogni modo, non utilizzare le risposte per estendere la tua domanda.

Risposte:


12

Il test di Hosmer-Lemeshow è in una certa misura obsoleto perché richiede un binning arbitrario delle probabilità previste e non possiede un potere eccellente per rilevare la mancanza di calibrazione. Inoltre, non penalizza completamente l'eccessivo adattamento eccessivo del modello. Sono disponibili metodi migliori come Hosmer, DW; Hosmer, T .; le Cessie, S. & Lemeshow, S. Un confronto tra test di bontà di adattamento per il modello di regressione logistica. Statistica in medicina , 1997, 16 , 965-980. La loro nuova misura è implementata nella Rrmspacchetto. Ancora più importante, questo tipo di valutazione riguarda solo la calibrazione generale del modello (accordo tra previsto e osservato) e non affronta la mancanza di adattamento, come la trasformazione impropria di un predittore. Del resto, nemmeno AIC se non si utilizza AIC per confrontare due modelli in cui uno è più flessibile dell'altro testato. Penso che tu sia interessato alla discriminazione predittiva, per la quale una misura generalizzata , integrata da -index (area ROC) potrebbe essere più appropriata.R2c


Quindi usare il test del rapporto di verosimiglianza sarebbe meglio per valutare la bontà di adattamento del modello con AIC più basso? Perché questo test dimostra che non c'è mancanza di adattamento.
Thomas,

Osservare gli AIC di oltre 2 modelli comporterà alcuni errori di selezione / overfitting. L'AIC non valuta esplicitamente la bontà dell'adattamento se non nel contesto che ho indicato sopra. Il modo migliore per valutare l'adattamento è dimostrare una buona calibrazione utilizzando un grafico di calibrazione non parametrico continuo e regolare e mostrando poche prove di componenti più complessi che potrebbero aver reso migliore la previsione del modello.
Frank Harrell,

Supponendo che non ho accesso a nessuno di questi strumenti. Il modello A che ha un test HL non significativo ha anche una variabile in meno rispetto al modello B che ha un test HL significativo. Sto confrontando solo questi due modelli. Il modello A ha l'AIC più basso e il modello B ha un AIC molto più alto.
Thomas,

Intendevo che il modello B ha l'AIC più basso e il modello A ha un AIC molto più alto.
Thomas,

2
Non sono sicuro che tu abbia studiato tutto quanto sopra. Generalmente scegliamo un modello con discriminazione predittiva competitiva, quindi convalidiamo che l'indice di discriminazione non è buono solo a causa di un eccesso di adattamento, quindi convalidiamo la calibrazione del modello. L'ultimo passaggio viene eseguito al meglio utilizzando una curva di calibrazione non parametrica regolare ad alta risoluzione. Tutte queste cose sono implementate nel rmspacchetto R. Evita di confrontare AIC di molti modelli, che è solo un altro modo di usare i valori per selezionare le variabili. Se stai confrontando solo 2 modelli predefiniti, stai bene. P
Frank Harrell,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.