Test di bontà di adattamento nella regressione logistica; quale 'misura' vogliamo testare?


12

Mi riferisco alla domanda e alle sue risposte: come confrontare l'abilità di previsione (probabilità) dei modelli sviluppati dalla regressione logistica? di @Clark Chong e risposte / commenti di @Frank Harrell. e alla domanda Gradi di libertà di nel test di Hosmer-Lemeshowχ2 e commenti.

Ho letto l'articolo DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "Un confronto tra test di bontà di adattamento per il modello di regressione logistica", Statistics in Medicine, Vol. 16, 965-980 (1997) .

Dopo aver letto, ero confuso perché la domanda a cui mi riferivo chiede esplicitamente "capacità di previsione (probabilità)", che secondo me non è la stessa cosa che i test di bontà di adattamento nel documento sopra mirano a:

Come molti di noi sanno, la regressione logistica assume un legame a forma di S tra le variabili esplicative e la probabilità di successo, la forma funzionale per la forma a S è

P(y=1|xi)=11+e(β0+iβixi)

Senza far finta che non ci siano carenze con il test di Hosmer – Lemeshow, penso che dobbiamo distinguere tra i test per la (a) "capacità di previsione (probabilità) " e (b) " bontà di adattamento ".

L'obiettivo del primo è quello di verificare se le probabilità sono ben previste, mentre i test di bontà di adattamento verificano se la funzione a forma di S sopra è la funzione "giusta". Più formalmente:

  1. H0
  2. H0

H0

Prima osservazione

H0

Prima domanda

H0

Seconda domanda

Inoltre, desidero sottolineare le conclusioni di Hosmer et. al; (Cito dall'abstract):

'' Un esame delle prestazioni dei test quando il modello corretto ha un termine quadratico ma è stato adattato un modello contenente solo il termine lineare mostra che il chi-quadrato di Pearson, la somma dei quadrati non ponderata, il decile di Hosmer-Lemeshow di rischio, la somma dei quadrati residua levigata e il test del punteggio di Stukel, hanno una potenza superiore al 50% per rilevare scostamenti moderati dalla linearità quando la dimensione del campione è 100 e hanno una potenza superiore al 90% per queste stesse alternative per campioni di dimensione 500 Tutti i test non avevano potere quando il modello corretto aveva un'interazione tra una covariata dicotomica e continua ma solo il modello di covariata continua era idoneo. Il potere di rilevare un collegamento specificato in modo errato era scarso per campioni di dimensione 100. Per campioni di dimensione 500 Stukel ' Il test del punteggio ha avuto la migliore potenza, ma ha superato solo il 50% per rilevare una funzione di collegamento asimmetrico. La potenza del test di somma dei quadrati non ponderato per rilevare una funzione di collegamento specificata in modo errato era leggermente inferiore al test del punteggio di Stukel ''

Posso concludere da questo quale test ha più potenza o che Hosmer-Lemeshow ha meno potenza (per rilevare queste anomalie specifiche)?

Seconda osservazione

H1H1

Risposte:


5

R2

I test di bontà di adattamento hanno lo scopo di avere un potere ragionevole contro una varietà di alternative, piuttosto che un potere elevato rispetto a una specifica alternativa; quindi le persone che confrontano la potenza dei diversi test tendono ad adottare l'approccio pragmatico di scegliere alcune alternative che sono ritenute di particolare interesse per i potenziali utenti (vedi ad esempio Stephens (1974), spesso citato , "Statistiche EDF per la bontà di adattamento e alcuni confronti ", JASA, 69 , 347 ). Non puoi concludere che un test è più potente di un altro contro tutte le possibili alternative perché è più potente contro alcuni.


1
In alcuni casi si può dimostrare che un test è "uniformemente più potente", il che significa che è più potente per tutte le possibili alternative (cfr. Teorema di Karlin / Rubin). Ma hai ragione, questo è solo in casi eccezionali e certamente non nella cornice del test di Hosmer-Lemeshow.

4
In generale, "bontà di adattamento" viene data troppa enfasi all'IMHO. Un'alternativa migliore è quella di adattare il modello in avanti. Questo viene fatto usando le spline di regressione per rilassare le ipotesi di linearità e includendo interazioni che avrebbero senso.
Frank Harrell,

2
@fcoppens: buon punto! Ottieni test UMP solo limitando fortemente le alternative in considerazione ai valori di un parametro scalare, e anche allora non sempre. Anche considerando se un test è inammissibile - c'è almeno un altro test che ha una potenza maggiore sotto tutte le alternative - richiederebbe di limitare troppo le alternative per un test GOF generico.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.