La statistica del test per il test di Hosmer-Lemeshow (HLT) per la bontà di adattamento (GOF) di un modello di regressione logistica è definita come segue:
Il campione viene quindi suddiviso in decili, , per decile si calcolano le seguenti quantità:
- , ovvero il numero osservato di casi positivi nel decile ;
- , ovvero il numero osservato di casi negativi nel decile ;
- , ovvero il numero stimato di casi positivi nel decile ;
- , ovvero il numero stimato di casi negativi nel decile ;
dove è il risultato binario osservato per l' -esima osservazione e la probabilità stimata per quell'osservazione.
Quindi la statistica del test viene quindi definita come:
dove è la probabilità media stimata in decile lascia che sia il numero di società nel decile.
Secondo Hosmer-Lemeshow (vedi questo link ) questa statistica ha (in certe ipotesi) un di distribuzione con gradi di libertà .
D'altra parte , se definirei una tabella di contingenza con righe (corrispondenti ai decili) e 2 colonne (corrispondenti al risultato binario vero / falso), allora la statistica test per il test per questa tabella di contingenza sarebbe lo stesso sopra definito, tuttavia, nel caso della tabella di contingenza, questa statistica di prova è con gradi di libertà . Quindi un grado di libertà in più !
Come si può spiegare questa differenza nel numero di gradi di libertà?
EDIT: aggiunte dopo aver letto i commenti:
@whuber
Dicono (vedi Hosmer DW, Lemeshow S. (1980), Un test di bontà di adattamento per il modello di regressione logistica multipla. Communications in Statistics, A10, 1043-1069 ) che esiste un teorema dimostrato da Moore e Spruill da cui ne consegue che se (1) i parametri sono stimati utilizzando le funzioni di probabilità per dati non raggruppati e (2) le frequenze nella tabella 2xg dipendono dai parametri stimati, vale a dire le celle sono casuali, non fisse, che quindi, in condizioni di regolarità appropriate, La statistica della bontà di adattamento sotto (1) e (2) è quella di un chi-quadrato centrale con la solita riduzione dei gradi di libertà dovuta ai parametri stimati più una somma di variabili chi-quadrato ponderate.
Quindi, se capisco bene il loro articolo, provano a trovare un'approssimazione per questo "termine di correzione" che, se lo capisco bene, è questa somma ponderata di variabili casuali chi-quadrate, e lo fanno facendo simulazioni, ma io devo ammettere che non capisco perfettamente cosa dicono lì, quindi la mia domanda; perché queste cellule sono casuali, in che modo influenza i gradi di libertà? Sarebbe diverso se aggiusto i bordi delle celle e quindi classifico le osservazioni in celle fisse in base al punteggio stimato, in tal caso le celle non sono casuali, sebbene il "contenuto" della cella sia?
@Frank Harell: non potrebbe essere che le "carenze" del test di Hosmer-Lemeshow che menzioni nei tuoi commenti qui sotto, siano solo una conseguenza dell'approssimazione della somma ponderata dei chi-quadrati ?
rms
pacchetto R residuals.lrm
e le val.prob
funzioni.