Gradi di libertà di nel test di Hosmer-Lemeshow


33

La statistica del test per il test di Hosmer-Lemeshow (HLT) per la bontà di adattamento (GOF) di un modello di regressione logistica è definita come segue:

Il campione viene quindi suddiviso in decili, , per decile si calcolano le seguenti quantità:d=10D1,D2,,Dd

  • O1d=iDdyi , ovvero il numero osservato di casi positivi nel decile ;Dd
  • O0d=iDd(1yi) , ovvero il numero osservato di casi negativi nel decile ;Dd
  • E1d=iDdπ^i , ovvero il numero stimato di casi positivi nel decile Dd ;
  • E0d=iDd(1π^i) , ovvero il numero stimato di casi negativi nel decile Dd ;

dove yi è il risultato binario osservato per l' i -esima osservazione e π^i la probabilità stimata per quell'osservazione.

Quindi la statistica del test viene quindi definita come:

X2=h=01g=1d((OhgEhg)2Ehg)=g=1d(O1gngπ^gng(1π^g)π^g)2,

dove π^g è la probabilità media stimata in decile g lascia che ng sia il numero di società nel decile.

Secondo Hosmer-Lemeshow (vedi questo link ) questa statistica ha (in certe ipotesi) un χ2 di distribuzione con (d2) gradi di libertà .

D'altra parte , se definirei una tabella di contingenza con d righe (corrispondenti ai decili) e 2 colonne (corrispondenti al risultato binario vero / falso), allora la statistica test per il test χ2 per questa tabella di contingenza sarebbe lo stesso X2 sopra definito, tuttavia, nel caso della tabella di contingenza, questa statistica di prova è χ2 con (d1)(21)=d1 gradi di libertà . Quindi un grado di libertà in più !

Come si può spiegare questa differenza nel numero di gradi di libertà?

EDIT: aggiunte dopo aver letto i commenti:

@whuber

Dicono (vedi Hosmer DW, Lemeshow S. (1980), Un test di bontà di adattamento per il modello di regressione logistica multipla. Communications in Statistics, A10, 1043-1069 ) che esiste un teorema dimostrato da Moore e Spruill da cui ne consegue che se (1) i parametri sono stimati utilizzando le funzioni di probabilità per dati non raggruppati e (2) le frequenze nella tabella 2xg dipendono dai parametri stimati, vale a dire le celle sono casuali, non fisse, che quindi, in condizioni di regolarità appropriate, La statistica della bontà di adattamento sotto (1) e (2) è quella di un chi-quadrato centrale con la solita riduzione dei gradi di libertà dovuta ai parametri stimati più una somma di variabili chi-quadrato ponderate.

Quindi, se capisco bene il loro articolo, provano a trovare un'approssimazione per questo "termine di correzione" che, se lo capisco bene, è questa somma ponderata di variabili casuali chi-quadrate, e lo fanno facendo simulazioni, ma io devo ammettere che non capisco perfettamente cosa dicono lì, quindi la mia domanda; perché queste cellule sono casuali, in che modo influenza i gradi di libertà? Sarebbe diverso se aggiusto i bordi delle celle e quindi classifico le osservazioni in celle fisse in base al punteggio stimato, in tal caso le celle non sono casuali, sebbene il "contenuto" della cella sia?

@Frank Harell: non potrebbe essere che le "carenze" del test di Hosmer-Lemeshow che menzioni nei tuoi commenti qui sotto, siano solo una conseguenza dell'approssimazione della somma ponderata dei chi-quadrati ?


9
Il libro contiene una descrizione dettagliata di questo test e le sue basi. La tua domanda ha una risposta completa alle pagine 145-149. Determinare i gradi di libertà nei test è una cosa sottile, perché la maggior parte di questi test sono approssimazioni (in primo luogo) e tali approssimazioni sono buone solo quando si applicano condizioni tecniche apparentemente minori. Per alcune discussioni su tutto ciò, consultare stats.stackexchange.com/a/17148 . H&L ha intrapreso un percorso puramente pratico: basano la loro raccomandazione di DF su "una vasta serie di simulazioni". d - 2χ2d2
whuber

4
Questo test è ora considerato obsoleto a causa della (1) mancanza di potere, (2) binning delle probabilità continue e (3) arbitrarietà nella scelta del binning e nella scelta della definizione dei decili. Si consiglia il test Hosmer - le Cessie 1 df o il test Spiegelhalter. Vedi ad esempio il rmspacchetto R residuals.lrme le val.probfunzioni.
Frank Harrell,

2
@Frank Harell: (a) anche il test di Hosmer-Lemeshow è obsoleto, penso che sia ancora interessante capire la differenza con e (b) hai un riferimento che mostra che il test di Spiegelhalter ha più potere di il test di Hosmer-Lemeshow? χ2

2
Questi problemi sono IMHO molto piccoli rispetto alla domanda originale.
Frank Harrell,

3
Penso che i dettagli appaiano altrove su questo sito. In breve, (1) Hosmer ha mostrato che il test è arbitrario - è molto sensibile al modo in cui vengono calcolati i decili; (2) manca di energia. Si può vedere che si basa su quantità imprecise tracciando la curva di calibrazione (invece di una curva di calibrazione regolare) e notando i salti. Inoltre, non penalizza correttamente per eccessivo adattamento.
Frank Harrell,

Risposte:


2

Hosmer DW, Lemeshow S. (1980), Un test di bontà di adattamento per il modello di regressione logistica multipla. Communications in Statistics, A10, 1043-1069 mostra che:

Se il modello è un modello di regressione logistica e i parametri sono stimati con la massima probabilità e i gruppi sono definiti sulle probabilità stimate, allora ritiene che sia asintoticamente (Hosmer, Lemeshow, 1980, p. 1052, Teorema 2).pGX2χ2(Gp1)+i=1p+1λiχi2(1)

(Nota: le condizioni necessarie non sono esplicitamente nel Teorema 2 a pagina 1052 ma se si legge attentamente il documento e la prova, allora queste si aprono)

Il secondo termine deriva dal fatto che il raggruppamento si basa su quantità stimate - cioè casuali - (Hosmer, Lemeshow, 1980, p. 1051)i=1p+1λiχi2(1)

Usando le simulazioni hanno mostrato che il secondo termine può essere (nei casi usati nella simulazione) approssimato da un (Hosmer, Lemeshow, 1980, p.1060)χ2(p1)

Combinando questi due fatti si ottiene una somma di due variabili , una con gradi di libertà e una seconda con gradi di libertà oχ2Gp1p1X2χ2(Gp1+p1=G2)

Quindi la risposta alla domanda sta nel verificarsi del "termine chi-quadro ponderato" o nel fatto che i gruppi sono definiti usando probabilità stimate che sono esse stesse variabili casuali.

Vedi anche Hosmer Lemeshow (1980) Paper - Theorem 2


"Quindi la risposta alla domanda sta nel verificarsi del" termine chi-quadro ponderato " e nel fatto che i gruppi sono definiti usando probabilità stimate che sono esse stesse variabili casuali." A ) Le probabilità stimate ti fanno ottenere una riduzione aggiuntiva di p + 1, il che fa la differenza principale nel caso della tabella di contingenza (in cui sono stimati solo g termini). B ) Il termine chi-quadrato ponderato si presenta come una correzione perché la stima non è una stima di verosimiglianza o ugualmente efficiente, e ciò rende l'effetto della riduzione inferiore a (p + 1).
Sesto Empirico

@Martijn Weterings: ho ragione se concludo che quello che dici in questo commento non è esattamente la stessa spiegazione (per non dire completamente diversa) di quello che dici nella tua risposta? Il tuo commento porta alla conclusione che i df sono ? G2

La mia risposta spiega l'intuizione dietro la differenza nei gradi di libertà rispetto al ragionamento basato su "la statistica test per il test per questa tabella di contingenza", spiega perché sono diverse (case case per la stima del caso). Si concentra sulla "solita riduzione" da cui si potrebbe concludere che il df sarebbe G-3. Tuttavia, alcune condizioni per la "solita riduzione" non sono soddisfatte. Per questo motivo (celle casuali) si ottengono i termini più complicati con il termine chi-quadrato ponderato come correzione e si finisce con G-2. È tutt'altro che completamente diverso. χ2
Sesto Empirico

@ Martijn Weterings, scusa ma non posso votare perché non vedo nessuna idea come "celle casuali" nella tua risposta, vuoi dire che tutte le tue belle foto (e intendo questo, sono molto belle) spiegare qualcosa sulle "celle casuali" o ti è venuta in mente questa idea dopo aver letto la mia risposta?

Non dispiacerti Sono d'accordo che la mia risposta non è una risposta esatta per mostrare esattamente i gradi di libertà nel test HL. Mi dispiace per quello. Quello che hai è la statistica di Chernoff Lehman (con anche celle casuali) che segue un i=1ks1χ2(1)+i=ksk1λiχi2(1)distribuzione. Al momento non mi è chiaro quale parte ti preoccupi, spero che tu possa essere più costruttivo in questo. Se vuoi tutto spiegato, hai già gli articoli per quello. La mia risposta ha appena affrontato spiegando la differenza principale rispetto al test della tabella di contingenza. i=1ks1χ2(1)
Sesto Empirico

2

Il teorema a cui ti riferisci (la solita parte di riduzione "Solita riduzione dei gradi di libertà a causa di parametri stimati") è stato per lo più sostenuto da RA Fisher. In "Sull'interpretazione di Chi Square da Contingency Tables, and the Calculation of P" (1922) sosteneva di usare la regola e in "La bontà di adattamento delle formule di regressione" ( 1922) sostiene di ridurre i gradi di libertà del numero di parametri utilizzati nella regressione per ottenere valori attesi dai dati. (È interessante notare che le persone hanno abusato del test del chi-quadro, con gradi di libertà sbagliati, per più di venti anni dalla sua introduzione nel 1900)(R1)(C1)

Il tuo caso è del secondo tipo (regressione) e non del primo tipo (tabella di contingenza) sebbene i due siano correlati in quanto restrizioni lineari sui parametri.

Poiché modellate i valori previsti, in base ai vostri valori osservati, e lo fate con un modello con due parametri, la riduzione "normale" dei gradi di libertà è due più uno (uno in più perché O_i deve riassumere un totale, che è un'altra restrizione lineare, e si finisce effettivamente con una riduzione di due, anziché tre, a causa della "inefficienza" dei valori previsti modellati).


χ2

χ2

f(x1,...,xk)=e12χ2(2π)k|Σ|

|Σ|x

χ2=(xμ)TΣ1(xμ)Σ=I

χ2P(χ2>a)


χ2

OiEiEi

Usiamo la tabella

Oij=o11o12o21o22

quindi se i valori previsti

Eij=e11e12e21e22

oijeijeijeijoijoe

(o11e11)=(o22e22)=(o21e21)=(o12e12)=o11(o11+o12)(o11+o21)(o11+o12+o21+o22)

χ2

β0β_oieifourp+1

oeyiβxiϵiϵinon può assumere alcun valore possibile! Vale a dire che sono ridotti dalla parte che proietta sul modello e da 1 dimensione più particolare per ciascun parametro nel modello.


Forse le seguenti immagini possono essere di aiuto

B(n=60,p=1/6,2/6,3/6)N(μ=np,σ2=np(1p))χ2=1,2,6χ0ae12χ2χd1dχχd1χ

graphical representation of chi^2

L'immagine seguente può essere utilizzata per farsi un'idea della riduzione dimensionale in termini residui. Spiega il metodo di adattamento dei minimi quadrati in termini geometrici.

In blu hai delle misure. In rosso hai ciò che il modello consente. La misurazione spesso non è esattamente uguale al modello e presenta alcune deviazioni. Puoi considerarlo, geometricamente, come la distanza dal punto misurato alla superficie rossa.

mu1mu2(1,1,1)(0,1,2)

[x1x2x3]=a[111]+b[012]+[ϵ1ϵ2ϵ3]

(1,1,1)(0,1,2)xϵ

Quindi questa differenza tra osservata e (modellata) prevista è una somma di vettori perpendicolari al vettore del modello (e questo spazio ha dimensione dello spazio totale meno il numero di vettori del modello).

Nel nostro semplice esempio. La dimensione totale è 3. Il modello ha 2 dimensioni. E l'errore ha una dimensione 1 (quindi non importa quale di quei punti blu prendi, le frecce verdi mostrano un singolo esempio, i termini di errore hanno sempre lo stesso rapporto, segui un singolo vettore).

graphical representation of regression dimension reduction


Spero che questa spiegazione sia d'aiuto. Non è in alcun modo una prova rigorosa e ci sono alcuni trucchi algebrici speciali che devono essere risolti in queste rappresentazioni geometriche. Ma comunque mi piacciono queste due rappresentazioni geometriche. Quello per il trucco di Pearson di integrare ilχ2 usando le coordinate sferiche e l'altro per visualizzare il metodo della somma dei minimi quadrati come proiezione su un piano (o span più grande).

Sono sempre stupito di come finiamo o-ee, questo dal mio punto di vista non è banale poiché l'approssimazione normale di un binomio non è una idea di e ma di np(1-p)e nel caso delle tabelle di contingenza puoi risolverlo facilmente ma nel caso della regressione o di altre restrizioni lineari non si risolve così facilmente mentre la letteratura è spesso molto facile nel sostenere che "funziona allo stesso modo per altri lineari restrizioni. (Un esempio interessante del problema. Se esegui il seguente test più volte 'lancia 2 volte 10 volte una moneta e registra solo i casi in cui la somma è 10', non otterrai la tipica distribuzione chi-quadro per questo " semplice "restrizione lineare)


2
In my honest opinion this answer has very nice figures and arguments that are related to χ2 test but it has not so much to do with the question which is about the Hosmer-Lemeshow test for a logistic regression. You are arguing something with a regression where 1 parameters is estimated but the Hosmer-Lemeshow test is about a logistic regression where p>1 parameters are estimated. See also stats.stackexchange.com/questions/296312/…

... and, as you say, you end up with an e in the denominator and not with a np(1p) , so this does not answer this question. Hence I have to downvote, sorry (but the graphs are very nice :-) ).

You were asking in a comment for "to understand the formula or at least the 'intuitive' explanation". So that is what you get with these geometrical interpretations. To calculate exactly how these np(1p) cancel out if you add both the positive and negative cases is far from intuitive and does not help you understand the dimensions.
Sextus Empiricus

In my answer I used the typical (d1p) degrees of freedom and assumed that the regression was performed with one parameter (p=1), which was a mistake. The parameters in your references are two, a β0 and β. These two parameters would have reduced the dimensionality to d-3 if only the proper conditions (efficient estimate) would have been met (see for instance again a nice article from Fisher 'The conditions under which the chi square measures the discrepancy between observation and hypothesis')....
Sextus Empiricus

....anyway, I explained why we don't get dimension d-1 (and should instead expect something like d-3, if you put two parameters in the regression) and how the dimensional reduction by an efficient estimate can be imagined. It is the Moore-Spruill article that works out the extra terms (potentially increasing the effective degrees of freedom) due to that inefficiency and it is the Hosmer-Lemeshow simulation that shows that d-2 works best. That theoretical work is far from intuitive and the simulation is far from exact. My answer is just the requested explanation for the difference with d-1.
Sextus Empiricus
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.