Quale misura pseudo- è quella da segnalare per la regressione logistica (Cox & Snell o Nagelkerke)?


55

Ho un SPSSoutput per un modello di regressione logistica. L'output riporta due misure per l'adattamento del modello Cox & Snelle Nagelkerke.

Quindi, come regola empirica, quali di queste misure R² riferiresti come modello adatto?

Oppure, quale di questi indici di adattamento è quello che viene solitamente riportato nelle riviste?


Alcuni retroscena: la regressione cerca di prevedere la presenza o l'assenza di un uccello (gallo cedrone) da alcune variabili ambientali (es. Pendenza, copertura vegetale, ...). Sfortunatamente, l'uccello non è apparso molto spesso (35 colpi a 468 miss), quindi la regressione si comporta piuttosto male. Cox & Snell è .09, Nagelkerke, .23.

L'argomento è scienze ambientali o ecologia.


3
L'eccellente sito di aiuto per le statistiche dell'UCLA ha una pagina eccellente che spiega i vari pseudo- R2 e come sono collegati tra loro.
gung - Ripristina Monica

Ecco due link che discutono un esatto algoritmo non parametrico che massimizza l'accuratezza dei modelli di regressione logistica. Se si utilizza questo metodo con i propri dati, aumenterà le prestazioni di classificazione del modello di regressione logistica quando applicato al campione. Esempio 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/… Esempio 2: epm.sagepub.com/content/54/1/73.abstract
user31256

Risposte:


74

Normalmente non segnalerei affatto . Hosmer e Lemeshow, nel loro libro di testo Applied Logistic Regression (2nd Ed.), Spiegano perché:R2

In generale, [ misure ] si basano su vari confronti dei valori previsti dal modello adattato a quelli del [modello base], il modello senza dati o solo intercettazione e, di conseguenza, non valutano la bontà di -in forma. Pensiamo che una vera misura di adattamento si basi rigorosamente su un confronto tra i valori osservati e quelli previsti dal modello montato.R2

[A pag. 164.]

Per quanto riguarda le varie versioni ML di , lo stat "pseudo ", citano che non è "raccomandato per l'uso di routine, in quanto non è intuitivamente facile da spiegare", ma si sentono obbligati a descriverlo perché vari i pacchetti software lo segnalano.R2R2

Concludono questa discussione scrivendo,

... valori bassi di nella regressione logistica sono la norma e ciò presenta un problema quando si segnalano i loro valori a un pubblico abituato a vedere valori di regressione lineare. ... Quindi [argomentando facendo riferimento agli esempi in esecuzione nel testo] non raccomandiamo la pubblicazione di routine di valori con risultati da modelli logistici adattati. Tuttavia, possono essere utili nello stato di creazione del modello come statistica per valutare i modelli concorrenti.R2R2

[A pag. 167.]

La mia esperienza con alcuni grandi modelli logistici (record da 100k a 300k, variabili esplicative da 100 a 300) è stata esattamente come descritta da H&L. Potrei raggiungere relativamente alto con i miei dati, fino a circa 0,40. Questi corrispondevano a tassi di errore di classificazione compresi tra il 3% e il 15% (falsi negativi e falsi positivi, bilanciati, come confermato utilizzando set di dati del 50%). Come ha suggerito H&L, ho dovuto dedicare molto tempo a disabituare il cliente (un consulente sofisticato stesso, che aveva familiarità con ) per quanto riguarda e convincerlo a concentrarsi su ciò che contava nell'analisi (errore di classificazione aliquote). Posso consigliare caldamente di descrivere i risultati della tua analisi senza fare riferimento a , che è più probabile che induca in errore.R2R2R2R2


1
(+1) Inizialmente stavo pensando di espandere la mia risposta (che è arrivata subito dopo la tua), ma sicuramente la tua risposta è autosufficiente.
chl

grazie per questo, utile per un progetto a cui sto lavorando anche attualmente - e ha perfettamente senso.
Brandon Bertelsen,

1
@whuber: tendo anche a gravitare verso il corretto classif. tassi, ma ho visto numerosi riferimenti in libri di testo e siti Web che avvertono gli analisti di non fidarsi di loro e sottolineano che lo pseudo-rsq, nonostante i suoi limiti, è una metrica più giusta. Leggo spesso qualcosa che sembra confermato in una certa misura nelle mie analisi: che con l'aggiunta di un determinato predittore lo pseudo-rsq potrebbe aumentare (e altre metriche indicheranno un beneficio dall'aggiunta) mentre la corretta classificazione non riesce, e quello non dovrebbe fidarsi di quest'ultimo. Ci hai pensato?
rolando2,

4
@ rolando2 Sì, l'ho fatto. Ciò solleva la questione di quanto lo pseudo- dovrebbe salire per giustificare l'inclusione delle variabili. Sospetto che il tuo "tasso di classificazione corretto" possa riferirsi al tasso di campionamento , che ovviamente è distorto. Se è corretto, ciò che leggi confronta semplicemente due statistiche inferiori. Il fuori frequenza di campionamento è di gran lunga più utile un indicatore rispetto allo pseudo- . R2R2
whuber

1
+1. Inoltre, per espandere una parte sottile della tua risposta, fai riferimento ai tassi di errore di classificazione , che sono plurali e non devono essere confusi con precisione . Esistono molti tipi diversi di calcoli che possono derivare da una matrice di confusione - accuratezza , percentuale di falsi positivi , precisione , ecc. - e quello a cui teniamo dipende dall'applicazione. Inoltre, fai la distinzione di fuori campione , che è distinta dalla convalida incrociata , ma a volte confusa con essa.
Wayne,

27

Entrambi gli indici sono misure di forza dell'associazione (ovvero se un predittore è associato al risultato, come per un test LR) e possono essere utilizzati per quantificare la capacità predittiva o le prestazioni del modello. Un singolo predittore può avere un effetto significativo sul risultato, ma potrebbe non essere necessariamente così utile per prevedere la risposta individuale , quindi la necessità di valutare le prestazioni del modello nel suo insieme (rispetto al modello nullo). Nagelkerke è utile perché ha un valore massimo di 1,0, come ha detto Srikant. Questa è solo una versione normalizzata di calcolata dal rapporto di verosimiglianza,R2R2RLR2=1exp(LR/n), che ha una relazione con la statistica Wald per l'associazione generale, come originariamente proposto da Cox e Snell. Altri indici di capacità predittiva sono il punteggio di Brier, l'indice C (probabilità di concordanza o area ROC) o D di Somers, questi ultimi due forniscono una misura migliore della discriminazione predittiva.

Le uniche ipotesi fatte nella regressione logistica sono quelle di linearità e additività (+ indipendenza). Sebbene siano stati proposti molti test globali di bontà di adattamento (come il test Hosmer & Lemeshow , ma vedi il mio commento a @onestop), generalmente mancano di energia. Per valutare il modello in forma, è meglio affidarsi a criteri visivi (stime stratificate, lisciatura non parametrica) che aiutano a macchia di partenza locale o globale tra i risultati previsti e osservati (ad esempio, la non linearità o di interazione), e questo è in gran parte in dettaglio nella di Harrell RMS volantino . Su un argomento correlato (test di calibrazione), Steyerberg ( Modelli di predizione clinica)χ2, 2009) indica lo stesso approccio per valutare l'accordo tra risultati osservati e probabilità previste:

La calibrazione è correlata alla bontà di adattamento, che si riferisce alla capacità di un modello di adattarsi a un determinato set di dati. In genere, non esiste un singolo test di bontà di adattamento che abbia un buon potere contro tutti i tipi di mancanza di adattamento di un modello di previsione. Esempi di mancanza di adattamento sono mancate non linearità, interazioni o una funzione di collegamento inappropriata tra il predittore lineare e il risultato. La bontà di adattamento può essere testata con una statistica . (p. 274)χ2

Suggerisce inoltre di fare affidamento sulla differenza assoluta tra risultati osservati uniformi e probabilità previste, sia visivamente, sia con la cosiddetta statistica E di Harrell.

Maggiori dettagli sono disponibili nel libro di Harrell, Regressione Modeling Strategies (pagg. 203-205, 230-244, 247-249). Per una discussione più recente, vedi anche

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ e Kattan, MW (2010). Valutare le prestazioni dei modelli di previsione, un quadro per misure tradizionali e innovative . Epidemiologia , 21 (1) , 128-138.


potresti approfondire la distinzione tra "bontà di adattamento" e forza di associazione o capacità predittiva?
Andy W,

@Andy Grazie per averlo indicato. Mi rendo conto in seguito che la mia prima frase non suona davvero bene. Aggiornerò la mia risposta, per favore fatemi sapere se questo va bene con voi.
chl

Grazie per l'aggiornamento e chiarisce la distinzione.
Andy W,

21

Avrei pensato che il problema principale con qualsiasi tipo di misura per la regressione logistica è che hai a che fare con un modello che ha un valore di rumore noto. Ciò è diverso dalla regressione lineare standard, in cui il livello di rumore viene generalmente considerato sconosciuto. Perché possiamo scrivere una funzione di densità di probabilità glm come:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

Dove Sono funzioni note e per la funzione di collegamento inverso . Se definiamo i soliti residui di devianza GLM comeb(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
Abbiamo (tramite il rapporto di verosimiglianza chi-quadrato, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

Dove è la dimensione di . Per la regressione logistica abbiamo , che è noto. Quindi possiamo usarlo per decidere su un livello definito di residuo "accettabile" o "ragionevole". Questo di solito non può essere fatto per la regressione OLS (a meno che non si disponga di informazioni precedenti sul rumore). Vale a dire, ci aspettiamo che ogni residuo di devianza sia di circa . Troppi ed è probabile che manchi un effetto importante ( ); troppi ed è probabile che ci siano effetti ridondanti o spuri nel modello (adattamento eccessivo). (questi potrebbero anche significare errata specificazione del modello).pβϕ=11di21di21

Ciò significa che il problema per lo pseudo- è che non tiene conto del fatto che il livello di variazione binomiale è prevedibile (a condizione che la struttura dell'errore binomiale non sia messa in discussione). Pertanto, anche se Nagelkerke varia da a , non viene ancora ridimensionato correttamente. Inoltre, non riesco a capire perché questi sono chiamati pseudo se non sono uguali al solito quando si inserisce un "GLM" con un collegamento di identità e un errore normale. Ad esempio, l'equivalente cox-snell R-quadrato per errore normale (usando la stima REML della varianza) è dato da:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

Che certamente sembra strano.

Penso che la migliore misura di "bontà di adattamento" sia la somma dei residui di devianza, . Questo principalmente perché abbiamo un obiettivo a cui puntare.χ2


+1 Bella esposizione dei problemi accennati nei commenti dopo la risposta di Srikant .
whuber

Dato che un GLM binomiale sarebbe idoneo usando i minimi quadrati iterativamente ripesati, perché uno come misura della qualità dell'adattamento non potrebbe riportare l'R2 degli adattamenti minimi quadrati ponderati dell'ultima iterazione IRLS con cui era adatto il GLM? Come in stats.stackexchange.com/questions/412580/… ?
Tom Wenseleers,

16

Ho trovato il breve documento di Tue Tjur "Coefficienti di determinazione nei modelli di regressione logistica - Una nuova proposta: il coefficiente di discriminazione" (2009, The American Statistician ) su varie proposte per un coefficiente di determinazione nei modelli logistici abbastanza illuminante. Fa un buon lavoro mettendo in evidenza pro e contro - e ovviamente offre una nuova definizione. Altamente raccomandato (anche se non ho preferito me stesso).


1
Grazie per aver sottolineato quel foglio; in qualche modo mi mancava (e appariva quando ero nel mezzo di un grande progetto di regressione logistica!).
whuber

3
Per la cronaca, questa nuova definizione è , che è il valore previsto medio per le risposte meno il valore previsto medio per le risposte. Può variare da a . Tjur non elimina la pseudo Nagelkerke , ma suggerisce manca il "fascino intuitivo" di cui godono . D=π^¯1π^¯01001R2D
whuber

8

Stavo anche per dire "nessuno dei due", quindi ho votato a favore della risposta di Whuber.

Oltre a criticare R ^ 2, Hosmer e Lemeshow hanno proposto una misura alternativa di bontà di adattamento per la regressione logistica che a volte è utile. Questo si basa sulla divisione dei dati in (diciamo) 10 gruppi di uguale dimensione (o il più vicino possibile) ordinando sulla probabilità prevista (o equivalentemente, il predittore lineare), quindi confrontando il numero di risposte positive osservate con attese in ciascun gruppo ed eseguendo un test chi-quadrato. Questo "test di bontà di adattamento di Hosmer-Lemeshow" è implementato nella maggior parte dei pacchetti software statistici.


3
Il test GoF HL non è molto potente poiché dipende dal classificare la scala del predittore continuo in un numero arbitrario di gruppi; H&L ha proposto di considerare il decile, ma ovviamente dipende dalla dimensione del campione e in alcune circostanze (ad es. Modelli IRT) spesso si hanno pochissime persone a una o entrambe le estremità della scala, in modo tale che i tagli siano spaziati in modo non uniforme. Vedere Un confronto tra i test di bontà di adattamento per il modello di regressione logistica, Stat. Med. 1997 16 (9): 965, j.mp/aV2W6Iχ2
chl

Grazie chi, questo è un riferimento utile, anche se il tuo link j.mp mi ha portato a un prompt di accesso a BiblioInserm. Ecco un link basato su doi: dx.doi.org/10.1002/…
onestop

Ci scusiamo per il link errato ... Mi sembra di ricordare che il Designpacchetto di Frank Harrell presenta il test alternativo H&L 1 df.
chl

3

Preferirei Nagelkerke poiché questo modello raggiunge 1 quando il modello si adatta perfettamente, dando al lettore la sensazione di quanto il modello sia lontano dalla perfetta vestibilità. Il Cox & Shell non raggiunge 1 per adattarsi perfettamente al modello e quindi interpretare un valore di 0,09 è un po 'più difficile. Vedi questo URL per ulteriori informazioni su Pseudo RSquared per una spiegazione di vari tipi di accoppiamenti .


8
Un "adattamento perfetto" è così lontano dall'essere raggiungibile in qualsiasi regressione logistica realistica che sembra ingiusto usarlo come riferimento o standard.
whuber

1
@whuber Vero, ma è possibile utilizzare lo standard per confrontare le prestazioni relative di due modelli concorrenti. I suoi punti di bassa R ^ 2 nella tua risposta e le sue implicazioni sono buoni punti, ma se si dispone (per esempio, i revisori richiederlo, ecc) per utilizzare una qualche forma di R ^ 2 allora Nagelkerke è preferibile.

1
@Skridant Sì, ancora il problema dei revisori che vogliono vedere la correzione e Bonferroni ovunque ...R2
chl

@Srikant, @chl: una lettura cinica di questo thread suggerirebbe di scegliere il più grande R ^ 2 tra tutti quelli segnalati dal software ;-).
whuber

2
@chl Ovviamente è necessario offrire il feedback ai revisori / clienti, ma a volte dobbiamo anche essere pragmatici. Se i lettori non interpretano erroneamente R ^ 2 basso come mancanza di adeguate prestazioni del modello, i problemi sollevati da @whuber saranno mitigati in una certa misura.

3

Nonostante gli argomenti contro l'uso di pseudo-r-quadrati, alcune persone vorranno per vari motivi continuare a usarli almeno in determinati momenti. Quello che ho interiorizzato dalle mie letture (e al momento mi dispiace non poter fornire citazioni) è quello

  • se sia C&S che Nag. sono inferiori a 0,5, C&S sarà un indicatore migliore;
    se sono entrambi sopra 0,5, Nag. volontà; e
    se si trovano a cavallo di 0,5, punt.

Inoltre, una formula i cui risultati spesso cadono tra questi due, menzionata da Scott Menard in Applied Logistic Regression Analysis (Sage), è

[-2LL0 - (-2LL1)]/-2LL0.

Questo è indicato come "L" nella tabella seguente.

inserisci qui la descrizione dell'immagine


Cosa mostra questa immagine (cosa rappresenta l'asse orizzontale)? Inoltre, in che modo l'ultima formula (che assomiglia a una statistica del rapporto di probabilità in scala) differisce esattamente da Nagelkerke ? R2
chl

Analisi #: ho provato varie analisi con set di dati diversi. Non ho la formula di Nagelkerke a portata di mano, ma scommetto che è prontamente disponibile.
rolando2,

Paul Allison copre la formula Nagelkerke, che è una Cox & Snell formula alto-regolato, a statisticalhorizons.com/2013/02 . Dopo aver letto quel blog, e generalmente nei 2-3 anni trascorsi da quando la maggior parte di questa discussione ha avuto luogo, sono diventato più convinto che le sottostime di Cox & Snell hanno spiegato la varianza e che sto meglio facendo una media di C&S e il risultato di Nagelkerke.
rolando2,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.