Interpretazione pseudo-R2 di McFadden


29

Ho un modello di regressione logistica binaria con uno pseudo R-quadrato di McFadden di 0,192 con una variabile dipendente chiamata payment (1 = pagamento e 0 = nessun pagamento). Qual è l'interpretazione di questo pseudo R-quadrato?

È un confronto relativo per i modelli nidificati (ad esempio un modello a 6 variabili ha uno pseudo R-quadrato di McFadden di 0,192, mentre un modello a 5 variabili (dopo aver rimosso una variabile dal modello a 6 variabili sopra menzionato), questo modello a 5 variabili ha uno pseudo R -quadrato di 0,131. Vorremmo mantenere quella sesta variabile nel modello?) o è una quantità assoluta (per esempio un dato modello che ha uno pseudo R-quadrato di McFadden di 0.192 è migliore di qualsiasi modello esistente con uno pseudo di McFadden R-quadrato di 0,180 (anche per modelli non nidificati)? Questi sono solo modi possibili di guardare lo p-r-quadrato di McFadden; tuttavia, presumo che queste due viste siano molto lontane, quindi il motivo per cui sto ponendo questa domanda qui.

Ho fatto molte ricerche su questo argomento e devo ancora trovare la risposta che sto cercando in termini di essere in grado di interpretare uno pseudo R-quadrato di McFadden di 0,192. Qualsiasi approfondimento e / o riferimento sono molto apprezzati! Prima di rispondere a questa domanda, sono consapevole che questa non è la misura migliore per descrivere un modello di regressione logistica, ma vorrei avere una maggiore comprensione di questa statistica a prescindere!

Risposte:


34

Quindi ho pensato di riassumere ciò che ho imparato sullo pseudo R2 di McFadden come risposta corretta.

Il riferimento fondamentale che posso vedere per lo pseudo R2 di McFadden è: McFadden, D. (1974) “Analisi del logit condizionale del comportamento di scelta qualitativa.” Pp. 105-142 in P. Zarembka (a cura di), Frontiers in Econometrics. Academic Press. http://eml.berkeley.edu/~mcfadden/travel.html La Figura 5.5 mostra la relazione tra le misure rho-squadrate e R2 tradizionali di OLS. La mia interpretazione è che valori più grandi di rho-quadrato (pseudo R2 di McFadden) sono migliori di quelli più piccoli.

L'interpretazione dello pseudo R2 di McFadden tra 0,2-0,4 proviene da un capitolo del libro a cui ha contribuito: Bahvioural Travel Modeling. A cura di David Hensher e Peter Stopher. 1979. McFadden ha contribuito con Ch. 15 "Metodi quantitativi per l'analisi del comportamento di viaggio sugli individui: alcuni sviluppi recenti". La discussione sulla valutazione del modello (nel contesto di modelli logit multinomiali) inizia a pagina 306 dove introduce rho-squared (pseudo R2 di McFadden). McFadden afferma "mentre l'indice R2 è un concetto più familiare per il progettista che ha esperienza in OLS, non si comporta bene come la misura rho-quadrato, per la stima ML. Coloro che non hanno familiarità con il rho-quadrato devono essere avvertiti che i suoi valori tendono essere notevolmente inferiore a quelli dell'indice R2 ... Ad esempio, i valori da 0,2 a 0,4 per rho-quadrato rappresentano un adattamento ECCELLENTE.

Quindi, in sostanza, il rho-quadrato può essere interpretato come R2, ma non aspettarti che sia così grande. E i valori da 0,2-0,4 indicano (nelle parole di McFadden) un eccellente adattamento del modello.


Buona conclusione, Chris. Grazie per i tuoi sforzi!
Matt Reichenbach,

Sono arrivato tardi alla discussione, ma io lascerò questo link dove spiegano l'R2 MacFadden rispetto ad altre misure di aggiustamento: statisticalhorizons.com/r2logistic
sergiouribe

13

Il quadrato R di McFadden è definito come 1-l_mod / l_null, dove l_mod è il valore di verosimiglianza del log per il modello adattato e l_null è la verosimiglianza del log per il modello nullo che include solo un'intercetta come predittore (in modo che ogni individuo sia previsto con la stessa probabilità di "successo").

Per un modello di regressione logistica il valore di verosimiglianza logaritmica è sempre negativo (poiché il contributo di verosimiglianza di ciascuna osservazione è una probabilità tra 0 e 1). Se il tuo modello non prevede realmente il risultato meglio del modello nullo, l_mod non sarà molto più grande di l_null, quindi l_mod / l_null è approssimativamente 1 e il quadrato R di McFadden è vicino a 0 (il tuo modello non ha valore predittivo) .

Al contrario, se il tuo modello fosse davvero buono, quelle persone con un esito positivo (1) avrebbero una probabilità adeguata vicino a 1, e viceversa per quelle con esito negativo (0). In questo caso, se si passa attraverso il calcolo della probabilità, il contributo della probabilità di ciascun individuo per il proprio modello sarà vicino a zero, in modo che l_mod sia vicino a zero e il quadrato R di McFadden sia vicino a 1, indicando un'ottima capacità predittiva.

Quanto a ciò che può essere considerato un buon valore, la mia opinione personale è che, come quelle domande simili nelle statistiche (ad esempio, che cosa costituisce una grande correlazione?), Non può mai essere una risposta definitiva. L'anno scorso ho scritto un post sul blog sulla R di McFadden al quadrato nella regressione logistica, che contiene alcune ulteriori illustrazioni di simulazione.


5

Ho fatto alcune ricerche più mirate su questo argomento e ho scoperto che le interpretazioni dello pseudo R-quadrato di McFadden (noto anche come indice del rapporto di verosimiglianza) non sono chiare; tuttavia, può variare da 0 a 1, ma non raggiungerà o supererà mai 1 come risultato del suo calcolo.

Una regola empirica che ho trovato molto utile è che lo pseudo R-quadrato di una McFadden che va da 0,2 a 0,4 indica un'ottima adattabilità del modello. Pertanto, il modello sopra menzionato con uno pseudo R-quadrato di 0,192 di McFadden non è probabilmente un modello terribile, almeno secondo questa metrica, ma non è nemmeno particolarmente forte.

È anche importante notare che lo pseudo R-quadrato di McFadden è meglio usato per confrontare diverse specifiche dello stesso modello (cioè modelli nidificati). In riferimento al suddetto esempio, il modello a 6 variabili (pseudo R-quadrato di McFadden = 0,192) si adatta ai dati meglio del modello a 5 variabili (pseudo R-quadrato di McFadden = 0,131), che ho testato formalmente utilizzando un test del rapporto log-verosimiglianza , che indica che esiste una differenza significativa ( p <0,001) tra i due modelli, e quindi il modello a 6 variabili è preferito per il set di dati specificato.


1
Qual è il riferimento che hai trovato che afferma che la McFadden R2 tra 0,2 - 0,4 è un adattamento "molto buono"?
Chris,

A proposito ... ecco un riferimento e un link all'articolo originale McFadden in cui definisce la sua misura pseudo-R2. McFadden, D. (1974) "Analisi del logit condizionale del comportamento di scelta qualitativa." Pp. 105-142 in P. Zarembka (a cura di), Frontiers in Econometrics. Academic Press. elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
Chris

1
Grazie per i riferimenti. Sembra che molte delle opere di McFadden possano essere trovate sul suo sito web Berkeley. Di seguito è riportato un link all'intero libro che citi sopra: elsa.berkeley.edu/users/mcfadden/travel.html Tutti i capitoli vengono visualizzati in PDF. Rho-square (pseudo R2 di McFadden) è menzionato nel Capitolo 5. Pagine 122 in poi (vedere l'equazione 5.33 e il grafico che segue immediatamente dopo). Non vedo alcuna menzione di 0.2-0.4 = "VG model fit". Continuerò a cercare l'aspetto fondamentale di questa "regola empirica". Grazie per l'aiuto!
Chris,

1
Nessun problema! Apprezzo la tua curiosità e completezza. La frase esatta può essere trovata su lifesciencesite.com/lsj/life1002/… , in cui gli autori affermano che "Per adattarsi al modello complessivo viene utilizzato uno pseudo r-quadrato di McFadden (ρ2). McFadden ha suggerito ρ2 valori compresi tra 0,2 e 0,4 dovrebbero essere presi per rappresentare un ottimo adattamento del modello (Louviere et al., 2000). "
Matt Reichenbach,

4
La mia istituzione ha una copia elettronica di Louviere et al (2000). "Metodi di scelta dichiarati: analisi e applicazioni". Cambridge University Press. Questo è il riferimento che Lee (Life Science Journal) cita per rho-square in {0.2-0.4} = "VG fit". A pagina 55 di Louviere (associato all'equazione 3.32) vediamo la seguente citazione: "I valori di rho-quadrato tra 0,2-0,4 sono considerati indicativi di adattamenti del modello estremamente buoni. Simulazioni di Domenich e McFadden (1975) equivalgono a Da 0,7 a 0,9 per una funzione lineare ".
Chris,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.