Ho lavorato su un modello logistico e ho delle difficoltà a valutare i risultati. Il mio modello è un logit binomiale. Le mie variabili esplicative sono: una variabile categoriale con 15 livelli, una variabile dicotomica e 2 variabili continue. La mia N è grande> 8000.
Sto cercando di modellare la decisione delle imprese di investire. La variabile dipendente è l'investimento (sì / no), le 15 variabili di livello sono diversi ostacoli per gli investimenti segnalati dai gestori. Il resto delle variabili sono controlli per vendite, crediti e capacità utilizzata.
Di seguito sono riportati i miei risultati, usando il rms
pacchetto in R.
Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 8035 LR chi2 399.83 R2 0.067 C 0.632
1 5306 d.f. 17 g 0.544 Dxy 0.264
2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266
max |deriv| 6e-09 gp 0.119 tau-a 0.118
Brier 0.213
Coef S.E. Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33 <0.0001
x1=10 -0.4929 0.1000 -4.93 <0.0001
x1=11 -0.5735 0.1057 -5.43 <0.0001
x1=12 -0.0748 0.0806 -0.93 0.3536
x1=13 -0.3894 0.1318 -2.96 0.0031
x1=14 -0.2788 0.0953 -2.92 0.0035
x1=15 -0.7672 0.2302 -3.33 0.0009
x1=2 -0.5360 0.2668 -2.01 0.0446
x1=3 -0.3258 0.1548 -2.10 0.0353
x1=4 -0.4092 0.1319 -3.10 0.0019
x1=5 -0.5152 0.2304 -2.24 0.0254
x1=6 -0.2897 0.1538 -1.88 0.0596
x1=7 -0.6216 0.1768 -3.52 0.0004
x1=8 -0.5861 0.1202 -4.88 <0.0001
x1=9 -0.5522 0.1078 -5.13 <0.0001
d2 0.0000 0.0000 -0.64 0.5206
f1 -0.0088 0.0011 -8.19 <0.0001
k8 0.7348 0.0499 14.74 <0.0001
Fondamentalmente voglio valutare la regressione in due modi, a) quanto bene il modello si adatta ai dati eb) quanto bene il modello prevede il risultato. Per valutare la bontà dell'adattamento (a), penso che i test di devianza basati sul chi-quadrato non siano appropriati in questo caso perché il numero di covariate uniche si avvicina a N, quindi non possiamo assumere una distribuzione X2. Questa interpretazione è corretta?
Posso vedere le covariate usando il epiR
pacchetto.
require(epiR)
logit.cp <- epi.cp(logit.df[-1]))
id n x1 d2 f1 k8
1 1 13 2030 56 1
2 1 14 445 51 0
3 1 12 1359 51 1
4 1 1 1163 39 0
5 1 7 547 62 0
6 1 5 3721 62 1
...
7446
Ho anche letto che il test GoF di Hosmer-Lemeshow è obsoleto, in quanto divide i dati per 10 al fine di eseguire il test, il che è piuttosto arbitrario.
Invece uso il test Le Cessie – van Houwelingen – Copas – Hosmer, implementato nel rms
pacchetto. Non sono sicuro di come venga eseguito questo test, non ho ancora letto i documenti a riguardo. In ogni caso, i risultati sono:
Sum of squared errors Expected value|H0 SD Z P
1711.6449914 1712.2031888 0.5670868 -0.9843245 0.3249560
P è grande, quindi non ci sono prove sufficienti per dire che il mio modello non si adatta. Grande! Tuttavia....
Quando controllo la capacità predittiva del modello (b), disegno una curva ROC e trovo che l'AUC lo sia 0.6320586
. Non sembra molto bello.
Quindi, per riassumere le mie domande:
I test che eseguo sono appropriati per controllare il mio modello? Quale altro test potrei considerare?
Trovi il modello utile o lo respingeresti in base ai risultati di analisi del ROC relativamente scarsi?
x1
dovresti essere preso come una singola variabile categoriale? Cioè, ogni caso deve avere 1, e solo 1, "ostacolo" agli investimenti? Penserei che alcuni casi potrebbero essere affrontati con 2 o più ostacoli e alcuni casi non ne hanno.