Divulgazione completa: si tratta di compiti a casa. Ho incluso un collegamento al set di dati ( http://www.bertelsen.ca/R/logistic-regression.sav )
Il mio obiettivo è massimizzare la previsione dei inadempienti sui prestiti in questo set di dati.
Ogni modello che ho escogitato finora prevede> 90% dei non inadempienti, ma <40% dei inadempienti rende l'efficienza della classificazione complessivamente ~ 80%. Quindi, mi chiedo se ci sono effetti di interazione tra le variabili? All'interno di una regressione logistica, oltre a testare ogni possibile combinazione esiste un modo per identificare potenziali effetti di interazione? O in alternativa un modo per aumentare l'efficienza della classificazione dei inadempienti.
Sono bloccato, qualsiasi consiglio sarebbe utile nella tua scelta di parole, codice R o sintassi SPSS.
Le mie variabili primarie sono descritte nel seguente istogramma e grafico a dispersione (ad eccezione della variabile dicotomica)
Una descrizione delle variabili primarie:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Le variabili aggiuntive sono solo trasformazioni di quanto sopra. Ho anche provato a convertire alcune variabili continue in variabili categoriali e ad implementarle nel modello, senza fortuna lì.
Se vuoi inserirlo in R, rapidamente, eccolo qui:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)