Il modo migliore per combinare la risposta binaria e continua


10

Sto cercando di trovare il modo migliore per prevedere l'importo del pagamento per un'agenzia di riscossione. La variabile dipendente è diversa da zero quando è stato effettuato un pagamento. Comprensibilmente, esiste un numero schiacciante di zeri perché la maggior parte delle persone non può essere raggiunta o non può rimborsare il debito.

Esiste anche una correlazione negativa molto forte tra l'importo del debito e la probabilità di effettuare un pagamento. In genere, creerei un modello logistico per prevedere la probabilità di retribuzione / non retribuzione, ma ciò ha la sfortunata conseguenza di trovare le persone con i saldi più bassi.

Esiste un modo per combinare un modello logistico di retribuzione / non retribuzione con un modello separato che prevede l'importo del pagamento?


5
C'è una regressione logaritmica zero-inflazionata, che sembra adattarsi alle tue esigenze. Vedi questo documento
Peter Flom

@PeterFlom come pensi che sia paragonabile alla discussione di gui11aume e steffen su un modello a due stadi e una propensione alla selezione del campione?
As3ad tintin

1
Penso che entrambi possano essere utili. Si è discusso confrontando i due, ma ho dimenticato dove l'ho letto.
Peter Flom

Quello che ho finito per fare è stato creare una rete neurale con un'attivazione relu per l'output e una perdita logaritmica quadrata media
Zelazny7

ok grazie. l'attivazione della rete neurale / relu suona oltre le mie conoscenze attuali, ma continuerò a esaminarle. grazie per aver posto la domanda originale e per i commenti!
As3ad tintin

Risposte:


6

L'idea di gui11aume di costruire un modello in due fasi è la strada giusta da percorrere, tuttavia, è necessario considerare la speciale difficoltà della propria configurazione, che è la forte correlazione negativa tra l'importo del debito e la probabilità di effettuare un pagamento

Il problema principale della costruzione di un modello a due stadi qui è che il secondo modello (per la previsione del debito), quando costruito solo sui "non zeri", si basa su un campione probabilmente non casuale della popolazione ( cioè l'intero set di dati), ma il modello combinato deve essere nuovamente applicato all'intera popolazione. Ciò significa che il secondo modello dovrà fare previsioni per parti dei dati che non ha mai visto prima, con conseguente perdita di precisione. Questo si chiama Sample Selection Bias (per una panoramica dal punto di vista ML, consiglio A Bayesian Network Framework for Reject Inference di Smith and Elkan).

La KDD-Cup-98 ha affrontato un problema simile in cui si dovrebbe prevedere se un donatore per un'organizzazione di veterani possa donare di nuovo e quanto è probabile che donerà. In questo set di dati, anche la probabilità di donare di nuovo era negativamente correlata alla quantità di denaro prevista. È comparso anche il bias di selezione del campione.

La soluzione che mi ha colpito di più può essere trovata nell'apprendimento e nel prendere decisioni quando i costi e le probabilità sono entrambi sconosciuti di Bianca Zadrozny e Charles Elkan. Hanno creato una soluzione sensibile ai costi basata sulla correzione di Heckman , che è a mia conoscenza il primo approccio sistematico per correggere il bias di selezione (campione).


+1 Il tuo secondo paragrafo evidenzia molto bene qualcosa che manca nella mia risposta.
gui11aume,

In che modo questo si confronta con il suggerimento di Peter Flom di una regressione logaritmica normale zero?
As3ad tintin

3

Questa è una bella domanda (+1).

Perché non trattare gli 0 come se fossero NA?

È possibile aggiungere una risposta fittizia che indica se sono stati recuperati soldi ( ovvero pari a 0 quando il valore è 0 e 1 quando il valore è positivo) e adattare un modello logistico su questa risposta binaria con gli stessi predittori. Si adatterebbero 2 modelli: la risposta binaria usando tutti i punti dati e la risposta continua usando solo i punti dati non zero (in linea con l'idea di trattare 0 come NA).

È ancora possibile verificare la nullità dei parametri in ciascun modello e calcolare il guadagno previsto utilizzando entrambi i set di parametri.


Grazie per il suggerimento Prima della mia domanda avevo creato due variabili dipendenti e set di dati simili a quello che descrivi. Puoi approfondire cosa intendi con "Ancora la nullità dei paramenters"? Grazie!
Zelazny7,

"Ancora la nullità dei parametri" era un refuso che ho corretto nel testo. Mi dispiace per questo :-)
gui11aume
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.