Modello di Cox vs regressione logistica


15

Diciamo che ci viene dato il seguente problema:

Prevedi quali clienti hanno maggiori probabilità di interrompere l'acquisto nel nostro negozio nei prossimi 3 mesi.
Per ogni cliente conosciamo il mese in cui uno ha iniziato ad acquistare nel nostro negozio e inoltre abbiamo molte caratteristiche comportamentali in aggregati mensili. Il cliente "più anziano" acquista da cinquanta mesi; denotiamo il tempo trascorso da quando un cliente ha iniziato ad acquistare per ( ). Si può presumere che il numero di client sia molto elevato. Se un cliente smette di acquistare per tre mesi e poi ritorna, viene trattato come un nuovo cliente in modo che un evento (interrompi l'acquisto) possa verificarsi una sola volta.tt[0,50]

Mi vengono in mente due soluzioni:

Regressione logistica - Per ogni cliente e ogni mese (forse tranne i 3 mesi più recenti), possiamo dire se un cliente ha smesso di acquistare o meno, quindi possiamo fare campioni rotanti con un'osservazione per cliente e mese. Possiamo usare il numero di mesi dall'inizio come variabile categorica per ottenere un equivalente della funzione di rischio base.

Modello Cox esteso : questo problema può essere modellato anche utilizzando il modello Cox esteso. Sembra che questo problema sia più adatto all'analisi di sopravvivenza.

Domanda: quali sono i vantaggi dell'analisi di sopravvivenza in problemi simili? L'analisi di sopravvivenza è stata inventata per qualche motivo, quindi devono esserci alcuni seri vantaggi.

La mia conoscenza dell'analisi di sopravvivenza non è molto profonda e penso che la maggior parte dei potenziali vantaggi del modello Cox possa essere raggiunta anche utilizzando la regressione logistica.

  • Equivalente di modello di Cox stratificato può essere ottenuto utilizzando un'interazione di e la variabile di stratificazione. t
  • Il modello di interazione Cox può essere ottenuto immergendo la popolazione in diverse sottopopolazioni e stimando LR per ogni sottopopolazione.

L'unico vantaggio che vedo è che il modello Cox è più flessibile; ad esempio, possiamo facilmente calcolare la probabilità che un cliente smetta di acquistare in 6 mesi.

Risposte:


10

Il problema con il modello Cox è che non prevede nulla. L '"intercettazione" (funzione di rischio basale) nei modelli Cox non viene mai realmente stimata. La regressione logistica può essere utilizzata per prevedere il rischio o la probabilità per un determinato evento, in questo caso: se un soggetto arriva o meno per acquistare qualcosa in un mese specifico.

Il problema con le ipotesi alla base della normale regressione logistica è che tratti ogni osservazione mensile di una persona come indipendente, indipendentemente dal fatto che si tratti della stessa persona o dello stesso mese in cui si sono verificate le osservazioni. Questo può essere pericoloso perché alcuni articoli vengono acquistati a intervalli di due mesi, quindi le osservazioni consecutive per persona sono correlate negativamente . In alternativa, un cliente può essere trattenuto o perso da esperienze positive o negative che conducono osservazioni consecutive di persona per mese sono correlate positivamente .

Penso che un buon inizio per questo problema di previsione sia l'approccio della previsione in cui possiamo usare le informazioni precedenti per informare le nostre previsioni sull'attività del mese prossimo. Un semplice inizio di questo problema sta regolando per un effetto ritardato, o un indicatore del fatto che un soggetto sia arrivato nell'ultimo mese, come predittore dell'eventuale arrivo di questo mese.


2
Non è possibile utilizzare qui una regressione logistica multilivello per risolvere il problema dell'indipendenza? Il livello 2 sarebbe clienti e il livello 1 sarebbe misure ripetute nel tempo.
Forinstance,

1
@AdamO, l'intercetta può essere stimata e, combinata con la previsione del rischio parziale dell'individuo, possiamo creare curve di sopravvivenza individuali. Non sono sicuro del motivo per cui pensi che il modello Cox non possa prevedere "nulla".
Cam.Davidson.Pilon

δ

A scopo di previsione, ritengo che questi non siano bloccanti. Non è insolito combinare più stime per creare una singola previsione e (sfortunatamente e non lo sto sostenendo) gli intervalli di previsione non sono comunemente utilizzati o disponibili comunque.
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon Non ho detto che le previsioni sul rischio non possano essere ottenute dai dati di sopravvivenza, ho detto che i modelli Cox non prevedono il rischio. I passaggi tra chiamare coxphe ottenere stime dei rischi sono ripidi e molti.
AdamO,

3

TjjPr(Tj>3)j3

L'analisi di sopravvivenza tiene conto del fatto che ogni cliente ha il proprio orario di ingresso nello studio. Il fatto che il periodo di follow-up vari tra i clienti non è quindi un problema.

j


Nota : ecco un documento che mostra che, sotto alcuni vincoli, sia il modello logistico che quello di Cox sono collegati.


Grazie per la risposta. Se SA gestisce correttamente la censura, significa che la soluzione LR non gestisce correttamente la censura. Quanto risulta? Non riesco ancora a convincere myselft che SA è migliore per un obiettivo a tempo fisso. Posso trovare da qualche parte questo articolo gratuitamente?
Tomek Tarczynski,

Y=0

La mia email è: tomek.tarczynski@gmail.com Grazie mille!
Tomek Tarczynski,

@TomekTarczynski: ricevuto?
Ocram,

Sì, grazie ancora! Domani avrò tempo di leggerlo più attentamente. L'ho appena scremato e se ho capito bene risolve un problema leggermente diverso. Usando l'analogia di shop confronta LR e COX con il problema "Qual è la probabilità che il cliente non sarà più cliente dopo un numero fisso di mesi dall'inizio?"
Tomek Tarczynski,

2

La letteratura di marketing suggerisce un Pareto / NBD qui o simile. Praticamente supponi che l'acquisto - mentre stanno acquistando - segua una distribuzione binomiale negativa. Ma devi modellare il momento in cui il cliente si ferma. Questa è l'altra parte.

Pete Fader e Bruce Hardie hanno alcuni documenti su questo, insieme ad Abe.

Esistono diversi approcci più semplici al Pareto / NBD, anche solo contando i vari documenti di Fader e Hardie. NON utilizzare l'approccio più semplice in cui si presume che la probabilità di interruzione sia costante in ogni momento - ciò significa che è più probabile che i tuoi clienti più pesanti abbandonino prima. È un modello più semplice da adattare, ma sbagliato.

Non ne ho inserito uno da un po 'di tempo; mi dispiace essere un po 'aspecifico.

Ecco un riferimento al documento di Abe, che ripropone questo problema come Bayes gerarchico. . Se lavorassi di nuovo in quest'area, penso che proverei questo approccio.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.