Diciamo che ci viene dato il seguente problema:
Prevedi quali clienti hanno maggiori probabilità di interrompere l'acquisto nel nostro negozio nei prossimi 3 mesi.
Per ogni cliente conosciamo il mese in cui uno ha iniziato ad acquistare nel nostro negozio e inoltre abbiamo molte caratteristiche comportamentali in aggregati mensili. Il cliente "più anziano" acquista da cinquanta mesi; denotiamo il tempo trascorso da quando un cliente ha iniziato ad acquistare per ( ). Si può presumere che il numero di client sia molto elevato. Se un cliente smette di acquistare per tre mesi e poi ritorna, viene trattato come un nuovo cliente in modo che un evento (interrompi l'acquisto) possa verificarsi una sola volta.
Mi vengono in mente due soluzioni:
Regressione logistica - Per ogni cliente e ogni mese (forse tranne i 3 mesi più recenti), possiamo dire se un cliente ha smesso di acquistare o meno, quindi possiamo fare campioni rotanti con un'osservazione per cliente e mese. Possiamo usare il numero di mesi dall'inizio come variabile categorica per ottenere un equivalente della funzione di rischio base.
Modello Cox esteso : questo problema può essere modellato anche utilizzando il modello Cox esteso. Sembra che questo problema sia più adatto all'analisi di sopravvivenza.
Domanda: quali sono i vantaggi dell'analisi di sopravvivenza in problemi simili? L'analisi di sopravvivenza è stata inventata per qualche motivo, quindi devono esserci alcuni seri vantaggi.
La mia conoscenza dell'analisi di sopravvivenza non è molto profonda e penso che la maggior parte dei potenziali vantaggi del modello Cox possa essere raggiunta anche utilizzando la regressione logistica.
- Equivalente di modello di Cox stratificato può essere ottenuto utilizzando un'interazione di e la variabile di stratificazione.
- Il modello di interazione Cox può essere ottenuto immergendo la popolazione in diverse sottopopolazioni e stimando LR per ogni sottopopolazione.
L'unico vantaggio che vedo è che il modello Cox è più flessibile; ad esempio, possiamo facilmente calcolare la probabilità che un cliente smetta di acquistare in 6 mesi.