È possibile comprendere concettualmente il modello pareto / nbd?


12

Sto imparando a utilizzare il pacchetto BTYD che utilizza il modello Pareto / NBD per prevedere quando ci si aspetta che un cliente torni. Tuttavia, tutta la letteratura su questo modello è piena di matematica e non sembra esserci una spiegazione semplice / concettuale del funzionamento di questo modello. È possibile comprendere il modello Pareto / NBD per i non matematici? Ho attraversato questo famoso articolo di Fader . Il modello Pareto / NBD fa le seguenti ipotesi:

io. Mentre attivo, il numero di transazioni effettuate da un cliente in un periodo di tempo t viene distribuito Poisson con tasso di transazione λ.

ii. L'eterogeneità nei tassi di transazione tra i clienti segue una distribuzione gamma con parametro di forma r e parametro di scala α.

iii. Ogni cliente ha una "durata" inosservata di lunghezza τ. Questo punto in cui il cliente diventa inattivo viene distribuito esponenziale con tasso di abbandono µ.

iv) L'eterogeneità nei tassi di abbandono tra i clienti segue una distribuzione gamma con parametro di forma se parametro di scala β.

v. Il tasso di transazione λ e il tasso di abbandono µ variano indipendentemente tra i clienti. "

Non capisco la (intuizione alla base) della logica delle ipotesi (ii), (iii) e (iv). Perché solo queste distribuzioni, perché non altre?

Anche i presupposti del modello BG / NBD sono:

i.) Mentre attivo, il numero di transazioni effettuate da un cliente segue un processo di Poisson con tasso di transazione λ. Ciò equivale a supporre che il tempo tra le transazioni sia distribuito in modo esponenziale con il tasso di transazione λ

ii) L'eterogeneità in λ segue una distribuzione gamma

iii) Dopo qualsiasi transazione, un cliente diventa inattivo con probabilità p. Pertanto, il punto in cui il cliente "abbandona" viene distribuito tra le transazioni secondo una distribuzione geometrica (spostata) con pmf

iv) L'eterogeneità in p segue una distribuzione beta

Anche la razionalità (intuitiva) delle ipotesi (ii), (iii) e (iv) non è affatto ovvia.

Sarò grato per qualsiasi aiuto. Grazie.


Potresti aggiungere qualche riferimento alla letteratura che trovi difficile?
kjetil b halvorsen,

Ho elaborato dove le cose non sono chiare. So che non è facile portare l'intuizione a giocare, ma se fosse così possibile, sarà di grande aiuto. Grazie.
user3282777

Risposte:


14

Immagina di essere il nuovo gestore di un negozio di fiori. Hai un record di clienti dell'anno scorso - la frequenza con cui fanno acquisti e per quanto tempo dalla loro ultima visita. Vuoi sapere quanta attività è probabile che i clienti elencati realizzeranno quest'anno. Ci sono alcune cose da considerare:

[assunzione (ii)] I clienti hanno abitudini di acquisto diverse.

Ad alcune persone piace avere sempre fiori freschi, mentre altri solo da loro in occasioni speciali. Ha più senso avere una distribuzione per il tasso di transazione , piuttosto che supporre che un singolo spieghi il comportamento di tutti.λλ

La distribuzione deve avere pochi parametri (non hai necessariamente molti dati), essere abbastanza flessibile (presumibilmente non sei un guru imprenditoriale che legge la mente e non sai tutto sulle abitudini di acquisto) e prendere valori nei numeri reali positivi. La distribuzione Gamma spunta tutte quelle caselle ed è ben studiata e relativamente facile da lavorare. Viene spesso utilizzato come precedente per parametri positivi in ​​diverse impostazioni.

[assunzione (iii)] Potresti aver già perso alcuni dei clienti nell'elenco.

Se Andrea ha comprato fiori circa una volta al mese ogni mese nell'ultimo anno, è una scommessa abbastanza sicura che tornerà quest'anno. Se Ben comprava fiori settimanalmente, ma non è in circolazione da mesi, forse ha trovato un altro negozio di fiori. Nel fare piani aziendali futuri, potresti voler contare su Andrea ma non su Ben.

I clienti non ti diranno quando sono passati, ed è qui che entra in gioco l'assunto della "vita inosservata" per entrambi i modelli. Immagina un terzo cliente, Cary. I modelli Pareto / NBD e BG / NBD ti offrono due modi diversi di pensare a Cary che esce definitivamente dal negozio.

Per il caso Pareto / NBD, immagina che in qualsiasi momento, ci sono poche possibilità che Cary possa trovare un negozio migliore del tuo. Questo costante rischio infinitesimale ti dà la vita esponenziale - e più è passato dall'ultima visita di Cary, più è stato esposto ad altri negozi di fiori (potenzialmente migliori).

Il caso BG / NBD è un po 'più elaborato. Ogni volta che Cary arriva nel tuo negozio, si impegna ad acquistare dei fiori. Durante la navigazione, prenderà in considerazione le variazioni di prezzo, qualità e varietà dalla sua ultima visita, e questo alla fine gli farà decidere se tornare la prossima volta o cercare un altro negozio. Quindi, piuttosto che essere costantemente a rischio, Cary ha qualche probabilità p di decidere di andarsene dopo ogni acquisto.

[assunzione (iv)] Non tutti i clienti si impegnano allo stesso modo nel tuo negozio.

Alcuni clienti sono clienti abituali e solo la morte - o un forte aumento dei prezzi - li costringeranno ad andarsene. Ad altri potrebbe piacere esplorare e ti lascerebbe felicemente per il bene del nuovo negozio di fiori hipster dall'altra parte della strada. Piuttosto che un singolo tasso di abbandono per tutti i clienti, ha più senso avere una distribuzione dei tassi di abbandono (o probabilità nel caso BG / NBD).

Funziona in modo molto simile alle abitudini di acquisto. Stiamo cercando una distribuzione flessibile e consolidata con pochi parametri. Nel caso Pareto / NBD usiamo un Gamma, poiché il rate è nei numeri reali positivi. Nel caso BG / NBD usiamo una Beta, che è lo standard precedente per i parametri in .μ(0;1)

Spero che questo possa essere d'aiuto. Dai un'occhiata al documento originale (Schmittlein et al., 1987) se non l'hai già fatto - passano alcune delle intuizioni lì.


Grazie per il duro lavoro e la chiara spiegazione. Il motivo per utilizzare la distribuzione gamma è in quanto è relativamente facile da lavorare e viene spesso utilizzato come precedente per parametri positivi in ​​diverse impostazioni. Mentre le forme della maggior parte della distribuzione gamma (con valori di parametro diversi) sono facili da comprendere, ma per adattare "l'eterogeneità nei tassi di transazione tra i clienti" a una distribuzione gamma che cade quasi in modo esponenziale (per k = 1, theta = 2 come nel grafico di Wikipedia [ qui] en.wikipedia.org/wiki/Gamma_distribution ) è poco difficile da comprendere. Escludiamo tale comportamento?
user3282777

1
Le tue stime per i parametri gamma dipenderanno dai dati con cui stai lavorando. Il punto è che la distribuzione Gamma può avere forme significativamente diverse in base a due soli parametri e puoi lasciare che i dati parlino da soli, senza imporre ipotesi eccessivamente stringenti (più o meno).
Lyuba B.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.