Prevedi il miglior momento della chiamata


10

Ho un set di dati che include un insieme di clienti in diverse città della California, l'ora della chiamata per ciascun cliente e lo stato della chiamata (Vero se il cliente risponde alla chiamata e Falso se il cliente non risponde).

Devo trovare un momento adeguato per chiamare i futuri clienti in modo tale che la probabilità di rispondere alla chiamata sia alta. Quindi, qual è la migliore strategia per questo problema? Dovrei considerarlo un problema di classificazione che le ore (0,1,2, ... 23) sono le classi? O dovrei considerarlo come un'attività di regressione che il tempo è una variabile continua? Come posso assicurarmi che la probabilità di rispondere alla chiamata sia alta?

Qualsiasi aiuto sarebbe apprezzato. Sarebbe anche bello se mi riferissi a problemi simili.

Di seguito è riportata un'istantanea dei dati.


Sean Owen, come è andato il compito? Ora sto cercando di risolvere un problema simile e mi piacerebbe sentire la tua esperienza - non molte risorse in questo argomento sul web. Grazie in anticipo!
Dominika

Risposte:


5

Potresti effettivamente riscontrare problemi se lo modelli come un problema di regressione senza una trasformazione adeguata. Ad esempio, sappiamo che probabilmente alla maggior parte delle chiamate viene data risposta durante il giorno e meno durante la notte e la mattina presto. Una regressione lineare avrebbe difficoltà perché la relazione è probabilmente curvilinea, non lineare. Per lo stesso motivo, considerare questo come un'attività di classificazione con regressione logistica sarebbe problematico.

Come suggerito da altri intervistati, la riclassificazione dei dati in periodi di tempo ti aiuterà e ti suggerirei di provare prima qualcosa come un albero decisionale o una foresta casuale.

Detto questo, questo potrebbe essere un caso per semplici statistiche descrittive. Se traccia la proporzione delle chiamate con risposta in base all'ora del giorno (suddivisa per città o qualsiasi altro gruppo demografico), c'è un momento migliore chiaro ? In tal caso, perché complicare le cose con un modello?


1

Puoi provare quanto segue:

  1. Dividi la giornata in varie parti: mattina presto, mattina, mezzogiorno, pomeriggio, sera, sera tardi, notte, ecc.
  2. Assegnare i limiti di tempo a ciascuna parte della giornata, ad esempio mezzogiorno potrebbe essere 12: 00-13: 00.
  3. Crea 3 nuove etichette - "parte della giornata per chiamare il cliente", per ogni caso positivo (stato della chiamata = vero) assegnagli l'etichetta corrispondente (mattina / mezzogiorno / sera). Queste etichette saranno in un formato con codifica a caldo, ad esempio prefer_morning = 0/1, prefer_noon, prefer_evening, ecc.
  4. Costruisci 3 modelli per prevedere se il lead preferisce la mattina / il mezzogiorno / o la sera del giorno affinché una chiamata abbia successo.

Inoltre, consiglio di aggiungere funzionalità aggiuntive come occupazione, genere, ecc. Poiché le funzionalità elencate nella tabella (città, ecc.) Sono troppo ambigue e non forniscono molte informazioni per differenziare i clienti.

MODIFICATO come da suggerimento nei commenti:

Quando si utilizza il modello, ogni lead viene classificato come prefers_morning = yes / no, prefers_noon = yes / no e prefers_evening = yes / no. In base all'ora del giorno, ad esempio al mattino, l'agente del call center (o il software) potrebbe raccogliere e chiamare i lead classificati nel set di preferenze del mattino. A mezzogiorno, il software di chiamata riprende dall'elenco di mezzogiorno preferito e così via.


@ sandeep-s-sandhu Questo è un modo semplice per convertire il problema in un problema di classificazione della scienza dei dati. Ma sembra che questo approccio possa presentare alcuni svantaggi: 1. le informazioni sull'etichetta includono solo il caso positivo, la perdita delle informazioni sul caso negativo 2. Un cliente può avere solo una delle etichette. In pratica, un cliente può avere più di un'etichetta (cioè preferisco che le persone mi chiamino a tarda sera o sera). Cosa ne pensi?
nkhuyu,

@nkhuyu, 1) l'etichetta include anche il caso negativo. Penso che tu abbia frainteso l'affermazione "Crea una nuova etichetta -" parte della giornata per chiamare il cliente ", per ogni caso positivo (stato della chiamata = vero)". Questo passaggio intende creare un'etichetta aggiuntiva, l'etichetta originale del fatto che la chiamata abbia avuto esito positivo o meno rimane così com'è. 2) Sì, hai ragione, modificato la risposta per riflettere questo.
Sandeep S. Sandhu,

@ sandeep-s-sabdhu Grazie per la risposta. Sì, l'ho capito male. OK. Quindi avrai due etichette (stato della chiamata, la tua nuova etichetta). Allora come puoi risolvere questo problema? Non è un problema di classificazione regolare.
nkhuyu,

@nkhuyu, grazie per averlo notato, ora l'ho modificato e chiarito nel passaggio 4. Ognuno dei tre modelli fornirà una serie di lead che sceglieranno la chiamata per quel particolare momento della giornata, il call center lo utilizza per dare priorità alle proprie chiamate.
Sandeep S. Sandhu,

1
Il passaggio 1 è seguito dal passaggio 3 e li ho suggeriti per creare etichette appropriate per la formazione. La query principale era: "Devo trovare un orario appropriato per chiamare ...". Sta all'OP decidere se questi dovrebbero essere mattina / mezzogiorno / sera o più granulari, ad esempio a ore.
Sandeep S. Sandhu,

0

Vorrei usare una regressione logistica: avrai bisogno di campioni da cui non sono stati prelevati. Quindi tratterei l'ora come un regressore fittizio stagionale (23 ore come variabili fittizie e lascerei fluire l'intercetta).

Se non lo tratti come un regresso fittizio stagionale, dovrai eseguire una sorta di trasformazione, perché la relazione non sarà lineare.

Qualcuno in precedenza aveva suggerito di sostituire la metà del pomeriggio, ecc. Come una variabile categoriale. Questa è una cattiva idea perché hai i dettagli e stai perdendo i dettagli lì. Ciò avrebbe un effetto simile all'utilizzo del binning ottimale per rendere lineare la relazione, ma ancora non penso che funzionerebbe. Prova i regressori fittizi stagionali.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.