Supponiamo di avere i registri di un server web. In questi registri hai tuple di questo tipo:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
Questi timestamp rappresentano, ad esempio, i clic degli utenti. Ora user1
visiterà il sito più volte (sessioni) durante il mese e avrai scoppi di clic da ciascun utente durante ogni sessione (supponendo che quando un utente visita il tuo sito, farà clic su più pagine).
Supponiamo di voler dividere questi scoppi di clic nelle sessioni che li hanno generati, ma non hai alcuna fonte aggiuntiva di informazioni, ma solo l'elenco dei timestamp. Se si calcola la distribuzione degli intervalli tra due clic conseguenti dello stesso utente, si otterrà una distribuzione dalla coda lunga. Intuitivamente, dovresti cercare un "parametro di taglio", ad esempio N secondi, dove if timestamp_{i+1} - timestamp{i} > N
, allora sei timestamp_{i+1}
l'inizio della nuova sessione.
Il problema è che questa distribuzione in realtà è una miscela di due variabili: X = "intervallo tra due clic conseguenti nella stessa sessione" e Y = "intervallo tra l'ultimo clic della sessione precedente e il primo di quello nuovo".
La domanda è, come stimare questa N, che divide le due distribuzioni (con un po 'di sovrapposizione, possibilmente) solo guardando l'esplosione di clic?