Distribuzione a coda lunga di eventi temporali

Supponiamo di avere i registri di un server web. In questi registri hai tuple di questo tipo:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Questi timestamp rappresentano, ad esempio, i clic degli utenti. Ora user1visiterà il sito più volte (sessioni) durante il mese e avrai scoppi di clic da ciascun utente durante ogni sessione (supponendo che quando un utente visita il tuo sito, farà clic su più pagine).

Supponiamo di voler dividere questi scoppi di clic nelle sessioni che li hanno generati, ma non hai alcuna fonte aggiuntiva di informazioni, ma solo l'elenco dei timestamp. Se si calcola la distribuzione degli intervalli tra due clic conseguenti dello stesso utente, si otterrà una distribuzione dalla coda lunga. Intuitivamente, dovresti cercare un "parametro di taglio", ad esempio N secondi, dove if timestamp_{i+1} - timestamp{i} > N, allora sei timestamp_{i+1}l'inizio della nuova sessione.

Il problema è che questa distribuzione in realtà è una miscela di due variabili: X = "intervallo tra due clic conseguenti nella stessa sessione" e Y = "intervallo tra l'ultimo clic della sessione precedente e il primo di quello nuovo".

La domanda è, come stimare questa N, che divide le due distribuzioni (con un po 'di sovrapposizione, possibilmente) solo guardando l'esplosione di clic?

distributions estimation mixture

— Marcorossi
fonte

Quando dici "semplicemente guardando lo scoppio dei clic", intendi che non sei in grado di calcolare qualcosa di diverso da N?

— Jerad,

Voglio dire che non hai altre fonti di informazione oltre alle tuple (utente, timestamp). Il metodo basato su soglia (basato su delta> N) è solo un esempio di metodo. Forse qualcos'altro è possibile.

— marcorossi,

Questo thread potrebbe interessarti: appropriate tecniche di clustering per dati temporali .

— gung - Ripristina Monica

Dovresti davvero tracciare il logaritmo degli intervalli tra i clic anziché i valori non elaborati; questo appiattirà la tua distribuzione e potrebbe persino rivelare le molteplici modalità della tua distribuzione.

Approcci più avanzati sono stati sviluppati dai neuroscienziati per risolvere un problema molto simile nell'identificazione di esplosioni di picchi neuronali. Questo documento classico o molti altri documenti correlati su Google Scholar .

— Jerad
fonte

Ho stampato il loglog della distribuzione. È una linea piatta. Ma come può essere d'aiuto? Cosa guarderesti? Il riferimento per l'articolo è ottimo, grazie.

— marcorossi,

Che dire solo del diagramma delle probabilità del registro? cioè prendere il registro delle sole frequenze, non degli intervalli. Questo rivela due modalità?

— Jerad,