Come prevedere quando si verificherà il prossimo evento, in base agli orari degli eventi precedenti?


19

Sono uno studente delle superiori e sto lavorando a un progetto di programmazione per computer, ma non ho molta esperienza in statistica e modellizzazione dei dati oltre a un corso di statistica delle superiori, quindi sono un po 'confuso.

Fondamentalmente, ho un elenco abbastanza grande (suppongo che sia abbastanza grande da soddisfare i presupposti per eventuali test statistici o misure) di volte in cui qualcuno ha deciso di stampare un documento. Sulla base di questo elenco, vorrei costruire un modello statistico di qualche tipo che preveda il tempo più probabile per il prossimo lavoro di stampa, dato tutti i tempi degli eventi precedenti.

Ho già letto questo , ma le risposte non aiutano esattamente con quello che ho in mente per il mio progetto. Ho fatto qualche ricerca aggiuntiva e ho scoperto che un modello Markov nascosto mi avrebbe probabilmente permesso di farlo in modo accurato, ma non riesco a trovare un link su come generare un modello Markov nascosto usando solo un elenco di volte. Ho anche scoperto che l'uso di un filtro Kalman nell'elenco può essere utile, ma in sostanza, vorrei ottenere ulteriori informazioni su di esso da qualcuno che li ha effettivamente utilizzati e conosce i loro limiti e requisiti prima di provare qualcosa e sperare che funzioni.

Grazie mille!


1
+1 Questa è una domanda ben articolata e ben ponderata, Ankush. Spero che tu abbia delle ottime risposte. Benvenuti nel nostro sito!
whuber

Grazie per aver risolto il titolo: stavo spostando le parole per cercare di rendere le cose più coerenti e immagino di aver finito per renderlo insensato! Speriamo che qualcuno con le conoscenze appropriate possa aiutare.
ankushg,

Risposte:


10

I modelli di Markov nascosti si applicherebbero se i dati fossero emissioni casuali da alcuni modelli di Markov sottostanti non osservati; Non lo escluderei, ma non sembra un modello molto naturale.

Penserei ai processi puntuali , che corrispondono bene ai tuoi dati particolari. C'è molto lavoro sulla previsione dei terremoti (anche se non ne so molto) e persino sul crimine .

Se ci sono molte persone diverse che stampano, e stai solo vedendo i tempi ma non le singole identità, un processo di Poisson potrebbe funzionare bene (la sovrapposizione di più processi a punti indipendenti è approssimativamente di Poisson), anche se dovrebbe essere disomogenea (il la possibilità di un punto varia nel tempo): le persone hanno meno probabilità di stampare alle 3 del mattino rispetto alle 3 del pomeriggio.

Per il modello di processo Poisson disomogeneo , la chiave sarebbe ottenere una buona stima della possibilità di un lavoro di stampa in un determinato momento in un determinato giorno.

Se questi tempi di stampa sono per gli studenti in una classe, tuttavia, potrebbe essere piuttosto complicato, poiché non è probabile che siano indipendenti e quindi il processo di Poisson non funzionerebbe bene.

Ecco un link a un documento sull'applicazione del crimine.


Grazie per questo. Conosci un modo per creare un modello per un processo a punti? Sembra essere il più rilevante, ma non sono esperto di statistiche, quindi sembra tutto confuso (Poisson vs Determinantal vs Cox?) Quando sto leggendo wikipedia ...: - \
ankushg

@Unk - Vorrei iniziare creando alcuni grafici dei dati. Quanto dura questo elenco di tempi di stampa?
Karl,

Sono circa un anno di dati. Farò delle trame e ti farò sapere come va.
ankushg

1

In base alla previsione del probabile tempo che utilizza la statistica multivariata di scansione bayesiana (MBSS) potrebbe essere di aiuto. Questo MBSS ha il vantaggio di migliorare la tempestività e l'accuratezza del rilevamento degli eventi.


Benvenuto nel sito, @Esan. Puoi dire di più su MBSS, come funziona e come sarebbe d'aiuto?
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.