Metodi allo stato dell'arte per trovare zero parti medie di una serie storica

9

Ho serie temporali rumorose che devo segmentare in quelle porzioni con una media zero e quelle porzioni senza una media zero. È importante trovare i confini il più accuratamente possibile (chiaramente dove il confine si trova esattamente è un po 'soggettivo). Penso che una variante di cusum possa essere adattata per fare questo, ma poiché cusum riguarda principalmente la ricerca di singoli cambiamenti che lasciano completamente senza indirizzo l'intera strategia di segmentazione.

Sono sicuro che sono state fatte molte ricerche su questo problema ma non sono stato in grado di trovarlo.

PS La quantità di dati in queste serie temporali è piuttosto grande, vale a dire fino a centinaia di milioni di campioni, e un singolo campione può essere un vettore con un paio di centinaia di componenti, quindi un metodo che può essere calcolato ragionevolmente rapidamente è un fattore significativo .

PPS Non esiste un tag di segmentazione, quindi il tag di classificazione.

— John Robertson
fonte

1

Sembra che il problema principale qui sia un'efficace rilevazione del punto di cambio, poiché dopo che la media del segmento può essere trovata in modo banale con una precisione crescente nel numero di campioni. Un approccio recente che potrebbe essere interessante è Z. Harchaoui, F. Bach ed E. Moulines. Analisi del punto di cambio del kernel, Advances in Neural Information Processing Systems (NIPS), 2008.

— tdc
fonte

1

Questo potrebbe non essere lo stato dell'arte, ma un metodo intuitivo sarebbe di lisciare i dati posizionando i pesi sulle osservazioni vicino a ciascun punto nel tempo. Quindi, se vuoi sapere se il campione R ha una media zero al momento T:

mu(R,T)=w1*Sample(R,T)+w2*Sample(R,T-1)+w3*Sample(R,T+1)....

Forse i pesi esponenziali possono essere una buona scelta, a seconda della definizione di dove si trova il bucato.

Dopo aver preso cura di alcuni dettagli tecnici come la definizione all'inizio e alla fine di ogni gruppo, ora puoi semplicemente testare se ogni mu è abbastanza vicino a zero per trovare i punti in cui la media è zero.

— Dennis Jaheruddin
fonte