Warping dinamico e normalizzazione


9

Sto usando il Dynamic Time Warping per abbinare una curva "query" e una "template" e finora ho avuto un successo ragionevole, ma ho alcune domande di base:

  1. Sto valutando una "corrispondenza" valutando se il risultato DTW è inferiore a un valore di soglia che mi viene in mente euristicamente. È questo l'approccio generale per determinare una "corrispondenza" utilizzando DTW? Altrimenti, spiega ...

    Supponendo che la risposta a (1) sia "sì", allora sono confuso, poiché il risultato DTW è abbastanza sensibile a a) la differenza di ampiezze delle curve eb) la lunghezza del vettore della query e la lunghezza del " modello "vettoriale.

    Sto usando una funzione step simmetrica, quindi per (b) sto normalizzando il mio risultato DTW dividendo per M + N (larghezza + altezza della matrice DTW). Questo sembra essere piuttosto efficace, ma sembra che penalizzerebbe le partite DTW che sono più lontane dalla diagonale (cioè che hanno un percorso più lungo attraverso la matrice DTW). Che sembra un po 'arbitrario per un approccio di "normalizzazione". Dividere per il numero di passaggi attraverso la matrice sembra avere un senso intuitivo, ma questo non sembra essere il modo di farlo secondo la letteratura.

  2. Quindi esiste un modo migliore per regolare il risultato DTW per la dimensione della query e dei vettori del modello?

  3. Infine, come posso normalizzare il risultato DTW per la differenza di ampiezze tra la query e i vettori del modello?

Così com'è, data la mancanza di tecniche di normalizzazione affidabili (o la mia mancanza di comprensione), sembra esserci un grande sforzo manuale nel lavorare con i dati del campione per identificare il miglior livello di soglia per definire una "corrispondenza". Mi sto perdendo qualcosa?

Risposte:


8

Nessun "approccio generale" esiste per questo almeno per quanto ne so. Inoltre stai cercando di minimizzare comunque una metrica di distanza. Ad esempio nel nonno dei giornali DTW Sakoe & Chiba (1978) usano come misura della differenza tra due vettori di caratteristiche.||un'io-Bio||

Una volta identificato correttamente, è necessario disporre dello stesso numero di punti (di solito) affinché questo funzioni immediatamente. Proporrei di utilizzare un lowess () più liscio / interpolatore sulle curve per renderle prima uguali. È roba abbastanza standard per le "statistiche curve". Puoi vedere un'applicazione di esempio in Chiou et al. (2003) ; gli autori non si preoccupano del DTW in quanto tale in questo lavoro, ma è un buon esempio di come gestire letture di dimensioni diverse.

Inoltre, come dici "l'ampiezza" è un problema. Questo è un po 'più aperto per essere onesti. Puoi provare un approccio Area-sotto-la-curva come quello proposto da Zhang e Mueller (2011) per occupartene, ma proprio ai fini del tempo che deforma anche la normalizzazione delle sup-norme (cioè sostituisci con f ( x )f(X)potrebbe fare come in questo articolo diTang e Mueller (2009). Seguirei il secondo, ma in ogni caso come hai notato anche la normalizzazione dei campioni è una necessità.f(X)Supy|f(X)|

gCλ(Yio,YK,g)=E{T(Yio(g(t))-YK(t))2+λ(g(t)-t)2dt|Yio,YK}gYio(g(t))YK(t)Yio(g(t))-YK(t)g(t)-t

Il problema che stai descrivendo nella letteratura statistica è ampiamente noto come " registrazione della curva " (ad esempio vedi Gasser e Kneip (1995) per un trattamento precoce del problema) e rientra nell'ambito generale delle tecniche di analisi dei dati funzionali .

(Nel caso in cui potessi trovare il documento originale disponibile on-line il link vi dirige; altrimenti il ​​link si dirige verso una biblioteca digitale generale. Quasi tutti i documenti citati possono essere trovati in bozze di versioni gratuitamente. Ho eliminato il mio commento originale così com'è sostituito da questo post.)


Questa è una risposta eccellente e molto molto utile. I riferimenti sono particolarmente utili.
Mikko,

Sapresti un riferimento appropriato per affermare che "l'ampiezza è un problema" in dtw? Ciò è probabilmente così evidente che sto lottando per trovare un riferimento, che ne discute chiaramente.
Mikko,

L2

Dalle risorse già menzionate probabilmente la tua scommessa migliore sarà probabilmente il libro della FDA di Ramsay & Silverman, Chapt. 7 sulla "registrazione e visualizzazione dei dati funzionali". Un'ottima risorsa è anche il libro: "Inference for Functional Data with Applications" di Horváth e Kokoszka; La parte III "Dati funzionali dipendenti" affronta il problema della normalizzazione principalmente perché si interessa del rilevamento del punto di cambiamento.
usεr11852,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.