Sto cercando alcune tecniche robuste per rimuovere valori anomali ed errori (qualunque sia la causa) dai dati finanziari delle serie temporali (ad esempio tickdata).
I dati delle serie temporali tick-by-tick sono molto confusi. Contiene enormi lacune (temporali) quando lo scambio è chiuso e fa enormi salti quando lo scambio si riapre. Quando lo scambio è aperto, tutti i tipi di fattori introducono negoziazioni a livelli di prezzo errati (non si sono verificati) e / o non rappresentativi del mercato (un picco a causa di un'offerta immessa in modo errato o chiedere il prezzo, ad esempio). Questo documento di tickdata.com (PDF) fa un buon lavoro nel delineare il problema, ma offre alcune soluzioni concrete.
La maggior parte dei documenti che posso trovare online che menzionano questo problema o lo ignorano (si presume che i tickdata vengano filtrati) o includano il filtro come parte di un enorme modello di trading che nasconde eventuali utili passaggi di filtro.
Qualcuno è a conoscenza di un lavoro più approfondito in questo settore?
Aggiornamento: questa domanda sembra simile in superficie ma:
- Le serie temporali finanziarie sono (almeno a livello di tick) non periodiche.
- L'effetto di apertura è un grosso problema perché non puoi semplicemente usare i dati dell'ultimo giorno come inizializzazione anche se ti piacerebbe davvero (perché altrimenti non hai nulla). Gli eventi esterni potrebbero far sì che l'apertura del nuovo giorno differisca notevolmente sia a livello assoluto che a livello di volatilità rispetto al giorno precedente.
- Frequenza selvaggiamente irregolare dei dati in arrivo. In prossimità dell'apertura e della chiusura della giornata, la quantità di punti dati al secondo può essere 10 volte superiore alla media durante il giorno. L'altra domanda riguarda i dati regolarmente campionati.
- I "valori anomali" nei dati finanziari mostrano alcuni schemi specifici che potrebbero essere rilevati con tecniche specifiche non applicabili in altri settori e, in parte, cerco quelle tecniche specifiche.
- In casi più estremi (ad esempio il crash del flash) gli outlier potrebbero ammontare a oltre il 75% dei dati su intervalli più lunghi (> 10 minuti). Inoltre, la (alta) frequenza dei dati in arrivo contiene alcune informazioni sull'aspetto anomalo della situazione.