Smoothing - quando usarlo e quando non farlo?


18

C'è un post piuttosto vecchio sul blog di William Briggs che esamina le insidie ​​del livellamento dei dati e del loro trasferimento attraverso l'analisi. L'argomento chiave è precisamente:

Se, in un momento di follia, realizzi dati regolari sulle serie temporali e li usi come input per altre analisi, aumenti notevolmente la probabilità di ingannarti! Questo perché il livellamento induce segnali spuri, segnali che sembrano reali ad altri metodi analitici. Non importa cosa sarai troppo sicuro dei tuoi risultati finali!

Tuttavia, faccio fatica a trovare discussioni approfondite su quando lisciare e quando non farlo.

È sconcertato solo per lisciare quando si utilizzano quei dati livellati come input per altre analisi o ci sono altre situazioni in cui non si consiglia il livellamento? Al contrario, ci sono situazioni in cui è consigliato il livellamento?


1
La maggior parte delle applicazioni dell'analisi delle serie storiche è una sorta di livellamento, anche quando non è descritto come tale. Il livellamento può essere utilizzato come un dispositivo esplorativo o di riepilogo - in alcuni campi, che è anche il metodo principale o utilizzato solo - o per rimuovere funzionalità che sono considerate un fastidio o di interesse secondario per qualche scopo.
Nick Cox,

4
Disclaimer: non ho letto l'intero post del blog citato. Non sono riuscito a superare gli errori di battitura elementari ("serie temporali", "Monte Carol") e il suo tono e stile non erano attraenti. Ma non consiglierei di provare a imparare i principi dell'analisi delle serie storiche, o delle statistiche in generale, tramite il blog di chiunque.
Nick Cox,

@NickCox D'accordo, e soprattutto non da un blog che sembra avere un'ascia da macinare.
Hong Ooi,

@HongOoi Sì! Ho eliminato alcune frasi scelte da una bozza del mio commento che potrebbe non sembrare meno supponente del blog stesso.
Nick Cox,

1
Prenderei tutto ciò che Briggs scrive con un granello di sale.
Momo

Risposte:


16

Il livellamento esponenziale è una tecnica classica utilizzata nella previsione di serie temporali non causali. Fintanto che lo usi solo nelle previsioni semplici e non usi adattamenti uniformi nel campione come input per un altro data mining o algoritmo statistico, la critica di Briggs non si applica. (Di conseguenza, sono scettico sull'usarlo "per produrre dati uniformi per la presentazione", come dice Wikipedia - questo potrebbe essere fuorviante, nascondendo la variabilità attenuata.)

Ecco un'introduzione da manuale al livellamento esponenziale.

Ed ecco un articolo di recensione (di 10 anni, ma ancora rilevante).


EDIT: sembra esserci qualche dubbio sulla validità della critica di Briggs, forse in qualche modo influenzata dal suo packaging . Sono pienamente d'accordo sul fatto che il tono di Briggs può essere abrasivo. Tuttavia, vorrei illustrare perché penso che abbia ragione.

Di seguito, sto simulando 10.000 coppie di serie temporali, di 100 osservazioni ciascuna. Tutte le serie sono rumore bianco, senza alcuna correlazione. Quindi l'esecuzione di un test di correlazione standard dovrebbe produrre valori di p distribuiti uniformemente su [0,1]. Come fa (istogramma a sinistra in basso).

Tuttavia, supponiamo che per prima cosa lisciamo ogni serie e applichiamo il test di correlazione a levigate dati. Appare qualcosa di sorprendente: poiché abbiamo rimosso molta variabilità dai dati, otteniamo valori p troppo piccoli . Il nostro test di correlazione è fortemente distorto. Quindi saremo troppo certi di qualsiasi associazione tra la serie originale, che è ciò che Briggs sta dicendo.

La domanda dipende davvero se utilizziamo i dati smoothed per le previsioni, nel qual caso il smoothing è valido o se li includiamo come input in alcuni algoritmi analitici, nel qual caso la rimozione della variabilità simulerà una maggiore certezza nei nostri dati di quanto sia giustificato. Questa ingiustificata certezza nei dati di input arriva fino ai risultati finali e deve essere presa in considerazione, altrimenti tutte le inferenze saranno troppo certe. (E ovviamente avremo anche intervalli di previsione troppo piccoli se utilizziamo un modello basato sulla "certezza gonfiata" per la previsione.)

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

valori p


1
Lo prenderei come assiomatico per una buona analisi delle serie storiche che non viene mostrato alcun smooth senza che vengano mostrati anche i dati grezzi.
Nick Cox,

1

Affermare che il livellamento non è appropriato per un'analisi di modellazione lo condanna ad avere un errore quadratico medio più elevato di quanto altrimenti potrebbe fare. Errore quadratico medio o MSE possono essere scomposti in tre termini, un quadrato di un valore chiamato `` bias '', una varianza e un errore irriducibile. (Questo è mostrato nelle citazioni seguenti.) I modelli eccessivamente levigati hanno un bias elevato, anche se hanno una bassa varianza, mentre i modelli troppo ruvidi hanno una varianza elevata e una bias bassa.

Non c'è niente di filosofico in questo. È una caratterizzazione matematica. Non dipende dal carattere del rumore o dal carattere del sistema.

Vedere:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (ha la derivazione della decomposizione).

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei fa lo stesso in un modo diverso e introduce ciò che accade quando si cerca di prevedere).

Le statistiche classiche hanno quasi sempre insistito su stime imparziali. Nel 1955, lo statistico Charles Stein di Stanford mostrò che c'erano combinazioni di stimatori imparziali che avevano un MSE inferiore per importanti casi speciali, in particolare quello che divenne chiamato ESTIMATORI JAMES-STEIN. Bradley Efron ha scritto un testo molto accessibile su questa rivoluzione in insight: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.