Il livellamento esponenziale è una tecnica classica utilizzata nella previsione di serie temporali non causali. Fintanto che lo usi solo nelle previsioni semplici e non usi adattamenti uniformi nel campione come input per un altro data mining o algoritmo statistico, la critica di Briggs non si applica. (Di conseguenza, sono scettico sull'usarlo "per produrre dati uniformi per la presentazione", come dice Wikipedia - questo potrebbe essere fuorviante, nascondendo la variabilità attenuata.)
Ecco un'introduzione da manuale al livellamento esponenziale.
Ed ecco un articolo di recensione (di 10 anni, ma ancora rilevante).
EDIT: sembra esserci qualche dubbio sulla validità della critica di Briggs, forse in qualche modo influenzata dal suo packaging . Sono pienamente d'accordo sul fatto che il tono di Briggs può essere abrasivo. Tuttavia, vorrei illustrare perché penso che abbia ragione.
Di seguito, sto simulando 10.000 coppie di serie temporali, di 100 osservazioni ciascuna. Tutte le serie sono rumore bianco, senza alcuna correlazione. Quindi l'esecuzione di un test di correlazione standard dovrebbe produrre valori di p distribuiti uniformemente su [0,1]. Come fa (istogramma a sinistra in basso).
Tuttavia, supponiamo che per prima cosa lisciamo ogni serie e applichiamo il test di correlazione a levigate dati. Appare qualcosa di sorprendente: poiché abbiamo rimosso molta variabilità dai dati, otteniamo valori p troppo piccoli . Il nostro test di correlazione è fortemente distorto. Quindi saremo troppo certi di qualsiasi associazione tra la serie originale, che è ciò che Briggs sta dicendo.
La domanda dipende davvero se utilizziamo i dati smoothed per le previsioni, nel qual caso il smoothing è valido o se li includiamo come input in alcuni algoritmi analitici, nel qual caso la rimozione della variabilità simulerà una maggiore certezza nei nostri dati di quanto sia giustificato. Questa ingiustificata certezza nei dati di input arriva fino ai risultati finali e deve essere presa in considerazione, altrimenti tutte le inferenze saranno troppo certe. (E ovviamente avremo anche intervalli di previsione troppo piccoli se utilizziamo un modello basato sulla "certezza gonfiata" per la previsione.)
n.series <- 1e4
n.time <- 1e2
p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
A <- rnorm(n.time)
B <- rnorm(n.time)
p.corr[ii] <- cor.test(A,B)$p.value
p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}
par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")