La segnalazione di valori anomali non è una chiamata di giudizio (o comunque non è necessario che sia una richiesta). Dato un modello statistico, i valori anomali hanno una definizione precisa e obiettiva: sono osservazioni che non seguono il modello della maggior parte dei dati. Tali osservazioni devono essere messe a punto all'inizio di qualsiasi analisi semplicemente perché la loro distanza dalla maggior parte dei dati garantisce che eserciteranno una spinta sproporzionata su qualsiasi modello multivariabile dotato della massima probabilità (o in effetti qualsiasi altra funzione di perdita convessa).
È importante sottolineare che multivariabile valore anomalo s può semplicemente non essere rilevato in modo affidabile con residui da una misura minimi quadrati (o qualsiasi altro modello stimato da ML, o qualsiasi altra funzione perdita convessa). In poche parole, i valori anomali multivariabili possono essere rilevati in modo affidabile solo usando i loro residui da un modello montato usando una procedura di stima non suscettibile di essere influenzati da essi.
La convinzione che i valori anomali dovranno emergere nei residui di un adattamento classico si colloca da qualche parte lassù con altri no-no statistici difficili da sfatare come l'interpretazione dei valori di p come misura di evidenza o trarre inferenza su una popolazione da un campione distorto. Tranne forse per il fatto che questo potrebbe essere molto più vecchio: lo stesso Gauss ha raccomandato l'uso di uno stimatore robusto come la media e la folle (invece della media classica e deviazioni standard) per stimare i parametri di una distribuzione normale da osservazioni rumorose (anche andando per quanto riguarda derivare il fattore di coerenza del matto (1)).
Per dare un semplice esempio visivo basato su dati reali, considera i famigerati dati a stella del CYG . La linea rossa qui rappresenta la misura meno quadrata, la linea blu la misura ottenuta usando una robusta misura di regressione lineare. L'adattamento robusto qui è in particolare l'adattamento FastLTS (2), un'alternativa all'accoppiamento LS che può essere utilizzato per rilevare valori anomali (perché utilizza una procedura di stima che assicura che l'influenza di qualsiasi osservazione sul coefficiente stimato sia limitata). Il codice R per riprodurlo è:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
È interessante notare che le 4 osservazioni periferiche a sinistra non hanno nemmeno i residui più grandi rispetto all'adattamento LS e al diagramma QQ dei residui dell'adattamento LS (o qualsiasi degli strumenti diagnostici derivati da essi come la distanza di Cook o il dfbeta) non riesce a mostrare nessuno di loro come problematico. Questa è in realtà la norma: non sono necessari più di due valori anomali (indipendentemente dalle dimensioni del campione) per estrarre le stime LS in modo tale che i valori anomali non si distinguano in un diagramma residuo. Questo si chiama effetto di mascheramentoed è ben documentato. Forse l'unica cosa degna di nota nel set di dati di CYGstars è che è bivariato (quindi possiamo usare l'ispezione visiva per confermare il risultato dell'aderenza robusta) e che in realtà c'è una buona spiegazione del perché queste quattro osservazioni a sinistra sono così anormali.
Questa è, a proposito, l'eccezione più che la regola: tranne negli studi pilota di piccole dimensioni che coinvolgono piccoli campioni e poche variabili e in cui la persona che ha fatto l'analisi statistica è stata anche coinvolta nel processo di raccolta dei dati, non ho mai sperimentato un caso in cui credenze precedenti l'identità dei valori anomali era effettivamente vera. Questo è comunque facile da verificare. Indipendentemente dal fatto che i valori anomali siano stati identificati utilizzando un algoritmo di rilevazione anomalo o la sensazione dell'intestino del ricercatore, i valori anomali sono, per definizione, osservazioni che hanno una leva anormale (o "pull") sui coefficienti ottenuti da un adattamento LS. In altre parole, i valori anomali sono osservazioni la cui rimozione dal campione dovrebbe avere un forte impatto sull'adattamento LS.
Anche se non l'ho mai sperimentato personalmente, ci sono alcuni casi ben documentati in letteratura in cui le osservazioni contrassegnate come anomalie da un algoritmo di rilevamento anomalo sono state riscontrate come errori grossolani o generati da un processo diverso. In ogni caso, non è né scientificamente garantito né saggio rimuovere gli outlier solo se possono in qualche modo essere compresi o spiegati. Se una piccola serie di osservazioni è così lontana dal corpo principale dei dati che può estrarre da sola i risultati di una procedura statistica da sola, è saggio (e potrei aggiungere naturale) trattarla separatamente indipendentemente dal fatto che o non sembra che questi punti dati siano sospetti anche per altri motivi.
(1): vedi Stephen M. Stigler, La storia della statistica: la misurazione dell'incertezza prima del 1900.
(2): Calcolo della regressione LTS per grandi serie di dati (2006) PJ Rousseeuw, K. van Driessen.
(3): Metodi multivariati robusti ad alta ripartizione (2008). Hubert M., Rousseeuw PJ e Van Aelst S. Fonte: Statista. Sci. Volume 23, 92-119.