Ho fatto molte ricerche sugli outlier, in particolare quando ho lavorato alla validazione dei dati energetici a Oak Ridge dal 1978 al 1980. Esistono test formali per outlier univariati per dati normali (ad esempio test di Grubbs e test di rapporto di Dixon). Esistono test per valori anomali multivariati e serie temporali. Il libro di Barnett e Lewis su "Valori anomali dei dati statistici" è la bibbia dei valori anomali e copre quasi tutto.
Quando lavoravo alla validazione dei dati di Oak Ridge, disponevamo di grandi set di dati multivariati. Per i valori anomali univariati esiste una direzione per gli estremi (molto al di sopra della media e molto al di sotto della media). Ma per gli outlier multivariati ci sono molte direzioni per cercare gli outlier. La nostra filosofia era di considerare quale fosse l'uso previsto dei dati. Se si sta tentando di stimare determinati parametri come una correlazione bivariata o un coefficiente di regressione, si desidera guardare nella direzione che fornisce l'effetto maggiore sul parametro di interesse. A quel tempo avevo letto il documento inedito di Mallows sulle funzioni di influenza. L'uso delle funzioni di influenza per rilevare valori anomali è trattato nel libro di analisi multivariata di Gnanadesikan. Naturalmente puoi trovarlo anche a Barnett e Lewis.
La funzione di influenza per un parametro è definita in punti nello spazio multivariato delle osservazioni e essenzialmente misura la differenza tra la stima del parametro quando viene incluso il punto dati rispetto a quando viene lasciato fuori. Puoi fare tali stime con ogni punto campione ma di solito puoi ricavare una bella forma funzionale per la funzione influenza che fornisce approfondimenti e calcolo più veloce.
Ad esempio nel mio articolo sull'American Journal of Mathematical and Management Science del 1982 "La funzione di influenza e la sua applicazione alla convalida dei dati" mostro la formula analitica per la funzione di influenza per la correlazione bivariata e che i contorni di influenza costante sono iperbole. Quindi i contorni mostrano la direzione nel piano in cui la funzione di influenza aumenta più velocemente.
Nel mio documento mostro come abbiamo applicato la funzione di influenza per la correlazione bivariata con i dati FPC Form 4 su generazione e consumo di energia. Esiste una chiara correlazione positiva elevata tra i due e abbiamo trovato alcuni valori anomali che sono stati molto influenti sulla stima della correlazione. Ulteriori indagini hanno dimostrato che almeno uno dei punti era in errore e siamo riusciti a correggerlo.
Ma un punto importante che menziono sempre quando parlo di valori anomali è che il rifiuto automatico è sbagliato. Il valore anomalo non è sempre un errore e talvolta fornisce informazioni importanti sui dati. I dati validi non dovrebbero essere rimossi solo perché non sono conformi alla nostra teoria della realtà. Indipendentemente dal fatto che sia difficile da fare, si dovrebbe sempre indagare sul motivo per cui si è verificato il valore anomalo.
Vorrei ricordare che questa non è la prima volta che in questo sito vengono discussi valori anomali multivariati. Una ricerca di valori anomali porterebbe probabilmente a diverse domande in cui sono stati discussi valori anomali multivariati. So di aver già fatto riferimento al mio documento e a questi libri e di avermi fornito dei collegamenti.
Inoltre, quando si discute di un rifiuto anomalo, molti di noi su questo sito lo hanno sconsigliato, specialmente se si basa esclusivamente su un test statistico. Peter Huber cita spesso una stima robusta come alternativa al rifiuto anomalo. L'idea è che procedure solide ridimensionino i valori anomali riducendo il loro effetto sulla stima senza il passo pesante di respingerli e utilizzare uno stimatore non robusto.
La funzione di influenza è stata originariamente sviluppata da Frank Hampel nella sua tesi di dottorato nei primi anni '70 (credo nel 1974). La sua idea era in realtà quella di utilizzare le funzioni di influenza per identificare gli stimatori che non erano robusti rispetto ai valori anomali e per aiutare a sviluppare stimatori robusti.
Ecco un link a una precedente discussione su questo argomento in cui ho citato alcuni miei lavori sul rilevamento di valori anomali nelle serie temporali utilizzando le funzioni di influenza.