Finché i tuoi dati provengono da una distribuzione nota con proprietà note, puoi definire rigorosamente un valore anomalo come evento che è troppo improbabile per essere stato generato dal processo osservato (se consideri "troppo improbabile" non rigoroso, quindi tutti i test di ipotesi sono).
Tuttavia, questo approccio è problematico su due livelli: presuppone che i dati provengano da una distribuzione nota con proprietà note e comporta il rischio che i valori anomali vengano considerati come punti dati introdotti di nascosto nel set di dati da alcune fate magiche.
In assenza di magiche fatine di dati, tutti i dati provengono dal tuo esperimento, quindi non è possibile avere valori anomali, ma solo strani risultati. Questi possono derivare da errori di registrazione (ad esempio una casa di 400000 camere da letto per 4 dollari), problemi sistematici di misurazione (l'algoritmo di analisi dell'immagine riporta aree enormi se l'oggetto è troppo vicino al confine) problemi sperimentali (a volte, i cristalli precipitano fuori dalla soluzione, che forniscono un segnale molto alto) o funzioni del tuo sistema (una cella a volte può dividere in tre anziché due), ma possono anche essere il risultato di un meccanismo che nessuno ha mai considerato perché è raro e stai facendo ricerche, il che significa che alcune delle cose che fai semplicemente non sono ancora note.
Idealmente, ti prendi il tempo per indagare su ogni valore anomalo e rimuoverlo dal tuo set di dati solo dopo aver capito perché non si adatta al tuo modello. Ciò richiede tempo e soggettivo in quanto i motivi dipendono fortemente dall'esperimento, ma l'alternativa è peggio: se non capisci da dove provengono gli outlier, hai la possibilità di lasciare che i outlier "rovinino" i tuoi risultati, o definire un approccio "matematicamente rigoroso" per nascondere la tua mancanza di comprensione. In altre parole, perseguendo la "rigorosità matematica" si sceglie tra non ottenere un effetto significativo e non entrare in paradiso.
MODIFICARE
Se tutto ciò che hai è un elenco di numeri senza sapere da dove provengono, non hai modo di dire se un punto di dati è un valore anomalo, perché puoi sempre assumere una distribuzione in cui tutti i dati sono inlier.