Ho un paio di valori anomali nei miei dati e volevo escluderli per vedere se questo cambia i risultati. Secondo te, qual è il numero massimo di valori anomali che uno dovrebbe limitare?
Grazie! 
Ho un paio di valori anomali nei miei dati e volevo escluderli per vedere se questo cambia i risultati. Secondo te, qual è il numero massimo di valori anomali che uno dovrebbe limitare?
Grazie! 
Risposte:
Non esiste un massimo o un minimo. I valori anomali devono essere rimossi se si tratta di dati errati o se vi sono altri motivi sostanziali per rimuoverli. Se non ci sono ragioni sostanziali, allora suggerisco di usare metodi che siano robusti per gli outlier. Non rimuoverei gli outlier solo perché sono un po 'lontani dagli altri punti.
Vorrei sottolineare qualcosa che è stato detto in un'altra risposta e nei commenti (penso che le risposte di @Peter Flom siano accurate e che EdM abbia ragione al tatto sulle misurazioni, tra tutte).
L'analisi dei dati è qualcosa che deve essere fatto con attenzione. Devi essere ben consapevole del significato di valori anomali nei tuoi contatti. Ad esempio, supponendo che la procedura di misurazione sia stata eseguita "correttamente" (voglio dire, non hai introdotto errori, l'apparecchiatura è stata calibrata, la persona che ha letto lo strumento ha eseguito correttamente, ecc. Ecc.), Alcuni valori anomali potrebbero dire qualcosa di interessante e a volte molto importante.
Ecco un esempio inventato, sii indulgente (indicalo nei commenti) se non è giusto al 100% su tutti gli aspetti. ;)
Supponiamo che qualcuno stia testando l'effetto dell'applicazione di una certa quantità di una sostanza su alcune colture (popolazioni) di batteri. Ora, "in generale", l'effetto è stabilizzare il numero di batteri nella popolazione, ma ci sono alcuni valori anomali tra le diverse culture.
Immagina che tutti i tuoi valori anomali indichino situazioni in cui tutti i batteri sono morti. O che tutti i valori anomali rappresentano culture in cui le popolazioni di batteri sono cresciute senza controllo.
Quello che voglio sottolineare è che la natura dei tuoi valori anomali percepiti potrebbe essere significativa e le conseguenze di ciascuno sono diverse. Potresti trovarti in una situazione in cui è intollerabile che il numero di batteri aumenti o diminuisca.
Naturalmente, se notaste che alcune popolazioni sono state spazzate via dalla sostanza, probabilmente indaghereste sulla questione poiché si tratta di una situazione facilmente riconoscibile. Ma non tutti i fenomeni sono facilmente rilevabili.
Per concludere, la nozione di valori anomali è in qualche modo arbitraria, ma i loro significati sono molteplici e di diversa importanza. Spero che ti faccia pensare in merito ... :)