'Outlier' è un termine conveniente per raccogliere dati che non si adatta a come ti aspetti che il tuo processo assomigli, al fine di rimuovere dall'analisi.
Suggerirei mai (avvertimento più tardi) di rimuovere gli outlier. Il mio background è il controllo statistico del processo, quindi spesso mi occupo di grandi volumi di dati di serie temporali generati automaticamente che vengono elaborati utilizzando un diagramma di marcia / diagramma a scatole mobili / ecc. A seconda dei dati e della distribuzione.
La cosa con gli outlier è che forniranno sempre informazioni sul tuo "processo". Spesso quello che stai pensando come un processo è in realtà molti processi ed è molto più complesso di quanto tu gli dia credito.
Usando l'esempio nella tua domanda, suggerirei che potrebbero esserci un certo numero di "processi". ci saranno variazioni dovute a ...
- campioni prelevati da un dispositivo di conduttanza
- campioni prelevati tra dispositivi di conduttanza
- quando il soggetto ha rimosso una sonda
- quando il soggetto si muoveva
- differenze all'interno della pelle di un soggetto attraverso il proprio corpo o tra diversi giorni di campionamento (capelli, umidità, olio, ecc.)
- differenze tra soggetti
- la formazione della persona che prende le misure e le variazioni tra il personale
Tutti questi processi produrranno ulteriori variazioni nei dati e probabilmente sposteranno la media e cambieranno la forma della distribuzione. Molti di questi non saranno in grado di separarsi in processi distinti.
Quindi, andando all'idea di rimuovere i punti dati come "valori anomali" ... Rimuoverei solo i punti dati, quando posso sicuramente attribuirli a un particolare "processo" che non voglio includere nella mia analisi. È quindi necessario assicurarsi che i motivi della non inclusione siano registrati come parte dell'analisi, quindi è ovvio. Non dare per scontato l'attribuzione, questa è la chiave per prendere appunti extra attraverso l'osservazione durante la tua raccolta di dati.
Sfiderei la tua affermazione "perché la maggior parte di essi è comunque un errore", in quanto non sono errori, ma solo parte di un processo diverso che hai identificato nelle tue misurazioni come diverso.
Nel tuo esempio, penso che sia ragionevole escludere punti dati che puoi attribuire a un processo separato che non desideri analizzare.