Spesso a un analista statistico viene consegnato un set di dati impostato e viene chiesto di adattare un modello utilizzando una tecnica come la regressione lineare. Molto spesso il set di dati è accompagnato da una dichiarazione di non responsabilità simile a "Oh sì, abbiamo sbagliato a raccogliere alcuni di questi punti di dati - fai quello che puoi".
Questa situazione porta a regressioni che sono fortemente influenzate dalla presenza di valori anomali che possono essere dati errati. Dato quanto segue:
È pericoloso dal punto di vista sia scientifico che morale diffondere i dati per nessun motivo se non "fa apparire male la misura".
Nella vita reale, le persone che hanno raccolto i dati spesso non sono disponibili a rispondere a domande come "durante la generazione di questo set di dati, quale dei punti hai incasinato, esattamente?"
Quali test statistici o regole empiriche possono essere utilizzati come base per escludere gli outlier nell'analisi di regressione lineare?
Ci sono considerazioni speciali per la regressione multilineare?