Prima di affrontare questo, è importante riconoscere che la negligenza statistica della "rimozione dei valori anomali" è stata erroneamente divulgata in gran parte della pedagogia statistica applicata. Tradizionalmente, i valori anomali sono definiti come osservazioni ad alta leva e ad alta influenza. Si possono e dovrebbero identificare tali osservazioni nell'analisi dei dati, ma tali condizioni da sole non giustificano la rimozione di tali osservazioni. Un "vero valore anomalo" è un'osservazione ad alta leva / alta influenza che è incompatibile con le repliche del disegno sperimentale. Ritenere un'osservazione in quanto tale richiede una conoscenza specializzata di quella popolazione e della scienza alla base del "meccanismo di generazione dei dati". L'aspetto più importante è che dovresti essere in grado di identificare potenziali apriori anomali .
Per quanto riguarda l'aspetto bootstrap delle cose, il bootstrap ha lo scopo di simulare estrazioni indipendenti e ripetute dalla popolazione campionaria. Se si specificano i criteri di esclusione nel piano di analisi, è comunque necessario lasciare valori esclusi nella distribuzione di campionamento bootstrap del referente . Ciò è dovuto alla perdita di energia dovuta all'applicazione delle esclusioni dopo il campionamento dei dati. Tuttavia, se non ci sono criteri di esclusione prespecificati e i valori anomali vengono rimossi utilizzando il giudizio post hoc , poiché ovviamente mi sto opponendo, la rimozione di questi valori propagherà gli stessi errori di inferenza causati dalla rimozione dei valori erratici.
Prendi in considerazione uno studio sulla ricchezza e la felicità in un campione casuale semplice non classificato di 100 persone. Se prendessimo la dichiarazione "l'1% della popolazione detiene letteralmente il 90% della ricchezza mondiale", osserveremmo, in media, un valore molto influente. Supponiamo inoltre che, oltre a offrire una qualità di vita di base, non vi fosse un eccesso di felicità attribuibile a un reddito maggiore (tendenza lineare non costante). Quindi questo individuo ha anche una leva elevata.
Il coefficiente di regressione dei minimi quadrati si adatta ai dati non alterati stima una tendenza media del primo ordine della popolazione in questi dati. È fortemente attenuato dal nostro 1 individuo nel campione la cui felicità è coerente con quelli vicino ai livelli di reddito medio. Se rimuoviamo questo individuo, la pendenza di regressione dei minimi quadrati è molto più grande, ma la varianza del regressore è ridotta, quindi l'inferenza sull'associazione è approssimativamente la stessa. La difficoltà nel fare questo è che non ho prespecificato le condizioni in cui gli individui sarebbero esclusi. Se un altro ricercatore replicasse questo progetto di studio, campionerebbe in media un individuo ad alto reddito, moderatamente felice, e otterrebbe risultati incompatibili con i miei risultati "ritagliati".
Se fossimo a priori interessati alla associazione reddito felicità moderata, allora avremmo dovuto prespecificate che avremmo, ad esempio, "confrontare gli individui che guadagnano meno di $ 100.000 di reddito annuo delle famiglie". Quindi la rimozione del valore anomalo ci induce a stimare un'associazione che non possiamo descrivere, quindi i valori di p sono insignificanti.
D'altra parte, è possibile rimuovere le apparecchiature mediche non calibrate e le bugie auto-segnalate facetious. Maggiore è la precisione con cui i criteri di esclusione possono essere descritti prima che abbia luogo l'analisi effettiva, più validi e coerenti saranno i risultati che tale analisi produrrà.