Bootstrap: devo prima rimuovere gli outlier?

Abbiamo eseguito un split test di una nuova funzionalità di prodotto e vogliamo misurare se l'aumento delle entrate è significativo. Le nostre osservazioni sicuramente non sono normalmente distribuite (la maggior parte dei nostri utenti non spende, e all'interno di quelle che lo fanno, è fortemente distorta nei confronti di molti piccoli spesi e pochi spesi molto grandi).

Abbiamo deciso di utilizzare il bootstrap per confrontare i mezzi, per ovviare al problema dei dati non distribuiti normalmente (domanda a margine: si tratta di un uso legittimo del bootstrap?)

La mia domanda è: devo tagliare i valori anomali dal set di dati (ad es. I pochi utenti molto grandi) prima di eseguire il bootstrap, o non importa?

bootstrap outliers

— user31228
fonte

Buona domanda: probabilmente posso argomentare pro e contro la rimozione degli outlier. Perché non usare le mediane se sei preoccupato per gli outlier e quello che stai cercando è solo una "tendenza centrale"? Dato che le variabili legate al denaro hanno spesso una distribuzione fortemente distorta (ad es. Pareto) che potrebbe non essere irragionevole in primo luogo.

— usεr11852 dice Reinstate Monic l'

@ user11852 I mediani ti dicono poco sulla media, che è ciò che è rilevante per le entrate. Sarebbe interessante vedere la tua argomentazione a favore della rimozione degli "outlier", specialmente quando questi sono probabilmente i principali contribuenti alle entrate totali.

— whuber

Sfortunatamente la mediana sarebbe sempre zero, poiché <10% degli utenti spende del tutto

— user31228

@ user11852 Il tuo argomento generale secondo cui i valori anomali sono legittimi è utile. Ma, per quanto riguarda la possibilità di amplificazione, mi sembra che sia vero il contrario: il bootstrap ha la possibilità di funzionare solo se viene utilizzato l'intero campione. Altrimenti presenta una fiaba, che ci dice come sarebbero le cose se non ci fossero valori anomali, ma ovviamente lo fanno. Il problema più grande è che il bootstrap ha poca giustificazione teorica quando applicato a piccoli campioni: la teoria è asintotica .

— whuber

Questa è una domanda importante (+1). Puoi aggiungere un piccolo campione del tuo set di dati o un campione simulato simile alla domanda? Penso che fornire un'illustrazione sarà più fruttuoso in questo caso.

— user603

Risposte:

Prima di affrontare questo, è importante riconoscere che la negligenza statistica della "rimozione dei valori anomali" è stata erroneamente divulgata in gran parte della pedagogia statistica applicata. Tradizionalmente, i valori anomali sono definiti come osservazioni ad alta leva e ad alta influenza. Si possono e dovrebbero identificare tali osservazioni nell'analisi dei dati, ma tali condizioni da sole non giustificano la rimozione di tali osservazioni. Un "vero valore anomalo" è un'osservazione ad alta leva / alta influenza che è incompatibile con le repliche del disegno sperimentale. Ritenere un'osservazione in quanto tale richiede una conoscenza specializzata di quella popolazione e della scienza alla base del "meccanismo di generazione dei dati". L'aspetto più importante è che dovresti essere in grado di identificare potenziali apriori anomali .

Per quanto riguarda l'aspetto bootstrap delle cose, il bootstrap ha lo scopo di simulare estrazioni indipendenti e ripetute dalla popolazione campionaria. Se si specificano i criteri di esclusione nel piano di analisi, è comunque necessario lasciare valori esclusi nella distribuzione di campionamento bootstrap del referente . Ciò è dovuto alla perdita di energia dovuta all'applicazione delle esclusioni dopo il campionamento dei dati. Tuttavia, se non ci sono criteri di esclusione prespecificati e i valori anomali vengono rimossi utilizzando il giudizio post hoc , poiché ovviamente mi sto opponendo, la rimozione di questi valori propagherà gli stessi errori di inferenza causati dalla rimozione dei valori erratici.

Prendi in considerazione uno studio sulla ricchezza e la felicità in un campione casuale semplice non classificato di 100 persone. Se prendessimo la dichiarazione "l'1% della popolazione detiene letteralmente il 90% della ricchezza mondiale", osserveremmo, in media, un valore molto influente. Supponiamo inoltre che, oltre a offrire una qualità di vita di base, non vi fosse un eccesso di felicità attribuibile a un reddito maggiore (tendenza lineare non costante). Quindi questo individuo ha anche una leva elevata.

Il coefficiente di regressione dei minimi quadrati si adatta ai dati non alterati stima una tendenza media del primo ordine della popolazione in questi dati. È fortemente attenuato dal nostro 1 individuo nel campione la cui felicità è coerente con quelli vicino ai livelli di reddito medio. Se rimuoviamo questo individuo, la pendenza di regressione dei minimi quadrati è molto più grande, ma la varianza del regressore è ridotta, quindi l'inferenza sull'associazione è approssimativamente la stessa. La difficoltà nel fare questo è che non ho prespecificato le condizioni in cui gli individui sarebbero esclusi. Se un altro ricercatore replicasse questo progetto di studio, campionerebbe in media un individuo ad alto reddito, moderatamente felice, e otterrebbe risultati incompatibili con i miei risultati "ritagliati".

Se fossimo a priori interessati alla associazione reddito felicità moderata, allora avremmo dovuto prespecificate che avremmo, ad esempio, "confrontare gli individui che guadagnano meno di $ 100.000 di reddito annuo delle famiglie". Quindi la rimozione del valore anomalo ci induce a stimare un'associazione che non possiamo descrivere, quindi i valori di p sono insignificanti.

D'altra parte, è possibile rimuovere le apparecchiature mediche non calibrate e le bugie auto-segnalate facetious. Maggiore è la precisione con cui i criteri di esclusione possono essere descritti prima che abbia luogo l'analisi effettiva, più validi e coerenti saranno i risultati che tale analisi produrrà.

— ADAMO
fonte

Non sono sicuro di capire perché " se si specificano i criteri di esclusione nel piano di analisi, si dovrebbero comunque lasciare valori esclusi nella distribuzione di campionamento bootstrap referente. " Si dice che questo è " perché si terrà conto della perdita di energia dovuta a applicando le esclusioni dopo il campionamento dei dati. "Non vedo perché si presume che l'applicazione dei criteri di esclusione dopo il campionamento porti alla perdita di potere, né come / perché lasciare i casi esclusi nel campione bootstrap" conti "(?) questo, né ulteriormente perché questo è qualcosa che deve essere chiaramente "giustificato". Forse sto diventando denso qui.

— Jake Westfall,

p

$p$

Hmm, il mio pensiero era che se uno avesse specificato in anticipo i criteri di esclusione - in modo da non essere esplicitamente interessati a determinati tipi di casi, e presumibilmente future repliche di studi avrebbero usato questi stessi criteri di esclusione - allora avrebbe senso andarsene quei casi dal campione bootstrap, in quanto sono un segmento della popolazione di cui non desideriamo fare alcuna deduzione. Io vedo come repliche future potrebbe finire per escludere una percentuale diversa di casi, ma non riesco a fare il collegamento al perché questo importa per i casi che abbiamo esplicitamente siamo interessati a ..

— Jake Westfall

p

$p$

H_{0}

$\mathcal{H}_0$

Considerarlo come un problema anomalo mi sembra sbagliato. Se "<10% degli utenti spende affatto", è necessario modellare tale aspetto. La regressione di Tobia o Heckman sarebbe due possibilità.

— JKP
fonte

Al momento, questo è più un commento che una risposta. Ti dispiacerebbe ampliarlo un po 'per renderlo più rispondente?

— gung - Ripristina Monica