Media ridotta rispetto alla mediana


9

Ho un set di dati con tutte le chiamate effettuate a un servizio di emergenza e i tempi di risposta del dipartimento delle ambulanze. Hanno ammesso che ci sono alcuni errori con i tempi di risposta in quanto vi sono casi in cui non hanno iniziato a registrare (quindi il valore è 0) o in cui non hanno fermato l'orologio (quindi il valore può essere estremamente alto).

Voglio scoprire la tendenza centrale e mi chiedevo se fosse meglio usare la mediana o il mezzo tagliato per sbarazzarsi degli outlier?


1
Innanzitutto, eliminerei tutti i dati non validi (valore = 0). Quindi visualizzerei i dati con un istogramma o un diagramma a riquadri per vedere dove mi trovo. Perché non puoi semplicemente tagliare alla cieca i dati del 5% se hai il 10% di dati errati ...
alesc,

Sì, o trama il CDF. In R, procedere come segue: times = times [times> 0]; trama (ecdf (volte))
Paul

Risposte:


12

Considera cosa significa una media troncata: nel caso prototipico, prima ordina i tuoi dati in ordine crescente. Quindi conti fino alla percentuale di taglio dal basso e scarti quei valori. Ad esempio una media ridotta del 10% è comune; in quel caso conti dal valore più basso fino a quando non hai superato il 10% di tutti i dati nel tuo set. I valori sotto quel segno sono messi da parte. Allo stesso modo, fai il conto alla rovescia dal valore più alto fino a quando non hai superato la percentuale di taglio e metti da parte tutti i valori maggiori. Ora sei rimasto con l'80% medio. Prendi la media di quella e quella è la tua media tagliata del 10%. (Nota che puoi tagliare proporzioni ineguali dalle due code o tagliare solo una coda, ma questi approcci sono meno comuni e non sembrano applicabili alla tua situazione.)

Ora pensa a cosa accadrebbe se calcolassi una media del 50%. La metà inferiore verrebbe messa da parte, così come la metà superiore. Ti rimarrebbe solo il valore singolo nel mezzo (ordinariamente). Prenderebbe la media di ciò (vale a dire, prenderesti semplicemente quel valore) come media definita. Si noti tuttavia che quel valore è la mediana. In altre parole, la mediana è una media rifilata (è una media rifilata al 50%). È solo molto aggressivo. Presuppone, in sostanza, che il 99% dei tuoi dati sia contaminato. Questo ti offre la massima protezione contro i valori anomali a scapito della massima perdita di potenza / efficienza .

La mia ipotesi è che una media ridotta al 50% è molto più aggressiva di quanto sia necessario per i tuoi dati ed è troppo dispendiosa delle informazioni a tua disposizione. Se hai idea della proporzione di valori anomali esistenti, utilizzerei tali informazioni per impostare la percentuale di taglio e utilizzare la media ritagliata appropriata. Se non si dispone di alcuna base per scegliere la percentuale di taglio, è possibile selezionarne una per convalida incrociata o utilizzare un'analisi di regressione affidabile con solo un'intercettazione.


1
Sono d'accordo con lo spirito di questo, ma potrebbe essere frainteso perché implica che i mezzi tagliati si basano necessariamente sul taglio di frazioni uguali in ogni coda. Questa è solo una procedura comune, e la procedura più spesso discussa per un caso di riferimento di distribuzioni approssimativamente simmetriche ma probabilmente a coda grassa, ma non è in alcun senso obbligatorio. C'è una letteratura sul taglio in una sola coda, che ha senso quando tutti i valori dubbiosi potrebbero essere nella coda.
Nick Cox,

@NickCox, buon punto. Ho aggiunto un piccolo testo per chiarirlo. Fammi sapere se pensi che abbia bisogno di più.
gung - Ripristina Monica

Sembra buono. Il taglio naturale in una coda è proprio quel caso speciale di proporzioni disuguali in cui una proporzione è zero.
Nick Cox,

@NickCox, certo, ma ho pensato che sarebbe stato meglio essere espliciti.
gung - Ripristina Monica

-1

Prima di tutto, rimuovi i dati non validi.

In secondo luogo, non è necessario rimuovere gli outlier in quanto sono valori osservati. In alcuni casi, è utile (come nella regressione lineare) ma nel tuo caso non vedo il punto.

Infine, preferisci usare la mediana poiché è più preciso trovare il centro dei tuoi dati. Come hai detto, la media può essere sensibile ai valori anomali (l'uso della media ritagliata può essere distorto).


3
Poiché la stima della posizione è un caso particolare di regressione, sarei curioso di sapere come può essere utile rimuovere gli outlier in quest'ultimo ma non nel primo caso.
user603
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.