Come posso interpretare un grafico della percentuale di taglio rispetto alla media tagliata?

12

Per parte di una domanda a casa, mi è stato chiesto di calcolare la media tagliata per un set di dati eliminando l'osservazione più piccola e più grande e di interpretare il risultato. La media tagliata era inferiore alla media non tagliata.

La mia interpretazione era che ciò era dovuto al fatto che la distribuzione sottostante era inclinata positivamente, quindi la coda sinistra è più densa della coda destra. Come risultato di questa asimmetria, la rimozione di un dato elevato trascina la media più in basso rispetto alla rimozione di un dato basso lo spinge verso l'alto, perché, informalmente parlando, ci sono più dati bassi "in attesa di prendere il suo posto". (È ragionevole?)

Quindi ho iniziato a chiedermi in che modo la percentuale di taglio influisce su questo, quindi ho calcolato la media tagliata per vari . Ho una forma parabolica interessante: $\bar x_{\operatorname{tr}(k)}$ $k = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n$ Grafico della percentuale di rifilatura rispetto alla media rifilata; forma una curva concava che appare approssimativamente parabolica

Non sono sicuro di come interpretarlo. Intuitivamente, sembra che la pendenza del grafico dovrebbe essere (proporzionale a) l'asimmetria negativa della porzione di distribuzione all'interno di punti di dati della mediana. (Questa ipotesi si verifica con i miei dati, ma ho solo , quindi non sono molto fiducioso.) $k$ $n = 11$

Questo tipo di grafico ha un nome o è comunemente usato? Quali informazioni possiamo ricavare da questo grafico? C'è un'interpretazione standard?

Per riferimento, i dati sono: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

— wchargin
fonte

11

@gung e @kjetil b. halvorsen sono entrambi corretti.

Ho trovato tali grafici in

Rosenberger, JL e M. Gasko. 1983. Confronto degli stimatori di posizione: medie tagliate, mediane e trimean. Nel comprendere l'analisi dei dati robusti ed esplorativi , a cura di. DC Hoaglin, F. Mosteller e JW Tukey, 297–338. New York: Wiley.

e

Davison, AC e DV Hinkley. 1997. Metodi Bootstrap e loro applicazione. Cambridge: Cambridge University Press.

e dare ulteriori esempi in

Cox, NJ 2013. Taglio a piacere. Stata Journal 13: 640–666. http://www.stata-journal.com/article.html?article=st0313 [accesso gratuito al pdf]

che ha discusso molti aspetti dei mezzi tagliati.

Per quanto ne so, il grafico non ha un nome distinto. Un nome distinto per ogni possibile trama sarebbe in realtà un piccolo incubo: la terminologia grafica è già un casino orribile. Lo chiamerei semplicemente un diagramma della media tagliata rispetto al numero, alla frazione o alla percentuale tagliati (invertendo così la formulazione del PO).

Per ulteriori piccoli commenti su "versus", vedere la mia risposta in Eteroscedasticità nella regressione

EDIT: per ulteriori informazioni su versus (solo linguisti), vedere qui .

— Nick Cox
fonte

10

Non ho mai sentito parlare di questo grafico, ma penso che sia abbastanza pulito; probabilmente qualcuno l'ha già fatto prima. Quello che puoi fare con esso è vedere come la media si sposta e / o si stabilizza se consideri anomalie le diverse proporzioni dei tuoi dati. La ragione per cui ottieni la forma parabolica è che la tua distribuzione (iniziale) è distorta nel suo insieme, ma il grado di inclinazione non è lo stesso al centro della distribuzione. Per un confronto, considerare i grafici di densità del kernel di seguito.

inserisci qui la descrizione dell'immagine

A sinistra ci sono i tuoi dati mentre vengono tagliati uno per uno. A destra ci sono questi dati: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)che sono quantili di una distribuzione lognormale standard presi da percentili equidistanti e moltiplicati per 20 per rendere simile l'intervallo di valori.

I tuoi dati iniziano in modo obliquo, ma alla riga 5 vengono lasciati in modo obliquo, quindi il taglio di più dati inizia a riportare il valore medio. I dati sulla destra mantengono un disallineamento simile mentre il taglio continua.

Di seguito sono riportati i grafici per i dati lognormali e i dati uniformi ( z = 1:11, nessuna inclinazione - perfettamente simmetrici).

inserisci qui la descrizione dell'immagine

— gung - Ripristina Monica
fonte

4

Non credo che questo tipo di grafico abbia un nome, ma quello che stai facendo è ragionevole e la tua interpretazione, credo, valida. Penso che ciò che stai facendo sia legato alla funzione di influenza di Hampel, vedi https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function, in particolare la sezione sulla funzione di influenza empirica. E la trama potrebbe certamente essere correlata a qualche misura di disomogeneità dei dati, poiché, se i tuoi dati fossero perfettamente simmetrici, la trama sarebbe piatta. Dovresti investigarlo!

            EDIT

Un'estensione di questa trama è mostrare anche l'effetto dell'uso di diversi tagli a sinistra e a destra. Dato che questo non è implementato nella solita meanfunzione con argomento trimin R, ho scritto la mia funzione media tagliata. Per ottenere una trama più fluida, utilizzo l'interpolazione lineare quando la frazione di ritaglio implica la rimozione di un numero non intero di punti. Questo dà la funzione:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Quindi simulo alcuni dati e mostra il risultato come un diagramma di contorno:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

dando questo risultato:

— kjetil b halvorsen
fonte