Quartili in Excel


10

Sono interessato alla definizione di quartile che di solito viene utilizzata quando ci si trova nelle statistiche di base. Ho un libro di testo Stat 101 e dà solo una definizione intuitiva. "Circa un quarto dei dati cade sopra o sotto il primo quartile ..." Ma fornisce un esempio in cui calcola Q1, Q2 e Q3 per l'insieme di dati

5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37

Poiché ci sono 15 pezzi di dati, ne sceglie 15 come mediana, Q2. Quindi suddivide i dati rimanenti in due metà, da 5 a 14 e da 16 a 37. Ciascuno contiene 7 pezzi di dati e trovano la mediana di ciascuno di questi insiemi, 10 e 18, rispettivamente come Q1 e Q3. Ecco come lo calcolerei da solo.

Ho guardato l'articolo di Wikipedia e offre 2 metodi. Uno concorda con quanto sopra, e dice che potresti anche includere la mediana 15 in entrambi i set (ma non includeresti la mediana se fosse la media dei due numeri medi nel caso di un numero pari di punti dati). Tutto questo ha senso per me.

Ma poi ho controllato Excel per vedere come Excel lo calcola. Sto usando Excel 2010, che ha 3 diverse funzioni. Quartile era disponibile nel 2007 e versioni precedenti. Sembra che vogliano smettere di usarlo nel 2010, ma è ancora disponibile. Quartile.Inc è nuovo ma concorda esattamente con Quartile per quanto ne so. E c'è anche Quartile.Exc. Credo che entrambi gli ultimi 2 siano nuovi nel 2010. Questa volta, ho appena provato a utilizzare gli interi 1, 2, 3, ..., 10. Mi aspetto che Excel fornisca la mediana di 5,5, Q1 di 3 e Q3 di 8. Anche il metodo dal libro delle statistiche poiché entrambi i metodi su Wikipedia darebbero queste risposte, poiché la mediana è la media dei due numeri centrali. Excel dà

quartile number, Quartile.Inc, Quartile.Exc
1,               3.25,         2.75 
2,               5.5,          5.5
3,               7.75,         8.25

Nessuno di questi è d'accordo con ciò di cui ho già parlato.

Le descrizioni nel file della guida per Excel sono:

Quartile.Inc: restituisce il quartile di un set di dati, basato su valori percentili compresi tra 0 e 1 inclusi.

Quartile.Exc: restituisce il quartile del set di dati, in base ai valori percentili da 0..1, esclusivo.

Qualcuno può aiutarmi a capire questa definizione che Excel sta usando?


5
Un'altra grande illustrazione del perché non usare Excel per qualcosa di statistico. :-)
Wayne

1
Gli amici non consentono agli amici di utilizzare Excel per le statistiche. Triste ma vero
Chris Beeley

Risposte:


11

Tipicamente, un rango (tra 1 e n per n dati) viene convertito in una percentuale p tramite la formular1nnp

p=100r-αn+1-2α

per una "posizione di tracciamento" prestabilita compresa tra 0 e 1 , incluso. Risolvendo per r in termini di pα01rp

r=(n+1-2α)(p/100)+α.

Excel ha utilizzato storicamente per le sue e funzioniα=1PERCENTILEQUARTILE . La documentazione online per QUARTILE.INCed QUARTILE.EXCè inutile, quindi dobbiamo decodificare cosa stanno facendo queste funzioni.

Ad esempio, con i dati , abbiamo n = 10 e p { 25 , 50 , 75 } per i tre quartili. L'uso di α = 1 nella formula precedente produce gradi di 9 ( 0,25 ) + 1 = 3,25 , 9 ((1,2,3,4,5,6,7,8,9,10)n=10p{25,50,75}α=19(0.25)+1=3.25 e 9 ( 0,75 ) + 1 = 7,75 , riproducendo i risultati per.9(0.50)+1=5.59(0.75)+1=7.75QUARTILE.INC

Se invece impostiamo i gradi corrispondenti sono 11 ( 0,25 ) = 2,75 , 11 ( 0,50 ) = 5,5 e 11 ( 0,75 ) = 8,25 , riproducendo i risultati per .α=011(0.25)=2,7511(0.50)=5.511(0.75)=8.25QUARTILE.EXC

Ulteriori test da parte tua (non ho una versione recente di Excel) possono stabilire la validità della mia ipotesi che queste due versioni della funzione quartile sono determinate da questi due (estremi) valori di α .

A proposito, i ranghi frazionari vengono convertiti in valori di dati mediante interpolazione lineare. Il processo è spiegato e illustrato nelle note del mio corso in percentuali e trame EDF - guarda in fondo a quella pagina. C'è anche un collegamento a un foglio di calcolo Excel che illustra i calcoli.

Se desideri implementare una funzione percentile generale in Excel , ecco una macro VBA per farlo:

'
' Converts a percent, computed using plotting position constant A,
' into a percent appropriate for the Excel Percentile() and
' Quartile() functions.  (The default value of A for Excel is 1;
' most values in use are between 0 and 0.5.)
'
Public Function PercentileA(P As Double, N As Integer, A As Double) As Double
    If N < 1 Or A < 0# Or A > 1# Or P < 0# Or P > 1# Then
        Exit Function
    End If
    If N < 2 Then
        PercentileA = 0.5
    Else
        PercentileA = ((N - 2 * A + 1) * P + A - 1) / (N - 1)
    End If
End Function

Converte una percentuale nominale (come 25/100) nella percentuale che indurrebbe la PERCENTILEfunzione di Excel a restituire il valore desiderato. È inteso per l'uso in formule cellulari, come in =PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5)).


Nota che una volta compreso esattamente cosa sta facendo Excel, puoi usarlo in modo efficace per il lavoro statistico.
whuber

5
Se potessi essere in disaccordo umoristico con il tuo commento: Excel può essere utilizzato efficacemente per il lavoro statistico, se sei un mago statistico che può provare dai principi di base cosa dovrebbe essere fatto, allora decodifica i metodi di Excel per determinare cosa sta effettivamente facendo. Quando sei così bravo, quasi tutti gli strumenti lo faranno. Anche se vorrei anche sottolineare che in questo thread, il 100% dei maghi coinvolti in questa discussione finora non ha accesso all'ultima versione di Excel, quindi è improbabile che lo utilizzi effettivamente.
Wayne,

Touche ', @Wayne. (Ma alcuni di noi usano ancora versioni precedenti di Excel :-).)
whuber

1
Whuber, grazie per aver condiviso la soluzione VBA. Questo sarà estremamente utile. Come qualcuno che ha bisogno di fare le statistiche ma è bloccato con Excel come l'unico strumento facilmente disponibile (sì, ho provato R, ma non riesco proprio a capirlo), apprezzo gli strumenti per aiutare a piegare Excel alle mie esigenze.
dav

4

Mi sembra che Excel sia d' quartile.incaccordo con l'originale quartile, che è d'accordo con l'impostazione predefinita di R e altre definizioni.

Con un utile suggerimento di whuber, ho scoperto che Excel quartile.excsembra concordare (nel caso 1..10) con la type=6definizione di quantile di R :

   > For types 4 through 9, Q[i](p) is a continuous function of p, with
    > gamma = g and m given below. The sample quantiles can be obtained
    > equivalently by linear interpolation between the points (p[k],x[k])
    > where x[k] is the kth order statistic. Specific expressions for p[k]
    > are given below.
    > 
    > ...
    > 
    > 
    > Type 6 m = p
    >       .p[k] = k / (n + 1). Thus p[k] = E[F(x[k])].
    >       This is used by Minitab and by SPSS.

Il che apparentemente dà la risposta alla tua domanda: "Sì, Minitab e SPSS lo fanno."


R non ha nove definizioni di quantili? (+1 per la modifica, a proposito)
whuber

@whuber: non prestare attenzione all'uomo dietro la tenda! (Modificherò la mia risposta. A un ulteriore esame, corrisponde a una delle altre definizioni di R, che è evidentemente ciò che Minitab e SPSS usano. Grazie!)
Wayne,

2

Penso che il sapore exc del quartile stia semplicemente ignorando il 5 e il 37 (minimo e massimo nei dati originali).

In Stata, sia la versione predefinita che quella alternativa forniscono valori quartile.exc con questi dati.


Questa ipotesi sembra essere incompatibile con la documentazione che afferma che il massimo e il minimo possono effettivamente essere restituiti QUARTILE.EXC.
whuber

Nella mia versione di Excel 2010, QUARTILE.EXC (intervallo di celle, k) restituirà #NUM! a meno che k = {1,2,3}, che corrisponde al 25 °, 50 ° e 75 ° percentile secondo il menu a comparsa che appare. Il QUARTILE originale accetterà anche 0 e 4 come secondo argomento, che corrispondono al minimo e al massimo.
Dimitriy V. Masterov,

1
La documentazione indica "Se quart ≤ 0 o se quart ≥ 4, QUARTILE.EXC restituisce il valore di errore #NUM !." Sembra vero. La seconda istruzione "MIN, MEDIAN e MAX restituisce lo stesso valore di QUARTILE.EXC quando quart è uguale a 0 (zero), 2 e 4, rispettivamente" appare falso a meno che non mi manchi qualcosa. Che casino!
Dimitriy V. Masterov

nn-11#NUM!PERCENTILE

1
I 3 tipi di percentile si comportano allo stesso modo del quartile per me. Per i dati 5-37, PERCENTILE.EXC (range, k) dà #NUM! per k = {0,1}. Per k = 0,25, PERCENTILE.EXC dà 10. Se butto via 5 e 37, dà 10,5, che è d'accordo con gli altri 2 modi.
Dimitriy V. Masterov,

2

Un sacco di cose dettagliate interessanti ma per tornare alla domanda originale non vedo che due modi leggermente diversi che potrebbero non dare esattamente la stessa risposta contano davvero. Il primo quatile è il punto in cui il 25% delle osservazioni cade in corrispondenza o al di sotto di esso. A seconda della dimensione del campione che può essere o meno un punto esatto nei dati. Quindi se un punto è sotto e il successivo è sopra, questo primo quartile non è veramente ben definito e qualsiasi punto tra questi due può servire ugualmente bene. Lo stesso vale per la mediana quando la dimensione del campione è pari. La regola seleziona il punto medio tra i punti dati sotto e sopra. Ma nulla dice davvero che la scelta data dalla regola sia davvero migliore di qualsiasi altro punto.


+1. Tuttavia, vorrei suggerire che questo ragionamento, sebbene appropriato per alcune applicazioni, potrebbe essere un po 'troppo limitato per scopi generali: alcune scelte di tracciare la posizione (α1/31/2

0

Per quelli di voi che usano Excel c'è una buona suddivisione dei diversi metodi di versione qui http://peltiertech.com/WordPress/comparison/


2
Sarebbe meglio se potessi riassumerli nella tua risposta. Sebbene il link possa rispondere alla domanda, a volte non è aggiornato, nel qual caso la tua risposta non sarà utile per i futuri lettori.
Andy,

0

in Excel 2016 ho notato che si possono ottenere i giusti valori di quartili se:

  • il set di dati ha un numero dispari di voci: utilizzare QUARTILE.EXC
  • il set di dati ha un numero pari di voci: usa la media di QUARTILE.EXC e QUARTILE.INC

1
Date quante definizioni di quantili ci sono, come evidenziato in alcune delle altre risposte, puoi spiegare cosa intendi con i giusti valori?
mdewey,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.