Ci sono 99 percentili o 100 percentili? E sono gruppi di numeri, o divisori o puntatori a singoli numeri?


27

Ci sono 99 percentili o 100 percentili? E sono gruppi di numeri o linee di divisione o puntatori a singoli numeri?

Suppongo che la stessa domanda si applicherebbe per i quartili o qualsiasi quantile.

Ho letto che l'indice di un numero in un particolare percentile (p), dato n elementi, è i = (p / 100) * n

Questo mi suggerisce che ci sono 100 percentili .. perché supponendo che tu abbia 100 numeri (da i = 1 a i = 100), allora ognuno avrebbe un indice (da 1 a 100).

Se avessi 200 numeri, ci sarebbero 100 percentili, ma ognuno farebbe riferimento a un gruppo di due numeri. O 100 divisori escludendo il divisore all'estrema sinistra o all'estrema destra, altrimenti otterresti 101 divisori. O puntatori a singoli numeri in modo che il primo percentile si riferisse al secondo numero, (1/100) * 200 = 2 E il centesimo percentile si riferisse al 200 ° numero (100/100) * 200 = 200

A volte ho sentito parlare di 99 percentili però ...

Google mostra il dizionario di Oxford che dice percentile- "ciascuno dei 100 gruppi uguali in cui una popolazione può essere divisa in base alla distribuzione dei valori di una particolare variabile". e "ciascuno dei 99 valori intermedi di una variabile casuale che divide una distribuzione di frequenza in 100 di tali gruppi".

Wikipedia afferma che "il 20 ° percentile è il valore al di sotto del quale si può trovare il 20% delle osservazioni" Ma in realtà significa "il valore al di sotto o uguale al quale, il 20% delle osservazioni può essere trovato" cioè "il valore per il quale 20 % dei valori sono <= ad esso ". Se fosse solo <e non <=, allora Con questo ragionamento, il 100o percentile sarebbe il valore al di sotto del quale si può trovare il 100% dei valori. Ho sentito che come argomento non può esserci un centesimo percentile, perché non è possibile avere un numero in cui vi sia il 100% dei numeri sottostanti. Ma penso che forse l'argomento secondo cui non è possibile avere un centesimo percentile sia errato e si basi su un errore che implica la definizione di un percentile <= non <. (o> = non>). Quindi il centesimo percentile sarebbe il numero finale e sarebbe>


4
Penso che probabilmente 100 sarebbe una risposta ragionevole a causa del suo trattamento asimmetrico degli estremi. I casi possono essere fatti per 99 (come nella definizione che citi) o 101.
whuber

4
Storicamente i quantili - come ora diciamo genericamente - sono stati i primi punti di riepilogo, e quindi per estensione i bin, le classi o gli intervalli che delimitano. Quindi tre quartili, compresa la mediana, definiscono quattro bin e così via.
Nick Cox,

1
@whuber Scrivi "Penso che probabilmente 100 sarebbe una risposta ragionevole a causa del suo trattamento asimmetrico degli estremi." <- puoi approfondire questo?
barlop

3
Elenco i primi usi di vari termini quantili su stats.stackexchange.com/questions/235330/… . Se guardi all'interno dell'OED o jstor otterrai esempi di utilizzo storico.
Nick Cox,

2
@whuber Sì, sembra che ciò a cui mi riferisco sia chiamato correttamente "rango percentile", utilizzato nei rapporti sui punteggi dei test ecc.: en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org / risorse / glossario . Ci scusiamo per aver aggiunto confusione. A mio avviso, la differenza sembra dipendere dall'uso delle preposizioni "at" vs. "in" (vedi 1 ° link).
Jeff Y

Risposte:


32

Entrambi questi sensi di percentile , quartile e così via sono ampiamente utilizzati. È più semplice illustrare la differenza con i quartili:

  1. il senso del "divisore" - ci sono 3 quartili, che sono i valori che dividono la distribuzione (o campione) in 4 parti uguali:

       1   2   3
    ---|---|---|---
    

    (A volte questo viene usato con i valori massimo e minimo inclusi, quindi ci sono 5 quartili numerati da 0 a 4; nota che questo non è in conflitto con la numerazione sopra, ma semplicemente la estende.)

  2. il senso "bin": ci sono 4 quartili, i sottoinsiemi in cui quei 3 valori dividono la distribuzione (o campione)

     1   2   3   4
    ---|---|---|---
    

Nessuno dei due usi può ragionevolmente essere definito "sbagliato": entrambi sono utilizzati da molti professionisti esperti ed entrambi compaiono in molte fonti autorevoli (libri di testo, dizionari tecnici e simili).

Con i quartili, il senso utilizzato è generalmente chiaro dal contesto: parlare di un valore nel terzo quartile può essere solo il senso "bin", mentre parlare di tutti i valori al di sotto del terzo quartile significa molto probabilmente il senso "divisore". Con i percentili, la distinzione è più spesso poco chiara, ma non è nemmeno così significativa per la maggior parte degli scopi, poiché l'1% di una distribuzione è così piccola - una striscia stretta è approssimativamente una linea. Parlare di chiunque al di sopra dell'80 ° percentile potrebbe significare il 20% superiore o il 19% superiore, ma in un contesto informale che non è una grande differenza, e in un lavoro rigoroso, il significato necessario dovrebbe essere presumibilmente chiarito dal resto del contesto.

(Parti di questa risposta sono adattate da /math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles , che fornisce anche citazioni + riferimenti.)


2
(+1) Questa risposta tardiva arriva benissimo al nocciolo della questione.
Nick Cox,

che dire di en.wikipedia.org/wiki/Percentile dice "ogni punteggio è nel 100 ° percentile" <- sembra un bidone delle dimensioni dell'intero set di dati, mentre i tuoi contenitori hanno tutte le stesse dimensioni
barlop

1
La voce di Wikipedia dice questo. Non riesco a pensare a una difesa per una tale formulazione. Wikipedia è meravigliosa, tranne quando è fuorviante o sbagliata. Sembrerà irriverente, ma tutto ciò che posso fare è incoraggiare chiunque guardi chi è attivo su Wikipedia a migliorare la voce. Tutti devono avere regole per ciò che fanno e non fanno, ed essere attivo qui e in alcuni altri posti è il mio limite personale.
Nick Cox,

5

Prendi questa risposta con un granello di sale: è iniziata abbastanza male e sto ancora decidendo cosa farne.

La domanda riguarda in parte il linguaggio e l'uso, mentre questa risposta si concentra sulla matematica. Spero che la matematica fornisca un quadro per comprendere diversi usi.

Un buon modo per trattare questo è iniziare con la matematica semplice e tornare indietro al caso più complicato di dati reali. Cominciamo con PDF, CDF e CDF inversi (noti anche come funzioni quantili). Il X esimo quantile di una distribuzione con pdf f e cdf F è F-1(X) . Supponiamo che il percentile z sia F-1(z/100) . Questo fornisce un modo per individuare l'ambiguità che identifichi: possiamo esaminare le situazioni in cui F è 1) non invertibile, 2) invertibile solo su un determinato dominio o 3) invertibile ma il suo inverso non raggiunge mai determinati valori.

Esempio di 1): Lascio questo per ultimo; continua a leggere.

Esempio di 2): per una distribuzione uniforme di 0,1, il CDF è invertibile quando limitato a [0, 1], quindi il 100 ° e il 0 ° percentile potrebbero essere definiti come F-1(1) e F-1(0) dato quell'avvertimento. Altrimenti, sono mal definiti poiché F(-0,5) (ad esempio) è anche 0.

Un altro esempio di 2): per una distribuzione uniforme sui due intervalli disgiunti da 0 a 1 e da 2 a 3, il CDF appare così.

inserisci qui la descrizione dell'immagine

La maggior parte dei quantili di questa distribuzione esistono e sono unici, ma la mediana (50 ° percentile) è intrinsecamente ambigua. In R, vanno a metà: quantile(c(runif(100), runif(100) + 2), 0.5)restituiscono circa 1,5.

Esempio di 3): per una distribuzione normale, il 100o e il 0o percentile non esistono (o "sono" ± ). Questo perché il normale CDF non raggiunge mai 0 o 1.

Discussione su 1): per i "bei" cdf, come con quantili non estremi o distribuzioni continue, i percentili esistono e sono unici. Ma per una distribuzione discreta come la distribuzione di Poisson, la mia definizione è ambigua perché per la maggior parte di z/100 , non c'è y con F(y)=z/100 . Per una distribuzione di Poisson con aspettativa 1, il CDF è simile al seguente.

inserisci qui la descrizione dell'immagine

Per il 60o percentile, R restituisce 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)). Per il 65 ° percentile, anche R restituisce 1. Puoi pensare a questo come a disegnare 100 osservazioni, classificandole da basse a alte e restituendo il 60 ° o il 65 ° elemento. Se lo fai, otterrai molto spesso 1.

Quando si tratta di dati reali, tutte le distribuzioni sono discrete. (Il CDF empirico di runif(100)o np.random.random(100)ha 100 incrementi raggruppati attorno a 0,5). Ma, piuttosto che trattarli come discreti, la quantilefunzione di R sembra trattarli come campioni da distribuzioni continue. Ad esempio, la mediana (il 50o percentile o 0,5 quantile) del campione 3,4, 5, 6, 7, 8 viene data come 5,5. Se disegni 2n campioni da una distribuzione unif (3,8) e prendi un numero qualsiasi tra l'ennesimo e (n + 1) esimo campione, convergerai su 5.5 all'aumentare di n.

È interessante considerare anche la distribuzione uniforme e discreta con uguale probabilità di colpire 3,4,5,6,7,8. (Un tiro di dado più due). Se prendi l'approccio di campionamento e classificazione sopra indicato per la distribuzione di Poisson, di solito otterrai 5 o 6. Man mano che i campioni diventano più grandi, la distribuzione per il numero a metà in su converge a metà cinque e mezzo sei. 5.5 sembra un ragionevole compromesso anche qui.


2
F1[0,1]F[0,1]F
whuber

Buon punto. Ho cercato di separare alcuni casi per chiarirlo. Come miglioreresti la discussione sulla continuità? L'interpretazione dei quantili come stimatori è il punto centrale della mia risposta; non hanno davvero senso per me senza quello.
eric_kernfeld,

Riguardo a quest'ultimo: i quantili non hanno bisogno di stimare nulla. Sono utili a pieno titolo per descrivere e visualizzare i dati (e spesso sono usati solo come statistiche descrittive). Continuità: penso che la maggior parte delle autorità direbbe che esistono tutti i percentili per distribuzioni discrete. Insistere altrimenti è una complicazione inutile. Renderebbe inoltre del tutto misteriosi i risultati della maggior parte dei calcoli software, che forniscono felicemente tutti i quantili da 0 a 1 ( inclusi ) per qualsiasi set di dati. In R, ad esempio, digitare quantile(0).
whuber

Questa discussione mi ha fatto capire che non capisco i quantili delle distribuzioni discrete. Penso che dovrei eliminare questa risposta.
eric_kernfeld

1
Le persone sono diverse su questo, Eric. Quando le mie risposte sono così sbagliate da essere fuorvianti, prima le elimino. Se vedo un valore potenziale in parte della risposta, lo modifico per rimuovere (o spiegare) la parte fuorviante e quindi annullarla. Altri lasciano semplicemente le cose in piedi e prendono i loro grumi nelle votazioni; altri aggiungono una modifica che suggerisce che potrebbe esserci un valore per i lettori che vedono dove potrebbero essersi verificati alcuni malintesi; altri ancora cancellano. Puoi anche cambiare completamente la risposta, se lo desideri, come a volte viene fatto.
whuber

2

Mi è stato insegnato che un'osservazione nell'ennesimo percentile era maggiore dell'n% delle osservazioni nel set di dati in esame. Il che per me implica che non esiste un 0 o un 100o percentile. Nessuna osservazione può essere superiore al 100% delle osservazioni perché fa parte di quel 100% (e una logica simile si applica nel caso di 0).

Modifica: per quello che vale, questo è anche coerente con l'uso non accademico del termine che ho incontrato: "X è nell'ennesimo percentile " implica che il percentile è il gruppo, non un confine.

Sfortunatamente non ho una fonte per questo che posso indicarti.


6
Hai un riferimento autorevole per ciò che ricordi di aver insegnato? Nota che stai implicitamente adottando una definizione di "percentile" come gruppo di numeri. L'altra definizione citata nella domanda è che il percentile è un confine tra tali gruppi.
whuber

1
Questo non ha senso per me perché supponiamo che i tuoi dati siano 2,2,2,2,2,2,2,2,2,2,2 quindi un elemento in un quantile è uguale a un elemento alla sua sinistra in un quantile precedente. Quindi un elemento nell'ennesimo quantile non è maggiore di tutti i quantili rimasti. Quindi un elemento nell'ennesimo percentile non è maggiore dell'n% delle osservazioni nel set di dati. È> = n% delle osservazioni nel set di dati, ma non semplicemente>. E quindi puoi avere un centesimo pecentile .. che ne pensi di quella logica?
barlop

4
Molte definizioni sono sotto tensione se tutti i valori sono identici!
Nick Cox,

2
Quelli del matematico si piegano in modo astratto e idealizzano mentre quelli che scrivono software devono affrontare la confusione dei dati. Il tuo esempio di 16 valori sarebbe trattato in modo diverso dal software che conosco che segue una regola secondo cui valori identici devono essere identificati in modo identico (e sono d'accordo). Sono sorpreso che non ti sia angosciato per i dati con 15 o 17 valori in cui, anche se tutti i valori sono distinti, nessuna regola può dividere i dati in 4 contenitori di uguali dimensioni.
Nick Cox,

3
Qual è la logica simile per zero? "Maggiore dello zero percento delle osservazioni" non significa "uguale o minore di tutte le osservazioni", ovvero il 0o percentile sarebbe il valore più basso osservato?
ilkkachu,

2

Esistono altri modi per calcolare i percentili, ciò che segue non è l'unico. Tratto da questa fonte .


p pp%28808028

x1xn

nxipi

pi=100(i0.5)n

Esempio dalle stesse note per l'illustrazione:

inserisci qui la descrizione dell'immagine

7507

Se avessi 200 numeri, ci sarebbero 100 percentili, ma ognuno farebbe riferimento a un gruppo di due numeri.

No.

x1x200

100(10.5)200100(20.5)200100(30.5)200...

con il risultato di

0.25,0.75,1.25...1,2,3,...


3
La prima frase ha un bell'aspetto e una delle parole più importanti è approssimativamente , quindi questa è un'attenta spiegazione di una sola ricetta. La chiave è che ci sono diverse ricette e la maggior parte se non tutte hanno una logica difendibile (a volte la logica è di mantenere le cose il più semplice possibile). Vedi il documento di Hyndman e Fan a cui si fa riferimento in molti thread qui sul CV. Dubito che molte persone prenderebbero il tuo ultimo paragrafo come modo per segnalare percentili per il tuo esempio.
Nick Cox,

@ Nick Cox Grazie per il commento perspicace. A proposito dell'ultimo paragrafo, credo che il metodo dovrebbe funzionare bene quando tutte le osservazioni sono diverse l'una dall'altra. In caso di numeri ripetuti non ci sarà percentile univoco per lo stesso numero che non suona bene. Potresti gentilmente suggerire come affrontare il caso. E potresti anche segnalare le potenziali insidie ​​nell'ultimo paragrafo.
ingenuo

1
Non credo di voler o dover aggiungere qualcosa a ciò che è già ben spiegato nella letteratura delle riviste. Innanzitutto, hai alcuni software preferiti per questo. Guarda cosa documenta e cosa fa. In secondo luogo, non ho calcolato i percentili a mano per alcuni decenni e nessuno di noi ha bisogno di farlo. In terzo luogo, il mio punto sull'ultimo paragrafo: immagino che nessuno voglia dire che i punti dati osservati sono i percentili 0,25, 0,75, 1,25, .... Ciò che la gente desidera varia, ma nella mia esperienza è più comunemente necessario riassunti come 1, 5, 10, 25, 50, 75, 90, 95, 99% punti e gli estremi del campione.
Nick Cox,

1
Ho appena notato che affermi che 0,5 è nel gergo EDA spesso chiamato il valore p per la mediana. Non nella mia lettura, e anche se puoi trovare esempi che sono terribili terminologie dato un senso schiacciante della maggioranza per il valore p come livello di significatività osservato.
Nick Cox,

Esaminerò il documento che mi hai suggerito. Grazie
ingenuo

0

Nota: accetterò la risposta di qualcun altro piuttosto che la mia. Ma vedo alcuni commenti utili, quindi sto solo scrivendo una risposta che menziona quelli.

Basato sulla risposta "-iles" di Nick per la metà superiore

sembra che i termini siano ambigui e suppongo (sulla base della mia comprensione di quel post), una terminologia migliore sarebbe X% punto e gruppo X% -Y%; così punto quantile (quindi per punti quartili che potrebbero essere qualsiasi cosa da 0 a 4); gruppo quantile che va dal punto quantico X al punto quantico Y.

In entrambi i casi si otterrebbero 101 per percentili, anche se un commento suggerisce che si potrebbero fare riferimento a 101 punti (suppongo che se si contano punti percentili e solo numeri interi), ma anche in questo caso, se si parla di 1o, 2o, 3o, percentile o quantile, sta contando e non si può contare il primo come 0 e non è possibile avere ad esempio più di 4 quartili o più di 100 percentili. Quindi, se si parla di 1 °, 2 °, 3 °, quella terminologia non può davvero riferirsi al punto 0. Se qualcuno ha detto 0 ° punto, allora mentre è chiaro intendono il punto 0, penso che dovrebbero davvero dire punto quantile 0. O gruppo quantile al punto 0. Anche gli informatici non direbbero nono; anche loro contano il primo elemento come 1, e se lo chiamano elemento 0, questo è un indice da 0, non un conteggio.

Un commento menziona "Non possono essere 100. Né 99 o 101, a seconda che tu contenga il massimo e il minimo". Penso che ci sia un caso per 99 o 101, quando si parla di punti quantili piuttosto che di gruppi, anche se non direi 0 °. Per n articoli, un indice può andare da 0 ... n-1 e uno non scriverebbe la / es. 1 °, 2 ° ecc., Su un indice (a meno che forse l'indice non abbia indicizzato il primo elemento come 1). Ma un indice che inizia il primo elemento con indice 0 non è un 1o, 2o 3o conteggio. ad es. l'articolo con indice 0 è il 1 ° articolo, non si direbbe 0 ° ed etichettare il 2 ° elemento secondo.


Ogni ambiguità è stata introdotta da coloro che sono partiti da un chiaro precedente storico. Non morde duro in pratica.
Nick Cox,

Tutti i matematici iniziano a contare da zero. Il concetto è semplice e naturale: pronunciare ad alta voce la parola "zero" annuncia l'intenzione di contare. Quindi uno assegna un po '(forse arbitrariamente) uno alla volta la sequenza di parole "uno", "due", "tre", ecc. Agli oggetti contati. L'ultima di quelle parole (se ce n'è un'ultima) è equiparata alla cardinalità dell'insieme. Il bello di questa idea è che quando non ci sono elementi nel set, l'ultima parola detta era "zero", che è l'unico valore corretto.
whuber

@whuber scrivi "Tutti i matematici iniziano a contare da zero" <- Dove pensi che abbia detto diversamente?
barlop

"sta contando e non si può contare il primo come 0".
whuber

1
@whuber forse molti potrebbero, penso che molti anni fa avrei potuto, come quando studiavo informatica, a volte ho sentito che gli informatici contano da 0, unilke matematici (non è la tua affermazione o la mia), ma dopo qualche profondo pensiero ho ottenuto di più chiarezza e si rese conto che gli informatici e i matematici contano entrambi da 0 .. La differenza è che gli informatici spesso usano un indice e l'indice indicizza il primo oggetto come 0. (ma conta ancora sarebbe 1) ..
barlop
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.