Possiamo dire che il 50% dei dati sarà compreso tra il 25 e il 75 ° percentile?


8

Diciamo che abbiamo il seguente frame di dati:

       TY_MAX
141  1.004622
142  1.004645
143  1.004660
144  1.004672
145  1.004773
146  1.004820
147  1.004814
148  1.004807
149  1.004773
150  1.004820
151  1.004814
152  1.004834
153  1.005117
154  1.005023
155  1.004928
156  1.004834
157  1.004827
158  1.005023
159  1.005248
160  1.005355

25th: 1.0031185409705132
50th: 1.004634349800723
75th: 1.0046683578907745
Calculated 50th: 1.003893449430644

Sono un po 'confuso qui. Se otteniamo il 75 ° centesimo, il 75% dei dati dovrebbe essere inferiore a quel percentile. E se riusciamo al 25 ° percentile, il 25% dei dati dovrebbe essere inferiore a quel 25 °. Ora sto pensando che il 50% dei dati dovrebbe essere compreso tra il 25 e il 50. E anche il 50 ° percentile mi dà un valore diverso. Abbastanza giusto, il che significa che il 50% dei dati dovrebbe essere inferiore a questo valore. Ma la mia domanda è se il mio approccio è corretto?

EDIT: E possiamo anche dire che il 98% dei dati sarà compreso tra il 1 ° e il 99 ° percentile?


2
Sì, ma puoi anche dire che il 50% dei dati non lo sarà!
James,

Risposte:


30

Sì.

  • Il 75% dei tuoi dati è inferiore al 75 ° percentile.
  • Il 25% dei tuoi dati è inferiore al 25 ° percentile.
  • Pertanto, il 50% (= 75% -25%) dei dati è compreso tra i due, ovvero tra il 25 ° e il 75 ° percentile.
  • In modo analogo, il 98% dei dati è compreso tra il 1 ° e il 99 ° percentile.
  • E la metà inferiore dei tuoi dati, sempre il 50%, è al di sotto del 50 ° percentile.

Questi numeri potrebbero non essere completamente corretti, soprattutto se si dispone di un numero basso di dati. Si noti inoltre che esistono convenzioni diverse su come vengono effettivamente calcolati i quantili e i percentili .


5
un altro motivo per cui i tuoi numeri potrebbero essere spenti è quando hai molti legami (osservazioni con lo stesso valore)
Maarten Buis

4
"Percentuale usato più comunemente" - intendi quale tipo secondo l' typeargomento in Rquantile() ? Hyndman e Fan consigliano il tipo 7, che è anche il valore predefinito. Ad essere onesti, le differenze sono minori. O vuoi dire quale percentuale è comunemente usata? Dipenderà dalla tua applicazione, non possiamo aiutarti. E, naturalmente, più dati ottieni, più accurata sarai. Il livello di precisione sufficiente dipenderà dai tuoi dati e dalla tua applicazione.
Stephan Kolassa,

2
Il livello di cui hai bisogno dipenderà da ciò per cui utilizzerai la tua analisi.
Stephan Kolassa,

2
"Non completamente corretto, soprattutto se hai un numero basso di dati." - potrebbe valere la pena chiarire questo dato che ci sono due fattori che posso vedere in gioco: (1) la dimensione del campione potrebbe non essere esattamente divisibile per 4 o 100 o quanto è necessario per il quantile in questione; (2) i punti dati potrebbero non essere univoci (ad es. Per dati su un numero intero, scala da 1 a 5, è possibile aspettarsi molti valori ripetuti; in tal caso i quartili possono comportarsi in modo molto negativo rispetto a proprietà come "50% dei dati si trovano sopra la mediana "o" tra Q1 e Q3 "e i percentili sono spesso una perdita di tempo)
Silverfish

1
@StephanKolassa, sembra che Hyndman & Fan abbiano raccomandato il tipo 8. (Che è anche menzionato in ?quantile.)
Axeman

2

Idealmente, si.

I percentili sono generalmente interpretati in termini di distribuzione normale (poiché la normalità è spesso un presupposto sottostante, a volte non dichiarato, quando si calcola qualsiasi tipo di misure statistiche elementari). La distribuzione non deve essere normale, tuttavia.

Secondo questo sito web ...

La distribuzione normale standard può anche essere utile per calcolare percentili . Ad esempio, la mediana è il 50 ° percentile, il primo quartile è il 25 ° percentile e il terzo quartile è il 75 ° percentile. In alcuni casi può essere interessante calcolare altri percentili, ad esempio il 5o o il 95o. La formula seguente viene utilizzata per calcolare i percentili di una distribuzione normale:X=μ+Zσ

Quindi, se assumiamo la normalità, possiamo facilmente calcolare qualsiasi percentile che stiamo cercando. I percentili non richiedono ipotesi distributive, tuttavia, e sono associati ai dati da cui vengono calcolati. Ciò significa che i percentili possono fornire parametri di riferimento significativi per le distribuzioni normali e non normali. Puoi anche usare i percentili in un'interpretazione di probabilità, ovviamente in base alle misurazioni che hai attualmente, che potrebbero essere indicatori buoni o cattivi della vera distribuzione sottostante.

Secondo questo sito ...

Interpretazione diretta: considera il 10 ° ( ) e il 90 ° ( ) percentili: "dati i dati disponibili, sappiamo che la proprietà del suolo 10% delle volte e, 90% delle volte ". Questa stessa affermazione può essere inquadrata usando le probabilità o le proporzioni: "dati i dati disponibili, la proprietà del suolo è compresa nell'intervallo di { } l'80% delle volte".P10P90p<P10p<P90pP10P90


10
Ad essere sincero, non penso che la tua enfasi sulla distribuzione normale sia utile qui. L'OP è interessato esclusivamente ai percentili empirici.
Stephan Kolassa,

Concordo con @StephanKolassa, soprattutto perché i dati di esempio del PO non sono normali.
Nuclear Wang,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.