Perché il fatto che 1 mediana sia inferiore a un'altra mediana, significa che la maggior parte nel gruppo 1 è inferiore alla maggior parte nel gruppo 2?

9

Credevo che i diagrammi a riquadro qui sotto potessero essere interpretati come "la maggior parte degli uomini è più veloce della maggior parte delle donne" (in questo set di dati), principalmente perché il tempo degli uomini mediani era inferiore a quello delle donne mediane. Ma il corso EdX sul quiz su R e statistiche mi ha detto che non è corretto. Ti prego, aiutami a capire perché il mio intuito non è corretto.

Ecco la domanda:

Consideriamo un campione casuale di finalisti della Maratona di New York nel 2002. Questo set di dati può essere trovato nel pacchetto UsingR. Caricare la libreria e quindi caricare il set di dati nym.2002.
library(dplyr)
data(nym.2002, package="UsingR")
Usa grafici a scatole e istogrammi per confrontare i tempi di finitura di maschi e femmine. Quale delle seguenti definizioni descrive meglio la differenza?

I maschi e le femmine hanno la stessa distribuzione.

La maggior parte dei maschi è più veloce della maggior parte delle donne.

Il maschio e la femmina hanno distribuzioni similari distorte a destra con il primo, spostato di 20 minuti a sinistra.

Entrambe le distribuzioni sono normalmente distribuite con una differenza media di circa 30 minuti.

Ecco i tempi della maratona di New York per maschi e femmine, come quantili, istogrammi e grafici a scatole:

# Men's time quantile
      0%      25%      50%      75%     100% 
147.3333 226.1333 256.0167 290.6375 508.0833

# Women's time quantile
      0%      25%      50%      75%     100% 
175.5333 250.8208 277.7250 309.4625 566.7833

— cumino
fonte

Per verificare visivamente la stessa distribuzione, i tuoi istogrammi dovrebbero usare lo stesso dominio x e bin, mentre l'asse y dovrebbe mostrare la frequenza relativa. La dimensione della banda del cestino trarrebbe beneficio da una granularità maggiore, ad esempio 25 o 50 minuti. Inoltre, su entrambi i grafici a scatole e gli istogrammi, disegna la mediana (già nel diagramma a scatole), la media e la modalità.

— g3o2,

{0, 3}

$\{0,3\}$

{2}

$\{2\}$

0.5

$0.5$

P (X > Y) > 0.5

$P(X>Y)>0.5$

7

Penso che il motivo per cui sei stato contrassegnato come errato non sia tanto che la risposta che hai dato alla domanda a più voci era sbagliata, piuttosto che l'opzione 3 "Maschio e femmina hanno distribuzioni distorte simili a quelle del primo, 20 minuti spostate a sinistra" sarebbe stata una scelta migliore in quanto più informativa in base alle informazioni fornite.

— Robert Jones
fonte

Sono d'accordo con questa spiegazione. Inoltre, "il più veloce di molti" è così ambiguo. Nonostante la risposta data da @glen_b, mi aspetterei molta più separazione nei grafici a scatole per questo tipo di linguaggio. Come "tutto il 75% degli uomini è più veloce di tutto il 75% delle donne", che penso si tradurrebbe nel 75 ° percentile dei tempi degli uomini essendo inferiore al 25 ° percentile dei tempi delle donne. Ma la lingua è ambigua.

— Sal Mangiafico,

1

Inoltre, questo arriva al principio di eseguire test a scelta multipla: scegli sempre la risposta migliore .

— Sal Mangiafico,

Questo ha senso; non è che l'altra scelta fosse SBAGLIATA, ma che la scelta corretta ("Il maschio e la femmina hanno distribuzioni distorte a destra simili con la prima, spostata di 20 minuti a sinistra") era più vera. Tuttavia, non vedo del tutto lo spostamento di 20 minuti negli istogrammi; mi sembra più un turno di 50 minuti. Da quando ho avuto due possibilità, ho ottenuto la domanda corretta, FWIW :-).

— cumino,

@cumin: non sono sicuro che sia corretto in realtà. "La maggior parte degli uomini è più veloce della maggior parte delle donne" è vago riguardo a cosa significhi "la maggior parte": non credo di aver mai visto una definizione rigorosa e intuitivamente di solito è significativamente più del 50% (forse 70% +?) . Se dicessero "la maggioranza", forse sarebbe più chiaro.

— user541686,

9

Ecco il più piccolo contro-esempio che ho trovato:

A ( [1, 4, 10])e B ( [0, 6, 9]) hanno la stessa media ( 5)
B ha una mediana più grande ( 6) di A ( 4)
C'è una probabilità del 5/9 che un elemento A casuale sia più grande di un elemento B casuale .

Ecco un altro esempio con 4 elementi:

— Eric Duminil
fonte

7

$P(M_i<F_j)>\frac12$ $i,j$ $M_i$ $i$

Naturalmente sono possibili altre interpretazioni della frase (ecco cos'è l'ambiguità, dopo tutto) e alcune di quelle altre possibilità potrebbero essere coerenti con il tuo ragionamento.

[Abbiamo anche il problema se stiamo parlando di campioni o popolazioni ... "la maggior parte degli uomini [...] la maggior parte delle donne" sembra essere una dichiarazione di popolazione (su una popolazione di tempi potenziali) ma abbiamo solo osservato i tempi che sembriamo trattare come un campione, quindi dobbiamo stare attenti a quanto ampio facciamo la richiesta.]

$P(M_i<F_j)>\frac12$ $\widetilde{M}<\widetilde{F}$

[Non sto dicendo che sbagli nel pensare che la proporzione di coppie MF casuali in cui l'uomo era più veloce della donna sia superiore a 1/2 - quasi sicuramente hai ragione. Sto solo dicendo che non puoi dirlo confrontando le mediane. Né puoi dirlo guardando la proporzione in ciascun campione sopra o sotto la mediana dell'altro campione. Dovresti fare un confronto diverso.]

$\frac12$

Esempio:

Set di dati A:

 1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 1.42  2.56 16.73 17.01 18.86 19.98

Set di dati B:

 3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 3.44  4.13  6.00 20.85 21.82 22.05

Set di dati C:

 6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 6.57  7.58  8.81  9.08 23.43 24.45

(I dati sono qui , ma sono stati usati per uno scopo diverso lì - a mio ricordo, l'ho generato io stesso)

Si noti che la proporzione di A <B è di 2/3, la proporzione di A <C è 5/9 e la proporzione di B <C è 2/3. Sia A vs B che B vs C sono significativi al livello del 5%, ma possiamo raggiungere qualsiasi livello di significatività semplicemente aggiungendo copie sufficienti dei campioni. Possiamo persino evitare i legami, duplicando i campioni ma aggiungendo un jitter sufficientemente piccolo (sufficientemente più piccolo del più piccolo spazio tra i punti)

Le mediane campione vanno nella direzione opposta: mediana (A)> mediana (B)> mediana (C)

Ancora una volta potremmo ottenere un significato per un confronto tra i mediani - a qualsiasi livello di significatività - ripetendo i campioni.

Per metterlo in relazione con l'attuale problema, immagina che A sia "i tempi delle donne" e B sia "i tempi degli uomini". Quindi il tempo mediano degli uomini è più veloce, ma un uomo scelto casualmente 2/3 del tempo sarà più lento di una donna scelta casualmente.

Prendendo spunto dai campioni A e C possiamo generare un set di dati più ampio (in R) come segue:

n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))

La mediana di F sarà di circa 16,25 mentre la mediana di M sarà di circa 11,25 ma la proporzione di casi in cui F <M sarà di 5/9.

$n$ $\frac13$

$P(F<\text{med}(M))=\frac23$ $P(M>\text{med}(F))=\frac23$ $\text{med}(M)<\text{med}(F)$

— Glen_b - Ripristina Monica
fonte

Vedo come i mezzi possono andare in direzioni opposte, ma ammetto che le mie intuizioni qui corrispondono ai PO. Non vedo come i mediani possano (a parte il problema dell'errore di campionamento).

— gung - Ripristina Monica

@gung ho incluso un esempio. Adoro pungere le mie intuizioni iniziali in questo modo, trovandole controesempi. Se mi imbatto di più (credo di averne un altro da qualche parte) proverò a menzionarli.

— Glen_b -Restate Monica

Il diagramma a scatole nella domanda orig mostra che circa il 60-65% (per bulbo oculare) degli uomini ha un tempo inferiore al tempo mediano per le donne (cioè inferiore al tempo per il 50% delle donne). Questo è il pezzo che vorrei spiegare.

— cumino,

P (A_{i} < C_{j})

$P(A_i<C_j)$

i

$i$

j

$j$

3

Interpreterei la frase "la maggior parte degli uomini è più veloce della maggior parte delle donne" in quanto "almeno il 50% degli uomini è più veloce di almeno il 50% delle donne". In altre parole: dato un uomo X, ha senso chiedere se X è più veloce del 50% delle donne. Secondo me, l'affermazione afferma quindi che almeno il 50% degli uomini possiede questa proprietà. Questo (penso) è VERO se l'uomo mediano è più veloce della donna mediana, poiché il 50% degli uomini sarebbe più veloce dell'uomo mediano, che è più veloce della donna mediana, che è più veloce del 50% delle donne. (Ma nota che questo copre solo il 25% delle coppie donna-uomo, che credo spieghi il tuo grande esempio.)

— mathmandan,

3

Le seguenti figure sono tratte da questo post sul blog , che illustra un'importante applicazione pratica di queste idee.

La standardizzazione fornisce un potente dispositivo per il confronto di 2 distribuzioni. Le seguenti 3 cifre mettono a confronto l'altezza di ragazzi e ragazze di 130 mesi del National Child Measurement Program (NCMP) dell'Inghilterra. (Questa era l'età modale in questo set di dati; l'ho selezionato semplicemente per ottenere la maggior parte dei dati, e quindi i grafici più fluidi, all'interno di una singola coorte di età.)

Figura 1: Altezze di ragazzi e ragazze di 130 mesi, dall'Inghilterra National Child Measurement Program (NCMP)

Figura 2: percentili di altezza per ragazzi e ragazze di 130 mesi. Fonte: NCMP inglese

Figura 3: distribuzione delle altezze delle ragazze di 130 mesi rispetto ai ragazzi della stessa età.

Nell'ultima di queste cifre, il confronto dell'altezza è stato standardizzato in base all'altezza dei ragazzi. Pertanto, leggendo lungo le linee grigie tratteggiate nella Figura 3, puoi fare affermazioni come:

L'altezza mediana (cioè al 50 ° percentile) per i ragazzi è di circa il 45 ° percentile per le ragazze. Pertanto, il 100% - 45% = 55% delle ragazze era più alto del ragazzo mediano.
L'altezza del quartile superiore (75 ° percentile) per le ragazze colpisce il quintile superiore (80 ° percentile) per i ragazzi. Pertanto, tra i bambini di 130 anni di età, una ragazza che è più alta di 3 su 4 ragazze è anche più alta di 4 su 5 ragazzi.

Un punto di possibile confusione in questa trama merita di essere menzionato. Sebbene la linea dei 45 ° dei ragazzi sia "più alta" sulla trama rispetto alla curva magenta delle ragazze, questa osservazione corrisponde tuttavia al fatto ben noto che a questa età (questi sono i 6 ° grado), le ragazze sono in genere più alte dei ragazzi . Si noti che questa altezza si riflette correttamente nel fatto che la curva magenta viene spostata a destra rispetto alla linea blu.

$(0,0)$ $(1,1)$

La tua domanda originale ora può essere rifusa in termini geometrici, come una domanda sul fatto che potresti disegnare la curva magenta di Figura 3 in modo da ottenere simultaneamente (a) la relazione postulata tra le mediane e (b) la relazione leggermente sfuggente che @Glen_b chiarito (correttamente, credo) nella sua risposta. Mi chiedo se le discontinuità distributive (masse puntuali nelle densità) potrebbero consentire di fornire un caso "patologico". Immagino che un tale caso patologico sarà l '"eccezione che conferma la regola".

$x$ $x$ ha questa proprietà. Su questo conto, la risposta alla domanda del quiz sarebbe sì .

D'altra parte, se l'intento reale di "most" fosse "> 50%", ci si potrebbe aspettare che sia stata impiegata la frase più precisa "maggioranza di". Se qualcuno mi dice che accadrà qualcosa "probabilmente", penserei che una probabilità soggettiva del 60% o più venga accennata. Allo stesso modo, "la maggior parte" per me significa qualcosa di più simile al 70–80%. Chiaramente, dalla trama sopra, se 'most' è preso come criterio più rigoroso del 52,5%, allora non si può dire "la maggior parte delle ragazze [hanno la proprietà di essere] più alte della maggior parte dei ragazzi". Mi chiedo se parte della logica della domanda del quiz fosse quella di stimolare un esame delle parole in relazione alle nozioni numeriche. (Se pensi che sia tutto un po 'sciocco, considera questi grafici, mostrando come le persone tendono a interpretare diverse parole e frasi probabilistiche). Forse l'intento era anche quello di sottolineare il fatto che molte variazioni sono presenti nelle distribuzioni del mondo reale e che una singola statistica (mediana, media, che cosa ha- tu) supporterà raramente dichiarazioni ampie e radicali.

— David C. Norris
fonte