Stessa media, varianza diversa


14

Supponiamo di avere otto corridori che corrono una gara; la distribuzione dei loro tempi di esecuzione individuali è normale e ciascuno ha una media di 11 secondi, diciamo. La deviazione standard del runner è la più piccola, due la seconda più piccola, la terza più piccola, ecc. E otto la più grande. Due domande mi confondono: (1) Qual è la probabilità che il primo batte l'ultimo, e (2) chi ha più probabilità di vincere la gara?

Le mie risposte sono 1/2 e 8 , rispettivamente. Dal momento che condividono la stessa media, la probabilità che x¯1x¯8<0 è solo 1/2 , no? Come posso dimostrare rigorosamente la seconda parte e può essere calcolata una probabilità esatta di vincita? Grazie in anticipo.


1
@Silverfish Nel confronto tra primo (modellato come variabile casuale X1 ) e ultimo ( Xn , assunto indipendente da X1 ), dobbiamo solo considerare Z=X1Xn . Questo ha una distribuzione continua simmetrica con media zero. La possibilità che le prime battute ultimo è la probabilità che Z<0 , che (per simmetria e continuità) è uguale a 1/2 secondo. Sebbene last abbia maggiori possibilità di vincere la gara, non c'è alcun paradosso: il più delle volte quando i primi battiti durano, qualcun altro vincerà effettivamente la gara.
whuber

1
@whuber Grazie, sono riuscito a confondere ciò che volevo dire - lo rimuoverò per evitare confusione. La cifra di 1/2 è corretta, ma la risposta per confrontare i loro tempi medi xi¯ non è corretta e sembra invitare confusione con la popolazione. Mentre scrivi, dovrebbe essere la differenza in Xi .
Silverfish,

@ Argento Questo evidenzia il pericolo di presumere che sappiamo sempre cosa significa la notazione di qualcuno, solo perché sembra familiare. Ho risolto il problema (con le linee che appaiono su " " e " x 8 ") perché il significato voluto era abbastanza chiaro e implicava che nessuno dei due poteva rappresentare il mezzo di qualcosa: in questo contesto devono difendere il stesse variabili casuali (che ho scritto X 1 e X n ). x1x8X1Xn
whuber

Risposte:


15

Sebbene non sia possibile calcolare una probabilità esatta (tranne in circostanze speciali con ), può essere calcolata numericamente rapidamente con elevata precisione. Nonostante questa limitazione, si può dimostrare rigorosamente che il corridore con la massima deviazione standard ha le maggiori possibilità di vincere. La figura mostra la situazione e mostra perché questo risultato è intuitivamente ovvio:n2

Figure

Vengono mostrate le densità di probabilità per i tempi di cinque corridori. Tutti sono continui e simmetrici rispetto a una media comune . (Sono state utilizzate densità beta ridimensionate per garantire che tutti i tempi siano positivi.) Una densità, disegnata in blu più scuro, ha una diffusione molto maggiore. La parte visibile nella sua coda sinistra rappresenta i tempi che nessun altro corridore può abbinare di solito. Poiché quella coda sinistra, con la sua area relativamente ampia, rappresenta una probabilità apprezzabile, il corridore con questa densità ha le maggiori possibilità di vincere la gara. (Hanno anche le maggiori possibilità di entrare per ultimo!)μ

Questi risultati sono comprovati non solo per le normali distribuzioni: i metodi qui presentati si applicano ugualmente bene alle distribuzioni simmetriche e continue. (Questo sarà di interesse per chiunque si opponga all'uso delle distribuzioni normali per modellare i tempi di esecuzione.) Quando vengono violati questi presupposti, è possibile che il corridore con la massima deviazione standard non abbia le maggiori possibilità di vincere (lascio la costruzione di controesempi a lettori interessati), ma possiamo ancora dimostrare, con ipotesi più lievi, che il corridore con la massima SD avrà le migliori possibilità di vincere a condizione che la SD sia sufficientemente grande.

La figura suggerisce anche che gli stessi risultati potrebbero essere ottenuti considerando analoghi unilaterali della deviazione standard (la cosiddetta "semivarianza"), che misurano la dispersione di una distribuzione su un solo lato. Un corridore con una grande dispersione a sinistra (verso tempi migliori) dovrebbe avere maggiori possibilità di vincere, indipendentemente da ciò che accade nel resto della distribuzione. Queste considerazioni ci aiutano ad apprezzare come la proprietà di essere il migliore (in un gruppo) differisca da altre proprietà come le medie.


Sia variabili variabili casuali che rappresentano i tempi dei corridori. La domanda presuppone che siano indipendenti e normalmente distribuite con media comune μ . (Sebbene questo sia letteralmente un modello impossibile, poiché presenta probabilità positive per tempi negativi, può comunque essere una ragionevole approssimazione alla realtà a condizione che le deviazioni standard siano sostanzialmente inferiori a μ .)X1,,Xnμμ

Al fine di svolgere il seguente argomento, mantenere la supposizione di indipendenza, ma supporre altrimenti che le distribuzioni siano date da F i e che queste leggi distributive possano essere qualsiasi cosa. Per comodità, supponiamo anche che la distribuzione F n sia continua con densità f n . In seguito, se necessario, potremo applicare ipotesi aggiuntive a condizione che includano il caso delle distribuzioni normali.XiFiFnfn

Per ogni e infinitesimale d y , la possibilità che l'ultimo corridore abbia un intervallo di tempo ( y - d y , y ] ed è il corridore più veloce si ottiene moltiplicando tutte le probabilità rilevanti (perché tutti i tempi sono indipendenti):ydy(ydy,y]

Pr(Xn(ydy,y],X1>y,,Xn1>y)=fn(y)dy(1F1(y))(1Fn1(y)).

L'integrazione su tutte queste possibilità reciprocamente esclusive produce

Pr(Xnmin(X1,X2,,Xn1))=Rfn(y)(1F1(y))(1Fn1(y))dy.

Per le distribuzioni normali, questo integrale non può essere valutato in forma chiusa quando : necessita di una valutazione numerica.n>2

Figure

Questa figura traccia l'integrando per ciascuno dei cinque corridori con deviazioni standard nel rapporto 1: 2: 3: 4: 5. Più grande è la SD, più la funzione viene spostata a sinistra - e maggiore diventa la sua area. Le aree sono circa 8: 14: 21: 26: 31%. In particolare, il corridore con la più grande SD ha una probabilità del 31% di vincere.


Anche se non è possibile trovare una forma chiusa, possiamo ancora trarre conclusioni solide e dimostrare che il corridore con la SD più grande ha più probabilità di vincere. Dobbiamo studiare ciò che accade come la deviazione standard di una delle distribuzioni, diciamo , cambia. Quando la variabile casuale X n viene riscalata daFnXn attorno alla sua media, la sua SD viene moltiplicata per σ e f n ( y ) d y cambierà in f n ( y / σ ) d y / σσ>0σfn(y)dyfn(y/σ)dy/σ. Effettuare il cambio della variabile nell'integrale dà un'espressione per la possibilità di un corridore n vincente, in funzione di σ :y=xσnσ

ϕ(σ)=Rfn(y)(1F1(yσ))(1Fn1(yσ))dy.

Supponiamo ora che le mediane di tutte le distribuzioni siano uguali e che tutte le distribuzioni siano simmetriche e continue, con densità f i . (Questo è certamente il caso alle condizioni della domanda, perché una mediana normale è la sua media.) Con un semplice cambiamento (variabile) di posizione possiamo supporre che questa mediana comune sia 0 ; la simmetria significa f n ( y ) = f n ( - y ) e 1 - F j ( - y ) = F j ( ynfi0fn(y)=fn(y) per tutti y . Queste relazioni ci consentono di combinare l'integrale over ( - , 0 ] con l'integrale over ( 0 , ) da dare1Fj(y)=Fj(y)y(,0](0,)

ϕ(σ)=0fn(y)(j=1n1(1Fj(yσ))+j=1n1Fj(yσ))dy.

La funzione è differenziabile. Il suo derivato, ottenuto differenziando l'integrando, è una somma di integrali in cui ogni termine ha la formaϕ

yfn(y)fi(yσ)(jin1Fj(yσ)jin1(1Fj(yσ)))

per .i=1,2,,n1

Le ipotesi che abbiamo fatto riguardo alle distribuzioni sono state progettate per assicurare che per x 0 . Pertanto, poiché x = y σ 0 , ogni termine nel prodotto sinistro supera il termine corrispondente nel prodotto giusto, implicando che la differenza dei prodotti non è negativa. Gli altri fattori y f n ( y ) f i ( y σ ) sono chiaramente non negativi perché le densità non possono essere negative eFj(x)1Fj(x)x0x=yσ0yfn(y)fi(yσ)y0ϕ(σ)0σ0nXn

nXnXi1/nn. Ora diminuisci gradualmente le SD di tutti gli altri corridori, uno alla volta. In questo caso, la possibilità chenle vincite non possono diminuire, mentre sono diminuite le possibilità di tutti gli altri corridori. Di conseguenza,nha le maggiori possibilità di vincere, QED .


@Phonon È corretto. (Ma per favore non confondere le distribuzioni con le stime derivate dai campioni. La distribuzione è un modello matematico, non un insieme di dati.) Aumentare la SD di un fattore diλ, diciamo, allunga uniformemente l'asse orizzontale. Poiché (secondo la Legge della probabilità totale) la funzione di densità coprirà un'area unitaria, tale allungamento deve essere compensato da un allungamento dell'asse verticale di1/λ, preservando così tutte le aree. Pertanto, SD più piccole corrispondono a picchi più alti e SD più grandi a picchi più brevi.
whuber

Molte grazie per la tua risposta, ha perfettamente senso. Quindi la conoscenza dei soli valori di picco in questo senso è piuttosto importante.
Phonon,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.