L'idea chiave è che la distribuzione campionaria della mediana è semplice da esprimere in termini di funzione di distribuzione ma più complicata da esprimere in termini di valore mediano. Una volta compreso come la funzione di distribuzione può riesprimere i valori come probabilità e viceversa, è facile ricavare l' esatta distribuzione campionaria della mediana. È necessaria una piccola analisi del comportamento della funzione di distribuzione vicino alla sua mediana per dimostrare che questo è asintoticamente normale.
(La stessa analisi funziona per la distribuzione campionaria di qualsiasi quantile, non solo della mediana.)
Non cercherò di essere rigoroso in questa esposizione, ma lo realizzo in passaggi che sono prontamente giustificati in modo rigoroso se hai una mente per farlo.
Intuizione
Queste sono istantanee di una scatola contenente 70 atomi di un gas atomico caldo:
In ogni immagine ho trovato una posizione, mostrata come una linea verticale rossa, che divide gli atomi in due gruppi uguali tra sinistra (disegnata come punti neri) e destra (punti bianchi). Questa è una mediana delle posizioni: 35 degli atomi si trovano alla sua sinistra e 35 alla sua destra. Le mediane cambiano perché gli atomi si muovono casualmente attorno alla scatola.
Siamo interessati alla distribuzione di questa posizione intermedia. A tale domanda si risponde invertendo la mia procedura: prima disegniamo una linea verticale da qualche parte, diciamo nella posizione . Qual è la probabilità che metà degli atomi sia a sinistra di xe metà a destra? Gli atomi a sinistra avevano singolarmente la possibilità di essere x a sinistra. Gli atomi a destra individualmente avevano probabilità di 1 - x di essere a destra. Supponendo che le loro posizioni siano statisticamente indipendenti, le probabilità si moltiplicano, dando x 35 ( 1 - x ) 35xxx1−xx35(1−x)35per la possibilità di questa particolare configurazione. Una configurazione equivalente potrebbe essere raggiunta per una diversa divisione dei atomi in due pezzi da 35 elementi. L'aggiunta di questi numeri per tutte le possibili suddette divisioni dà una possibilità7035
Pr(x is a median)=Cxn/2(1−x)n/2
dove è il numero totale di atomi e è proporzionale al numero di divisioni di atomi in due sottogruppi uguali.C nnCn
Questa formula identifica la distribuzione della mediana come Beta di distribuzione(n/2+1,n/2+1) .
Ora considera una scatola con una forma più complicata:
Ancora una volta le mediane variano. Poiché la scatola è bassa vicino al centro, non c'è molto del suo volume lì: un piccolo cambiamento nel volume occupato dalla metà sinistra degli atomi (ancora una volta quelli neri) - o, potremmo anche ammettere, l' area a sinistra, come mostrato in queste figure, corrisponde a un cambiamento relativamente grande nella posizione orizzontale della mediana. Infatti, poiché l'area sottostata da una piccola sezione orizzontale della scatola è proporzionale all'altezza lì, i cambiamenti nelle mediane sono divisi per l'altezza della scatola. Questo fa sì che la mediana sia più variabile per questa casella che per la casella quadrata, perché questa è molto più bassa nel mezzo.
In breve, quando misuriamo la posizione della mediana in termini di area (a sinistra ea destra), l'analisi originale (per una casella quadrata) rimane invariata. La forma della scatola complica la distribuzione solo se insistiamo nel misurare la mediana in termini di posizione orizzontale. Quando lo facciamo, la relazione tra l'area e la rappresentazione della posizione è inversamente proporzionale all'altezza del riquadro.
C'è altro da imparare da queste immagini. È chiaro che quando pochi atomi si trovano nella (una) casella, vi è una maggiore possibilità che metà di essi possa finire accidentalmente raggruppata su entrambi i lati. Con l'aumentare del numero di atomi, il potenziale per uno squilibrio così estremo diminuisce. Per tracciare questo, ho preso "film" - una lunga serie di 5000 fotogrammi - per la scatola curva riempita con , quindi con , quindi e infine con atomi, e ho notato le mediane. Ecco gli istogrammi delle posizioni mediane:15 75 37531575375
Chiaramente, per un numero sufficientemente ampio di atomi, la distribuzione della loro posizione mediana inizia ad apparire a forma di campana e si restringe: sembra un risultato del Teorema del limite centrale, no?
Risultati quantitativi
Il "riquadro", ovviamente, raffigura la densità di probabilità di una certa distribuzione: la parte superiore è il grafico della funzione di densità (PDF). Pertanto le aree rappresentano le probabilità. Posizionare punti casualmente e indipendentemente all'interno di una scatola e osservare le loro posizioni orizzontali è un modo per estrarre un campione dalla distribuzione. (Questa è l'idea alla base del campionamento del rifiuto. )n
La figura successiva collega queste idee.
Sembra complicato, ma è davvero abbastanza semplice. Ci sono quattro grafici correlati qui:
La trama in alto mostra il PDF di una distribuzione insieme a un campione casuale di dimensione . I valori maggiori della mediana sono mostrati come punti bianchi; valori inferiori alla mediana come punti neri. Non ha bisogno di una scala verticale perché sappiamo che l'area totale è l'unità.n
Il diagramma centrale è la funzione di distribuzione cumulativa per la stessa distribuzione: utilizza l' altezza per indicare la probabilità. Condivide il suo asse orizzontale con il primo diagramma. Il suo asse verticale deve andare da a perché rappresenta le probabilità.101
La trama di sinistra deve essere letta lateralmente: è il PDF della distribuzione Beta . Mostra come varierà la mediana nel riquadro, quando la mediana viene misurata in termini di aree a sinistra e a destra del centro (anziché misurata dalla sua posizione orizzontale). Ho disegnato punti casuali da questo PDF, come mostrato, e li ho collegati con linee tratteggiate orizzontali alle posizioni corrispondenti sul CDF originale: ecco come i volumi (misurati a sinistra) vengono convertiti in posizioni (misurati in alto, al centro e grafica in basso). Uno di questi punti corrisponde effettivamente alla mediana mostrata nella trama in alto; Ho disegnato una solida linea verticale per dimostrarlo.16(n/2+1,n/2+1)16
Il grafico inferiore è la densità di campionamento della mediana, misurata dalla sua posizione orizzontale. Si ottiene convertendo l'area (nel grafico a sinistra) in posizione. La formula di conversione è data dall'inverso del CDF originale: questa è semplicemente la definizione del CDF inverso! (In altre parole, il CDF converte la posizione in area a sinistra; il CDF inverso converte indietro da un'area in posizione.) Ho tracciato delle linee tratteggiate verticali che mostrano come i punti casuali dal diagramma sinistro vengono convertiti in punti casuali all'interno del diagramma inferiore . Questo processo di lettura attraverso e poi giù ci dice come andare da un'area alla posizione.
Sia il CDF della distribuzione originale (diagramma centrale) e il CDF della distribuzione Beta. Per trovare la possibilità che la mediana si trovi a sinistra di una posizione , per prima cosa usa per ottenere l' area a sinistra di nella casella: questa è stessa. La distribuzione Beta a sinistra ci dice la possibilità che metà degli atomi si trovino all'interno di questo volume, dando : questo è il CDF della posizione mediana . Per trovare il suo PDF (come mostrato nella trama in basso), prendi la derivata:FGxFxF(x)G(F(x))
ddxG(F(x))=G′(F(x))F′(x)=g(F(x))f(x)
dove è il PDF (trama in alto) e è il PDF beta (trama a sinistra).fg
Questa è una formula esatta per la distribuzione della mediana per qualsiasi distribuzione continua. (Con una certa cura nell'interpretazione può essere applicato a qualsiasi distribuzione, sia continua che no.)
Risultati asintotici
Quando è molto grande e non ha un salto alla sua mediana, la mediana del campione deve variare da vicino attorno alla vera mediana della distribuzione. Supponendo anche che il PDF sia continuo vicino a , nella formula precedente non cambierà molto dal suo valore in dato da Inoltre, anche non cambierà molto dal suo valore: al primo ordine,nFμfμ f(x)μ,f(μ).F
F(x)=F(μ+(x−μ))≈F(μ)+F′(μ)(x−μ)=1/2+f(μ)(x−μ).
Pertanto, con un'approssimazione in costante miglioramento man mano che cresce,n
g(F(x))f(x)≈g(1/2+f(μ)(x−μ))f(μ).
Questo è semplicemente uno spostamento della posizione e della scala della distribuzione Beta. Il riscalamento di dividerà la sua varianza per (che sarebbe meglio essere diverso da zero!). Per inciso, la varianza di Beta è molto vicina a .f(μ)f(μ)2(n/2+1,n/2+1)n/4
Questa analisi può essere vista come un'applicazione del Metodo Delta .
Infine, Beta è approssimativamente normale per grande . Ci sono molti modi per vederlo; forse il più semplice è guardare il logaritmo del suo PDF vicino a :(n/2+1,n/2+1)n1/2
log(C(1/2+x)n/2(1/2−x)n/2)=n2log(1−4x2)+C′=C′−2nx2+O(x4).
(Le costanti e limitano a normalizzare l'area totale in unità.) Attraverso il terzo ordine in quindi, questo è lo stesso del registro del PDF normale con varianza (Questo argomento è reso rigoroso utilizzando funzioni di generazione caratteristiche o cumulative anziché il registro del PDF.)CC′x,1/(4n).
Mettendo tutto questo, lo concludiamo
La distribuzione della mediana del campione ha una varianza di circa ,1/(4nf(μ)2)
ed è approssimativamente normale per grande ,n
tutto a condizione che il PDF sia continuo e diverso da zero alla medianafμ.