Test statistico per due distribuzioni in cui è noto solo un riepilogo di 5 numeri


17

Ho due distribuzioni in cui sono noti solo il riepilogo a 5 numeri (minimo, 1 ° quartile, mediana, 3 ° quartile, massimo) e la dimensione del campione. In risposta alla domanda qui , non tutti i punti dati sono disponibili.

Esiste un test statistico non parametrico che mi consenta di verificare se le distribuzioni sottostanti dei due sono diverse?

Grazie!

Risposte:


9

Con l'ipotesi nulla che le distribuzioni siano uguali e che entrambi i campioni siano ottenuti in modo casuale e indipendente dalla distribuzione comune, possiamo calcolare le dimensioni di tutti i test (deterministici) che possono essere effettuati confrontando un valore di lettera con un altro . Alcuni di questi test sembrano avere un potere ragionevole per rilevare le differenze nelle distribuzioni.5×5


Analisi

La definizione originale del riepilogo a lettere di qualsiasi lotto di numeri ordinato è la seguente [Tukey EDA 1977]:5x1x2xn

  • Per qualsiasi numero in definisci{ ( 1 + 2 ) / 2 , ( 2 + 3 ) / 2 , , ( n - 1 + n ) / 2 } x m = ( x i + x i + 1 ) / 2.m=(i+(i+1))/2{(1+2)/2,(2+3)/2,,(n1+n)/2}xm=(xi+xi+1)/2.

  • Let .i¯=n+1i

  • Sia eh = ( m + 1 ) / 2.m=(n+1)/2h=(m+1)/2.

  • Il riepilogo a lettere è l'insieme I suoi elementi sono noti come minimo, cerniera inferiore, mediana, cerniera superiore e massima, rispettivamente.{ X - = x 1 , H - = x h , M = x m , H + = x ˉ h , X + = x n } .5{X=x1,H=xh,M=xm,H+=xh¯,X+=xn}.

Ad esempio, nel batch di dati possiamo calcolare che , e , da cui(3,1,1,2,3,5,5,5,7,13,21)n=12m=13/2h=7/2

X=3,H=x7/2=(x3+x4)/2=(1+2)/2=3/2,M=x13/2=(x6+x7)/2=(5+5)/2=5,H+=x7/2¯=x19/2=(x9+x10)/2=(5+7)/2=6,X+=x12=21.

Le cerniere sono vicine (ma di solito non sono esattamente le stesse) dei quartili. Se si utilizzano quartili, nota che in generale essi saranno ponderati medie aritmetiche di due delle statistiche d'ordine e quindi si trovano entro uno degli intervalli dove può essere determinato dal e l'algoritmo utilizzato per calcolare i quartili. In generale, quando è in un intervallo scriverò vagamente per fare riferimento ad una media ponderata di e .i n q [ i , i + 1 ] x q x i x i + 1[xio,Xio+1]ionq[i,i+1]xqxixi+1

Con due lotti di dati e ci sono due riepiloghi separati di cinque lettere. Possiamo testare l'ipotesi nulla che entrambi siano campioni casuali di una distribuzione comune confrontando una delle lettere con una delle lettere . Ad esempio, potremmo confrontare la cerniera superiore di con la cerniera inferiore di per vedere se è significativamente inferiore a . Questo porta a una domanda precisa: come calcolare questa possibilità,( y j , j = 1 , , m ) , F x x q y y r x y x y(xi,i=1,,n)(yj,j=1,,m),Fxxqyyrxyxy

PrF(xq<yr).

Per frazionale e questo non è possibile senza sapere . Tuttavia, poiché e allora a fortioriqrFxqxqyryr,

PrF(xq<yr)PrF(xq<yr).

Possiamo così ottenere limiti superiori universali (indipendenti da ) sulle probabilità desiderate calcolando la probabilità della mano destra, che confronta le statistiche dei singoli ordini. La domanda generale di fronte a noi èF

Qual è la possibilità che il più alto di valori sia inferiore al più alto di valori estratti da una distribuzione comune?qthnrthm

Anche questo non ha una risposta universale a meno che non escludiamo la possibilità che la probabilità sia troppo fortemente concentrata su valori individuali: in altre parole, dobbiamo supporre che i legami non siano possibili. Ciò significa che deve essere una distribuzione continua. Sebbene questo sia un presupposto, è debole e non parametrico.F


Soluzione

La distribuzione non ha alcun ruolo nel calcolo, poiché ri-esprimendo tutti i valori mediante la trasformazione di probabilità , otteniamo nuovi lottiFF

X(F)=F(x1)F(x2)F(xn)

e

Y(F)=F(y1)F(y2)F(ym).

Inoltre, questa è monotona e in aumento: preserva l'ordine e in tal modo preserva l'evento Poiché è continuo, questi nuovi lotti vengono estratti da una distribuzione Uniforme . Sotto questa distribuzione - e eliminando la " " ormai superflua dalla notazione - troviamo facilmente che ha una distribuzione Beta = Beta :xq<yr.F[0,1]Fxq(q,n+1q)(q,q¯)

Pr(xqx)=n!(nq)!(q1)!0xtq1(1t)nqdt.

Allo stesso modo la distribuzione di è Beta . Eseguendo la doppia integrazione sulla regione possiamo ottenere la probabilità desiderata,yr(r,m+1r)xq<yr

Pr(xq<yr)=Γ(m+1)Γ(n+1)Γ(q+r)3F~2(q,qn,q+r; q+1,m+q+1; 1)Γ(r)Γ(nq+1)

Poiché tutti i valori sono integrali, tutti i valori sono in realtà solo fattoriali: per integrale La funzione poco nota è una funzione ipergeometrica regolarizzata . In questo caso può essere calcolato come una somma alternata piuttosto semplice di lunghezza , normalizzata da alcuni fattoriali:n,m,q,rΓΓ(k)=(k1)!=(k1)(k2)(2)(1)k0.3F~2nq+1

Γ(q+1)Γ(m+q+1) 3F~2(q,qn,q+r; q+1,m+q+1; 1)=i=0nq(1)i(nqi)q(q+r)(q+r+i1)(q+i)(1+m+q)(2+m+q)(i+m+q)=1(nq1)q(q+r)(1+q)(1+m+q)+(nq2)q(q+r)(1+q+r)(2+q)(1+m+q)(2+m+q).

Ciò ha ridotto il calcolo della probabilità a niente di più complicato di addizione, sottrazione, moltiplicazione e divisione. Lo sforzo computazionale viene ridimensionato come Sfruttando la simmetriaO((nq)2).

Pr(xq<yr)=1Pr(yr<xq)

il nuovo calcolo viene ridimensionato come permettendoci di scegliere la più semplice delle due somme, se lo desideriamo. Ciò sarà raramente necessario, tuttavia, poiché i riepiloghi a lettere tendono ad essere utilizzati solo per piccoli lotti, raramente superiori aO((mr)2),5n,m300.


Applicazione

Supponiamo che i due lotti abbiano dimensioni e . Statistiche d'ordine rilevanti per ed sono e rispettivamente. Ecco una tabella delle probabilità che con indicizzi le righe e indicizzi le colonne:n=8m=12xy1,3,5,7,81,3,6,9,12,xq<yrqr

q\r 1       3       6       9       12
1   0.4      0.807  0.9762  0.9987  1.
3   0.0491  0.2962  0.7404  0.9601  0.9993
5   0.0036  0.0521  0.325   0.7492  0.9856
7   0.0001  0.0032  0.0542  0.3065  0.8526
8   0.      0.0004  0.0102  0.1022  0.6

Una simulazione di 10.000 coppie di campioni iid da una distribuzione normale standard ha dato risultati vicini a questi.

Per costruire un test unilaterale con dimensione come per determinare se il batch è significativamente inferiore al batch , cercare i valori in questa tabella vicino o appena sotto . Le buone scelte sono a dove la possibilità è a con una possibilità di e a con una possibilità di Quale usare dipende dai tuoi pensieri sull'ipotesi alternativa. Ad esempio, il test confronta la cerniera inferiore di con il valore più piccolo diα,α=5%,xyα(q,r)=(3,1),0.0491,(5,3)0.0521(7,6)0.0542.(3,1)xy trova una differenza significativa quando quella cerniera inferiore è quella più piccola. Questo test è sensibile ad un valore estremo di ; se c'è qualche preoccupazione sui dati periferici, questo potrebbe essere un test rischioso da scegliere. D'altra parte il test confronta la cerniera superiore di con la mediana di . Questo è molto robusto per i valori esterni nel batch e moderatamente robusto per i valori anomali in . Tuttavia, confronta i valori medi di con i valori medi di . Anche se questo è probabilmente un buon confronto da fare, non rileverà differenze nelle distribuzioni che si verificano solo in entrambe le code.y(7,6)xyyxxy

Essere in grado di calcolare questi valori critici aiuta analiticamente a selezionare un test. Una volta identificati uno (o più) test, la loro capacità di rilevare i cambiamenti è probabilmente meglio valutata attraverso la simulazione. Il potere dipenderà fortemente dalla differenza delle distribuzioni. Per capire se questi test hanno qualche potere, ho condotto il test con disegnato da una distribuzione normale : cioè la sua mediana è stata spostata di una deviazione standard. In una simulazione il test è stato significativo il delle volte: questa è una potenza apprezzabile per set di dati così piccoli.(5,3)yj(1,1)54.4%

Si può dire molto di più, ma tutto è roba di routine sulla conduzione di test su due lati, su come valutare le dimensioni degli effetti e così via. Il punto principale è stato dimostrato: dati i riepiloghi (e le dimensioni) di lettere di due lotti di dati, è possibile costruire test non parametrici ragionevolmente potenti per rilevare differenze nelle popolazioni sottostanti5 e in molti casi potremmo persino avere diversi scelte di test tra cui scegliere. La teoria sviluppata qui ha un'applicazione più ampia per confrontare due popolazioni per mezzo di statistiche dell'ordine opportunamente selezionate dai loro campioni (non solo quelli che si avvicinano ai riassunti delle lettere).

Questi risultati hanno altre utili applicazioni. Ad esempio, un diagramma a scatole è una rappresentazione grafica di un riepilogo di lettere. Pertanto, insieme alla conoscenza delle dimensioni del campione mostrate da un diagramma a scatole, abbiamo a disposizione una serie di semplici test (basati sul confronto tra parti di una scatola e baffi su un'altra) per valutare il significato delle differenze visivamente evidenti in quelle trame.5


7

Sono abbastanza fiducioso che non ce ne sarà già uno in letteratura, ma se cerchi un test non parametrico, dovrebbe essere presupposto della continuità della variabile sottostante - potresti guardare qualcosa come un ECDF -tipo statistica - diciamo un equivalente di una statistica di tipo Kolmogorov-Smirnov o qualcosa di simile a una statistica Anderson-Darling (anche se ovviamente la distribuzione della statistica sarà molto diversa in questo caso).

La distribuzione per piccoli campioni dipenderà dalle definizioni precise dei quantili utilizzati nel riepilogo dei cinque numeri.

Considera, ad esempio, i quartili predefiniti e i valori estremi in R (n = 10):

> summary(x)[-4]
    Min.  1st Qu.   Median  3rd Qu.     Max. 
-2.33500 -0.26450  0.07787  0.33740  0.94770 

rispetto a quelli generati dal suo comando per il riepilogo dei cinque numeri:

> fivenum(x)
[1] -2.33458172 -0.34739104  0.07786866  0.38008143  0.94774213

Si noti che i quartili superiore e inferiore differiscono dai corrispondenti cardini del fivenumcomando.

Al contrario, a n = 9 i due risultati sono identici (quando si verificano tutti in corrispondenza di osservazioni)

(R viene fornito con nove diverse definizioni per i quantili.)

Il caso di tutti e tre i quartili che si verificano durante le osservazioni (quando n = 4k + 1, credo, possibilmente in più casi in alcune definizioni di essi) potrebbe effettivamente essere realizzabile algebricamente e dovrebbe essere non parametrico, ma il caso generale (attraverso molte definizioni) potrebbe non è così fattibile e potrebbe non essere non parametrico (considera il caso in cui stai calcolando la media delle osservazioni per produrre quantili in almeno uno dei campioni ... in quel caso le probabilità di diverse disposizioni dei quantili campione potrebbero non essere più influenzate da la distribuzione dei dati).

Una volta scelta una definizione fissa, la simulazione sembrerebbe essere il modo di procedere.

Poiché sarà non parametrico in un sottoinsieme di possibili valori di , il fatto che non sia più distribuito gratuitamente per altri valori potrebbe non essere una grande preoccupazione; si potrebbe dire che quasi la distribuzione è libera a campioni di dimensioni intermedie, almeno se 's non sono troppo piccoli.nn


Diamo un'occhiata ad alcuni casi che dovrebbero essere liberi dalla distribuzione e consideriamo alcune piccole dimensioni del campione. Pronuncia una statistica di tipo KS applicata direttamente al riepilogo dei cinque numeri stessi, per le dimensioni del campione in cui i valori di riepilogo dei cinque numeri saranno statistiche dei singoli ordini.

Nota che questo non "emula" esattamente il test KS, dal momento che i salti nella coda sono troppo grandi rispetto al KS, per esempio. D'altra parte, non è facile affermare che i salti ai valori di riepilogo dovrebbero essere per tutti i valori tra di loro. Diversi set di pesi / salti avranno caratteristiche di errore di tipo I diverse e caratteristiche di potenza diverse e non sono sicuro di cosa sia meglio scegliere (la scelta di valori leggermente diversi da uguali potrebbe aiutare a ottenere un set più fine di livelli di significatività). Il mio scopo, quindi, è semplicemente quello di dimostrare che l'approccio generale può essere fattibile, non di raccomandare alcuna procedura specifica. Un insieme arbitrario di pesi per ciascun valore nel riepilogo fornirà comunque un test non parametrico, purché non vengano presi in riferimento ai dati.

Ad ogni modo, ecco qui:


Individuazione della distribuzione nulla / valori critici tramite simulazione

A n = 5 e 5 nei due campioni, non abbiamo bisogno di fare nulla di speciale: è un test KS diretto.

A n = 9 e 9, possiamo fare una simulazione uniforme:

 ks9.9 <- replicate(10000,ks.test(fivenum(runif(9)),fivenum(runif(9)))$statistic)
 plot(table(ks9.9)/10000,type="h"); abline(h=0,col=8)

inserisci qui la descrizione dell'immagine

  # Here's the empirical cdf:
 cumsum(table(ks9.9)/10000)
   0.2    0.4    0.6    0.8 
0.3730 0.9092 0.9966 1.0000 

quindi a , puoi ottenere approssimativamente ( ) e approssimativamente ( ). (Non dovremmo aspettarci dei gradevoli passaggi alfa. Quando gli sono moderatamente grandi, dovremmo aspettarci di non avere nient'altro che scelte molto grandi o molto piccole per ).n1=n2=9α=0.1Dcrit=0.6α=0.005Dcrit=0.8nα

n1=9,n2=13 ha un livello di significatività vicino al 5% ( )D=0.6

n1=n2=13 ha un livello di significatività vicino al 2,5% ( )D=0.6

A dimensioni del campione vicine a queste, questo approccio dovrebbe essere fattibile, ma se entrambi gli sono molto al di sopra di 21 ( e ), questo non funzionerà affatto.nα0.2α0.001

-

Un test "per ispezione" molto veloce

Vediamo spesso una regola di rifiuto di nei casi che abbiamo esaminato. Quali disposizioni del campione portano a questo? Penso che i seguenti due casi:D0.6

(i) Quando l'intero campione è su un lato della mediana dell'altro gruppo.

(ii) Quando le caselle (l'intervallo coperto dai quartili) non si sovrappongono.

Quindi c'è una bella regola di rigetto non parametrico super semplice per te - ma di solito non sarà ad un livello di significatività "bello" a meno che le dimensioni del campione non siano troppo lontane dal 9-13.


Ottenere un set più fine di possibili livelliα

Comunque, produrre tavoli per casi simili dovrebbe essere relativamente semplice. A medio-grandi , questo test avrà solo livelli (o molto grandi) molto piccoli possibili e non sarà di utilità pratica tranne nei casi in cui la differenza è evidente).nα

È interessante notare che un approccio per aumentare i livelli realizzabili sarebbe quello di impostare i salti nel cdf "fivenum" secondo un righello Golomb . Se i valori cdf fossero e , ad esempio, la differenza tra qualsiasi coppia di valori cdf essere diverso da qualsiasi altra coppia. Potrebbe valere la pena vedere se questo ha molti effetti sul potere (la mia ipotesi: probabilmente non molto).α0,111,411,9111

Rispetto a questi test tipo KS, mi aspetto che qualcosa di più simile a un Anderson-Darling sia più potente, ma la domanda è come ponderare questo caso di riepilogo di cinque numeri. Immagino che possa essere affrontato, ma non sono sicuro di quanto valga la pena.


Energia

Vediamo come procede rilevando una differenza in . Questa è una curva di potenza per i dati normali e l'effetto, del, è in numero di deviazioni standard il secondo campione viene spostato verso l'alto:n1=9,n2=13

inserisci qui la descrizione dell'immagine

Sembra una curva di potenza abbastanza plausibile. Quindi sembra funzionare bene almeno con queste piccole dimensioni del campione.


Che dire di robusto, piuttosto che non parametrico?

Se i test non parametrici non sono così cruciali, ma i test robusti sono invece a posto, potremmo invece esaminare un confronto più diretto dei tre valori del quartile nel riepilogo, come un intervallo per la mediana basato sull'IQR e sulla dimensione del campione (basato su una distribuzione nominale attorno alla quale si desidera la robustezza, come il normale - questo è il ragionamento dietro i grafici a scatole dentellate, per esempio). Ciò dovrebbe tendere a funzionare molto meglio su campioni di grandi dimensioni rispetto al test non parametrico che risentirà della mancanza di adeguati livelli di significatività.


1
Molto bella! Mi chiedo di colpo se, date le statistiche riassuntive, si potesse effettivamente calcolare la statistica D massima o minima possibile per il test KS. Ad esempio, è possibile disegnare i CDF in base alle statistiche di riepilogo, quindi verranno visualizzate le finestre p-box per ciascun CDF di esempio. Sulla base di queste due finestre p-box è possibile calcolare la statistica D massima o minima possibile - e quindi cercare la statistica test nelle normali tabelle.
Andy W,

2

Non vedo come potrebbe esserci un simile test, almeno senza alcune ipotesi.

Puoi avere due diverse distribuzioni con lo stesso riepilogo di 5 numeri:

Ecco un esempio banale, in cui cambio solo 2 numeri, ma chiaramente potrebbero essere cambiati più numeri

set.seed(123)

#Create data
x <- rnorm(1000)

#Modify it without changing 5 number summary
x2 <- sort(x)
x2[100] <- x[100] - 1
x2[900] <- x[900] + 1

fivenum(x)
fivenum(x2)

Questo esempio dimostra solo una limitazione del potere di tale procedura, ma per il resto non sembra far luce su di essa.
whuber

Penso che significhi che, senza alcune ipotesi, il potere di un simile test sarebbe inestimabile. Come potrebbe essere un test del genere?
Peter Flom - Ripristina Monica

1
I calcoli della potenza richiederanno sempre ipotesi, anche con test non parametrici. Prova a trovare una curva di potenza per un Kolmogorov-Smirnov senza più ipotesi di quelle necessarie per eseguire il test stesso.
Glen_b

2
X>YXY

@whuber Senza alcuna misura dell'errore o dell'accuratezza delle misurazioni? O è fornito dalla dimensione del campione? I quantili, e ancor più il massimo e il minimo, sono difficili da lavorare in questo modo.
Peter Flom - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.