Determinare se un processo distribuito dalla coda pesante è migliorato in modo significativo


12

Osservo i tempi di elaborazione di un processo prima e dopo una modifica per scoprire se il processo è migliorato dalla modifica. Il processo è migliorato se il tempo di elaborazione è ridotto. La distribuzione del tempo di elaborazione è ridotta, quindi il confronto in base alla media non è sensato. Vorrei invece sapere se la probabilità di osservare un tempo di elaborazione inferiore dopo la modifica è significativamente superiore al 50%.

Sia la variabile casuale per il tempo di elaborazione dopo la modifica e quella precedente. Se è significativamente superiore a direi che il processo è migliorato.Y P ( X < Y ) 0,5XYP(X<Y)0.5

Ora ho osservazioni di e osservazioni di . La probabilità osservata di è .x i X m y j Y P ( X < Y ) p = 1nxiXmyjYP(X<Y)p^=1nmij1xi<yj

Cosa posso dire di date le osservazioni e ?x i y jP(X<Y)xiyj

Risposte:


12

La tua stima è uguale alla statistica Mann-Whitney divisa per (grazie, Glen!), Ed è quindi equivalente alla statistica di somma dei ranghi di Wilcoxon (nota anche come statistica di Wilcoxon-Mann-Whitney) : , dove è la dimensione del campione di (presupponendo che non vi siano vincoli). È quindi possibile utilizzare tabelle / software del test Wilcoxon e trasformarli in per ottenere un intervallo di confidenza o un valore .p^UmnWW=U+n(n+1)2nyUp

Sia la dimensione del campione di , = . Quindi, asintoticamente,mxNm+n

W=Wm(N+1)2mn(N+1)12N(0,1)

Fonte: Hollander e Wolfe , metodi statistici non parametrici, approssimativamente p. 117, ma probabilmente la maggior parte dei libri statistici non parametrici ti porterà lì.


@Glen_b - grazie, ho aggiornato la risposta. Immagino molto generoso che tu abbia fatto lì sulla causa dell'errore!
jbowman,

13

@jbowman fornisce una (piacevole) soluzione standard al problema di stimare che è noto come modello di resistenza allo stress .θ=P(X<Y)

Un'altra alternativa non parametrica è stata proposta in Baklizi ed Eidous (2006) nel caso in cui e siano indipendenti. Questo è descritto di seguito.YXY

Per definizione ce l'abbiamo

θ=P(X<Y)=FX(y)fY(y)dy,

dove è CDF di e è la densità di . Quindi, usando i campioni di e possiamo ottenere stimatori del kernel di e e di conseguenza e stimatore di X fFXX Y X Y F X f Y θfYYXYFXfYθ

θ^=F^X(y)f^Y(y)dy.

Questo è implementato nel seguente codice R usando un kernel gaussiano.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

Per ottenere un intervallo di confidenza per è possibile ottenere un campione bootstrap di questo stimatore come segue.θ

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

Potrebbero essere considerati anche altri tipi di intervalli di bootstrap.


2
Interessante e un buon riferimento cartaceo (+1). Lo aggiungerò al mio repertorio!
jbowman,

0

Si consideri la differenza abbinato , poi per stanno IID variabili aleatorie di Bernoulli. Quindi il numero di è binomiale . Quindi è una stima imparziale degli intervalli di probabilità e confidenza e i test di ipotesi possono essere eseguiti sulla base del binomio. P ( X i - Y i < 0 ) = p I { X i - Y i < 0 } i = 1 , 2 , . . , n X X i < Y i n p = P ( X i - Y i < 0 ) X / nXiYiP(XiYi<0)=pI{XiYi<0}i=1,2,..,nXXi<Yin p=P(XiYi<0)X/n


2
Qual è la base dell'accoppiamento, Michael?
whuber

L'OP ha detto "Sia X la variabile casuale per il tempo di elaborazione dopo la modifica e Y quella precedente" Quindi Xi è dopo l'intervento e Yi è prima.
Michael R. Chernick,

Hai notato che i conteggi (potenzialmente) differiscono? Sembra che tu assuma . La mia lettura è che un "processo" è temporale e che l' campiona prima di un evento e l' campiona dopo un evento. X i Y jm=nXiYj
whuber

1
Hai ragione. Immagino che sarebbe appropriata una sorta di test a due campioni come il Wilcoxon come suggerito da Jbowman sopra. È interessante notare che la forma Mann-Whitney del test conta il numero di Xis <Yjs.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.