Determinare se un processo distribuito dalla coda pesante è migliorato in modo significativo

12

Osservo i tempi di elaborazione di un processo prima e dopo una modifica per scoprire se il processo è migliorato dalla modifica. Il processo è migliorato se il tempo di elaborazione è ridotto. La distribuzione del tempo di elaborazione è ridotta, quindi il confronto in base alla media non è sensato. Vorrei invece sapere se la probabilità di osservare un tempo di elaborazione inferiore dopo la modifica è significativamente superiore al 50%.

Sia la variabile casuale per il tempo di elaborazione dopo la modifica e quella precedente. Se è significativamente superiore a direi che il processo è migliorato. $X$ $Y$ $P(X < Y)$ $0.5$

Ora ho osservazioni di e osservazioni di . La probabilità osservata di è . $n$ $x_i$ $X$ $m$ $y_j$ $Y$ $P(X < Y)$ $\hat p = \frac{1}{n m} \sum_i \sum_j 1_{x_i < y_j}$

Cosa posso dire di date le osservazioni e ? $P(X < Y)$ $x_i$ $y_j$

sampling nonparametric

— cristiano
fonte

12

La tua stima è uguale alla statistica Mann-Whitney divisa per (grazie, Glen!), Ed è quindi equivalente alla statistica di somma dei ranghi di Wilcoxon (nota anche come statistica di Wilcoxon-Mann-Whitney) : , dove è la dimensione del campione di (presupponendo che non vi siano vincoli). È quindi possibile utilizzare tabelle / software del test Wilcoxon e trasformarli in per ottenere un intervallo di confidenza o un valore . $\hat{p}$ $U$ $mn$ $W$ $W = U + {n(n+1)\over{2}}$ $n$ $y$ $U$ $p$

Sia la dimensione del campione di , = . Quindi, asintoticamente, $m$ $x$ $N$ $m+n$

$W^* = \frac{W-\frac{m(N+1)}{2}}{\sqrt{\frac{mn(N+1)}{12}}} \sim \text{N}(0,1)$

Fonte: Hollander e Wolfe , metodi statistici non parametrici, approssimativamente p. 117, ma probabilmente la maggior parte dei libri statistici non parametrici ti porterà lì.

— jbowman
fonte

@Glen_b - grazie, ho aggiornato la risposta. Immagino molto generoso che tu abbia fatto lì sulla causa dell'errore!

— jbowman,

13

@jbowman fornisce una (piacevole) soluzione standard al problema di stimare che è noto come modello di resistenza allo stress . $\theta=P(X<Y)$

Un'altra alternativa non parametrica è stata proposta in Baklizi ed Eidous (2006) nel caso in cui e siano indipendenti. Questo è descritto di seguito. $X$ $Y$

Per definizione ce l'abbiamo

θ = P (X < Y) = \int_{- \infty}^{\infty} F_{X} (y) f_{Y} (y) d y,

$\theta=P(X<Y)=\int_{-\infty}^{\infty}F_X(y)f_Y(y)dy,$

dove è CDF di e è la densità di . Quindi, usando i campioni di e possiamo ottenere stimatori del kernel di e e di conseguenza e stimatore di $F_X$ $X$ $f_Y$ $Y$ $X$ $Y$ $F_X$ $f_Y$ $\theta$

\hat{θ} = \int_{- \infty}^{\infty} {\hat{F}}_{X} (y) {\hat{f}}_{Y} (y) d y .

$\hat\theta=\int_{-\infty}^{\infty}\hat F_X(y)\hat f_Y(y)dy.$

Questo è implementato nel seguente codice R usando un kernel gaussiano.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

Per ottenere un intervallo di confidenza per è possibile ottenere un campione bootstrap di questo stimatore come segue. $\theta$

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

Potrebbero essere considerati anche altri tipi di intervalli di bootstrap.

2

Interessante e un buon riferimento cartaceo (+1). Lo aggiungerò al mio repertorio!

— jbowman,

0

Si consideri la differenza abbinato , poi per stanno IID variabili aleatorie di Bernoulli. Quindi il numero di è binomiale . Quindi è una stima imparziale degli intervalli di probabilità e confidenza e i test di ipotesi possono essere eseguiti sulla base del binomio. $X_i-Y_i$ $P(X_i-Y_i<0) = p$ $I\{X_i-Y_i<0\}$ $i=1,2,..,n$ $X$ $X_i < Y_i$ $n$ $p=P(X_i-Y_i<0)$ $X/n$

— Michael R. Chernick
fonte

2

Qual è la base dell'accoppiamento, Michael?

— whuber

L'OP ha detto "Sia X la variabile casuale per il tempo di elaborazione dopo la modifica e Y quella precedente" Quindi Xi è dopo l'intervento e Yi è prima.

— Michael R. Chernick,

Hai notato che i conteggi (potenzialmente) differiscono? Sembra che tu assuma . La mia lettura è che un "processo" è temporale e che l' campiona prima di un evento e l' campiona dopo un evento.

m = n

$m=n$

X_{i}

$X_i$

Y_{j}

$Y_j$

— whuber

1

Hai ragione. Immagino che sarebbe appropriata una sorta di test a due campioni come il Wilcoxon come suggerito da Jbowman sopra. È interessante notare che la forma Mann-Whitney del test conta il numero di Xis <Yjs.

— Michael R. Chernick,