Stimatore di James-Stein: In che modo Efron e Morris hanno calcolato nel fattore di restringimento per il loro esempio di baseball?


18

Ho una domanda sul calcolo del fattore di restringimento di James-Stein nel documento scientifico americano del 1977 di Bradley Efron e Carl Morris, "Stein's Paradox in Statistics" .

Ho raccolto i dati per i giocatori di baseball e sono riportati di seguito:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45è la media dopo a pipistrelli ed è indicata come nell'articolo. è la media di fine stagione.45yavgSeason

Lo stimatore di James-Stein per la media ( ) è dato da e il fattore di contrazione è dato da (pagina 5 dell'articolo di Scientific American 1977 ) z

z=y¯+c(y-y¯)
c
c=1-(K-3)σ2Σ(y-y¯)2,

dove è il numero di mezzi sconosciuti. Qui ci sono 18 giocatori, quindi . Posso calcolare usando i valori. Ma non so come calcolare . Gli autori dicono per il set di dati indicato.Kk=18(yy¯)2avg45σ2c=0.212

Ho provato a utilizzare sia che per ma non danno la risposta corretta diσx2σy2σ2c=0.212

Qualcuno può essere così gentile da farmi sapere come calcolare per questo set di dati?σ2


1
So che MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) è molto usato per il restringimento delle onde.
Robin Girard,

Risposte:


19

Il parametro è la varianza comune (sconosciuta) dei componenti vettoriali, ciascuno dei quali si presume sia normalmente distribuito. Per i dati del baseball abbiamo 45 Y ib i n o m ( 45 , p i ) , quindi l'approssimazione normale alla distribuzione binomiale dà (prendendo ^ p i = Y i )σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

Ovviamente in questo caso le varianze non sono uguali, ma se fossero stati pari ad un valore comune allora potremmo stimare con lo stimatore pooled σ 2 = p ( 1 - p ) dove p è la media generale p =1

σ^2=p^(1p^)45,
p^ Sembra che sia quello che hanno fatto Efron e Morris (nel documento del 1977).
p^=11845i=11845Yi=Y¯.

Puoi verificarlo con il seguente codice R. Ecco i dati:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

ed ecco la stima per :σ2

s2 <- mean(y)*(1 - mean(y))/45

che è σ 2,004,332392 millions . Il fattore di contrazione nella carta è quindiσ^20.004332392

1 - 15*s2/(17*var(y))

c0.2123905k2k3


Ottima spiegazione, adoro la normale approssimazione del binomio.
Chamberlain Foncha,

14

c=0,212

Efron, B. e Morris, C. (1975). Analisi dei dati utilizzando lo stimatore di Stein e le sue generalizzazioni. Journal of American Statistical Association, 70 (350), 311-319 (link a pdf)

o più dettagliato

Efron, B., e Morris, C. (1974). Analisi dei dati utilizzando lo stimatore di Stein e le sue generalizzazioni. R-1394-OEO, The RAND Corporation, marzo 1974 (link a pdf) .

A pagina 312, vedrai che Efron & Morris usano una trasformazione arc-sin di questi dati, in modo che la varianza delle medie di battuta sia approssimativamente unitaria:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

z

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

Quindi questi sono i valori dello stimatore di Stein. Per Clemente, otteniamo .290, che è abbastanza vicino al .294 dall'articolo del 1977.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.