Posso ricostruire una distribuzione normale dalla dimensione del campione e dai valori minimo e massimo? Posso usare il punto intermedio per delineare la media


14

So che potrebbe essere un po 'complicato, statisticamente, ma questo è il mio problema.

Ho molti dati di intervallo, vale a dire la dimensione minima, massima e di campionamento di una variabile. Per alcuni di questi dati ho anche una media, ma non molti. Voglio confrontare questi intervalli tra loro per quantificare la variabilità di ciascun intervallo e anche confrontare i mezzi. Ho una buona ragione per presumere che la distribuzione sia simmetrica rispetto alla media e che i dati avranno una distribuzione gaussiana. Per questo motivo sto pensando di poter giustificare l'uso del punto medio della distribuzione come proxy per la media, quando è assente.

Quello che voglio fare è ricostruire una distribuzione per ogni intervallo e quindi usarla per fornire una deviazione standard o un errore standard per quella distribuzione. Le uniche informazioni che ho sono il massimo e il minimo osservati da un campione e il punto medio come proxy per la media.

In questo modo spero di essere in grado di calcolare le medie ponderate per ciascun gruppo, e anche di elaborare il coefficiente di variazione anche per ciascun gruppo, in base ai dati di intervallo che ho e alle mie ipotesi (di una distribuzione simmetrica e normale).

Ho intenzione di usare R per fare questo, quindi anche qualsiasi aiuto sul codice sarebbe apprezzato.


2
Mi chiedevo perché dici di avere dati per i valori minimo, massimo e massimo; poi in seguito hai informazioni solo sul minimo e sul massimo previsti. Chi è - osservato o previsto?
Scortchi - Ripristina Monica

Scusa, questo è il mio errore. Vengono osservati i dati massimo e minimo (misurati da oggetti della vita reale). Ho modificato il post.
green_thinlake,

Risposte:


11

La funzione di distribuzione cumulativa congiunta per il minimo e il massimo x ( n ) per un campione di n da una distribuzione gaussiana con media μ e deviazione standard σ èX(1)X(n)nμσ

F(x(1),x(n);μ,σ)=Pr(X(1)<x(1),X(n)<x(n))=Pr(X(n)<x(n))Pr(X(1)>x(1),X(n)<x(n)=Φ(x(n)μσ)n[Φ(x(n)μσ)Φ(x(1)μσ)]n

dove è il CDF gaussiano standard. La differenziazione rispetto a x ( 1 ) e x ( n ) fornisce la funzione di densità di probabilità congiuntaΦ()x(1)x(n)

f(X(1),X(n);μ,σ)=n(n-1)[Φ(X(n)-μσ)-Φ(X(1)-μσ)]n-2φ(X(n)-μσ)φ(X(1)-μσ)1σ2

dove è il PDF gaussiano standard. Prendere i log e rilasciare termini che non contengono parametri fornisce la funzione di verosimiglianzaφ()

(μ,σ;x(1),x(n))=(n2)log[Φ(x(n)μσ)Φ(x(1)μσ)]+logϕ(x(n)μσ)+logϕ(x(1)μσ)2logσ

Questo non sembra molto trattabili, ma è facile vedere che è massimizzata qualunque sia il valore di da cornice μ = μ = x ( n ) + x ( 1 )σ , ovvero il punto medio: il primo termine viene massimizzato quando l'argomento di un CDF è negativo dell'argomento dell'altro; il secondo e il terzo termine rappresentano la probabilità congiunta di due variate normali indipendenti.μ=μ^=x(n)+x(1)2

Sostituendo μ nella log-verosimiglianza e scrittura R = x ( n ) - x ( 1 )( σ ; x ( 1 ) , x ( n ) , μ ) = ( n - 2 ) di registro [ 1 - 2 Φ ( - rμ^r=x(n)x(1)

(σ;x(1),x(n),μ^)=(n2)log[12Φ(r2σ)]r24σ22logσ

Questa espressione deve essere massimizzata numericamente (per esempio con optimizeda R statpacchetto) per trovare σ . (Si scopre che σ = k ( n ) r , dove k è una costante che dipende solo da n -Forse qualcuno più matematicamente abile che ho potuto mostrare perché.)σ^σ^=k(n)rkn

Le stime sono inutili senza una misura di precisione accompagnatoria. Le informazioni Fisher osservate possono essere valutate numericamente (ad es. Con hessianil numDerivpacchetto R ) e utilizzate per calcolare errori standard approssimativi:

I(σ)=-

I(μ)=2(μ;σ^)(μ)2|μ=μ^
I(σ)=2(σ;μ^)(σ)2|σ=σ^

σ


1
2log(r)σ/rnσ/rnk(n)σ^=k(n)r studentizzato gamma .
whuber

@whuber: grazie! Sembra ovvio con il senno di poi. Lo includerò nella risposta.
Scortchi - Ripristina Monica

1

È necessario correlare l'intervallo alla deviazione / varianza standard μ essere il cattivo, σ la deviazione standard e R=X(n)-X(1)essere la gamma. Quindi per la distribuzione normale abbiamo quello99,7% della massa di probabilità si trova all'interno di 3 deviazioni standard dalla media. Questo, come regola pratica significa che con probabilità molto alta,

μ+3σX(n)
e

μ-3σX(1)

Sottraendo il secondo dal primo che otteniamo

6σX(n)-X(1)=R
(questo, a proposito, da dove proviene la metodologia di garanzia della qualità "six-sigma" nell'industria). Quindi è possibile ottenere un preventivo per la deviazione standard di
σ^=16(X¯(n)-X¯(1))
dove la barra indica le medie. Questo è quando supponi che tutti i sottocampioni provengano dalla stessa distribuzione (hai scritto di avere intervalli previsti ). Se ogni campione è una normale diversa, con media e varianza diverse, è possibile utilizzare la formula per ciascun campione, ma l'incertezza / possibile imprecisione nel valore stimato della deviazione standard sarà molto maggiore.

Avere un valore per la media e per la deviazione standard caratterizza completamente la distribuzione normale.


3
That's neither a close approximation for small n nor an asymptotic result for large n.
Scortchi - Reinstate Monica

1
@Stortchi Well, I didn't say that it is a good estimate -but I believe that it is always good to have easily implemented solutions, even very rough, in order to get a quantitative sense of the issue at hand, alongside the more sophisticated and efficient approaches like for example the one outlined in the other answer to this question.
Alecos Papadopoulos

I wouldn't carp at "the expectation of the sample range turns out to be about 6 times the standard deviation for values of n from 200 to 1000". But am I missing something subtle in your derivation, or wouldn't it work just as well to justify dividing the range by any number?
Scortchi - Reinstate Monica

@Scortchi Well, the spirit of the approach is "if we expect almost all realizations to fall within 6 sigmas, then it is reasonable to expect that the extreme realizations will be near the border" -that's all there is to it, really. Perhaps I am too used to operate under extremely incomplete information, and obliged to say something quantitative about it... :)
Alecos Papadopoulos

4
I could reply that even more observations would fall within 10σ della media, dando una stima migliore σ^=R10. Non lo farò perché è una sciocchezza. Qualsiasi numero sopra1.13sarà una stima approssimativa per un certo valore din.
Scortchi - Ripristina Monica

1

È semplice ottenere la funzione di distribuzione del massimo della distribuzione normale (vedere "P.max.norm" nel codice). Da esso (con alcuni calcoli) è possibile ottenere la funzione quantile (vedere "Q.max.norm").

Utilizzando "Q.max.norm" e "Q.min.norm" è possibile ottenere la mediana dell'intervallo correlato a N. Utilizzando l'idea presentata da Alecos Papadopoulos (nella risposta precedente) è possibile calcolare sd.

Prova questo:

N = 100000    # the size of the sample

# Probability function given q and N
P.max.norm <- function(q, N=1, mean=0, sd=1){
    pnorm(q,mean,sd)^N
} 
# Quantile functions given p and N
Q.max.norm <- function(p, N=1, mean=0, sd=1){
    qnorm(p^(1/N),mean,sd)
} 
Q.min.norm <- function(p, N=1, mean=0, sd=1){
    mean-(Q.max.norm(p, N=N, mean=mean, sd=sd)-mean)
} 

### lets test it (takes some time)
Q.max.norm(0.5, N=N)  # The median on the maximum
Q.min.norm(0.5, N=N)  # The median on the minimum

iter = 100
median(replicate(iter, max(rnorm(N))))
median(replicate(iter, min(rnorm(N))))
# it is quite OK

### Lets try to get estimations
true_mean = -3
true_sd = 2
N = 100000

x = rnorm(N, true_mean, true_sd)  # simulation
x.vec = range(x)                  # observations

# estimation
est_mean = mean(x.vec)
est_sd = diff(x.vec)/(Q.max.norm(0.5, N=N)-Q.min.norm(0.5, N=N))

c(true_mean, true_sd)
c(est_mean, est_sd)

# Quite good, but only for large N
# -3  2
# -3.252606  1.981593

2
Continuing this approach, E(R)=σ-1-(1-Φ(X))n-Φ(X)ndX=σd2(n), dove R è la gamma e Φ()la normale funzione di distribuzione cumulativa normale. È possibile trovare valori tabulati did2 per i piccoli n nella letteratura di controllo del processo statistico, valuta numericamente l'integrale o simula per te n.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.