Come calcolare la deviazione standard 2D, con media 0, limitata da limiti


10

Il mio problema è il seguente: lancio 40 palline contemporaneamente da un certo punto, a pochi metri dal pavimento. Le palle rotolano e si ferma. Usando la visione computerizzata, calcolo il centro di massa sul piano XY. Sono interessato solo alla distanza dal centro di massa a ciascuna palla, che viene calcolata usando una geometria semplice. Ora, voglio sapere la deviazione standard unilaterale dal centro. Quindi, sarei in grado di sapere che un certo numero di palline si trova in un raggio standard, più palline in un raggio standard di 2 * e così via. Come si calcola la deviazione standard unilaterale? Un approccio normale affermerebbe che metà delle palle si trova sul "lato negativo" della media 0. Questo ovviamente non ha senso in questo esperimento. Devo assicurarmi che le sfere siano conformi alla distribuzione standard? Grazie per tutto l'aiuto.

Risposte:


13

Per caratterizzare la quantità di dispersione 2D attorno al centroide, vuoi solo la distanza quadrata media (radice),

σ^=RMS=1ni((xix¯)2+(yiy¯)2).

In questa formula, sono le coordinate del punto e il loro centroide (punto delle medie) è( ˉ x , ˉ y ) .(xi,yi),i=1,2,,n(x¯,y¯).


La domanda richiede la distribuzione delle distanze. Quando le palle hanno una bivariata isotropica. Distribuzione normale attorno al loro centroide - che è un presupposto standard e fisicamente ragionevole - la distanza al quadrato è proporzionale a una distribuzione chi-quadrata con due gradi di libertà (una per ogni coordinata). Questa è una conseguenza diretta di una definizione della distribuzione chi-quadrato come somma di quadrati di variabili normali standard indipendenti, perché è una combinazione lineare di variate normali indipendenti con aspettativa Scrivere la varianza comune diE [ x i - ˉ x ] = n - 1

xix¯=n1nxiji1nxj
xiσ2E[(xi- ˉ x )2]
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
xicome , Il presupposto dell'anisotropia è che abbia la stessa distribuzione di e siano indipendenti da loro, quindi un risultato identico vale per la distribuzione di . Ciò stabilisce la costante di proporzionalità: i quadrati delle distanze hanno una distribuzione chi-quadrata con due gradi di libertà, ridimensionati da .σ2yjxi
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
yjxin - 1(yjy¯)2n1nσ2

Il test più severo di queste equazioni è il caso , poiché la frazione differisce di più da . Simulando l'esperimento, sia per che , e sovrapponendo gli istogrammi delle distanze al quadrato con le distribuzioni ridimensionate del chi-quadrato (in rosso), possiamo verificare questa teoria.n - 1n=2n1nn = 2 n = 401n=2n=40

figura

Ogni riga mostra gli stessi dati: a sinistra l'asse x è logaritmico; a destra mostra l'attuale distanza al quadrato. Il vero valore di per queste simulazioni è stato impostato su .1σ1

Questi risultati sono per 100.000 iterazioni con e 50.000 iterazioni con . Gli accordi tra gli istogrammi e le densità chi-quadrate sono eccellenti.n = 40n=2n=40


Sebbene sia sconosciuto, può essere stimato in vari modi. Ad esempio, la distanza quadrata media dovrebbe essere volte la media di , che è . Con , ad esempio, stimare come volte la distanza media al quadrato. Quindi una stima di sarebbe volte la distanza RMS. Usando i valori della possiamo quindi dire che:n - 1σ2χ 2 2n1nσ2χ22n = 40 σ 2 402n=40σ2σ4039/2σ40/78χ22

  • Circa il 39% delle distanze sarà inferiore a , poiché il 39% di una distribuzione è inferiore a .39/40σ^χ221

  • Circa il 78% delle distanze sarà inferiore a volte , poiché il 78% di una distribuzione è inferiore a .339/40σ^χ223

E così via, per qualsiasi multiplo che ti interessa utilizzare al posto di o . Come controllo, nelle simulazioni per tracciate in precedenza, le proporzioni effettive delle distanze quadrate inferiori a volte erano13n=401,2,,10n1nσ^2

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

Le proporzioni teoriche sono

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

L'accordo è eccellente.


Ecco il Rcodice per condurre e analizzare le simulazioni.

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)

2
Grazie per una risposta molto esauriente. Non riesco a capire come la formula RMS possa descrivere la deviazione standard senza dividere per il numero di palline. Se lo confronti con http://en.wikipedia.org/wiki/Root-mean-square_deviation_(bioinformatics hanno diviso la somma per N. Se la somma fosse divisa per N o N-1 (poiché 40 palline è solo un selezione da una popolazione di palloni?)
K_scheduler

Dopo aver eseguito nuovamente i calcoli, sembra che sqrt (SDx ^ 2 + SDy ^ 2) sia quello che sto cercando. Questo mi darà un raggio per un cerchio che contiene tutte le palline con una probabilità del 65%, giusto?
K_scheduler

Questa è una formula equivalente per RMS, ma il valore del 65% non è corretto, come spiegato in questa risposta.
whuber

2
@nali Tutti questi punti sono chiaramente indicati nella mia risposta qui.
whuber

4
@nali I tuoi post qui vanno oltre i limiti della correttezza nella loro maleducazione e attacchi ad hominem . Anche se non sono preoccupato di essere considerato ignorante o stupido, come moderatore di questo sito devo preoccuparmi di mantenere il discorso civile e quindi non posso tollerare la vituperazione che stai postando. Di conseguenza, ho eliminato il tuo ultimo commento. Se vedo i tuoi commenti allo stesso modo maleducati, nei confronti di chiunque, li cancellerò senza ulteriore avviso e io (o altri moderatori) prenderò provvedimenti immediati per limitare le tue interazioni su questo sito.
whuber

4

Penso che tu abbia alcune cose un po 'confuse. È vero che la distanza non può essere negativa, ma ciò non influisce sul calcolo della deviazione standard. Sebbene significhi che la distribuzione delle distanze non può essere esattamente normale, potrebbe comunque essere vicina; ma anche se è tutt'altro che normale, c'è ancora una deviazione standard.

Inoltre, non esiste una deviazione standard "unilaterale" - potresti pensare a test di ipotesi (che possono essere un lato o due lati). Nel tuo titolo, dici che la media è 0, ma la distanza media non sarà 0 (a meno che le palline non siano in una pila alta 40 palline!) E dici che ci sono dei limiti - potrebbero esserci dei limiti, se le palline vengono lasciate cadere una stanza quindi non possono essere più lontani dal centro della distanza dal muro più vicino. Ma a meno che alcune palle non rimbalzino contro un muro, ciò non influirà sulle cose.

Quindi, una volta che hai le 40 distanze, calcoli la deviazione standard (e media, mediana, intervallo interquartile, ecc.) Usando metodi standard. Puoi anche tracciare la distanza (es. Trama normale quantile, trama a scatola) per vedere se è distribuita approssimativamente normalmente (se questo è di interesse).


Grazie Peter, non mi sono espresso correttamente. Vorrei provare a chiarire: immagina la scena dall'alto. Calcola la distanza media, verrà illustrata come un cerchio attorno al centro di massa (distanza media = raggio). Ora, una deviazione +/- std da questo produrrà un cerchio più piccolo e un cerchio più grande. Non voglio conoscere la deviazione standard della distanza media dal centro di massa, ma piuttosto la deviazione standard dal centro di massa verso l'esterno. In altre parole, entro quale raggio dal centro di massa si trova il 68,2% (una deviazione standard) delle sfere situate.
K_scheduler,

Oh va bene. Quindi penso che questo non sia un problema di statistica ma un problema di matematica; scoprire dove cadrà il 68,2% è noto ... Ho dimenticato la risposta ma coinvolge . π
Peter Flom

Potresti avere ragione nella tua prima risposta. Da quello che ho trovato, usare la deviazione standard radiale dovrebbe fare il trucco. RSD = sqrt (SDx ^ 2 + SDy ^ 2)
K_scheduler

1

È passato un po 'di tempo da quando è stato chiesto, ma la risposta alla domanda è che questa è la distribuzione 2D denominata distribuzione di Rayleigh. Qui il presupposto è che il fattore di forma di Rayleigh sia uguale alle deviazioni standard delle coordinate X e Y. In pratica, il valore del fattore di forma sarebbe calcolato dalla media aggregata della deviazione standard di X e Y.

a partire da e

XN(μx,σx2)
YN(μy,σy2)

usa una distribuzione normale bivariante.

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)[(xμx)2σx2+(yμy)2σy22ρ(xμx)(yμy)σxσy])

tradurre in point e assumere .

(μx,μy)
ρ=0

anche che quindi sostituisci entrambi con

σx2=σy2
σ2

quindi la distribuzione 2-D viene espressa come raggio attorno al punto che è nota come distribuzione di Rayleigh .

(μx,μy)

σ=σx=σ

PDF(r;σ)=rσ2exp(r22σ2)
dove e
σ=σx=σy
ri=(xiμx)2+(yiμy)2

CDF(r;σ)=1exp(r22σ2)

Naturalmente questo è per la distribuzione continua. Per un campione di appena 40 palline non esiste una soluzione esatta. Dovresti fare un'analisi Monte Carlo con un campione di 40 palline. Taylor, MS & Grubbs, Frank E. (1975). "Distribuzioni di probabilità approssimative per lo spread estremo" hanno trovato le stime per la distribuzione Chi e il log-normale per quello si adatterebbe alla distribuzione di un campione.


Modifica - Nonostante i dubbi di Wuber, le proporzioni teoriche che ha calcolato sono:

0,3935 0,6321 0,7769 0,8647 0,9179 0,9502 0,9698 0,9817 0,9889 0,9933

Dalla funzione CDF i valori cumulativi di Sigma per r (in sigmi) sono pari a:

0-1, 0-2, 0-3, ..., 0-10

siamo:

0,3935, 0,6321, 0,7769, 0,8647, 0,9179, 0,9502, 0,9698, 0,9817, 0,9889, 0,9933


Grazie per aver nominato la distribuzione. Tuttavia, (1) non differenziando tra il parametro della distribuzione e le stime di quel parametro derivate dai dati, (2) non affermando le (forti) ipotesi necessarie sulla distribuzione delle sfere e (3) essendo vago, rischi lettori fuorvianti. In effetti, non è chiaro quale sia il riferimento del tuo "questo": sarebbe la distribuzione delle posizioni delle palle? (No.) La distribuzione del centro di massa? (Sì, ma con un parametro di scala diverso dalla deviazione standard delle sfere.) Vuoi chiarire la tua risposta?
whuber

colmato le lacune ....
MaxW,

Grazie per i chiarimenti, max. Come semplice controllo della correttezza della tua risposta, consideriamo una palla invece di . La tua risposta sembra rivendicare la distribuzione della distanza tra questa palla e il centro di massa di tutte le palle è una distribuzione di Rayleigh. Sfortunatamente, in questo caso quella distanza è sempre zero. (La domanda la descrive specificamente come "la distanza dal centro di massa a ciascuna palla, calcolata usando una geometria semplice"). Ciò suggerisce che la tua risposta potrebbe essere errata in ogni caso, anche per palle. 404040
whuber

La distribuzione riguarda il centro di massa.
Max

Il CDF è impostato per una palla ovviamente. Dal CDF il 39% delle sfere cadrà entro un cerchio di raggio σ, l'86% entro 2σ e il 99% entro 3σ.
Max

-1

La distribuzione normale, sia i valori positivi che negativi, ha senso se si riconosce che questa distribuzione normale è per raggio o "distanza dal centroide". L'altra variabile, l'angolo, è casuale ed è uniformemente distribuita da 0-pi


Il raggio, che non può mai essere negativo, sicuramente non hanno una distribuzione normale!
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.