Indipendenza della media e varianza delle distribuzioni uniformi discrete


9

Nei commenti sotto un mio post , Glen_b e io discutevamo di come le distribuzioni discrete abbiano necessariamente media e varianza dipendenti.

Per una distribuzione normale ha senso. Se te lo dicox¯, non hai idea di cosa s2 è, e se te lo dico s2, non hai idea di cosa x¯è. (Modificato per indirizzare le statistiche del campione, non i parametri della popolazione.)

Ma poi per una distribuzione uniforme discreta, non si applica la stessa logica? Se stimo il centro degli endpoint, non conosco la scala e se stimo la scala, non conosco il centro.

Cosa non va nel mio pensiero?

MODIFICARE

Ho fatto la simulazione di jbowman. Poi l'ho colpito con la trasformazione integrale di probabilità (penso) per esaminare la relazione senza alcuna influenza dalle distribuzioni marginali (isolamento della copula).

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){     
    Data <- sample(seq(1,10,1),100,replace=T)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)    
}
par(mfrow=c(2,1))
plot(Data.mean,Data.var,main="Observations")
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'")

inserisci qui la descrizione dell'immagine

Nella piccola immagine che appare in RStudio, la seconda trama sembra avere una copertura uniforme sul quadrato dell'unità, quindi indipendenza. Dopo lo zoom in avanti, ci sono bande verticali distinte. Penso che questo abbia a che fare con la discrezione e che non dovrei leggerne. Ho quindi provato per una distribuzione uniforme continua su(0,10).

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){

    Data <- runif(100,0,10)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)

}
par(mfrow=c(2,1))
plot(Data.mean,Data.var)
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var))

inserisci qui la descrizione dell'immagine

Questo sembra davvero che abbia punti distribuiti uniformemente attraverso il quadrato dell'unità, quindi rimango scettico x¯ e s2 sono indipendenti.


È un approccio interessante che hai preso lì, dovrò pensarci.
jbowman,

La dipendenza (necessariamente) si indebolisce con campioni più grandi, quindi è difficile da vedere. Prova campioni di dimensioni inferiori, come n = 5,6,7 e lo vedrai più facilmente.
Glen_b

@Glen_b Hai ragione. C'è una relazione più ovvia quando riduco la dimensione del campione. Anche nell'immagine che ho pubblicato, sembra che ci sia un certo raggruppamento negli angoli in basso a destra e a sinistra, che è presente nella trama per le dimensioni del campione più piccole. Due follow-up. 1) La dipendenza si sta necessariamente indebolendo perché i parametri della popolazione possono essere variati indipendentemente l'uno dall'altro? 2) Sembra sbagliato che le statistiche abbiano qualsiasi tipo di dipendenza, ma chiaramente lo fanno. Cosa causa questo?
Dave,

1
Un modo per ottenere alcune informazioni è esaminare le caratteristiche speciali dei campioni che entrano in quelle "corna" nella parte superiore delle trame di Bruce. In particolare si noti che in n = 5, si ottiene la più grande varianza possibile da tutti i punti vicini a 0 o 1, ma poiché ci sono 5 osservazioni, hai bisogno di 3 a un'estremità e 2 all'altra, quindi la media deve essere vicino a 0,4 o 0,6 ma non vicino a 0,5 (poiché posizionando un punto nel mezzo, la variazione di un Se avessi una distribuzione dalla coda pesante, sia la media che la varianza sarebbero maggiormente influenzate dall'osservazione più estrema ... ctd
Glen_b -Reinstate Monica

1
ctd ... e in quella situazione si ottiene una forte correlazione tra |x¯μ| e s(dando due grandi "corna" ai lati del centro della popolazione su un diagramma di media vs media) - con l'uniforme questa correlazione è alquanto negativa. ... Con campioni di grandi dimensioni ti dirigerai verso il comportamento asintotico di(X¯,sX2)che finisce per essere congiuntamente normale.
Glen_b

Risposte:


4

jbowman's Answer (+1) racconta gran parte della storia. Eccone un po 'di più.

(a) Per i dati provenienti da una distribuzione uniforme continua , la media del campione e la DS non sono correlate, ma non indipendenti. I "contorni" della trama sottolineano la dipendenza. Tra le distribuzioni continue, l'indipendenza vale solo per il normale.

inserisci qui la descrizione dell'immagine

set.seed(1234)
m = 10^5; n = 5
x = runif(m*n);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=".")

(b) Uniforme discreta. La discrezione consente di trovare un valorea della media e un valore s della SD tale che P(X¯=a)>0,P(S=s)>0, ma P(X¯=a,X=s)=0.

inserisci qui la descrizione dell'immagine

set.seed(2019)
m = 20000;  n = 5;  x = sample(1:5, m*n, rep=T)
DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=20)

(c) Una distribuzione normale arrotondata non è normale. La discrezione provoca dipendenza.

inserisci qui la descrizione dell'immagine

set.seed(1776)
m = 10^5; n = 5
x = round(rnorm(m*n, 10, 1));  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=20)

(d) Oltre a (a), usando la distribuzione Beta(.1,.1), invece di Beta(1,1)Unif(0,1). sottolinea i confini dei possibili valori della media campionaria e della DS. Stiamo "schiacciando" un ipercubo a 5 dimensioni su 2 spazi. Le immagini di alcuni hyper-edge sono chiare. [Rif: la figura seguente è simile alla Fig. 4.6 in Suess & Trumbo (2010), Introduzione alla simulazione di probabilità e campionamento di Gibbs con R, Springer.]

inserisci qui la descrizione dell'immagine

set.seed(1066)
m = 10^5; n = 5
x = rbeta(m*n, .1, .1);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=".")

Addendum per commento.

inserisci qui la descrizione dell'immagine


Usa ecdf sul tuo ultimo. Il diagramma a dispersione è selvaggio! Comunque, se una variabile uniforme ha dipendenza trax¯ e s2, come mai stiamo ottenendo alcune informazioni sull'uno conoscendo l'altro, dato che possiamo allungare l'intervallo o spostare il centro volenti o nolenti e non influire sull'altro valore? Se arriviamox¯=0, non dovremmo sapere se s2=1 o s2=100, simile a come possiamo allungare la distribuzione normale senza influire sulla media.
Dave,

Il criterio di indipendenza è esigente. La mancanza di indipendenza tra due camper non garantisce che sia facile ottenere informazioni su uno, conoscendo il valore dell'altro. // In (d), non sono sicuro di quale ECDF di A o S rivelerebbe. // Scatterplot in (d) mostra 6 'punti', immagini in trasformazione di 32 vertici dell'ipercubo 5-d con molteplicità 1, 5, 10, 10, 5, 1 (da sinistra a destra). Le moltiplicazioni spiegano perché i punti "primi due" sono più distinti.
BruceET,

Non voglio dire che è facile ottenere informazioni su uno se conosci l'altro, ma se hai l'indipendenza, tutto ciò che puoi fare è la distribuzione marginale. Considera due variabili normali standardX e Y con ρ=0.9. Se lo saix=1, non sai cosa y è uguale, ma sai che un valore in giro 1 è più probabile di un valore in giro 1. Seρ=0, quindi un valore in giro 1 è altrettanto probabile come un valore in giro 1.
Dave,

Ma questo è per una relazione quasi lineare tra due normali standard. Media e SD dei campioni non sono così facili.
BruceET,

1
@Dave hai informazioni su uno quando conosci l'altro. Ad esempio, se la varianza del campione è davvero grande, sai che la media del campione non è molto vicina allo 0,5 (vedi il divario in alto al centro del primo diagramma, per esempio)
Glen_b -Reinstate Monica

2

Non è che la media e la varianza sono dipendenti nel caso di distribuzioni discrete, è che il campione di media e varianza dipendono proposta i parametri della distribuzione. La media e la varianza sono funzioni fisse dei parametri della distribuzione e concetti come "indipendenza" non si applicano ad essi. Di conseguenza, ti stai ponendo le domande ipotetiche sbagliate di te stesso.

Nel caso della distribuzione uniforme discreta, tracciare i risultati di 20.000 (x¯,s2) coppie calcolate da campioni di 100 uniformi (1,2,,10) variates si traduce in:

inserisci qui la descrizione dell'immagine

che mostra abbastanza chiaramente che non sono indipendenti; i valori più alti dis2 si trovano in modo sproporzionato verso il centro della gamma di x¯. (Tuttavia, non sono correlati; un semplice argomento di simmetria dovrebbe convincerci di ciò.)

Ovviamente, un esempio non può provare la congettura di Glen nel post a cui ti sei collegato che non esiste una distribuzione discreta con medie campionarie e varianze indipendenti!


Questa è una buona scelta per la statistica rispetto al parametro. Ho fatto una modifica piuttosto estesa.
Dave,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.