Errore di approssimazione dell'intervallo di confidenza per la media quando


15

Sia {Xi}i=1n una famiglia di variabili casuali iid che assume valori in [0,1] , con una media μ e varianza σ2 . Un semplice intervallo di confidenza per la media, usando σ ogni volta che è noto, è dato da

P(|X¯μ|>ε)σ2nε21nε2(1).

Inoltre, perché X¯μσ/n viene distribuito asintoticamente come una normale variabile casuale standard, la distribuzione normale viene talvolta utilizzata per "costruire" un intervallo di confidenza approssimativo.


Negli esami di statistica delle risposte a scelta multipla, ho dovuto usare questa approssimazione anziché (1) ogni volta che n30 . Mi sono sempre sentito molto a disagio con questo (più di quanto tu possa immaginare), poiché l'errore di approssimazione non è quantificato.


  • Perché usare l'approssimazione normale anziché (1) ?

  • Non voglio mai più applicare ciecamente la regola . Ci sono buone referenze che possono supportarmi nel rifiuto di farlo e fornire alternative appropriate? ( ( 1 ) è un esempio di quella che considero un'alternativa appropriata.)n30(1)

Qui, mentre ed E [ | X | 3 ] sono sconosciuti, sono facilmente delimitati.σE[|X|3]

Si noti che la mia domanda è una richiesta di riferimento, in particolare per quanto riguarda gli intervalli di confidenza, e pertanto è diversa dalle differenze che sono state suggerite come duplicati parziali qui e qui . Non c'è risposta lì.


2
Potrebbe essere necessario migliorare l'approssimazione si trovano in riferimenti classici e sfruttare il fatto che il sono a ( 0 , 1 ) , che come avete notato fornisce informazioni sui momenti. Lo strumento magico, credo, sarà il teorema di Berry-Esseen! Xi(0,1)
Yves

1
con questi limiti, la varianza non può essere maggiore di 0,25, molto meglio di 1, non è vero?
Carlo

Risposte:


3

Perché usare l'approssimazione normale?

È semplice come dire che è sempre meglio usare più informazioni che meno. L'equazione (1) usa il teorema di Chebyshev . Nota come non utilizza alcuna informazione sulla forma della tua distribuzione, vale a dire che funziona per qualsiasi distribuzione con una data varianza. Quindi, se usi alcune informazioni sulla forma della tua distribuzione, devi ottenere una migliore approssimazione. Se sapevi che la tua distribuzione è gaussiana, usando questa conoscenza otterrai una stima migliore.

Dato che stai già applicando il teorema del limite centrale, perché non usare l'approssimazione gaussiana dei limiti? Saranno migliori, in realtà, più stretti (o più nitidi) perché queste stime si basano sulla conoscenza della forma che è un'informazione aggiuntiva.

La regola empirica 30 è un mito, che beneficia del pregiudizio di conferma . Continua a essere copiato da un libro all'altro. Una volta ho trovato un riferimento che suggerisce questa regola in un documento negli anni '50. Non è stato alcun tipo di prova solida, come ricordo. Era una specie di studio empirico. Fondamentalmente, l'unica ragione per cui è usato è perché funziona in qualche modo. Non vedi spesso violato violentemente.

AGGIORNAMENTO Cerca il documento di Zachary R. Smith e Craig S. Wells " Teorema del limite centrale e dimensioni del campione ". Presentano uno studio empirico sulla convergenza al CLT per diversi tipi di distribuzioni. Il numero magico 30 non funziona in molti casi, ovviamente.


+1 Per una spiegazione sensata. Ma non c'è il rischio di utilizzare informazioni che non sono del tutto giuste? Il CLT non dice nulla sulla distribuzione di per un n fisso . X¯n
Olivier

giusto, CLT non dice nulla sulla distribuzione di campioni finiti, ma non equazioni asintotiche. Tuttavia, innegabilmente hanno informazioni utili, ecco perché le relazioni limitanti sono usate ovunque. Il problema con Chebyshev è che è così ampio che raramente viene usato fuori dall'aula. Ad esempio, per una deviazione standard la probabilità che dà è - informazioni difficilmente pratiche<1/k2=1
Aksakal

Tuttavia, se prende i valori 0 o 1 con uguale probabilità, l'applicazione di Chebyshev è nitida. ;) Il problema è che Chebyshev, applicato ad una media del campione, non potrà mai rimanere forte come n cresce. Xn
Olivier

Non so del lavoro di Smith e Wells, ho provato a riprodurlo in R e non sono riuscito a recuperare le loro conclusioni ...
Alex Nelson,

9

Il problema con l'uso della disuguaglianza di Chebyshev per ottenere un intervallo per il valore reale, è che ti dà solo un limite inferiore per la probabilità, che a volte è banale, o, per non essere banale, può dare un intervallo di confidenza. abbiamo

P(|X¯μ|>ε)=1P(X¯εμX¯+ε)

P(X¯εμX¯+ε)11nε2

Vediamo che, a seconda anche della dimensione del campione, se diminuiamo "troppo" otterremo la banale risposta "la probabilità è maggiore di zero".ε

A parte questo, ciò che otteniamo da questo approccio è una conclusione della forma "" la probabilità che cada in [ ˉ X ± ε ] è uguale o maggiore di ... "μ[X¯±ε]

Ma supponiamo che stiamo bene con questo, e denotano la probabilità minima con la quale ci sono confortevoli. Quindi vogliamopmin

11nε2=pminε=1(1pmin)n

Con campioni di piccole dimensioni e alta probabilità minima desiderata, ciò può fornire un intervallo di confidenza non sufficientemente ampio. Ad esempio per e n = 100 otterremo ε .316 , che, ad esempio per la variabile trattata dall'OP che è limitato in [ 0 , 1 ] sembra essere troppo grande per essere utile.pmin=0.9n=100ε.316[0,1]

Ma l'approccio è valido e privo di distribuzione e quindi potrebbero esserci casi in cui può essere utile.

Si potrebbe voler verificare anche la disuguaglianza di Vysochanskij – Petunin menzionata in un'altra risposta, che vale per continue distribuzioni unimodali e raffina la disuguaglianza di Chebyshev.


Non sono d'accordo sul fatto che un problema con Chebychev lo dia solo un limite inferiore per la probabilità. In un'impostazione senza distribuzione, un limite inferiore è il massimo che possiamo sperare. Le domande importanti sono: Chebychev è forte? La lunghezza dell'IC di Chebychev è sistematicamente sopravvalutata per un livello fisso ? Ho risposto a questo nel mio post, da un punto di vista particolare. Tuttavia, sto ancora cercando di capire se Chebychev per una media campionaria non riuscirà sempre ad essere nitido, in un senso più forte. α
Olivier

La lunghezza dell'elemento della configurazione non è sotto stima, poiché non esiste una singola lunghezza sconosciuta, quindi non sono sicuro di cosa intendi usando la parola "sopravvalutazione" qui. Metodi diversi forniscono CI diversi, che ovviamente possiamo tentare di valutare e valutare.
Alecos Papadopoulos,

La sopravvalutazione è stata una cattiva scelta di parole, grazie per averlo sottolineato. Per "lunghezza sistematicamente sopravvalutata" intendevo che il metodo per ottenere un elemento della configurazione produce sempre qualcosa di più grande del necessario.
Olivier

1
@Olivier In generale, la disuguaglianza di Chebyshev è nota per essere una disuguaglianza libera, e quindi usata più come strumento nelle derivazioni teoriche e nelle prove piuttosto che nel lavoro applicato.
Alecos Papadopoulos,

2
@Olivier "In generale" copre la tua qualifica, direi.
Alecos Papadopoulos,

7

The short answer is that it can go pretty badly, but only if one or both tails of the sampling distribution is really fat.

Questo codice R genera un milione di insiemi di 30 variabili con distribuzione gamma e assume la loro media; può essere usato per avere un'idea di come appare la distribuzione campionaria della media. Se l'approssimazione normale funziona come previsto, i risultati dovrebbero essere approssimativamente normali con media 1 e varianza 1/(30 * shape).

f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}

Quando shapeè 1.0, la distribuzione gamma diventa una distribuzione esponenziale , il che è abbastanza non normale. Tuttavia, le parti non gaussiane sono per lo più fuori media e quindi l'approssimazione gaussiana non è poi così male:

histogram & density plot

C'è chiaramente qualche pregiudizio, e sarebbe bene evitarlo quando possibile. Ma onestamente, quel livello di distorsione probabilmente non sarà il problema più grande di fronte a uno studio tipico.

Detto questo, le cose possono andare molto peggio. Con f(0.01), l'istogramma è simile al seguente:

histogram

La trasformazione dei log dei 30 punti dati campionati prima della media aiuta molto, tuttavia:

histogram

In generale, le distribuzioni con code lunghe (su uno o entrambi i lati della distribuzione) richiederanno il maggior numero di campioni prima che l'approssimazione gaussiana inizi a diventare affidabile. Ci sono anche casi patologici in cui non ci saranno letteralmente mai abbastanza dati per far funzionare l'approssimazione gaussiana, ma probabilmente avrai problemi più gravi in ​​quel caso (perché la distribuzione del campionamento non ha una media o varianza ben definita per iniziare con).


I find the experiment very pertinent and interesting. I won't take this as the answer, however, as it does not address the crux of the problem.
Olivier

1
what's the crux?
David J. Harris

Your answer does not provide rigorous footing for sound statistical practice. It only gives examples. Note, also, that the random variables I consider are bounded, greatly changing what is the worst possible case.
Olivier

@Glen_b: this answer isn't so relevant to your revised version of the question. Should I just leave it here, or would you recommend something else?
David J. Harris

3

Problema con l'intervallo di confidenza di Chebyshev

Come detto da Carlo, abbiamo σ214. Questo segue daVar(X)μ(1-μ). Pertanto un intervallo di confidenza perμ è dato da

P(|X¯-μ|ε)14nε2.
The problem is that the inequality is, in a certain sense, quite loose when n gets large. An improvement is given by Hoeffding's bound and shown below. However, we can also demonstrate how bad it can get using the Berry-Esseen theorem, pointed out by Yves. Let Xi have a variance 14, the worst possible case. The theorem implies that P(|X¯μ|ε2n)2SF(ε)+8n, where SF is the survival function of the standard normal distribution. In particular, with ε=16, we get SF(16)e58 (according to Scipy), so that essentially
P(|X¯μ|8n)8n+0,()
whereas the Chebyshev inequality implies
P(|X¯μ|8n)1256.
Note that I did not try to optimize the bound given in (), the result here is only of conceptual interest.

Comparing the lengths of the confidence intervals

Consider the (1α)-level confidence interval lengths Z(α,n) and C(α,n) obtained using the normal approximation (σ=12) and the Chebyshev inequality, repectively. It turns out that C(α,n) is a constant times bigger than Z(α,n), independently of n. Precisely, for all n,

C(α,n)=κ(α)Z(α,n),κ(α)=(ISF(α2)α)1,
where ISF is the inverse survival function of the standard normal distribution. I plot below the multiplicative constant.

inserisci qui la descrizione dell'immagine

In particular, the 95% level confidence interval obtained using the Chebyshev inequality is about 2.3 times bigger than the same level confidence interval obtained using the normal approximation.


Using Hoeffding's bound

Hoeffding's bound gives

P(|X¯μ|ε)2e2nε2.
Thus an (1α)-level confidence interval for μ is
(X¯ε,X¯+ε),ε=lnα22n,
of length H(α,n)=2ε. I plot below the lengths of the different confidence intervals (Chebyshev inequality: C; normal approximation (σ=1/2): Z; Hoeffding's inequality: H) per α=0.05.

inserisci qui la descrizione dell'immagine


Molto interessante! Ho pensato ad alcune correzioni per suggerirti di metterti insieme con una grande perplessità: in primo luogo, dovresti estrarre valore assoluto dalla definizione di disuguaglianza di Hoeffding, èP(X¯-με)e-2nε2 o P(|X¯-μ|ε)2e-2nε2; la seconda correzione è meno importante, α viene generalmente considerato 0,05 o inferiore, mentre 0,95 viene indirizzato come 1-α, è un po 'confuso vederli scambiati nel tuo post.
Carlo

Ultimo e più importante: ho trovato il tuo risultato incredibile, quindi ho provato a replicarlo in R e ho ottenuto un risultato completamente opposto: la normale approssimazione mi dà intervalli di confidenza più piccoli! questo è il codice che ho usato:curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
Carlo

0

cominciamo con il numero 30: è, come si dirà chiunque, una regola empirica. ma come possiamo trovare un numero che si adatti meglio ai nostri dati? In realtà è soprattutto una questione di asimmetria: anche la distribuzione più strana converge rapidamente alla normalità se sono simmetrici e continui, i dati obliqui saranno molto più lenti. Ricordo di aver appreso che una distribuzione binomiale può essere correttamente approssimata alla normalità quando la sua varianza è maggiore di 9; per questo esempio si deve considerare che la distribuzione discreta ha anche il problema che hanno bisogno di grandi numeri per simulare la continuità, ma pensate a questo: una distribuzione binomiale simmetrica raggiungerà quella varianza con n = 36, se invece p = 0.1, n deve andare fino a 100 (la trasformazione variabile, tuttavia, sarebbe di grande aiuto)!

Se invece vuoi solo usare la varianza, lasciando cadere l'approssimazione gaussiana, considera la disuguaglianza di Vysochanskij – Petunin rispetto a quella di Chebichev, ha bisogno di assumere una distribuzione unimodale della media, ma questa è molto sicura con qualsiasi dimensione del campione, direi, maggiore di 2.


Potresti aggiungere un riferimento per "Disuguaglianza di Vysochanskij – Petunin"? Non ne ho mai sentito parlare!
kjetil b halvorsen,

docet di Wikipedia
Carlo

Puoi esprimere il tasso di convergenza in termini di inclinazione? Perché una dimensione del campione, direi 2, è sufficiente per l'unimodalità? In che modo la disuguaglianza di Vysochanskij – Petunin rappresenta un miglioramento rispetto a Chebychev se è necessario raddoppiare o triplicare la dimensione del campione per applicarlo?
Olivier,

Ho fatto una rapida ricerca su google e ho scoperto che la distribuzione binomiale è in realtà spesso utilizzata per spiegare la necessità di diverse dimensioni del campione per i dati distorti, ma non l'ho trovata, e immagino non ci sia un "tasso di convergenza accettato in termini di inclinazione ".
Carlo

La disuguaglianza di Vysochanskij – Petunin è più efficace di quella di Chebychev, quindi non ha bisogno di un campione maggiore, ma ha alcuni vincoli d'uso: in primo luogo, devi avere una distribuzione continua, quindi, deve essere unimodale (nessuna modalità locale sono ammessi). Può sembrare strano abbandonare il presupposto della normalità per adottarne un altro, ma se i tuoi dati non sono discreti, la media campionaria dovrebbe eliminare le modalità locali anche con campioni molto piccoli. Il fatto è che la media ha gran parte della distribuzione di una campana e, anche se può essere inclinata o avere code grasse, arriva rapidamente ad avere solo una modalità.
Carlo
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.