Intervallo di confidenza per la varianza dato un'osservazione


25

Questo è un problema della "7ª Olimpiade degli studenti di Kolmogorov nella teoria della probabilità":

Data un'osservazione X da una distribuzione Normal(μ,σ2) con entrambi i parametri sconosciuti, fornire un intervallo di confidenza per con un livello di confidenza di almeno il 99%.σ2

Mi sembra che questo dovrebbe essere impossibile. Ho la soluzione, ma non l'ho ancora letta. qualche idea?

Pubblicherò la soluzione tra un paio di giorni.

[Modifica del follow-up: soluzione ufficiale pubblicata di seguito. La soluzione di Cardinal è più lunga, ma offre un intervallo di confidenza migliore. Grazie anche a Max e Glen_b per il loro contributo.]


1
Sembra impossibile anche a me; Attendo la risposta
Peter Flom - Ripristina Monica

1
Dai un'occhiata a questo sito .
assunto normale il

3
Ecco un documento con una migliore formattazione: carta .
assunto normale il

Eh. Ricordo di aver letto un articolo su questa roba (intervalli di osservazione) molti anni fa. Potrebbe essere stato questo .
Glen_b

1
@Max, grazie per il link! Non ho ancora avuto il tempo di esaminarlo da vicino, ma lo farò. Ho pubblicato la risposta "ufficiale" qui sotto.
Jonathan Christensen,

Risposte:


17

Visto attraverso la lente delle disuguaglianze di probabilità e delle connessioni al caso di osservazione multipla, questo risultato potrebbe non sembrare così impossibile o, almeno, potrebbe sembrare più plausibile.

Lascia che con e sconosciuto. Possiamo scrivere per .μ σ 2 X = σ Z + μ Z N ( 0 , 1 )XN(μ,σ2)μσ2X=σZ+μZN(0,1)

Reclamo principale : è un intervallo di confidenza per dove è il quantile level di una distribuzione chi-quadrato con un grado di la libertà. Inoltre, poiché questo intervallo trovi esattamente copertura quando , è il più stretto possibile intervallo di modulo per qualche .( 1 - α ) σ 2 q α α ( 1 - α ) μ = 0 [ 0 , b X 2 ) b R[0,X2/qα)(1α)σ2qαα (1α)μ=0[0,bX2)bR

Un motivo di ottimismo

Ricordiamo che nel caso , con , l' intervallo di confidenza tipico per è dove è quantile -livello di chi-quadrato con gradi di libertà. Questo, ovviamente, vale per qualsiasi . Mentre questo è l' intervallo più popolare (chiamato intervallo di coda uguale per ovvi motivi), non è né l'unico né nemmeno quello di larghezza più piccola! Come dovrebbe essere evidente, un'altra selezione valida è T = n i = 1 ( X i - ˉ X ) 2 ( 1 - α ) σ 2 ( Tn2T=i=1n(XiX¯)2 (1α)σ2q k , a a k μ ( 0 , T

(Tqn1,(1α)/2,Tqn1,α/2),
qk,aakμ
(0,Tqn1,α).

Poiché, , quindi ha anche una copertura di almeno . ( 0 , n i = 1 X 2 iTi=1nXi2( 1 - α )

(0,i=1nXi2qn1,α),
(1α)

Visto in questa luce, potremmo quindi essere ottimisti sul fatto che l'intervallo nella rivendicazione principale è vero per . La differenza principale è che non esiste una distribuzione chi-quadrata a zero gradi di libertà per il caso di una singola osservazione, quindi dobbiamo sperare che l'uso di un quantile con un grado di libertà funzioni.n=1

Mezzo passo verso la nostra destinazione ( sfruttando la coda destra )

Prima di immergerci in una prova dell'affermazione principale, diamo prima un'occhiata a un'affermazione preliminare che non è altrettanto forte o soddisfacente statisticamente, ma forse fornisce alcune informazioni aggiuntive su ciò che sta accadendo. Puoi passare alla prova del reclamo principale di seguito, senza perdite eccessive (se presenti). In questa sezione e nella successiva, le prove - sebbene leggermente sottili - si basano solo su fatti elementari: monotonia delle probabilità, simmetria e unimodalità della distribuzione normale.

Reclamo ausiliario : è un intervallo di confidenza per fintanto che . Qui è il quantile -level di una normale standard.( 1 - α ) σ 2 α > 1 / 2 z α α[0,X2/zα2)(1α)σ2α>1/2zαα

Prova . eper simmetria, quindi in ciò che segue possiamo prendere senza perdita di generalità. Ora, per e , e così con , vediamo che Funziona solo per , poiché questo è ciò che è necessario per .| σ Z + μ | d = | - σ Z + μ | μ 0 θ 0 μ 0 P ( | X | > θ ) P ( X > θ ) = P ( σ Z + μ > θ ) P ( Z|X|=|X||σZ+μ|=d|σZ+μ|μ0θ0μ0θ = z α σ P ( 0 σ 2 < X 2 / z 2 α ) 1 - α

P(|X|>θ)P(X>θ)=P(σZ+μ>θ)P(Z>θ/σ),
θ=zασα > 1 / 2 z α > 0
P(0σ2<X2/zα2)1-α.
α>1/2zα>0

Ciò dimostra l'affermazione ausiliaria. Sebbene sia illustrativo, è insaturo da una prospettiva statistica poiché richiede un assurdamente grande per funzionare.α

Dimostrare il reclamo principale

Un perfezionamento dell'argomento sopra riportato porta a un risultato che funzionerà per un livello di confidenza arbitrario. Innanzitutto, nota che Impostare e . Quindi, Se possiamo mostrare che il lato destro aumenta in per ogni fisso , allora possiamo usare un argomento simile a quello precedente. Questo è almeno plausibile, poiché vorremmo credere che se la media aumenta, allora diventa più probabile che vediamo un valore con un modulo che superaa = μ / σ 0 b = θ / σ 0 P ( | Z + a | > b ) = Φ ( a - b ) + Φ ( - a - b )

P(|X|>θ)=P(|Z+μ/σ|>θ/σ).
un'=μ/σ0B=θ/σ0a b b
P(|Z+un'|>B)=Φ(un'-B)+Φ(-un'-B).
un'BB. (Tuttavia, dobbiamo fare attenzione a quanto velocemente la massa diminuisce nella coda sinistra!)

Impostare . Quindi Nota che e per positivo , sta diminuendo in . Ora, per , è facile vedere che . Questi fatti presi insieme implicano facilmente che per tutti e qualsiasi fisso .f b ( a ) = φ ( a - b ) - φ ( - a - b ) = φ ( a - b ) - φ ( a + b )fb(a)=Φ(ab)+Φ(ab)f b ( 0 ) = 0 u φ ( u ) u a ( 0 , 2 b ) φ ( a - b ) φ ( - b ) = φ ( b ) f b ( a ) 0 a 0 b 0

fb(a)=φ(ab)φ(ab)=φ(ab)φ(a+b).
fb'(0)=0uφ(u)uun'(0,2B)φ(un'-B)φ(-B)=φ(B)
fB'(un')0
un'0B0

Quindi, abbiamo dimostrato che per e , un'0B0

P(|Z+un'|>B)P(|Z|>B)=2Φ(-B).

Svelando tutto questo, se prendiamo , otteniamo che stabilisce il reclamo principale.θ=qασ

P(X2>qασ2)P(Z2>qα)=1-α,

Osservazione di chiusura : un'attenta lettura dell'argomento precedente mostra che utilizza solo le proprietà simmetriche e unimodali della distribuzione normale. Quindi, l'approccio funziona in modo analogo per ottenere intervalli di confidenza da una singola osservazione da qualsiasi famiglia simmetrica di scala di posizione unimodale, ad esempio, distribuzioni di Cauchy o Laplace.


Wow! e gli studenti dovrebbero presentare questo tipo di argomento nel breve periodo di un esame olimpico?
Dilip Sarwate,

1
@Dilip: non ne ho idea! Non ho familiarità con il formato di questa Olimpiade o con ciò che ci si aspetta in termini di soluzione. Da una lettura letterale, penso che la risposta di Scortchi sarebbe accettabile. Ero più interessato a cercare di capire fino a che punto si potesse arrivare con una soluzione "non banale". La mia esplorazione (abbastanza minimale) ha seguito lo stesso treno di pensieri descritto nella risposta (con una deviazione). È molto probabile che esista una soluzione migliore. :-)
cardinale il

Questo è considerevolmente più lungo della soluzione "ufficiale", ma offre un migliore legame con la varianza, quindi la segnerò come risposta "corretta". Di seguito ho pubblicato la risposta "ufficiale", nonché alcuni risultati e discussioni sulla simulazione. Grazie @ cardinale!
Jonathan Christensen,

2
@Jonathan: grazie. Sì, avrei potuto rendere la prova un po 'più concisa. A causa della vasta gamma di sfondi dei partecipanti qui, spesso tendo a indulgere in dettagli extra (o forse eccessivi). :-)
cardinale il

12

Tempo di follow-up! Ecco la soluzione che mi è stata data:

Costruiremo un intervallo di confidenza nella forma , dove è una statistica. Per definizione questo sarà un intervallo di confidenza con un livello di confidenza almeno del 99% se Notiamo che la densità della distribuzione non supera . Pertanto, per ogni . Ne segue che Inserimento[0,T(X))T()

(μR)(σ>0)Pμ,σ2(σ2>T(X))<0.01.
N(μ,σ2)1/σ2πP(|X|un')un'/σun'0
tP(|X|/σt)=P(X2t2σ2)=P(σ2X2/t2).
t=0.01otteniamo che la statistica appropriata siaT(X)=10000X2.

L'intervallo di confidenza (che è molto ampio) è leggermente conservativo nella simulazione, senza copertura empirica (in 100.000 simulazioni) inferiore al 99,15% mentre variavo il CV su molti ordini di grandezza.

Per fare un confronto, ho anche simulato l'intervallo di confidenza del cardinale. Dovrei notare che l'intervallo del cardinale è un po 'più stretto - nel caso del 99%, finisce per arrivare a circa , a differenza del nella soluzione fornita. La copertura empirica è proprio al livello nominale, sempre su molti ordini di grandezza per il CV. Quindi il suo intervallo vince sicuramente.6300X210000X2

Non ho avuto il tempo di esaminare attentamente il documento pubblicato da Max, ma ho intenzione di esaminarlo e potrei aggiungere alcuni commenti al riguardo in un secondo momento (vale a dire, non prima di una settimana). Quel documento afferma un intervallo di confidenza del 99% di , che ha una copertura empirica leggermente inferiore (circa il 98,85%) rispetto alla copertura nominale per CV di grandi dimensioni nelle mie brevi simulazioni.(0,4900X2)


1
(+1) Questa è una bella soluzione. Dovresti avere invece di nell'equazione di visualizzazione? tt
cardinale il

2
Un altro paio di punti: la tua soluzione può essere fatta molto vicino alla mia senza alcun cambiamento nell'argomento. Nota che puoi affermare che . Quindi l'intervallo diventa per qualsiasi . Usando ottiene rispetto al nella mia risposta. Più alto è il livello di confidenza (ovvero, minore è il valore ), più il metodo si avvicina al mio (anche se l'intervallo sarà sempre più ampio). P(|X|un')2un'/σ2π(0,2X2/πα2)αα=0.01T(X)6366.198X21/q0.016365.864α
cardinale il

1
In secondo luogo, non ho esaminato quel documento, ma dubito fortemente che possa essere un intervallo di confidenza valido del 99%. In effetti, considera tutti gli intervalli di confidenza del modulo per alcuni . Quindi, quando , abbiamo che è esattamente chi-quadrato con un grado di libertà e quindi il più piccolo che potremmo selezionare in questa istanza è . In altre parole, l'intervallo indicato nella mia risposta è il più stretto possibile della forma dichiarata. ( 0 , b X 2 ) b μ = 0 X 2 / σ 2 b b = 1 / q α(0,4900X2)(0,BX2)Bμ=0X2/σ2BB=1/qα
cardinale il

1
Ho fatto la correzione (sospetta) dell'errore di battitura. Inoltre, pchisq(1/4900,1,lower.tail=F)nelle Rdichiarazioni 0.9886, abbastanza vicino ai vostri risultati della simulazione per la dell'intervallo. (0,4900X2)
cardinale il

1
Grazie per tutti i commenti, @cardinal. Penso che la tua modifica sia corretta, anche se l'ho digitata così com'era nelle soluzioni originali.
Jonathan Christensen,

5

L'IC presumibilmente.(0,)


1
Penso che sarebbe utile per te dire perché non puoi ottenere un intervallo di confidenza di lunghezza finita.
assunto normale il

1
@Max Non sono abbastanza intelligente, ma la domanda non ha posto una domanda.
Scortchi - Ripristina Monica

4
+1 per questo. La domanda non ha detto che un elemento della configurazione ha una copertura minima e, di fatto, implica che ciò potrebbe essere accettabile attraverso la sua formulazione curiosa ", un intervallo di confidenza con un livello di confidenza di almeno il 99%".
Ari B. Friedman,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.