Stima del parametro di una distribuzione uniforme: prima impropria?


10

Abbiamo N campioni, , da una distribuzione uniforme dove \ theta è sconosciuta. Stimare \ theta dai dati.Xi[0,θ]θθ

Quindi, la regola di Bayes ...

f(θ|Xi)=f(Xi|θ)f(θ)f(Xi)

e la probabilità è:

f(Xi|θ)=i=1N1θ (modifica: quando 0Xiθ per tutti i , e 0 altrimenti - grazie whuber)

ma senza altre informazioni su θ , sembra che il precedente debba essere proporzionale a 1 (cioè uniforme) o a 1L (Jeffreys precedenti?) su [0,] ma poi i miei integrali don convergono, e non sono sicuro di come procedere. Qualche idea?


2
La tua probabilità non è corretta: sarà zero ogni volta che è inferiore alla più grande . X iθXi
whuber

Puoi mostrare quali integrali stai assumendo?

Sì, quindi, credo di non sapere come gestire il precedente improprio. Ad esempio, voglio scriveref[Xi]=Θf(Xi|θ)f(θ)dθ
Will

1
Per il precedente improprio, = = e per la precedente si ottiene allo stesso modoPoiché quasi sicuramente, è certo che gli integrali convergeranno. f[Xi]=Θf(Xi|θ)f(θ)dθmax(Xi)θNdθmax(Xi)1N/(N1)f(θ)1/θmax(Xi)N/N.maxXi>0
whuber

1
Il posteriore di riferimento del Bernardo è Pareto - vedere il catalogo dei priori non informativi .
Stéphane Laurent,

Risposte:


4

Ciò ha generato un dibattito interessante, ma nota che in realtà non fa molta differenza per la questione di interesse. Personalmente penso che poiché è un parametro di scala, l'argomento del gruppo di trasformazione è appropriato, portando a un precedente diθ

p(θ|I)=θ1log(UL)θ1L<θ<U

Questa distribuzione ha la stessa forma nel riscalare il problema (la probabilità rimane "invariante" anche nel riscalare). Il kernel di questo precedente, può essere derivato risolvendo l'equazione funzionale . I valori dipendono dal problema e contano davvero solo se la dimensione del campione è molto piccola (come 1 o 2). Il posteriore è un pareto troncato, dato da:f(y)=y1af(ay)=f(y)L,U

p(θ|DI)=NθN1(L)NUNL<θ<UwhereL=max(L,X(N))
Dove è l'ennesimo statistica dell'ordine o il valore massimo del campione. Otteniamo la media posteriore di Se noi impostare e otteniamo la più semplice eliminazione .X(N)
E(θ|DI)=N((L)1NU1N)(N1)((L)NUN)=NN1L(1[LU]N11[LU]N)
UL0E(θ|DI)=NN1X(N)

Ma ora supponiamo di usare un precedente più generale, dato da (nota che manteniamo i limiti per assicurarci che tutto sia corretto - nessuna matematica singolare quindi ). Il posteriore è quindi lo stesso di sopra, ma con sostituito da - a condizione che . Ripetendo i calcoli di cui sopra, abbiamo la media posteriore semplificata dip(θ|cI)θc1L,UNc+Nc+N0

E(θ|DI)=N+cN+c1X(N)

Quindi l'uniforme precedente ( ) fornirà una stima di condizione che (la media sia infinita per ). Ciò dimostra che il dibattito qui è un po 'come se usare o meno o come divisore nella stima della varianza.c=1N1N2X(N)N2N=2NN1

Un argomento contro l'uso dell'uniforme impropria prima in questo caso è che il posteriore è improprio quando , poiché è proporzionale a . Ma questo importa solo se o è molto piccolo.N=1θ1N=1


1

Poiché lo scopo qui è presumibilmente quello di ottenere una stima valida e utile di , la distribuzione precedente dovrebbe essere coerente con le specifiche della distribuzione della popolazione da cui proviene il campione. Ciò NON significa in alcun modo che "calcoliamo" il precedente utilizzando il campione stesso, annullando la validità dell'intera procedura. Sappiamo che la popolazione da cui proviene il campione è una popolazione di variabili casuali iid uniformi che vanno ciascuna in . Questa è un'ipotesi mantenuta e fa parte delle informazioni precedenti che possediamo (e non ha nulla a che fare con il campione , cioè con una realizzazione specifica di un sottoinsieme di queste variabili casuali).θ[0,θ]

Ora supponiamo che questa popolazione sia composta da variabili casuali (mentre il nostro campione è costituito da realizzazioni di variabili casuali). L'ipotesi mantenuta ci dice che mn<mn

maxi=1,...,n{Xi}maxj=1,...,m{Xj}θ

Indicare per compattezza . Quindi abbiamo che può anche essere scritto maxi=1,...,n{Xi}XθX

θ=cXc1

La funzione di densità di di iid Uniform rv che varia in è maxN[0,θ]

fX(x)=N(x)N1θN

per il supporto , e lo zero altrove. Quindi usando e applicando la formula del cambio di variabile otteniamo una distribuzione precedente per che è coerente con l'assunto mantenuto: [0,θ]θ=cXθ

fp(θ)=N(θc)N1θN1c=NcNθ1θ[x,]

che può essere improprio se non specifichiamo adeguatamente la costante . Ma il nostro interesse sta nell'avere un vero e proprio posteriore per , e inoltre, non vogliamo limitare i possibili valori di (oltre la restrizione implicita dall'assunto mantenuto). Quindi lasciamo indeterminato. Quindi scrivendo il posteriore ècθθc
X={x1,..,xn}

f(θX)θNNcNθ1f(θX)=ANcNθ(N+1)

per qualche costante normalizzante A. Vogliamo

Sθf(θX)dθ=1xANcNθ(N+1)dθ=1

ANcN1NθN|x=1A=(cx)N

Inserimento nella posteriore

f(θX)=(cx)NNcNθ(N+1)=N(x)Nθ(N+1)

Si noti che la costante indeterminata della distribuzione precedente è stata annullata convenientemente.c

Il posteriore riassume tutte le informazioni che il campione specifico può darci riguardo al valore di . Se vogliamo ottenere un valore specifico per , possiamo facilmente calcolare il valore atteso del posteriore, θθ

E(θX)=xθN(x)Nθ(N+1)dθ=NN1(x)NθN+1|x=NN1x

C'è qualche intuizione in questo risultato? Bene, con l' aumentare del numero di , più è probabile che la massima realizzazione tra loro sia sempre più vicina al loro limite superiore, - che è esattamente ciò che riflette il valore medio posteriore di : se, diciamo , , ma se . Ciò dimostra che la nostra tattica relativa alla selezione del priore era ragionevole e coerente con il problema in questione, ma non necessariamente "ottimale" in un certo senso.XθθN=2E(θX)=2xN=10E(θX)=109x


1
Basare il precedente sui dati mi sembra sospetto. Come si giustifica questo approccio?
whuber

2
Non ho nulla contro il fatto che il tuo precedente non sia "il migliore". Dove ho detto qualcosa del genere? Sto solo cercando di capire il tuo approccio. Non capisco ancora questa uguaglianza. Se è costante nell'uguaglianza , significa che sia che sono non casuali? A proposito, non usi il fatto che nella derivazione del precedente, vero? (cc @whuber)cθ=cXXθc1
Stéphane Laurent,

1
E il supporto del tuo precedente dipende dai dati? ( )θ[x,[
Stéphane Laurent,

3
Un precedente che dipende (anche se solo attraverso il supporto) dai dati sembra sbagliato: non è possibile conoscere il massimo del campione prima che il campione sia stato generato . Inoltre, affermi che è un'uguaglianza quasi sicura, con e casuali (quindi esiste una correlazione ). Ma ciò implica che la distribuzione posteriore di (che è la distribuzione condizionale di dato il campione) è la massa di Dirac in . E questo contraddice la tua derivazione della distribuzione posteriore. ... (nessun personaggio rimasto ...)θ=cXθX1θθcx
Stéphane Laurent,

1
La distribuzione posteriore di è Dirac in significa che è . Il teorema di Bayes non è la causa. Distruggi tutto assumendo . Ciò implica , quindi la distribuzione condizionale di dato è la massa di Dirac a , mentre l'assunto originale è che questa distribuzione è la distribuzione uniforme su . θcxθ cxθ=cXX=θ/cXθθ/c(0,θ)
Stéphane Laurent,

0

Teorema di distribuzione prioritaria uniforme (caso di intervallo):

"Se la totalità delle tue informazioni su esterne ai dati viene acquisita dalla singola proposizione quindi l'unica specifica possibile logicamente coerente internamente è θD

B={{Possible values for θ}={the interval (a,b)},a<b}
f(θ)=Uniform(a,b)

Pertanto, le specifiche precedenti devono corrispondere alle precedenti di Jeffrey se si crede veramente nel teorema di cui sopra. "

Non parte del teorema di distribuzione prioritaria uniforme:

In alternativa puoi specificare la tua distribuzione precedente come distribuzione di Pareto, che è la distribuzione coniugata per l'uniforme, sapendo che la tua distribuzione posteriore dovrà essere un'altra distribuzione uniforme per coniugazione. Tuttavia, se si utilizza la distribuzione di Pareto, sarà necessario specificare i parametri della distribuzione di Pareto in qualche modo.f(θ)


4
Per prima cosa dici che la risposta "possibile solo logicamente coerente internamente" è una distribuzione uniforme e poi procedi a proporre un'alternativa. Mi sembra illogico e incoerente :-).
whuber

2
Non posso essere d'accordo. Ad esempio, è anche l'insiemeQuando il PDF di è per . Ma secondo il "teorema", cui pdf è in quell'intervallo. In breve, sebbene la proposizione non dipenda da come il problema è parametrizzato, la conclusione del "teorema" dipende dalla parametrizzazione, da cui è ambigua. B{θ|θ3(a3,b3)}.ΘUniform(a,b),Ψ=Θ31/(3ψ2/3(ba))a3<ψ<b3ΨUniform(a3,b3)1/(b3a3)
whuber

2
BabakP: Come si potrebbe dire che questo è un teorema ? Un teorema è un'affermazione matematica con una dimostrazione matematica. Questo "teorema" verrebbe più appropriatamente definito come un "principio", ma non è sensato perché contraddittorio, come mostrato da @whuber.
Stéphane Laurent,

2
Grazie per il riferimento BabakP. Vorrei sottolineare che lo "schizzo di prova" è falso. Draper divide l'intervallo in un numero finito di valori equidistanti e "passa al limite". Chiunque può dividere l'intervallo in valori distanziati per approssimare la densità che preferisce e allo stesso modo passare al limite, producendo perfettamente arbitrarie "solo possibili specifiche precedenti coerenti logicamente-internamente". Questo tipo di cose - vale a dire, usare la cattiva matematica nel tentativo di dimostrare che i non bayesiani sono illogici - dà all'analisi bayesiana un nome (immeritatamente) cattivo. (cc @ Stéphane.)
whuber

1
@ Stéphane Per favore, perdona la mia insensibilità ( insensibilità ) - Ammiro la tua abilità di interagire qui in una seconda lingua e non uso consapevolmente termini oscuri! Bogus è un aggettivo che deriva da un termine gergale americano di 200 anni che si riferisce a una macchina per la contraffazione di denaro. In questo caso è una macchina matematica per teoremi di contraffazione :-).
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.