Come definire rigorosamente la probabilità?


30

La probabilità potrebbe essere definita in diversi modi, ad esempio:

  • la funzione da che mappa a cioè .LΘ×X(θ,x)L(θx)L:Θ×XR

  • la funzione casualeL(X)

  • potremmo anche considerare che la probabilità è solo la probabilità "osservata"L(xobs)

  • in pratica la probabilità porta informazioni su solo fino a una costante moltiplicativa, quindi potremmo considerare la probabilità come una classe di equivalenza di funzioni piuttosto che una funzioneθ

Un'altra domanda si pone quando si considera il cambiamento della parametrizzazione: se è la nuova parametrizzazione che comunemente denotiamo con la probabilità su e questa non è la valutazione della precedente funzione in ma in . Questa è una notazione abusiva ma utile che potrebbe causare difficoltà ai principianti se non viene enfatizzata.ϕ=θ2L(ϕx)ϕL(x)θ2ϕ

Qual è la tua definizione rigorosa preferita della probabilità?

Inoltre, come si chiama ? Di solito dico qualcosa come "la probabilità su quando si osserva ".L(θx)θx

EDIT: Alla luce di alcuni commenti qui sotto, mi rendo conto che avrei dovuto precisare il contesto. Considero un modello statistico dato da una famiglia parametrica di densità rispetto ad alcune misure dominanti, con ciascuna definito nello spazio delle osservazioni . Quindi definiamo e la domanda è "cos'è ?" (la domanda non riguarda una definizione generale della probabilità){f(θ),θΘ}f(θ)XL(θx)=f(xθ)L


2
(1) Poiché per tutti , credo che sia definita anche la costante in(2) Se pensate a parametri come e semplicemente come coordinate per una varietà di distribuzioni, allora il cambiamento di parametrizzazione non ha alcun significato matematico intrinseco; è semplicemente un cambio di descrizione. (3) I madrelingua inglesi direbbero più naturalmente "probabilità di " piuttosto che "on". (4) La clausola "quando si osserva " presenta difficoltà filosofiche, poiché la maggior parte di non verrà mai osservata. Perché non dire semplicemente "probabilità di datoL(θ|x)dx=1θLϕθ θxxθx "?
whuber

1
@whuber: Per (1), non credo che la costante sia ben definita. Vedi il libro di ET Jaynes dove scrive: "che una probabilità non è una probabilità perché la sua normalizzazione è arbitraria".
Neil G,

3
Sembra che tu confonda due tipi di normalizzazione, Neil: Jaynes si riferiva alla normalizzazione mediante integrazione su , non su . θx
whuber

1
@whuber: Non credo che un fattore di ridimensionamento sia importante per il limite di Cramer-Rao perché la modifica di aggiunge una quantità costante alla probabilità di log, che poi scompare quando viene presa la derivata parziale. k
Neil G,

1
Sono d'accordo con Neil, non vedo alcuna applicazione in cui la costante abbia un ruolo
Stéphane Laurent

Risposte:


13

Il tuo terzo oggetto è quello che ho visto più spesso usato come definizione rigorosa.

Anche gli altri sono interessanti (+1). In particolare il primo è interessante, con la difficoltà che la dimensione del campione non sia (ancora) definita, è più difficile definire il set "from".

Per me, l'intuizione fondamentale della probabilità è che sia una funzione del modello + i suoi parametri, non una funzione delle variabili casuali (anche un punto importante ai fini dell'insegnamento). Quindi mi atterrei alla terza definizione.

La fonte dell'abuso della notazione è che l'insieme "da" della probabilità è implicito, che di solito non è il caso di funzioni ben definite. Qui, l'approccio più rigoroso è rendersi conto che dopo la trasformazione, la probabilità si riferisce a un altro modello. È equivalente al primo, ma ancora un altro modello. Quindi la notazione di verosimiglianza dovrebbe mostrare a quale modello si riferisce (per pedice o altro). Ovviamente non lo faccio mai, ma per insegnare potrei.

Infine, per essere coerente con le mie precedenti risposte, dico la "probabilità di " nella tua ultima formula.θ


Grazie. E quali sono i tuoi consigli sull'uguaglianza fino a una costante moltiplicativa?
Stéphane Laurent,

Personalmente preferisco richiamarlo quando necessario piuttosto che codificarlo nella definizione. E pensare che per la selezione / il confronto dei modelli questa uguaglianza "costante-moltiplicativa" non regge.
gui11aume,

Ok. Per quanto riguarda il nome, potresti immaginare di discutere delle probabilità e per due possibili osservazioni. In tal caso, diresti "la probabilità di quando osservato", o "la probabilità di per l'osservazione " o qualcos'altro? L ( θ x 2 ) θ x 1 θ x 1L(θx1)L(θx2)θx1θx1
Stéphane Laurent,

1
Se ri-parametrizzi il tuo modello con , in realtà calcoli la probabilità come una composizione delle funzioni Dove . In questo caso, va da a quindi l'insieme di definizioni (indicato come "da" set) della probabilità non è più lo stesso. È possibile chiamare la prima funzione E la seconda Perché non sono le stesse funzioni. L ( . | x ) g ( . ) g ( y ) = y 2 g R R + L 1 ( . | ) L 2 ( . | )ϕ=θ2L(.|x)g(.)g(y)=y2gRR+L1(.|)L2(.|)
gui11aume,

1
In che modo la terza definizione è rigorosa? E qual è il problema con la dimensione del campione non definita? Dato che diciamo , che porta naturalmente all'esistenza una corrispondente algebra sigma per lo spazio campione , perché non possiamo avere la definizione parallela per le probabilità? Ω nP(x1,x2,,xnθ)Ωn
Neil G,

8

Penso che lo definirei qualcosa di diverso. La verosimiglianza è la densità di probabilità per la x osservata dato il valore del parametro espresso in funzione di per la data . Non condivido l'opinione sulla costante di proporzionalità. Penso che entri in gioco solo perché massimizzare qualsiasi funzione monotonica della probabilità fornisce la stessa soluzione per . Quindi puoi massimizzare per o altre funzioni come che è comunemente fatto.θθxθcL(θx)c>0log(L(θx))


4
Non solo la massimizzazione: l'up-to-proporzionalità entra in gioco anche nella nozione del rapporto di verosimiglianza e nella formula di Bayes per le statistiche bayesiane
Stéphane Laurent,

Pensavo che qualcuno potesse sottovalutare la mia risposta. Ma penso che sia abbastanza ragionevole definire la verosimiglianza in questo modo come una probabilità definitiva senza definire una verosimiglianza con qualcosa di propizio. @ StéphaneLaurent al tuo commento sui priori, se la funzione è integrabile può essere normalizzata ad una densità. Il posteriore è proporzionale alla probabilità rispetto al precedente. Poiché il posteriore deve essere normalizzato dividendo per un integrale, potremmo anche specificare che il precedente sia la distribuzione. È solo in senso esteso che questo viene applicato a priori impropri.
Michael R. Chernick,

1
Non sono del tutto sicuro del motivo per cui qualcuno dovrebbe sottovalutare questa risposta. Sembra che tu stia cercando di rispondere più al secondo e alle domande del PO che al primo. Forse questo non era del tutto chiaro per gli altri lettori. Saluti. :)
cardinale

@Michael Non vedo la necessità di sottovalutare anche questa risposta. Per quanto riguarda i priori non informativi (questa è un'altra discussione e) intendo aprire una nuova delusione su questo argomento. Non lo farò presto, perché non sono facile con l'inglese, e per me è più difficile scrivere "filosofia" che matematica.
Stéphane Laurent,

1
@Stephane: se vuoi, ti preghiamo di considerare di pubblicare la tua altra domanda direttamente in francese. Abbiamo diversi madrelingua francese su questo sito che probabilmente aiuterebbero a tradurre eventuali passaggi di cui non sei sicuro. Ciò include un moderatore e anche un editore di una delle migliori riviste di statistica in lingua inglese. Attendo con impazienza la domanda.
cardinale il

6

Ecco un tentativo di una rigorosa definizione matematica:

Sia un vettore casuale che ammetta una densità rispetto a qualche misura su , dove per , è una famiglia di densità su rispetto a . Quindi, per ogni definiamo la funzione di verosimiglianza da ; per chiarezza, per ogni abbiamo . Si può pensare che sia un potenziale particolareX:ΩRnf(x|θ0)νRnθΘ{f(x|θ):θΘ}RnνxRnL(θ|x)f(x|θ)xLx:ΘRxxobs e sono il valore "vero" di .θ0θ

Un paio di osservazioni su questa definizione:

  1. La definizione è abbastanza robusto per gestire discrete, continue, e altri tipi di famiglie di distribuzioni per .X
  2. Stiamo definendo la probabilità a livello di funzioni di densità anziché a livello di distribuzioni / misure di probabilità. La ragione di ciò è che le densità non sono uniche e si scopre che questa non è una situazione in cui si può passare a classi di densità di densità ed essere ancora sicuri: scelte diverse di densità portano a MLE diverse nel caso continuo. Tuttavia, nella maggior parte dei casi esiste una scelta naturale della famiglia di densità che sono teoricamente desiderabili.
  3. Mi piace questa definizione perché incorpora in essa le variabili casuali con cui stiamo lavorando e, dal punto di vista del design, poiché dobbiamo assegnare loro una distribuzione, abbiamo anche rigorosamente costruito la nozione del valore "vero ma sconosciuto" di , qui denotato . Per me, come studente, la sfida di essere rigoroso riguardo alla probabilità era sempre quella di conciliare i concetti del mondo reale di un "vero" e "osservato" con la matematica; questo spesso non è stato aiutato dagli istruttori che affermavano che questi concetti non erano formali, ma poi si voltavano e li usavano formalmente per provare le cose! Quindi li trattiamo formalmente in questa definizione.θθ0θxobs
  4. EDIT: Certo, siamo liberi di considerare i soliti elementi casuali , e e sotto questa definizione senza reali problemi con rigore come fintanto che stai attento (o anche se non lo sei se quel livello di rigore non è importante per te).L(θ|X)S(θ|X)I(θ|X)

4
@ Xi'an Lascia che sia uniforme su . Considera due densità contro . Sia che sono densità valide per , ma sotto l'MLE esiste ed è uguale a mentre sotto abbiamo quindi che se imposti con una probabilità di , e in effetti il ​​MLE non esiste perchéX1,...,Xn(0,θ)f1(x)=θ1I[0<x<θ]f2(x)=θ1I[0xθ]f1f2U(0,θ)f2maxXif1jf1(xj|maxxi)=0θ^=maxXi0supθjf1(x|θ) non viene raggiunto per nessun . θ
ragazzo,

1
@guy: grazie, non sapevo di questo interessante contro-esempio.
Xi'an,

1
@guy Hai detto che non si ottiene per nessun . Tuttavia, questo supremum è raggiunto ad un certo punto come mostro di seguito: dove . che per tutti . È semplice vedere che 1. , se ; 2. , se . Continua ...supθjf1(xj|θ)θ
L1(θ;x)=j=1nf1(xj|θ)=θnj=1nI(0<xj<θ)=θnI(0<M<θ),
M=max{x1,,xn}xj>0j=1,,nL1(θ;x)=00<θML1(θ;x)=θnM<θ<
Alexandre Patriota,

1
@guy: continuando ... Cioè, per tutti . Non abbiamo un valore massimo ma il supremum esiste ed è dato da e l'argomento è Forse, i soliti asintotici non vengono applicati qui e alcuni altri pedaggi dovrebbero essere impiegati. Ma il supremum di esiste o mi sono persi alcuni concetti basilari.
L1(θ;x)[0,Mn),
θ(0,)
supθ(0,)L1(θ,x)=Mn
M=argsupθ(0,)L1(θ;x).
L1(θ;x)
Alexandre Patriota,

1
@AlexandrePatriota Il supremum esiste, ovviamente, ma non è raggiunto dalla funzione. Non sono sicuro di cosa significhi la notazione - non c'è argomento di che produce perché . Il MLE è definito come qualsiasi che raggiunge il (in genere) e nessun raggiunge il qui. Ovviamente ci sono dei modi per aggirarlo: gli asintotici a cui facciamo appello richiedono che esista una probabilità con tali e tali proprietà, e non esiste. È solo anziché .argsupL1(θ;x)supL1(θ;M)=0θ^supθ^supL2L1
ragazzo
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.