Qual è la differenza tra "verosimiglianza" e "probabilità"?


474

La pagina di Wikipedia afferma che la probabilità e la probabilità sono concetti distinti.

Nel linguaggio non tecnico, "verosimiglianza" è generalmente sinonimo di "probabilità", ma nell'uso statistico esiste una chiara distinzione in prospettiva: il numero che è la probabilità di alcuni risultati osservati dato un insieme di valori di parametro è considerato come probabilità dell'insieme dei valori dei parametri alla luce dei risultati osservati.

Qualcuno può dare una descrizione più concreta di cosa significhi? Inoltre, alcuni esempi di come "probabilità" e "probabilità" non siano d'accordo.


9
Ottima domanda Aggiungerei "odds" e "chance" anche lì :)
Neil McGuigan

5
Penso che dovresti dare un'occhiata a questa domanda stats.stackexchange.com/questions/665/… perché la probabilità è a fini statistici e probabilità di probabilità.
Robin Girard,

3
Caspita, queste sono alcune risposte davvero buone. Quindi un grande grazie per quello! Presto, ne sceglierò uno che mi piace particolarmente come la risposta "accettata" (anche se ci sono molti che penso siano ugualmente meritati).
Douglas S. Stones,

1
Si noti inoltre che il "rapporto di verosimiglianza" è in realtà un "rapporto di probabilità" poiché è una funzione delle osservazioni.
JohnRos,

Risposte:


321

La risposta dipende dal fatto che si tratti di variabili casuali discrete o continue. Quindi, dividerò la mia risposta di conseguenza. Presumo che tu voglia alcuni dettagli tecnici e non necessariamente una spiegazione in un inglese semplice.

Variabili casuali discrete

Supponiamo di avere un processo stocastico che assume valori discreti (ad es. Risultati del lancio di una moneta 10 volte, numero di clienti che arrivano in un negozio in 10 minuti ecc.). In tali casi, possiamo calcolare la probabilità di osservare un determinato insieme di risultati facendo ipotesi adeguate sul processo stocastico sottostante (ad esempio, la probabilità di teste di atterraggio di monete èp e che i lanci di monete sono indipendenti).

Indica i risultati osservati da e l'insieme di parametri che descrivono il processo stocastico come . Pertanto, quando parliamo di probabilità, vogliamo calcolare . In altre parole, dati valori specifici per , è la probabilità che osserveremmo i risultati rappresentati daOθP(O|θ)θP(O|θ)O .

Tuttavia, quando modelliamo un processo stocastico della vita reale, spesso non conosciamo . Abbiamo semplicemente osservare e l'obiettivo quindi è quello di arrivare a una stima di che sarebbe una scelta plausibile data l'outcome osservato . Sappiamo che dato un valore di la probabilità di osservare è . Così, un processo di stima 'naturale' è quello di scegliere quel valore di che avrebbe massimizzare la probabilità che avremmo effettivamente osservare . In altre parole, troviamo i valori dei parametri che massimizzano la seguente funzione:θOθOθOP(O|θ)θOθ

L(θ|O)=P(O|θ)

L(θ|O) è chiamata funzione di verosimiglianza. Si noti che per definizione la funzione di probabilità è condizionata sulla osservata e che è una funzione dei parametri sconosciuti .Oθ

Variabili casuali continue

Nel caso continuo la situazione è simile con una differenza importante. Non possiamo più parlare della probabilità che abbiamo osservato dato perché nel caso continuo . Senza entrare nei tecnicismi, l'idea di base è la seguente:OθP(O|θ)=0

Indica la funzione di densità di probabilità (pdf) associata ai risultati come: . Pertanto, nel caso continuo stimiamo dati gli esiti osservati massimizzando la seguente funzione:Of(O|θ)θO

L(θ|O)=f(O|θ)

In questa situazione, non possiamo tecnicamente affermare che stiamo trovando il valore del parametro che massimizza la probabilità che osserviamo come abbiamo massimizzare il PDF associato con i risultati osservati .OO


35
La distinzione tra variabili discrete e variabili continue scompare dal punto di vista della teoria della misura.
whuber

24
@whuber sì, ma una risposta che usa la teoria della misura non è accessibile a tutti.

16
@Srikant: concordato. Il commento è stato a beneficio dell'OP, che è un matematico (ma forse non uno statistico) per evitare di essere indotto in errore nel pensare che ci sia qualcosa di fondamentale nella distinzione.
whuber

6
Puoi interpretare una densità continua uguale al caso discreto se viene sostituito da , nel senso che se chiediamo (cioè probabilità che i dati sono contenuti in una regione infinintesimale su ) e la risposta è (il chiarisce che stiamo calcolando l'area di un "bin" infinitamente sottile di un istogramma ). d O P r ( O ( O , O + d O ) | θ ) O O f ( O | θ ) d O d O OdOPr(O(O,O+dO)|θ)OOf(O|θ)dOdO
Probislogic,

9
Sono in ritardo di oltre 5 anni alla festa, ma penso che un seguito molto cruciale a questa risposta sarebbe stats.stackexchange.com/questions/31238/… che sottolinea il fatto che la funzione di probabilità è non un pdf rispetto a . ) è in effetti un pdf di dati dato il valore del parametro, ma dato che poiché è una funzione del solo (con i dati mantenuti come una costante), è irrilevante che sia un pdf di dati forniti . θ L ( θ L θ L ( θ ) θL(θ)θL(θLθL(θ)θ
Shobhit,

136

Questo è il tipo di domanda a cui quasi tutti risponderanno e mi aspetterei che tutte le risposte siano buone. Ma tu sei un matematico, Douglas, quindi lasciami offrire una risposta matematica.

Un modello statistico deve collegare due entità concettuali distinte: i dati , che sono elementi di un insieme (come uno spazio vettoriale) e un possibile modello quantitativo del comportamento dei dati. I modelli sono generalmente rappresentati da puntixθθ su una varietà dimensionale finita, una varietà con contorno o uno spazio funzionale (quest'ultimo è definito un problema "non parametrico").

I dati sono collegati ai possibili modelli mediante una funzione . Per ogni dato , deve essere la probabilità (o densità di probabilità) di . Per ogni dato , d'altra parte, può essere visto come una funzione di e di solito si presume che abbia alcune belle proprietà, come essere continuamente seconda differenziabile. L'intenzione di visualizzare in questo modo e di invocare questi presupposti viene annunciata chiamando la "probabilità".xθΛ(x,θ)θΛ(x,θ)xxΛ(x,θ)θΛΛ

È abbastanza come la distinzione tra variabili e parametri in un'equazione differenziale: a volte vogliamo studiare la soluzione (cioè, ci concentriamo sulle variabili come argomento) e a volte vogliamo studiare come la soluzione varia con i parametri. La distinzione principale è che nelle statistiche raramente abbiamo bisogno di studiare la variazione simultanea di entrambe le serie di argomenti; non esiste alcun oggetto statistico che corrisponda naturalmente alla modifica sia dei dati sia dei parametri del modello . Ecco perché ascolti di più su questa dicotomia di quanto faresti in analoghi contesti matematici.xθ


6
+1, che bella risposta. L'analogia con equazioni differenziali sembra molto appropriata.
mpiktas,

3
Come economista, sebbene questa risposta non si avvicini tanto quanto la precedente ai concetti che ho imparato, è stata la più istruttiva in senso intuitivo. Grazie molto.
Robson,

1
In realtà, questa affermazione non è realmente vera "non esiste alcun oggetto statistico che corrisponda naturalmente alla modifica dei dati x e dei parametri del modello θ.". C'è, si chiama "smoothing, filtering, and prediction", in modelli lineari è il filtro Kalman, in modelli non lineari, hanno i filtri non lineari completi, en.wikipedia.org/wiki/Kushner_equation ecc.
crow

1
Sì, ottima risposta! Per quanto zoppo sembri, scegliendo invece della notazione standard di P ( x , θ ) , mi ha reso più facile vedere che stiamo iniziando con una probabilità comune che può essere definita come una probabilità o una probabilità condizionata. Inoltre, il commento "certe belle proprietà" ha aiutato. Grazie! Λ(x,θ)P(x,θ)
Mike Williamson,

2
@whuber Sì, lo so non è la solita notazione. Questo è esattamente il motivo per cui ha aiutato! Ho smesso di pensare che debba avere un significato particolare e invece ho semplicemente seguito la logica. ;-pΛ
Mike Williamson,

111

Proverò a minimizzare la matematica nella mia spiegazione poiché ci sono già alcune buone spiegazioni matematiche.

Come sottolinea Robin Girand, la differenza tra probabilità e probabilità è strettamente correlata alla differenza tra probabilità e statistica . In un certo senso la probabilità e la statistica si occupano di problemi opposti o inversi tra loro.

Prendi in considerazione il lancio di una moneta. (La mia risposta sarà simile all'esempio 1 su Wikipedia .) Se sappiamo che la moneta è giusta ( ) una tipica domanda di probabilità è: qual è la probabilità di ottenere due teste di fila. La risposta è P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25 .p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

Una tipica domanda statistica è: la moneta è giusta? Per rispondere a questa domanda, dobbiamo chiederci: in che misura il nostro campione supporta la nostra ipotesi che P(H)=P(T)=0.5 ?

Il primo punto da notare è che la direzione della domanda si è invertita. In probabilità iniziamo con un parametro assunto ( ) e stimiamo la probabilità di un dato campione (due teste di fila). In statistica iniziamo con l'osservazione (due teste di fila) e facciamo INFERENZA sul nostro parametro ( p = P ( H ) = 1 - P ( T ) = 1 - qP(head)p=P(H)=1P(T)=1q ).

L'esempio 1 su Wikipedia ci mostra che la stima della massima probabilità di dopo 2 teste di fila è p M L E = 1 . Ma i dati non escludono in alcun modo il vero valore del parametro p ( H ) = 0,5 (non preoccupiamoci dei dettagli al momento). In effetti solo valori molto piccoli di p ( H ) e in particolare p ( H ) = 0 possono essere ragionevolmente eliminati dopo n = 2P(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2 (due lanci della moneta). Dopo ilil terzo tiro viene fuori, ora possiamo eliminare la possibilità che (cioè non sia una moneta a due teste), ma la maggior parte dei valori nel mezzo può essere ragionevolmente supportata dai dati . (Un intervallo binomiale esatto di confidenza al 95% per p ( H )P(H)=1.0p(H) è compreso tra 0,094 e 0,992.

Dopo 100 lanci di monete e (diciamo) 70 teste, ora abbiamo una base ragionevole per il sospetto che la moneta non sia effettivamente giusta. Un IC esatto al 95% su è ora da 0,600 a 0,787 e la probabilità di osservare un risultato estremo come 70 o più teste (o code) da 100 lanci dati p ( H ) = 0,5p(H)p(H)=0.5 è 0,0000785.

Anche se non ho usato esplicitamente i calcoli della verosimiglianza, questo esempio cattura il concetto di verosimiglianza: la verosimiglianza è una misura della misura in cui un campione fornisce supporto per valori particolari di un parametro in un modello parametrico .


3
Bella risposta! Soprattutto gli ultimi tre paragrafi sono molto utili. Come estenderesti questo per descrivere il caso continuo?
Demetris,

8
Per me, la migliore risposta. Non mi dispiace affatto per la matematica, ma per me la matematica è uno strumento governato da ciò che voglio (non mi piace la matematica per se stessa, ma per quello che mi aiuta a fare). Solo con questa risposta conosco quest'ultima.
Mörre,

73

Ti darò la prospettiva dal punto di vista della teoria del rischio che ha avuto origine con Fisher - ed è la base per la definizione statistica nell'articolo citato di Wikipedia.

XF(X;θ)θFX=xP(X=x)=F(x;θ)θ

XθFθL(θ)=P(θ;X=x)Xθ è sconosciuto; infatti la motivazione per definire la probabilità è di determinare il parametro della distribuzione.

Anche se sembra che abbiamo semplicemente riscritto la funzione di probabilità, una conseguenza fondamentale di ciò è che la funzione di probabilità non obbedisce alle leggi della probabilità (ad esempio, non è legata all'intervallo [0, 1]). Tuttavia, la funzione di probabilità è proporzionale alla probabilità dei dati osservati.

Questo concetto di verosimiglianza in realtà porta a una diversa scuola di pensiero, "verosimiglianza" (distinta da frequentista e bayesiana) e puoi cercare su Google tutti i vari dibattiti storici. La pietra angolare è il principio di verosimiglianza che afferma essenzialmente che possiamo eseguire l'inferenza direttamente dalla funzione di verosimiglianza (né i bayesiani né i frequentisti lo accettano poiché non è un'inferenza basata sulla probabilità). Oggigiorno molto di ciò che viene insegnato come "frequentista" nelle scuole è in realtà un amalgama di pensiero frequentatore e verosimile.

Per una comprensione più profonda, un buon inizio e un riferimento storico è la probabilità di Edwards . Per una versione moderna, consiglierei la meravigliosa monografia di Richard Royall, Statistical Evidence: A Likelihood Paradigm .


3
Risposta interessante, in realtà pensavo che la "scuola di verosimiglianza" fosse fondamentalmente la "frequentatori che non progettano la scuola dei campioni", mentre la "scuola di design" era il resto dei frequentatori. In realtà trovo difficile dire quale "scuola" sono, dato che ho un po 'di conoscenza da ogni scuola. La scuola "Probabilità come logica estesa" è la mia preferita (duh), ma non ho abbastanza esperienza pratica nell'applicarla a problemi reali per essere dogmatica al riguardo.
Probislogic,

5
+1 per "la funzione di verosimiglianza non obbedisce alle leggi della probabilità (ad esempio, non è vincolata all'intervallo [0, 1]). Tuttavia, la funzione di verosimiglianza è proporzionale alla probabilità dei dati osservati."
Walrus the Cat,

10
"la funzione di verosimiglianza non obbedisce alle leggi della probabilità" potrebbe usare qualche ulteriore chiarimento, specialmente perché è stato scritto come θ: L (θ) = P (θ; X = x), cioè identificato con una probabilità!
redcalx,

Grazie per la tua risposta. Potresti per favore rispondere al commento fatto da @locster?
Vivek Subramanian,

2
Per me come non matematico, questo sembra matematica religiosa, con convinzioni diverse che portano a valori diversi per la possibilità che si verifichino eventi. Puoi formularlo, in modo che sia più facile capire quali sono le diverse credenze e perché tutte hanno un senso, invece che una sia semplicemente errata e l'altra scuola / credenza sia corretta? (supponiamo che esista un modo corretto di calcolare le possibilità che si verifichino eventi)
Zelphir Kaltstahl,

57

Date tutte le risposte tecniche di cui sopra, lasciatemi riportare al linguaggio: la probabilità quantifica l'anticipazione (del risultato), la probabilità quantifica la fiducia (nel modello).

Supponiamo che qualcuno ci sfidi a un "gioco d'azzardo redditizio". Quindi, le probabilità ci serviranno per calcolare cose come il profilo atteso dei tuoi guadagni e perdite (media, modalità, mediana, varianza, rapporto di informazioni, valore a rischio, rovina dei giocatori d'azzardo e così via). Al contrario, la probabilità ci servirà per quantificare in primo luogo se ci fidiamo di tali probabilità; o se "sentiamo l'odore di un topo".


Per inciso - dal momento che qualcuno sopra menzionato le religioni della statistica - credo che il rapporto di verosimiglianza sia parte integrante del mondo bayesiano e di quello frequentista: nel mondo bayesiano, la formula di Bayes si combina semplicemente con la probabilità di produrre posteriore.


Questa risposta lo riassume per me. Ho dovuto pensare a cosa significasse quando ho letto che la probabilità non è probabilità, ma mi è venuto in mente il caso seguente. Qual è la probabilità che una moneta sia giusta, dato che vediamo quattro teste di fila? Non possiamo davvero dire nulla sulla probabilità qui, ma la parola "fiducia" sembra appropriata. Riteniamo di poterci fidare della moneta?
dnuttle,

Inizialmente questo potrebbe essere stato lo scopo storicamente inteso delle probabilità, ma oggigiorno le probabilità sono ogni calcolo bayesiano, ed è noto che le probabilità possono mescolare convinzioni e plausibilità, motivo per cui è stata creata la teoria di Dempster-Shafer, per chiarire entrambe le interpretazioni.
gaborous

50

p(1p)x=1x=0f

f(x,p)=px(1p)1x

f(x,2/3)p=2/3f(1,p)px=1


Bel complemento alle definizioni teoriche usate sopra!
Frank Meulenaar,

Cknpn(1p)knnkpx(1p)1xkx=n/k

41

Se ho una moneta giusta (valore del parametro), allora la probabilità che arrivi a testa è 0,5. Se lancio una moneta 100 volte e esce testa 52 volte, allora ha un'alta probabilità di essere equa (il valore numerico della probabilità che potenzialmente assume un numero di forme).


4
Questa e la risposta di Gypsy dovrebbero essere al top! Intuizione e chiarezza al di sopra del rigido rigore matematico, per non dire qualcosa di più dispregiativo.
Nemanja Radojković,

24

P(x|θ)

  • xθθP(x|θ)xθP(x;θ)Pθ(x)θP(x|θ)P(xθ)/P(θ)
  • θxθ^θP(x|θ)P(x|θ^)θxL(θ^|x)P(x|θ)xθθ

Spesso, questa espressione è ancora una funzione di entrambi i suoi argomenti, quindi è piuttosto una questione di enfasi.


Per il secondo caso, ho pensato che le persone di solito scrivessero P (theta | x).
Yuqian,

Originariamente intuitivamente pensavo già che fossero entrambe le parole per lo stesso con una differenza nella prospettiva o nella formulazione del linguaggio naturale, quindi mi sento come "Cosa? Avevo ragione da sempre ?!" Ma se è così, perché distinguerli è così importante? L'inglese non è la mia madrelingua, sono cresciuto con una sola parola per entrambi i termini (o semplicemente non ho mai avuto un problema in cui dovevo distinguere i termini?) E non ho mai saputo che ci fosse differenza. È solo ora che conosco due termini inglesi che inizio a dubitare della mia comprensione di queste cose.
Zelphir Kaltstahl,

3
La tua risposta sembra molto conveniente ed è facile da capire. Mi chiedo perché abbia ottenuto così pochi voti.
Julian,

4
θθθθ

penso che questa sia la migliore risposta tra tutte
Aaron l'

4

θ

P(X|θ)θP(X|θ)dθθθ


1
Come sottolinea la risposta di @Lenar Hoyt, se theta è una variabile casuale (che può essere), allora la probabilità è una probabilità. Quindi la vera risposta sembra essere che la probabilità può essere una probabilità, ma a volte no.
Mike Wise,

@MikeWise, penso che theta possa sempre essere visto come una variabile "casuale", mentre è probabile che non sia così "casuale" ...
Response777

4

conosci il pilota della serie tv "num3ers" in cui l'FBI cerca di localizzare la base di un criminale seriale che sembra scegliere le sue vittime a caso?

p(x|θ)xθxθpθ(x)=p(x|θ)xθ

xθ

θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^

lx(θ)θpθ(x)xp(x|θ)xθ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.