Perché abbattere il denominatore nel teorema di Bayes?

23

(Sono un principiante alle statistiche. Sono un matematico e un programmatore e sto cercando di creare qualcosa di simile a un ingenuo filtro antispam bayesiano.)

Ho notato in molti luoghi che le persone tendono a scomporre il denominatore nell'equazione del Teorema di Bayes. Quindi invece di questo:

$\frac{P(A|B)\cdot P(B)}{P(A)}$

Ci viene presentato questo:

$\frac{P(A|B)\cdot P(B)}{P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)}$

Puoi vedere che questa convenzione è usata in questo articolo di Wikipedia e in questo post perspicace di Tim Peters.

Sono sconcertato da questo. Perché il denominatore è suddiviso in questo modo? In che modo aiuta le cose? Cosa c'è di così complicato nel calcolare , che nel caso dei filtri antispam sarebbe ? $P(A)$ The probability that the word "cheese" appears in an email, regardless of whether it's spam or not

bayesian

— Ram Rachum
fonte

Ho il sospetto che la risposta sia specifica del dominio (cioè specifica per i filtri antispam). Se è possibile calcolare i componenti P (A | B) ecc., Si dovrebbe essere in grado di calcolare la P (A) più semplice come indicato. Oppure, forse la risposta è legata alla pedagogia in modo che i lettori comprendano la relazione tra P (A) e la sua decomposizione in termini di P (A | B), P (B) ecc.

1

Non ho una risposta forte, ma posso dire che ho fatto degli stupidi errori nei test in cui avrei potuto semplicemente inserire dati nel denominatore esplicito, ma pensavo di conoscere P (A) e mi sbagliavo.

— Wayne,

16

La risposta breve alla tua domanda è: "il più delle volte non sappiamo cosa sia P (formaggio), ed è spesso (relativamente) difficile da calcolare".

La risposta più lunga per cui la regola / il teorema di Bayes è normalmente dichiarata nel modo in cui hai scritto è perché nei problemi bayesiani abbiamo - seduto in grembo - una distribuzione precedente (la P (B) sopra) e la probabilità (la P (A | B), P (A | notB) sopra) ed è una questione di moltiplicazione relativamente semplice calcolare il posteriore (la P (B | A)). Andare al problema di riesprimere P (A) nella sua forma riassuntiva è uno sforzo che potrebbe essere speso altrove.

Potrebbe non sembrare così complicato nel contesto di un'e-mail perché, come hai giustamente notato, è solo P (formaggio), giusto? Il problema è che con problemi Bayesiani sul campo di battaglia maggiormente coinvolti, il denominatore è un integrale sgradevole, che può avere o meno una soluzione in forma chiusa. In effetti, a volte abbiamo bisogno di sofisticati metodi Monte Carlo solo per approssimare l'integrale e cambiare i numeri può essere un vero dolore nella parte posteriore.

Ma più precisamente, di solito non ci interessa nemmeno cosa sia P (formaggio). Tieni presente che stiamo cercando di affinare la nostra convinzione riguardo al fatto che un'e-mail sia o meno uno spam e non potrebbe interessarci di meno della distribuzione marginale dei dati (la P (A), sopra). È comunque solo una costante di normalizzazione, che non dipende dal parametro; l'atto di sommatoria elimina tutte le informazioni che abbiamo avuto sul parametro. La costante è una seccatura da calcolare ed è in definitiva irrilevante quando si tratta di azzerare le nostre convinzioni sul fatto se lo spam sia o meno e-mail. A volte siamo obbligati a calcolarlo, nel qual caso il modo più rapido per farlo è con le informazioni che abbiamo già: il precedente e la probabilità.

Qualcuno potrebbe fornire ed esempio di "un integrale sgradevole, che può o meno avere una soluzione in forma chiusa", che verrebbe utilizzato in qualche problema?

— PaulG

8

Uno dei motivi per usare la regola della probabilità totale è che spesso ci occupiamo delle probabilità dei componenti in quell'espressione ed è semplice trovare la probabilità marginale semplicemente inserendo i valori. Per un'illustrazione di questo, vedi il seguente esempio su Wikipedia:

Teorema di Bayes> Esempio 1: Test antidroga

Un altro motivo è riconoscere forme equivalenti della Regola di Bayes manipolando quell'espressione. Per esempio:

$P(B|A) = \frac{P(A|B) P(B)}{P(A|B)P(B) + P(A|\lnot B)P(\lnot B)}$

Dividi attraverso l'RHS per il numeratore:

$P(B|A) = \frac{1} {1 + \frac{P(A|\lnot B)}{P(A|B)} \frac{P(\lnot B)}{P(B)}}$

Che è una bella forma equivalente per la regola di Bayes, resa ancora più pratica sottraendola dall'espressione originale per ottenere:

$\frac{P(\lnot B|A)}{P(B|A)} = \frac{P(A|\lnot B)} {P(A|B)} \frac {P(\lnot B)} {P(B)}$

Questa è la regola di Bayes dichiarata in termini di Odds, cioè probabilità posteriori contro B = fattore di Bayes contro B volte le probabilità precedenti contro B. (Oppure potresti invertirlo per ottenere un'espressione in termini di probabilità per B.) Il fattore Bayes è il rapporto tra le probabilità dei tuoi modelli. Dato che non siamo sicuri del meccanismo di generazione dei dati sottostante, osserviamo i dati e aggiorniamo le nostre convinzioni.

Non sono sicuro se lo trovi utile, ma spero che non sia sconcertante; dovresti ovviamente lavorare con l'espressione che funziona meglio per il tuo scenario. Forse qualcun altro può convogliare con ragioni ancora migliori.

— ars
fonte

Puoi fare un ulteriore passo avanti e prendere i registri. Quindi hai rapporto log-posteriore = rapporto log-precedente + rapporto log-verosimiglianza

— probabilitlog

6

$P (A)$

È difficile commentare cos'è la senza sapere se l'e-mail è ham o spam . Hai ragione sul fatto che "cheese" appare nello spam così come in ham, ma se osservi la probabilità di comparsa di "cheese" dato che l'e-mail è ham ( sarà bassa nel mio caso , poiché non molti spam contengono la parola formaggio. Fondamentalmente, proviamo a guardare al verificarsi dell'evento di interesse (qui A ) suddiviso in due eventi disgiunti , e $P(A)$ $P(A | B)$ $B$ $P(A | B)$ $P(A | \neg B)$ $B$ $\neg B$ $P(A | B)$ $P(A | \neg B)$ $P(B)$ $P(\neg B)$

P (A) = P (A | B) \cdot P (B) + P (A | \neg B) \cdot P (\neg B)

$P(A) = P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)$

— suncoolsu
fonte