Perché abbattere il denominatore nel teorema di Bayes?


23

(Sono un principiante alle statistiche. Sono un matematico e un programmatore e sto cercando di creare qualcosa di simile a un ingenuo filtro antispam bayesiano.)

Ho notato in molti luoghi che le persone tendono a scomporre il denominatore nell'equazione del Teorema di Bayes. Quindi invece di questo:

P(A|B)P(B)P(A)

Ci viene presentato questo:

P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

Puoi vedere che questa convenzione è usata in questo articolo di Wikipedia e in questo post perspicace di Tim Peters.

Sono sconcertato da questo. Perché il denominatore è suddiviso in questo modo? In che modo aiuta le cose? Cosa c'è di così complicato nel calcolare , che nel caso dei filtri antispam sarebbe ?P(A)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not


Ho il sospetto che la risposta sia specifica del dominio (cioè specifica per i filtri antispam). Se è possibile calcolare i componenti P (A | B) ecc., Si dovrebbe essere in grado di calcolare la P (A) più semplice come indicato. Oppure, forse la risposta è legata alla pedagogia in modo che i lettori comprendano la relazione tra P (A) e la sua decomposizione in termini di P (A | B), P (B) ecc.

1
Non ho una risposta forte, ma posso dire che ho fatto degli stupidi errori nei test in cui avrei potuto semplicemente inserire dati nel denominatore esplicito, ma pensavo di conoscere P (A) e mi sbagliavo.
Wayne,

Risposte:


16

La risposta breve alla tua domanda è: "il più delle volte non sappiamo cosa sia P (formaggio), ed è spesso (relativamente) difficile da calcolare".

La risposta più lunga per cui la regola / il teorema di Bayes è normalmente dichiarata nel modo in cui hai scritto è perché nei problemi bayesiani abbiamo - seduto in grembo - una distribuzione precedente (la P (B) sopra) e la probabilità (la P (A | B), P (A | notB) sopra) ed è una questione di moltiplicazione relativamente semplice calcolare il posteriore (la P (B | A)). Andare al problema di riesprimere P (A) nella sua forma riassuntiva è uno sforzo che potrebbe essere speso altrove.

Potrebbe non sembrare così complicato nel contesto di un'e-mail perché, come hai giustamente notato, è solo P (formaggio), giusto? Il problema è che con problemi Bayesiani sul campo di battaglia maggiormente coinvolti, il denominatore è un integrale sgradevole, che può avere o meno una soluzione in forma chiusa. In effetti, a volte abbiamo bisogno di sofisticati metodi Monte Carlo solo per approssimare l'integrale e cambiare i numeri può essere un vero dolore nella parte posteriore.

Ma più precisamente, di solito non ci interessa nemmeno cosa sia P (formaggio). Tieni presente che stiamo cercando di affinare la nostra convinzione riguardo al fatto che un'e-mail sia o meno uno spam e non potrebbe interessarci di meno della distribuzione marginale dei dati (la P (A), sopra). È comunque solo una costante di normalizzazione, che non dipende dal parametro; l'atto di sommatoria elimina tutte le informazioni che abbiamo avuto sul parametro. La costante è una seccatura da calcolare ed è in definitiva irrilevante quando si tratta di azzerare le nostre convinzioni sul fatto se lo spam sia o meno e-mail. A volte siamo obbligati a calcolarlo, nel qual caso il modo più rapido per farlo è con le informazioni che abbiamo già: il precedente e la probabilità.


Qualcuno potrebbe fornire ed esempio di "un integrale sgradevole, che può o meno avere una soluzione in forma chiusa", che verrebbe utilizzato in qualche problema?
PaulG

8

Uno dei motivi per usare la regola della probabilità totale è che spesso ci occupiamo delle probabilità dei componenti in quell'espressione ed è semplice trovare la probabilità marginale semplicemente inserendo i valori. Per un'illustrazione di questo, vedi il seguente esempio su Wikipedia:

Un altro motivo è riconoscere forme equivalenti della Regola di Bayes manipolando quell'espressione. Per esempio:

P(B|A)=P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

Dividi attraverso l'RHS per il numeratore:

P(B|A)=11+P(A|¬B)P(A|B)P(¬B)P(B)

Che è una bella forma equivalente per la regola di Bayes, resa ancora più pratica sottraendola dall'espressione originale per ottenere:

P(¬B|A)P(B|A)=P(A|¬B)P(A|B)P(¬B)P(B)

Questa è la regola di Bayes dichiarata in termini di Odds, cioè probabilità posteriori contro B = fattore di Bayes contro B volte le probabilità precedenti contro B. (Oppure potresti invertirlo per ottenere un'espressione in termini di probabilità per B.) Il fattore Bayes è il rapporto tra le probabilità dei tuoi modelli. Dato che non siamo sicuri del meccanismo di generazione dei dati sottostante, osserviamo i dati e aggiorniamo le nostre convinzioni.

Non sono sicuro se lo trovi utile, ma spero che non sia sconcertante; dovresti ovviamente lavorare con l'espressione che funziona meglio per il tuo scenario. Forse qualcun altro può convogliare con ragioni ancora migliori.


Puoi fare un ulteriore passo avanti e prendere i registri. Quindi hai rapporto log-posteriore = rapporto log-precedente + rapporto log-verosimiglianza
probabilitlog

6

P(A)

È difficile commentare cos'è la senza sapere se l'e-mail è ham o spam . Hai ragione sul fatto che "cheese" appare nello spam così come in ham, ma se osservi la probabilità di comparsa di "cheese" dato che l'e-mail è ham ( P ( A A | ¬ B ) sarà bassa nel mio caso , poiché non molti spam contengono la parola formaggio. Fondamentalmente, proviamo a guardare al verificarsi dell'evento di interesse (qui A ) suddiviso in due eventi disgiunti , B e ¬ BP(A)P(A|B)BP(A|B)P(A|¬B)B¬BP(A|B)P(A|¬B)P(B)P(¬B)

P(A)=P(A|B)P(B)+P(A|¬B)P(¬B)
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.