Qual è la probabilità che questa persona sia femmina?


32

C'è una persona dietro una tenda - non so se la persona sia femmina o maschio.

So che la persona ha i capelli lunghi e che il 90% di tutte le persone con i capelli lunghi sono donne

So che la persona ha un raro gruppo sanguigno AX3 e che l'80% di tutte le persone con questo gruppo sanguigno sono donne.

Qual è la probabilità che la persona sia femmina?

NOTA: questa formulazione originale è stata ampliata con due ulteriori ipotesi: 1. Il gruppo sanguigno e la lunghezza dei capelli sono indipendenti 2. Il rapporto tra maschi e femmine nella popolazione in generale è 50:50

(Lo scenario specifico qui non è così rilevante - piuttosto, ho un progetto urgente che richiede di avere la mia mente intorno all'approccio corretto per rispondere a questo. La mia sensazione è che si tratti di una semplice probabilità, con una semplice risposta definitiva, piuttosto di qualcosa con più risposte discutibili secondo diverse teorie statistiche.)


1
Non ci sono più teorie della probabilità, ma è notoriamente vero che le persone hanno difficoltà a pensare correttamente alle probabilità. (Augustus DeMorgan, un buon matematico, ha rinunciato allo studio della probabilità a causa delle sue difficoltà.) Non guardare ai dibattiti: cerca appelli ai principi di probabilità (come gli assiomi di Kolmogorov). Non lasciare che ciò si risolva democraticamente: la tua domanda sta attirando molte risposte mal concepite che, anche se alcuni di loro sono d'accordo, sono semplicemente collettivamente sbagliate. @Michael C offre una buona guida; la mia risposta cerca di mostrarti perché ha ragione.
whuber

@Whuber, se si presuppone l'indipendenza, concorderesti che 0.97297 è la risposta corretta? (Credo che la risposta potrebbe essere compresa tra lo 0% e il 100% senza questo presupposto: i tuoi diagrammi lo mostrano bene).
Probabilmente tra il

Indipendenza di cosa, precisamente? Stai suggerendo che le acconciature femminili e maschili sono uguali? Come dici nella tua domanda, questo particolare scenario che coinvolge genere / capelli / gruppo sanguigno potrebbe non essere rilevante: questo mi dice che cerchi di capire come risolvere problemi come questo in generale. Per fare ciò dovrai sapere quali ipotesi implicano quali conclusioni. Pertanto, devi concentrarti molto attentamente sulle ipotesi che sei disposto a fare e determinare esattamente quanto ti permettono di concludere.
whuber

3
Il tipo di indipendenza da esplorare riguarda la combinazione di tutte e tre le caratteristiche. Ad esempio, se AX3 è un marker per una sindrome che include la calvizie nelle femmine (ma non nei maschi), allora ogni persona con i capelli lunghi con AX3 è necessariamente maschio, il che rende la probabilità di essere femmina 0%, non 97,3%. Spero che ciò renda evidente che chiunque produca una risposta definitiva a questa domanda deve fare ipotesi aggiuntive, anche se non le riconoscono esplicitamente. Le risposte veramente utili, IMHO, sarebbero quelle che mostrano direttamente come ipotesi diverse portano a risultati diversi.
whuber

2
Ti stai perdendo la probabilità che una femmina non abbia i capelli lunghi. Questa è una misura critica.
Daniel R Hicks,

Risposte:


35

Molte persone trovano utile pensare in termini di "popolazione", sottogruppi al suo interno e proporzioni (piuttosto che probabilità). Questo si presta al ragionamento visivo.

Spiegherò le cifre in dettaglio, ma l'intenzione è che un rapido confronto tra le due figure dovrebbe indicare immediatamente e in modo convincente come e perché non è possibile dare una risposta specifica alla domanda. Un esame leggermente più lungo suggerirà quali informazioni aggiuntive sarebbero utili per determinare una risposta o almeno ottenere limiti sulle risposte.

diagramma di Venn

Leggenda

Tratteggio incrociato : femmina / Sfondo solido : maschio.

In alto : pelo lungo / In basso : pelo corto.

Destra (e colorata) : AX3 / Sinistra (non colorata ) : non AX3.

Dati

Il tratteggio superiore è il 90% del rettangolo superiore ("Il 90% di tutte le persone con i capelli lunghi sono donne").

Il tratteggio totale nel rettangolo colorato a destra è l'80% di quel rettangolo ("L'80% di tutte le persone con questo gruppo sanguigno sono donne.")

Spiegazione

Questo diagramma mostra schematicamente come la popolazione (di tutte le femmine e non femmine in esame) possa essere suddivisa simultaneamente in femmine / non femmine, AX3 / non-AX3 e capelli lunghi / non lunghi ("corti"). Usa l'area, almeno approssimativamente, per rappresentare le proporzioni (c'è qualche esagerazione per rendere l'immagine più chiara).

È evidente che queste tre classificazioni binarie creano otto possibili gruppi. Ogni gruppo appare qui.

Le informazioni fornite indicano che il rettangolo superiore tratteggiato (femmine dai capelli lunghi) comprende il 90% del rettangolo superiore (tutte le persone dai capelli lunghi). Indica inoltre che le parti tratteggiate incrociate dei rettangoli colorati (femmine a pelo lungo con AX3 e femmine a pelo corto con AX3) comprendono l'80% della regione colorata a destra (tutte le persone con AX3). Ci viene detto che qualcuno si trova nell'angolo in alto a destra (freccia): persone dai capelli lunghi con AX3. Quale proporzione di questo rettangolo è tratteggiata (femmina)?

Ho anche (implicitamente) ipotizzato che il gruppo sanguigno e la lunghezza dei capelli siano indipendenti : la proporzione del rettangolo superiore (capelli lunghi) che è colorata (AX3) è uguale alla proporzione del rettangolo inferiore (capelli corti) che è colorata (AX3). Questo è ciò che significa indipendenza. È un'ipotesi equa e naturale da fare quando si affrontano domande come questa, ma ovviamente deve essere dichiarato.

La posizione del rettangolo tratteggiato superiore (femmine dai capelli lunghi) non è nota. Possiamo immaginare di far scorrere lateralmente il rettangolo tratteggiato in alto e di scorrere lateralmente il rettangolo tratteggiato in croce e di modificarne eventualmente la larghezza. Se lo facciamo in modo tale che l'80% del rettangolo colorato rimanga tratteggiato, una tale alterazione cambierà nessuna delle informazioni dichiarate, ma può alterare la proporzione di femmine nel rettangolo in alto a destra. Evidentemente la proporzione potrebbe essere compresa tra lo 0% e il 100% e comunque essere coerente con le informazioni fornite, come in questa immagine:

figura 2


Un punto di forza di questo metodo è che stabilisce l'esistenza di risposte multiple alla domanda. Si potrebbe tradurre tutto questo algebricamente e, mediante la stipulazione delle probabilità, offrire situazioni specifiche come possibili esempi, ma allora sorgerebbe la domanda se tali esempi siano realmente coerenti con i dati. Ad esempio, se qualcuno dovesse suggerire che forse il 50% delle persone con i capelli lunghi è AX3, all'inizio non è evidente che ciò sia persino possibile date tutte le informazioni disponibili. Questi diagrammi (di Venn) della popolazione e dei suoi sottogruppi chiariscono queste cose.


3
Whuber, supponendo che il gruppo sanguigno e la lunghezza dei capelli siano indipendenti, quindi sicuramente la parte delle donne con i capelli lunghi con il tipo AX3 dovrebbe essere uguale alla porzione delle donne con i capelli corti con AX3? Cioè non hai la flessibilità di spostare i rettangoli nel modo in cui proponi ... Se assumiamo anche che uomini e donne siano 50:50 in tutta la popolazione, non ci danno informazioni sufficienti per risolvere questa domanda con un singolo risposta indiscutibile?
Probabilmente tra il

@whuber +1 molto bello.
Michael R. Chernick,

5
Probabilmente sbaglio, dai un'occhiata da vicino alla domanda nel tuo commento: poiché si tratta di donne , sta facendo un'ulteriore ipotesi sull'indipendenza subordinata al genere. L'ipotesi di indipendenza (incondizionata) di capelli e gruppo sanguigno non menziona affatto il genere, quindi per capire cosa significhi, cancellare il tratteggio dalle figure. Questo, spero, indica perché abbiamo la flessibilità di collocare il tratteggio ovunque ci piaccia all'interno dei rettangoli superiore e inferiore.
whuber

1
@whuber, mi piace questo. Tuttavia, ho 2 domande / chiarimenti: 1. le cifre sembrano assumere proporzioni di popolazione per capelli lunghi e corti (circa 6: 4) e ~ AX3 vs AX3 (circa 85:15), ma questo non è menzionato nella domanda originale né discusso nelle tue spiegazioni delle figure. Sospetto che le proporzioni pop non siano rilevanti. Ho ragione / potresti chiarirlo nelle spiegazioni? 2. Penso che questa situazione alla fine stia funzionando con lo stesso fenomeno del Paradox di Simpson , inquadrato solo diversamente (arrivando alla questione dall'altra direzione, per così dire). È una valutazione corretta?
gung - Ripristina Monica

3
@gung, grazie per aver fatto quei chiarimenti. Le figure ovviamente devono rappresentare alcune proporzioni per funzionare, ma qualsiasi proporzione non specificata in modo specifico nella dichiarazione del problema è libera di variare. (Ho costruito la figura in modo che circa il 50% della popolazione appaia femminile, anticipando una modifica successiva in cui questo è stato assunto.) L'idea di applicare questa rappresentazione grafica per comprendere il Paradosso di Simpson è intrigante; Penso che abbia merito.
whuber

13

Questa è una questione di probabilità condizionata. Sai che la persona ha i capelli lunghi e il gruppo sanguigno Ax3. Lascia A = { 'La persona ha i capelli lunghi' } Quindi cerchi P ( C | A e B ) . Sai che P ( C | A ) = 0.9 e P ( C | B ) = 0.8 . È abbastanza per calcolare P ( C | A e B ) ? Supponiamo che P ( A e B e C ) = 0,7

     UN={'The person has long hair'}              B={'The person has blood type Ax3'}C={'The person is female'}.

P(C|A and B)P(C|A)=0.9P(C|B)=0.8
P(C|A and B)P(A and B and C)=0.7. Quindi Supponiamo che P ( A e B ) = 0,8 . Quindi, con quanto sopra, P ( C | A e B ) = 0,875
P(C|A and B)=P(A and B and C)/P(A and B)=0.7/P(A and B).
P(A and B)=0.8P(C|A and B)=0.875. D'altra parte se avremmo quindi P ( C | A e B ) = 0,78.P(A and B)=0.9P(C|A and B)

Ora entrambi sono possibili quando e P ( C | B ) = 0.8 . Quindi non possiamo dire con certezza cosa sia P ( C | A e B ) .P(C|A)=0.9P(C|B)=0.8P(C|A and B)


Ciao Michael, se ti leggo correttamente, stai dicendo alla domanda come posta non è possibile rispondere, giusto? O per dirla in altro modo, avresti bisogno di ulteriori informazioni per rispondere a questa domanda? 1. Supponiamo che il raro gruppo sanguigno nella mia domanda originale non abbia alcun impatto sul desiderio o sulla capacità di una persona di far crescere i capelli. È ora possibile rispondere alla domanda? 2. Concorderesti che la risposta deve essere MAGGIORE di 0,9? (Perché hai una seconda informazione indipendente - gruppo sanguigno - che rafforza l'ipotesi che la persona sia una femmina)
Probabilmente tra il

2
Se è indipendente, allora P ( A  e  B ) = P ( A ) P ( B ) e dovrai specificare quale frazione di persone ha i capelli lunghi, cioè P ( A ) e quale frazione delle persone ha il gruppo sanguigno Ax3, cioè P ( B ) . Inoltre, non puoi dire che la risposta deve essere maggiore di 0,9, il che equivale a dichiarare che P ( C | A  e  B )P(A and B)P(A and B)=P(A)P(B)P(A)P(B) (Davvero non vedo perché). P(C|A and B)>0.9
Néstor,

2
@ProbablyWrong. Sì, il problema, come inizialmente affermato, ha informazioni insufficienti per una risposta univoca.
Michael R. Chernick,

@ Néstor, Micahael, non sono d'accordo sul fatto che dobbiamo sapere quale frazione di persone ha i capelli lunghi o quale frazione di persone ha il gruppo sanguigno AX3. Penso che la risposta alla domanda originale si risolva in modo univoco senza conoscerli (supponendo che A e B siano indipendenti, cosa che tutti noi abbiamo, e supponendo che conosciamo la divisione di uomini e donne nell'intera popolazione - non irragionevole supporre che sia circa 50:50 , Credo).
Probabilmente tra il

7
Perché Ho pensato che P ( C | A B ) = P ( C ( A B ) )
P(C|A and B)=P(A and B and C)×P(A and B)??
usando la definizione di probabilità condizionale.
P(C|AB)=P(C(AB))P(AB)=P(ABC)P(AB)
Dilip Sarwate,

4

Discussione affascinante! Mi chiedo se abbiamo specificato anche P (A) e P (B) se gli intervalli di P (C | A, B) non saranno molto più ristretti dell'intero intervallo [0,1], semplicemente a causa dei numerosi vincoli noi abbiamo.

Attenendosi alla notazione introdotta sopra:

A = l'evento in cui la persona ha i capelli lunghi

B = l'evento in cui la persona ha il gruppo sanguigno AX3

C = l'evento che quella persona è femmina

P (C | A) = 0.9

P (C | B) = 0,8

P (C) = 0,5 (ovvero ipotizziamo un uguale rapporto tra uomini e donne nella popolazione in generale)

non sembra possibile supporre che gli eventi A e B siano condizionatamente indipendenti, dato C! Ciò porta direttamente a una contraddizione: se P(AB|C)=P(A|C)P(B|C)=P(C|A)P(A)P(C)P(C|B)P(B)P(C)

poi

P(C|AB)=P(AB|C)(P(C)P(AB))=P(C|A)P(A)P(C)P(C|B)P(B)P(C)(P(C)P(AB))

Se ora assumiamo che anche A e B siano indipendenti: maggior parte dei termini si annulla e si finisce conP(AB)=P(A)P(B)

P(C|UNB)=P(C|UN)P(C|B)P(C)=0.90.80.5>1

P(C|UNB)[0,1]P(UN)P(B)P(UN)P(B)

P(C|UNB)

P(C|UN)=0.9

P(C)=0.5

P(C|B)=0.8

4. (banale) Il rettangolo superiore non può essere spostato oltre il limite sinistro e non deve essere spostato oltre la minima sovrapposizione a sinistra.

5. (banale) Il rettangolo inferiore non può essere spostato oltre il limite destro e non deve essere spostato oltre la sua massima sovrapposizione verso destra.

P(C|UNB) . La figura seguente (creata con questo script R ) mostra due esempi inserisci qui la descrizione dell'immagine

L'esecuzione di un intervallo di valori possibili per P (A) e P (B) ( script R ) genera questo grafico inserisci qui la descrizione dell'immagine

In conclusione, possiamo abbassare il limite della probabilità condizionale P (c | A, B) per P (A), P (B) dato


2
UN,B,C

1
@whuber: grazie per l'utile commento! Spero che le nuove modifiche lo rendano più leggibile e chiaro.
Markus Loecher,

@whuber e altri: avevo sperato di riaccendere la discussione ma il thread sembra essere diventato inattivo? Non ci sono più commenti da parte di nessuno?
Markus Loecher,

1

Fare le ipotesi è che la persona dietro una tenda sia una donna.

Abbiamo fornito 2 prove, vale a dire:

Prova 1: sappiamo che la persona ha i capelli lunghi (e ci viene detto che il 90% di tutte le persone con i capelli lunghi sono donne)

Prova 2: sappiamo che la persona ha un raro gruppo sanguigno AX3 (e ci viene detto che l'80% di tutte le persone con questo gruppo sanguigno sono donne)

Dato solo l'Evidenza 1, possiamo affermare che la persona dietro una tenda ha un valore di probabilità di 0,9 di essere una donna (supponendo che 50:50 siano divisi tra uomini e donne).

Per quanto riguarda la domanda posta precedentemente nel thread, vale a dire "Concorderesti che la risposta deve essere MAGGIORE di 0.9?", Senza fare matematica, direi intuitivamente, la risposta deve essere "sì" (è MAGGIORE di 0.9). La logica è che Evidence 2 sta supportando l'evidenza (di nuovo, ipotizzando una divisione 50:50 per il numero di uomini e donne nel mondo). Se ci venisse detto che il 50% di tutte le persone con sangue di tipo AX3 era di sesso femminile, Evidence 2 sarebbe neutro e privo di cuscinetto. Ma poiché ci viene detto che l'80% di tutte le persone con questo gruppo sanguigno sono donne, Evidence 2 supporta prove e logicamente dovrebbe spingere la probabilità finale di una donna sopra lo 0,9.

Per calcolare una probabilità specifica, possiamo applicare la regola di Bayes per Evidence 1 e quindi utilizzare l'aggiornamento bayesiano per applicare Evidence 2 alla nuova ipotesi.

Supponiamo che:

A = l'evento in cui la persona ha i capelli lunghi

B = l'evento in cui la persona ha il gruppo sanguigno AX3

C = l'evento in cui una persona è femmina (ipotizza il 50%)

Applicazione della regola di Bayes all'evidenza 1:

P (C | A) = (P (A | C) * P (C)) / P (A)

In questo caso, sempre se assumiamo una divisione 50:50 tra uomini e donne:

P (A) = (0,5 * 0,9) + (0,5 * 0,1) = 0,5

Quindi, P (C | A) = (0.9 * 0.5) / 0.5 = 0.9 (Non sorprende, ma sarebbe diverso se non avessimo una divisione 50:50 tra uomini e donne)

Usando l'aggiornamento bayesiano per applicare Evidence 2 e inserendo 0.9 come nuova probabilità precedente, abbiamo:

P (C | A AND B) = (P (B | C) * 0.9) / P (E)

Qui, P (E) è la probabilità di Evidenza 2, date le ipotesi che la persona abbia già una probabilità del 90% di essere femmina.

P (E) = (0.9 * 0.8) + (0.1 * 0.2) [questa è la legge della probabilità totale: (P (donna) * P (AX3 | donna) + P (uomo) * P (AX3 | uomo)] Quindi , P (E) = 0,74

Quindi, P (C | A AND B) = (0,8 * 0,9) / 0,74 = 0,97297


1
Ci sono alcune affermazioni nella tua risposta che non hanno senso per me. (1) P (C | A) = 0,9 per ipotesi. Non è stato detto da nessuna parte che P (C) = 0,9. Abbiamo assunto P (C) = 0,5. (2) Come hai ottenuto il risultato per P (E)? P (donna) = P (uomo) = 0,5 per ipotesi in cui scrivi P (donna) = 0,9.
Michael R. Chernick,

Il valore di P (C) è assunto a 0,5, che è quello che ho usato. Il valore per P (E) è la probabilità dell'Evidenza 2 dopo aver applicato l'Evidenza 1 (che porta a una nuova ipotesi che la probabilità che la persona sia femmina è 0,9). P (E) = (probabilità che la persona sia una donna (data Evience 1) * probabilità che la persona abbia AX3 se una donna) + (probabilità che la persona sia un uomo (data Evience 1) * probabilità che la persona abbia AX3 se un uomo) = (0.9 * 0.8) + (0.1 * 0.2) = 0.74
Risposta casuale

La tua definizione di probabilità di E è un po 'confusa e i termini che stai usando per calcolarlo sembrano diversi da quello che hai scritto prima. Non importa davvero però. La risposta è apparentemente corretta in base alla risposta ben presentata di Huu.
Michael R. Chernick,

@Michael Tranne che sembra che Huu abbia commesso degli errori.
whuber

2
Questa risposta è semplicemente sbagliata. Potrebbero esserci altri errori, ma questo è evidente. Dichiari una risposta definitiva per P ("Ha i capelli lunghi") (la tua P (A)), e poi la usi per dare la tua risposta definitiva. Semplicemente non ci sono abbastanza informazioni per determinarlo, anche assumendo P (F) = 0,5. La tua linea per calcolare P (A) sembra provenire dal nulla. Ecco la formula corretta usando il theroem di Bayes: P (A) = P (A | F) P (F) / P (F | A) da cui, usando i tuoi presupposti dichiarati, arriva a P (A) = P (A | F) * 5/9. Tuttavia non sappiamo ancora P (A | F), che potrebbe essere qualsiasi cosa.
Bogdanovist,

0

Riedizione e generalizzazione delle domande

UN, B, e C sono sconosciuti binari i cui possibili valori sono 0 e 1. PermettereZio rappresentano la proposizione "Il valore di Z è io". Let anche (X|Y) sta per "La probabilità che X, dato che Y". Cosa è (UNun'|BBCcio), dato che

  1. (UNun'1|BB1io)=u1 e (UNun'2|Cc2io)=u2
  2. (UNun'1|BB1io)=u1 e (UNun'2|Cc2io)=u2 e (BC|io)=(B|io)(C|io)
  3. (UNun'1|BB1io)=u1 e (UNun'2|Cc2io)=u2 e (UN0|io)=12
  4. (UNun'1|BB1io)=u1 e (UNun'2|Cc2io)=u2 e (UN0|io)=12 e (BC|io)=(B|io)(C|io)

e quello ionon contiene informazioni rilevanti oltre a ciò che è implicito negli incarichi? L'ultima congiunzione delle condizioni 2 e 4 è una scorciatoia per la dichiarazione di indipendenza

(BjCK|io)=(Bj|io)(CK|io),j=0,1K=0,1
Tratta ciascuno dei quattro casi a turno.

risposte

Caso 1

Dobbiamo specificare la distribuzione (UNBC|io). Il problema è indefinito, perché(UNBC|io) richiede otto numeri, ma abbiamo solo tre equazioni: le due condizioni indicate e la condizione di normalizzazione.

È stato dimostrato da vari mezzi esoterici che la distribuzione da assegnare quando le informazioni non determinano altrimenti una soluzione è quella che, tra tutte le distribuzioni coerenti con le informazioni note, ha la più grande entropia. Qualsiasi altra distribuzione implica che sappiamo più delle informazioni conosciute, il che ovviamente è una contraddizione.

Tutto ciò che dobbiamo fare, quindi, è assegnare la massima distribuzione di entropia. Questo è più facile a dirsi che a farsi, e non ho trovato una soluzione generale a forma chiusa. Ma soluzioni particolari possono essere trovate usando un ottimizzatore numerico. Massimizziamo

-Σio,j,K(UNioBjCK|io)ln(UNioBjCK|io)
soggetto ai vincoli
Σio,j,K(UNioBjCK|io)=1
e
(UNun'1|BB1io)=u1vale a direΣK(UNun'1BB1CK|io)Σio,K(UNioBB1CK|io)=u1
e
(UNun'2|Cc2io)=u2vale a direΣj(UNun'2BjCc2|io)Σio,j(UNioBjCc2|io)=u2
Ora applichiamo questo alla domanda. Se abbiamo

  1. "La persona è femmina" UN1
  2. "La persona ha i capelli lunghi" B1
  3. "La persona ha il gruppo sanguigno AX3" C1

poi un'=1, B=1, c=1, un'1=1, B1=1, un'2=1, c2=1, u1=0.9, u2=0.8e scopriamo che per la massima soluzione entropica, (UN1|B1C1io)0,932. Pertanto la probabilità che la persona dietro la tenda sia femmina, dato che ha i capelli lunghi e il gruppo sanguigno AX3, è 0,932.

Caso 2

Ora ripetiamo l'esercizio con l'ulteriore vincolo che per una determinata persona, conoscendo il valore di B (lo stato dei capelli) non influisce sulla nostra stima del valore di C(lo stato del gruppo sanguigno) e viceversa. Tutto è uguale al caso 1, tranne che ci sono due vincoli extra nell'ottimizzazione, vale a dire:

(B0|Clio)=(B0|io),l=0,1
vale a dire
Σio(UNioB0Cl|io)Σio,j(UNioBjCl|io)=Σio,K(UNioB0CK|io),l=0,1
Questo da (UN1|B1C1io)0,936, quindi la probabilità che la persona dietro la tenda sia femmina, dato che ha i capelli lunghi e il gruppo sanguigno AX3, è 0.936.

Caso 3

Ora rimuoviamo la condizione di indipendenza e la sostituiamo con la condizione precedente che vi siano pari possibilità che una determinata persona sia maschio o femmina:

(UN0|io)=12vale a direΣj,K(UN0BjCK|io)=12
Questa volta (UN1|B1C1io)0,973, quindi la probabilità che la persona dietro la tenda sia femmina, dato che ha i capelli lunghi e il gruppo sanguigno AX3, è 0.973.

Caso 4

Infine, reintroduciamo i vincoli di indipendenza del Caso 2 e scopriamo che (UN1|B1C1io)0.989. Pertanto la probabilità che la persona dietro la tenda sia femmina, dato che ha i capelli lunghi e il gruppo sanguigno AX3, è 0,989.


-2

Credo ora che, se assumiamo un rapporto di uomini e donne nella popolazione in generale, allora c'è un'unica risposta indiscutibile.

A = l'evento in cui la persona ha i capelli lunghi

B = l'evento in cui la persona ha il gruppo sanguigno AX3

C = l'evento che quella persona è femmina

P (C | A) = 0.9

P (C | B) = 0,8

P (C) = 0,5 (ovvero ipotizziamo un uguale rapporto tra uomini e donne nella popolazione in generale)

Quindi P (C | A e B) = [P (C | A) x P (C | B) / P (C)] / [[P (C | A) x P (C | B) / P (C )] + [[1-P (C | A)] x [1-P (C | B)] / [1-P (C)]]]

in questo caso, P (C | A e B) = 0.972973


P [C | A e B) = P (A e B e C) / P (A e B) = P (A e B e C) / [P (A | B) P (B)]. Come hai ottenuto la tua formula?
Michael R. Chernick,

C'è probabilmente un modo per aggiungere condizioni in modo da ottenere una risposta unica.
Michael R. Chernick,

Per aggiungere per indipendenza di A e B la formula si semplifica in P (A e B e C} / [P (A) P (B)] = P (B e C | A) / P (B).
Michael R. Chernick,

2
L'intento della mia domanda era davvero che tu giustificassi la formula. Non capisco come sarebbe derivato.
Michael R. Chernick,

2
No, la risposta che presumibilmente ha usato la regola di Bayes è errata. Non sono sicuro del motivo per cui sei confuso, la formula di MC sopra è corretta e non può essere utilizzata per ottenere alcun risultato, ecco cosa spiegano la sua e la Whuber alla domanda!
Bogdanovist,

-2

Nota: per ottenere una risposta definitiva, le risposte seguenti presuppongono che la probabilità che una persona, un uomo con i capelli lunghi e una donna con i capelli lunghi abbia AX3 è approssimativamente la stessa. Se si desidera una maggiore precisione, è necessario verificarlo.

Inizi con la consapevolezza che la persona ha i capelli lunghi, quindi a questo punto le probabilità sono:

90:10

Nota: il rapporto tra maschi e femmine nella popolazione generale non ci interessa quando scopriamo che la persona ha i capelli lunghi. Ad esempio, se ci fosse 1 femmina su cento nella popolazione generale, una persona con i capelli lunghi selezionata casualmente sarebbe comunque una femmina il 90% delle volte. Il rapporto tra femmine e maschi è importante! (vedi l'aggiornamento sotto per i dettagli)

Successivamente, apprendiamo che la persona ha AX3. Poiché AX3 non è correlato ai capelli lunghi, il rapporto tra uomini e donne è noto per essere 50:50 e, dato che la nostra ipotesi è che le stesse siano le stesse, possiamo semplicemente moltiplicare ogni lato della probabilità e normalizzare in modo che la somma di i lati della probabilità equivalgono a 100:

(90:10) * (80:20)
==> 7200:200

    Normalize by dividing each side by (7200+200)/100 = 74

==> 7200/74:200/74
==> 97.297.. : 2.702..

Pertanto, la probabilità che la persona dietro la tenda sia femmina è di circa il 97,297%.

AGGIORNARE

Ecco un'ulteriore esplorazione del problema:

definizioni:

f - number of females
m - number of males
fl - number of females with long hair
ml - number of males with long hair
fx - number of females with AX3
mx - number of males with AX3
flx - number of females with long hair and AX3
mlx - number of males with long hair and AX3
pfl - probability that a female has long hair
pml - probability that a male has long hair
pfx - probability that a female has AX3
pmx - probability that a male has AX3

Innanzitutto, ci viene dato che il 90% delle persone con i capelli lunghi sono donne e l'80% delle persone con AX3 sono donne, quindi:

fl = 9 * ml
pfl = fl / f
pml = ml / m 
    = fl / (9 * m)

fx = 4 * mx
pfx = fx / f
pmx = mx / m 
    = fx / (4 * m)

Poiché abbiamo ipotizzato che la probabilità di AX3 sia indipendente dal genere e dai capelli lunghi, il nostro pfx calcolato si applicherà alle donne con i capelli lunghi e pmx si applicherà agli uomini con i capelli lunghi per trovare il numero di quelli che probabilmente hanno AX3:

flx = fl * pfx 
    = fl * (fx / f) 
    = (fl * fx) / f
mlx = ml * pmx 
    = (fl / 9) * (fx / (4 * m)) 
    = (fl * fx) / (36 * m)

Pertanto, il probabile rapporto tra il numero di femmine a pelo lungo e AX3 e il numero di maschi a pelo lungo e AX3 è:

flx             :   mlx
(fl * fx) / f   :   (fl * fx) / (36 * m)
1/f             :   1 / (36m)
36m             :   f

Dato che c'è un numero uguale di 50:50, puoi cancellare entrambe le parti e terminare con 36 femmine per ogni maschio. Altrimenti, ci sono 36 * m / f femmine per ogni maschio nel sottogruppo specificato. Ad esempio, se ci fossero il doppio delle donne rispetto agli uomini, ci sarebbero 72 femmine per ogni maschio di quelle che hanno i capelli lunghi e AX3.


1
Questa soluzione si basa sull'ipotesi più di quanto sia attualmente affermato nel problema: vale a dire che i capelli lunghi, AX3 e genere sono indipendenti. Altrimenti, non puoi giustificare "l'applicazione" di pfx alle donne con i capelli lunghi, ecc.
whuber

@whuber: Sì, faccio questo presupposto. Tuttavia, lo scopo della probabilità non è quello di fornire la migliore approssimazione in base ai dati che hai? Pertanto, poiché sai già che i capelli lunghi e AX3 sono indipendenti per la popolazione generale, DOVREBBE portare avanti tale ipotesi a maschi e femmine fino a quando non impari esplicitamente diversamente. Certo, non è universalmente corretto, ma è il migliore che puoi fare finché non ottieni maggiori informazioni. D: Con solo i dati attuali, se dovessi dare la probabilità% che fosse una donna dietro il sipario, diresti davvero "tra 0 e 100%"?
Briguy37,

1
Abbiamo una differenza importante nella filosofia, @Briguy. Credo fermamente nel non fare ipotesi infondate. Non è chiaro in che senso il presupposto della reciproca indipendenza sia "migliore": concederò che potrebbe essere in determinate applicazioni. Ma in generale, questo mi sembra pericoloso. Preferirei essere chiaro riguardo alle ipotesi necessarie per risolvere un problema, in modo che le persone possano decidere se vale la pena raccogliere i dati per verificare tali ipotesi, piuttosto che assumere cose che siano matematicamente convenienti per ottenere una risposta. Questa è la differenza tra statistiche e matematica.
whuber

Per rispondere alla tua domanda: sì, 0% - 100% è esattamente la risposta che darei. (Ho dato risposte simili a domande simili su questo sito.) Tale intervallo riflette accuratamente l'incertezza. Questo problema è strettamente legato al paradosso di Ellsberg . Il documento originale di Ellsberg è ben scritto e chiaro: lo consiglio.
whuber

@whuber: Grazie per aver dedicato del tempo a dialogare con me. Vedo il tuo punto sull'importanza di riflettere e elencare le ipotesi formulate e ho aggiornato la mia risposta di conseguenza. Tuttavia, per quanto riguarda la tua risposta, credo che sia incompleta. Il motivo è che puoi considerare tutti i casi sconosciuti e trovare la probabilità media di tutti loro di arrivare alla tua risposta finale. EG Sebbene entrambi siano ancora possibili, le probabilità superiori al 50% sono molto più prevalenti delle probabilità inferiori al 50% in tutti i casi, quindi è sicuramente meglio indovinare che si tratta di una donna.
Briguy37,

-4

98% femmina, interpolazione semplice. La prima premessa 90% femminile, lascia il 10%, la seconda premessa lascia solo il 2% del 10% esistente, quindi il 98% femminile

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.