La statistica più importante: "il 90% di tutte le donne è sopravvissuto" o il "90% di tutte le donne sopravvissute erano donne"?


14

Considera le seguenti dichiarazioni sul Titanic:

Assunzione 1: solo uomini e donne erano sulla nave

Assunzione 2: c'erano un gran numero di uomini e donne

Dichiarazione 1: il 90 percento di tutte le donne è sopravvissuto

Dichiarazione 2: il 90 percento di tutti coloro che sono sopravvissuti erano donne

Il primo indica che il salvataggio delle donne era probabilmente di massima priorità (indipendentemente dal fatto che fosse il salvataggio degli uomini)

Quando è utile la seconda statistica?

Possiamo dire che uno di loro è quasi sempre più utile dell'altro?


40
più utile per quale scopo?
Aksakal,

12
Sorpresa nessuna di queste risposte ha menzionato il Paradox di Simpson
Nemo

3
Direi che dipende dal fatto che tu sia una donna o no!
Meh,

6
La prima affermazione non è significativa senza una statistica comparabile per gli uomini.
Barmar,

1
@RahulSaha Ma se il 95% degli uomini sopravvivesse, potrebbe darsi che abbiano dato una priorità ancora maggiore agli uomini. Ecco perché è necessario un confronto.
Barmar,

Risposte:


54

Allo stato attuale, nessuna delle dichiarazioni 1 o 2 è molto utile. Se il 90% dei passeggeri fosse costituito da donne e il 90% delle persone fosse sopravvissuto a caso, allora entrambe le affermazioni sarebbero vere. Le dichiarazioni devono essere prese in considerazione nel contesto della composizione generale dei passeggeri. E la possibilità complessiva di sopravvivere.


Supponiamo di avere tanti uomini quante donne, 100 ciascuno. Ecco alcune possibili matrici di uomini (M) contro donne (W) e sopravvissute (S) contro morti (D):

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

Il 90% delle donne è sopravvissuto. Come ha fatto il 90% degli uomini. L'affermazione 1 è vera, l'affermazione 2 è falsa, poiché metà dei sopravvissuti erano donne. Ciò è coerente con molti sopravvissuti, ma nessuna differenza tra i sessi .

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

Il 90% delle donne è sopravvissuto, ma solo il 10% degli uomini. Il 90% delle sopravvissute erano donne. Entrambe le affermazioni sono vere. Ciò è coerente con una differenza tra i sessi : le donne avevano maggiori probabilità di sopravvivere rispetto agli uomini.

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

Il 9% delle donne è sopravvissuto, ma solo l'1% degli uomini. Il 90% delle sopravvissute erano donne. L'istruzione 1 è falsa, l'istruzione 2 è vera. Ciò è di nuovo coerente con una differenza tra i sessi : le donne avevano maggiori probabilità di sopravvivere rispetto agli uomini.


3
(or indeed, if *everyone* survived)... Se tutti sono sopravvissuti, il 100% di tutte le donne è sopravvissuto, indipendentemente dalle proporzioni.
Bridgeburners,

1
@Bridgeburners: hai perfettamente ragione, e mi ha colpito quando ero lontano dal mio computer. Grazie, ho modificato la mia risposta.
Stephan Kolassa,

18

A prima vista, la probabilità condizionata di sopravvivere a condizione di sesso è più utile, semplicemente a causa della direzione del flusso di informazioni. Il sesso di una persona è noto prima del suo stato di sopravvivenza e questa probabilità può essere utilizzata in senso predittivo, in prospettiva. Inoltre, non è influenzato dalla prevalenza delle femmine. In caso di dubbi, pensa alla previsione.


Sì, alla sua faccia. Quindi, solo per essere sicuro di capire come questo si applica alle statistiche reali in questione ... stai dicendo che la frase n. 1 è utile perché mi dice che se mi capita di essere una donna, a bordo di una grande nave passeggeri nel 1912 che sembra affondare nelle acque infestate da iceberg, quindi la possibilità che io sopravviva è del 90%? E, aggiungendo la ragionevole supposizione che la tecnologia e le pratiche di salvataggio siano migliorate da allora, ciò significherebbe che la probabilità che io sopravviva a una situazione del genere oggi è probabilmente persino migliore del 90%? Freddo! ;-)
Don Hatch,

Quei commenti da vendere oltre l'obiettivo descrittivo originale.
Frank Harrell,

Sei sicuro di avere l'obiettivo giusto? La domanda è, a quanto pare, sull'utilità di queste affermazioni sul vero Titanic, che, in realtà, non è poi così utile per fare previsioni, perché da allora molto è cambiato. Quindi sembra che la tua euristica abbia fallito nel primo vero esempio dato, vero? Non sembra un buon inizio. D'altra parte, forse l'OP destinato questione titanico essere un proxy per la questione generale della stessa forma applicata a scenari attuali che fare avere rilevanza predittiva; Non lo so.
Don Hatch,

1
Proprio come ho un case study dettagliato sulle probabilità di sopravvivenza dei passeggeri TItanic nel mio libro Regressione Modeling Strategies , c'è molto valore nello scoprire cosa è successo. Non utilizzo le probabilità previste da quel modello logistico per prevedere i Titanics futuri, ma piuttosto per scoprire modelli nel processo di selezione delle scialuppe di salvataggio.
Frank Harrell

6

Il primo indica che il salvataggio delle donne era probabilmente di massima priorità (indipendentemente dal fatto che fosse il salvataggio degli uomini)

La parola "priorità" deriva dal latino per "prima". Una priorità è qualcosa che viene prima di qualcos'altro (dove "prima" viene utilizzato nel senso di "più importante"). Se dici che salvare le donne era una priorità, allora salvare le donne deve venire prima di qualcos'altro. E il presupposto naturale è che ciò che viene prima è salvare gli uomini. Se dici "indipendentemente dal fatto che fosse il salvataggio di uomini", allora restiamo a chiederci cosa è successo prima.

Il fatto che le donne abbiano avuto un alto tasso di sopravvivenza non dice molto, se non sappiamo quale fosse il tasso di sopravvivenza generale. L'ultima nave su cui ero, oltre il 90% delle donne è sopravvissuto, ma non lo caratterizzerei perché dimostra che salvare le donne era una priorità.

E sapere quale percentuale di sopravvissuti erano donne non dice molto senza sapere quale percentuale di persone nel complesso erano donne.

Quale statistica sia più utile dipende davvero dalla situazione. Se vuoi sapere quanto è pericoloso qualcosa, il tasso di mortalità è più importante. Se vuoi sapere che cosa influenza quanto sia pericoloso qualcosa, allora è importante la ripartizione percentuale delle vittime.


2
Bella critica :-) "L'ultima nave su cui mi trovavo, oltre il 90% delle donne è sopravvissuto, ma non lo caratterizzerei perché mostrare che salvare le donne era una priorità assoluta." Certo che lo fa .. alta priorità rispetto a scaricarli in mare! Certo, questa è un'interpretazione assurda di "alta priorità", ma dal momento che l'OP ha escluso l'interpretazione "priorità più alta rispetto al salvataggio degli uomini", tutto ciò che ci rimane sono interpretazioni assurde.
Don Hatch,

3

È forse utile per noi esaminare in che modo queste probabilità sono correlate.

WS

P(S|W)=0.9

P(W|S)=0.9

Il teorema di Bayes illustra come queste dichiarazioni di probabilità sono correlate.

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W) (la percentuale di donne sul titanico) sono abbastanza facili da guardare, e quindi le probabilità dipendono l'una dall'altra. Cioè, conoscendo l'uno si definisce pienamente l'altro.

P(S)P(W)


3
Direi anche, al contrario delle tue conclusioni, che se non si conoscono né P (S) né P (W), sia P (S | W) sia P (W | S) soffrono della stessa frustrante mancanza di utilità. Non ho ancora un'idea chiara di cosa si possa dire se si conosce esattamente uno di P (S) e P (W).
Don Hatch,

P(W)=0.5

1
Sì, sembra giusto, e il verdetto sembra essere che l'informazione è terribilmente inadeguata anche dato quello. Devo dire che ogni volta che inizio a pensare a quali informazioni posso estrarre solo da P (W | S) o solo P (S | W), anche aggiungendo P (W) o qualsiasi altra cosa, finisco per pensare "perché mai sono Sto pensando a questo? Perché mi hanno dato solo quelle percentuali? Fammi vedere l' intero tavolo ".
Don Hatch,

3

Dipende da ciò che si considera utile.

P(S|W)>P(S|M) , entrambe le affermazioni sono ugualmente inutili senza ulteriori informazioni, come hanno già detto @StephanKolassa e @knrumsey nelle loro risposte. Se qualcuno ha intenzione di esprimere questo tipo di informazioni, dovrebbe dire qualcosa di più della dichiarazione 1, come "il 90% delle donne è sopravvissuto, ma solo il 20% degli uomini è sopravvissuto".

D'altra parte, se ti stai chiedendo perché le storie di sopravvissuti provengano principalmente da donne, la frase 2 lo spiegherebbe, rendendo la dichiarazione 2 utile anche in assenza di altre informazioni.

Non riesco a pensare a nulla l'affermazione 1 è utile per fuori contesto. Certamente non dice nulla sulla priorità data al salvataggio delle donne, rispetto a qualsiasi altra cosa. L'unica cosa che la frase 1 fa per me è che mi fa dire "dimmi di più".


0

In superficie (o in isolamento dalla realtà) entrambe le affermazioni sembrano ugualmente inutili per l'obiettivo dello stato. Tuttavia, considerando il contesto, la seconda affermazione è chiaramente più utile.

Dichiarazione 2

w

w=px/(px+(1p)z)
pxz

H0:x>z

Riscriviamo l'equazione per ottenere le condizioni necessarie per H0

(1w)px=w(1p)z
x=w(1p)z/((1w)p)
For H0 to hold we have:
x=w(1p)z/((1w)p)>z
w(1p)>(1w)p
0.9(1p)>0.1p
1p>p/9
p<0.9

So, for your hypo that women were more likely to survive, all you need is to check that there were less than 90% women among the passengers. This is consistent with your assumption 2, which seems to imply that p1/2. Hence, I declare that statement 2 all but asserts that women were more likely to survive, i.e. it's quite useful for your goal.

Statement 1

The first statement is truly useless in isolation, but has a limited use in the context. If we pretend we know nothing about the event, then saying that x=0.9 tells us nothing about z, and whether x>z?

However, from that little that I know about the event - I haven't seen the movie - it seems unlikely that xz. Why?

We know from Assumption 2 that p1/2, so the total survival rate is px+(1p)z. If we assume that xz and p1/2 we get

px+(1p)zx=0.9
In other words 90% of all passengers survived, which doesn't ring true to me. Would they make a movie and talk about it for 100 years if 90% of passengers survived? So, it must be that x>>z and less than half of passengers made it.

Conclusion

I'd say that both statements support your hypo that women were more likely to survive than men, but Statement 1 does so rather weakly, while Statement 2 in combination with assumptions almost surely establishes your hypo as a fact.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.