Intervallo di confidenza e probabilità: dov'è l'errore in questa affermazione?


11

Se qualcuno fa una dichiarazione come di seguito:

"Complessivamente, i non fumatori esposti al fumo ambientale avevano un rischio relativo di malattia coronarica di 1,25 (intervallo di confidenza al 95%, da 1,17 a 1,32) rispetto ai non fumatori non esposti al fumo."

Qual è il rischio relativo per la popolazione nel suo insieme? Quante cose sono collegate alla malattia coronarica? Del vasto numero di cose che possono essere testate, pochissime sono effettivamente connesse alla malattia coronarica, quindi la possibilità che qualsiasi cosa particolare scelta a caso sia connessa è vanificante. Quindi possiamo dire che il rischio relativo per la popolazione è 1. Ma l'intervallo citato non contiene il valore 1. Quindi o c'è effettivamente una connessione tra le due cose, la cui probabilità è vanificante, o questa è una delle il 5% degli intervalli che non contengono il parametro. Dato che il secondo è molto più probabile del primo, è ciò che dovremmo assumere. Pertanto, la conclusione appropriata è che il set di dati era quasi certamente atipico della popolazione,

Naturalmente, se ci sono delle basi per supporre che oltre il 5% delle cose sia collegato a malattie coronariche, potrebbero esserci delle prove nella statistica a supporto del suggerimento che il fumo ambientale è uno di questi. Il buon senso suggerisce che ciò è improbabile.

Qual è l'errore nel loro ragionamento (dato che tutte le organizzazioni sanitarie concordano sul fatto che esiste una letteratura significativa sugli effetti dannosi del fumo passivo)? È a causa della loro premessa che "Del vasto numero di cose che possono essere testate, pochissime sono effettivamente collegate alla malattia coronarica"? Questa frase può essere vera per qualsiasi fattore scelto casualmente (ad es. Quanti cani possiede una persona con il rischio di malattia coronarica) ma la probabilità a priori è molto più alta per il fumo passivo e la malattia coronarica rispetto a qualsiasi "fattore casuale" .

È questo il ragionamento corretto? O c'è qualcos'altro?


Il testo citato sembra ... beh, come una citazione. Da dove viene? :)
Martedì

ah ah sì è una citazione, da Wikipedia ... qualcuno ha aggiunto questo articolo per "intervallo di confidenza". Sto cercando di rimuoverlo perché è chiaramente errato, ma il ragazzo rifiuta, quindi ho bisogno di un motivo matematicamente valido invece di solo "questo è chiaramente sbagliato" .. anche se ho alcune idee, volevo sapere se qualcuno potesse spiegare esattamente quali errori vengono fatti qui. Perché se questo fosse corretto, molti studi possono essere confutati per motivi simili
BYS2,

3
Se si trascina un po ', mi sposterò e cercherò di dare una mano. Il suo argomento è chiaramente fallace e indica fortemente che ha un programma.
Erik,

3
Come fisico che usa molte statistiche ma non è uno statista, trovo quel paragrafo davvero inutile, non importa il fatto che sembri chiaramente sbagliato. Ho sempre pensato, forse in modo errato, che un cl del 95% significava che se l'ipotesi nulla fosse vera, quindi 1 volta su 20 se ripetessi il mio esperimento avrei ottenuto un risultato significativo a livello del 95% (una buona ragione secondo me non usare meno di 99.9 ma questa è un'altra discussione). Quel post sembra essere più un punto sui fattori correlati e in realtà non aiuta affatto i non esperti (o chiunque).
Bowler,

@Erik. L'utente ha una storia piuttosto complicata di burattini da calzino (aveva alcuni account e utilizza le modifiche IP) e si è bloccato prima ... non sono sicuro di quale sia il suo affare. Ma sembra un piantagrane
BYS2

Risposte:


10

Ci sono molte cose che non vanno qui. Come spiega @ Néstor, assume implicitamente le precedenti probabilità su (nessun collegamento) e (collegamento).H 1H0H1

Pone un peso molto alto (molto vicino a 1) su e un peso molto piccolo su . Questa è la prima cosa dubbia che fa, dal momento che esiste un legame meccanicistico tra fumo e malattie cardiache (considerare i fumatori attivi), la domanda è davvero se l'esposizione è sufficiente. Ciò non tiene nemmeno conto degli studi precedenti condotti. Quindi non è davvero uno di un "vasto numero di cose" da testare, come ad esempio indossare calze rosse. Ciò significa che inizia già con un precedente altamente distorto e non molto giustificabile.H 1H0H1

Quindi aggiorna il suo precedente affermando che la probabilità di ottenere un intervallo di confidenza del 95% senza contenere il valore reale ha una probabilità del 5%. Mentre questo è vero, questa non è la possibilità di ottenere quel particolare intervallo sotto l'ipotesi dell'ipotesi nulla . Si noti che avrebbe trattato un intervallo di confidenza di [1,17, 1,32] esattamente uguale a un intervallo di confidenza di [100, 200] che è chiaramente problematico.

Questo è davvero importante per l'approccio bayesiano: mentre hai una probabilità totale del 5% di non ottenere un intervallo contenente 1 presupponendo che 1 sia zero, la densità di probabilità di ottenere quel particolare intervallo è diversa (e minore).

Il terzo errore è che non ha mai specificato il suo precedente né afferma quanto sia probabile che debba essere contro per ottenere quel risultato. È solo "vanishingly small".H 1H0H1

Il quarto errore è quello di dire che l'azione appropriata da intraprendere sarebbe quella di eliminare i dati. Nota che il suo risultato non dipende nemmeno dai dati, il suo argomento implica esattamente che la stessa azione sarebbe stata fatta per qualsiasi dato. Se trovi un link interessante ma sospetti che potrebbe essere solo un colpo di fortuna, la cosa scientifica da fare è provare a replicare il tuo risultato!


Grazie per l'espansione della risposta di Nestor! Una rapida domanda però, hai affermato che "... questa non è la possibilità di ottenere quel particolare intervallo sotto l'ipotesi dell'ipotesi nulla". Se volessimo trovare la possibilità di ottenere un determinato intervallo sotto l'ipotesi dell'ipotesi nulla, dovremmo usare l'inferenza bayesiana e un intervallo credibile corretto? Gli intervalli di confidenza del frequentista indicano solo "la possibilità che l'intervallo includa il valore reale". Grazie ancora
BYS2

L'intervallo di confidenza frequentista del 95% è costruito in modo tale che almeno il 95% delle volte in cui l'intervallo sia stato modificato contenga il valore reale. Fin qui tutto bene. Detto questo, puoi anche calcolare la probabilità (o il valore della densità) di ottenere un particolare intervallo di confidenza se l'ipotesi nulla è vera. La posizione esatta contiene più "informazioni" rispetto al semplice fatto che includesse l'ipotesi nulla. Gettare via quell'informazione è male quando si usa l'inferenza bayesiana in quanto rilevante per la probabilità che il nulla sia vero.
Erik,

Un esempio giocattolo sarebbe questo: inferenza bayesiana, vuoi fare l'inferenza verso la forma di una distribuzione. Prior consente due possibilità: H1: la distribuzione è normale normale. H2: Distribuzione normale, media = sd = 1. Un campione dei valori delle distribuzioni ti consente di aggiornare il tuo precedente. Quando ti vengono dati solo i segni dei tuoi valori, puoi anche aggiornare i tuoi precedenti, ma l'aggiornamento sarà meno informativo dal momento che hai buttato via le informazioni pertinenti.
Erik,

6

Questa è una questione filosofica piuttosto interessante relativa al test delle ipotesi (e quindi nel contesto del frequentista anche intervalli di confidenza, come spiego qui ).

Ci sono, naturalmente, molte ipotesi che potrebbero essere investigate: il fumo passivo provoca malattie coronariche, bere alcolici causa chd, possedere cani causa chd, essere un Capricorno causa chd ...

Se scegliamo una di tutte queste ipotesi a caso, la probabilità che noi scegliamo un'ipotesi che sembra vera è praticamente zero. Questo sembra essere l'argomento nel testo citato: è molto improbabile che ci sia capitato di verificare una vera ipotesi.

Ma l'ipotesi non è stata scelta a caso. È stato motivato da precedenti conoscenze epidemiologiche e mediche sulla malattia coronarica. Esistono meccanismi teorici che spiegano come il fumo possa causare malattie coronariche, quindi non sembra inverosimile pensare che funzionerebbe anche per il fumo passivo.

Le critiche nella citazione possono essere valide per studi esplorativi in ​​cui un set di dati viene estratto per ipotesi. Questo è il motivo per cui non accettiamo tali "scoperte" come fatti, ma richiediamo che i risultati possano essere replicati in nuovi studi. Ad ogni modo, l'articolo citato nella citazione è un meta studio e non è quindi interessato da questo problema.

Negli ultimi secoli abbiamo visto empiricamente che testare ipotesi motivate dalla teoria confrontando i risultati previsti con quelli osservati funziona. Il fatto che crediamo in questa procedura è la ragione per cui abbiamo fatto così tanti progressi in medicina, ingegneria e scienza. È la ragione per cui posso scrivere questo sul mio computer e che puoi leggerlo sul tuo. Sostenere che questa procedura è sbagliata è sostenere che il metodo scientifico è fondamentalmente imperfetto - e abbiamo molte prove che dicono il contrario.

Dubito che ci sia qualcosa che una persona che non è disposta ad accettare questo tipo di prove accetterà effettivamente ...


Davvero non ho ricevuto il tuo paragrafo prima dell'ultimo; ti riferisci a "test di significatività" (ad esempio, il calcolo della probabilità di dati almeno più estremi) o realmente a "test di ipotesi" (impostazione bayesiana)? Chi ha detto che qualcuno di loro non funziona se fai la domanda giusta?
Néstor,

@ Néstor: forse avrei dovuto scriverlo diversamente. Non stavo davvero facendo una dichiarazione sul test delle ipotesi statistiche , ma piuttosto facendo un'osservazione sul fatto che il confronto delle previsioni del modello con i dati del mondo reale (cioè "test" se l'ipotesi è corretta) sembra essere un modo molto efficiente di fare scienza. Al centro di questa critica contro CI c'è, credo, una riluttanza ad accettare questo metodo. Il tipo di argomenti forniti nella citazione si applicherebbe a qualsiasi metodo statistico - con zero precedenti probabilità per tutte le ipotesi nulle, non avremmo mai creduto in nulla.
Martedì

6

Davvero non capisco perché l'autore affermi che la probabilità di rischio relativo di malattia coronarica sia 1 potrebbe essere vanitosamente piccola basando la sua analisi esclusivamente su un intervallo di confidenza; questo è chiaramente sbagliato. Per me, sembra che stia usando un'impostazione frequentista, ma sta ragionando bayesianly (il che è abbastanza comune).

L'unica cosa legata a un CI sono i test di significatività classica ma, come tutti sappiamo, se { Non esiste alcun legame tra fumo di seconda mano e malattia coronarica }, ti danno (dove indica " dati almeno estremi di quanto osservato "), non (dove sono i dati), che è ciò che afferma e ciò che è collegato esattamente a ciò che si sottolinea; devi incorporare le conoscenze precedenti su quel particolare link! Ciò deriva dal fatto che: del Teorema di Bayes, dove è la probabilità precedente su .p ( D e | H 0 ) D e p ( H 0 | D ) D p ( H 0 | D ) p ( D | H 0 ) p ( H 0 ) , p ( H 0 ) H 0H0:p(De|H0)Dep(H0|D)D

p(H0|D)p(D|H0)p(H0),
p(H0)H0

H0 non sarebbe: non esiste alcun legame tra fumo passivo e malattia coronarica? Poiché l'ipotesi nulla è generalmente l'ipotesi che non vi siano effetti. A parte questo, grazie per questa risposta!
BYS2,

Si hai ragione! Non l'ho notato fino a quando non hai sottolineato :-). Modificherò la mia risposta.
Néstor,

3

Mentre c'è qualcosa in questa linea di ragionamento bayesiano (decostruita in modo molto approfondito da Erik!), E in effetti questa linea di pensiero spiegherebbe perché molti reperti medici non possono essere riprodotti, questa particolare argomentazione applica quel pensiero come una mazza.

L'autore presuppone due cose senza fornire prove: che l'esposizione al fumo è stata scelta a caso e che quasi nulla al mondo causa malattie cardiache. In base a questi lassisti standard di ragionamento, l'autore potrebbe rifiutare QUALSIASI conclusione che qualcosa causa malattie cardiache. Tutto quello che dovresti fare è affermare:

  1. Che l'ipotesi sia stata scelta a caso, e
  2. Quella malattia cardiaca ha quasi zero cause.

Entrambe queste affermazioni sono discutibili (e, sulla base delle mie conoscenze generali, molto probabilmente false). Ma, con queste ipotesi in atto, anche osservando che il 100% delle persone esposte al fumo passivo cadde morto per un attacco di cuore entro un anno, si potrebbe affermare che la connessione è semplicemente una coincidenza coincidente con la causa nascosta, singolare, "vera" .


Va bene grazie per i tuoi pensieri! Sì, l'autore ha sicuramente ipotizzato che l'ipotesi fosse "scelta a caso", il che non è corretto.
BYS2,

-1

Ovviamente non vedo nulla di sbagliato nel paragrafo tra virgolette, ma non ho visto i dati e non posso controllare i numeri. Tuttavia, i due paragrafi che seguono non sono molto chiari.

Supponiamo che avesse detto: "Complessivamente, i non fumatori che erano patologicamente obesi avevano un rischio relativo di malattia coronarica di 1,25 (intervallo di confidenza al 95%, da 1,17 a 1,32) rispetto ai non fumatori che avevano un peso corporeo normale". Qualcuno avrebbe motivo di dubitare di lui?


Bene, il primo paragrafo tra virgolette era solo l'autore che citava le conclusioni di uno studio epidemiologico, quindi non c'è nulla di sbagliato in esso. I paragrafi seguenti sono lui che cerca di screditare lo studio che è dove fa alcune affermazioni dubbie.
BYS2,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.