Perché queste affermazioni non seguono logicamente da un IC al 95% in media?


26

Ho letto il documento di Hoekstra et al 2014 su "Robusta interpretazione errata degli intervalli di confidenza", che ho scaricato dal sito Web di Wagenmakers .

Nella penultima pagina appare la seguente immagine.

Quiz

Secondo gli autori, False è la risposta corretta a tutte queste affermazioni. Non sono molto sicuro del perché le affermazioni siano false e, per quanto ne so, il resto del documento non tenta di spiegarlo.

Credo che 1-2 e 4 non siano corretti perché affermano qualcosa sul valore probabile della media vera, quando la media vera ha un valore definito sconosciuto. È una distinzione convincente?

Riguardo a 3, capisco che non si intende fare affermazioni sulla probabilità che l'ipotesi nulla sia errata, anche se non sono così sicuro del motivo.

Allo stesso modo 6 non può essere vero perché implica che la vera media sta cambiando da esperimento a esperimento.

Quello che davvero non capisco affatto è 5. Perché quello è sbagliato? Se ho un processo in cui il 95% delle volte produce EC che contengono la vera media, perché non dovrei dire che ho il 95% di confidenza che il valore della popolazione è compreso tra 0,1 e 0,4? È perché potremmo avere alcune informazioni speciali sul campione che abbiamo appena preso che ci farebbe pensare che potrebbe essere uno del 5% che non contiene la media vera? Ad esempio, 0,13 è incluso nell'intervallo di confidenza e per qualche ragione 0,13 non è considerato un valore plausibile in un contesto di ricerca specifico, ad esempio perché tale valore sarebbe in conflitto con la teoria precedente.

Che cosa significa fiducia in questo contesto, comunque?


Risposte:


11

Il significato stesso della domanda (5) dipende da un'interpretazione non rivelata di "fiducia". Ho cercato attentamente il documento e non ho trovato alcun tentativo di definire "fiducia" o cosa potrebbe significare in questo contesto. La spiegazione del documento sulla sua risposta alla domanda (5) è

"... [menziona i limiti dell'IC mentre ... un IC può essere usato per valutare solo la procedura e non un intervallo specifico."

Questo è sia specioso che fuorviante. Innanzitutto, se non riesci a valutare il risultato della procedura, allora a che serve la procedura? In secondo luogo, l'affermazione nella domanda non riguarda la procedura, ma la "fiducia" del lettore nei suoi risultati.

Gli autori si difendono:

"Prima di procedere, è importante ricordare la corretta definizione di un elemento della configurazione. Un elemento della configurazione è un intervallo numerico costruito attorno alla stima di un parametro. Tale intervallo non indica tuttavia direttamente una proprietà del parametro; invece, indica una proprietà della procedura, come è tipico per una tecnica frequentista. "

Il loro pregiudizio emerge nell'ultima frase: "tecnica frequentista" (scritta, forse, con un sogghigno implicito). Sebbene questa caratterizzazione sia corretta, è criticamente incompleta. Non riesce a notare che un intervallo di confidenza è anche una proprietà dei metodi sperimentali (come i campioni sono stati ottenuti e misurati) e, soprattutto, della natura stessa. Questa è l'unica ragione per cui qualcuno sarebbe interessato al suo valore.

Di recente ho avuto il piacere di leggere la Circular Statistics in Biology di Edward Batschelet (Academic Press, 1981). Batschelet scrive chiaramente e al punto, in uno stile diretto allo scienziato che lavora. Ecco cosa dice sugli intervalli di confidenza:

" Una stima di un parametro senza indicazioni di deviazioni causate da fluttuazioni casuali ha scarso valore scientifico ...

"Considerando che il parametro da stimare è un numero fisso, i limiti di confidenza sono determinati dal campione. Sono statistiche e, quindi, dipendenti da fluttuazioni del caso. Campioni diversi prelevati dalla stessa popolazione portano a intervalli di confidenza diversi."

[L'enfasi è nell'originale, alle pagine 84-85.]

Si noti la differenza di enfasi: mentre il documento in questione si concentra sulla procedura, Batschelet si concentra sul campione e in particolare su ciò che può rivelare sul parametro e su quanto tali informazioni possono essere influenzate da "fluttuazioni del caso". Trovo questo approccio sfacciatamente pratico e scientifico molto più costruttivo, illuminante e - in definitiva - utile.

Una caratterizzazione più completa degli intervalli di confidenza rispetto a quella offerta dal documento dovrebbe quindi procedere in questo modo:

Un elemento della configurazione è un intervallo numerico costruito attorno alla stima di un parametro. Chiunque sia d'accordo con le ipotesi alla base della costruzione dell'IC è giustificato nel dire che è fiducioso che il parametro rientri nell'intervallo: questo è il significato di "fiducioso". Questo significato è sostanzialmente in accordo con i significati convenzionali non tecnici di fiducia perché, sotto molte repliche dell'esperimento (indipendentemente dal fatto che abbiano effettivamente luogo), ci si aspetta che l'IC, sebbene vari, contenga il parametro per la maggior parte del tempo.

In questo senso di "fiducia" più pieno, più convenzionale e più costruttivo, la risposta alla domanda (5) è vera.


2
È interessante notare che l'approccio di Batschelet sembra escludere alcuni tipi di intervalli di confidenza che danno una pausa ai lettori premurosi, come gli EC che possono essere vuoti. Una simile IC catturerebbe a malapena l'idea di "indicazioni di deviazioni causate da fluttuazioni casuali". Ciò suggerisce che forse la definizione standard di intervallo di confidenza non realizza esattamente ciò che si intende. Indipendentemente da ciò, in assenza di una chiara indicazione di cosa significhi "fiducia" in questione (5), dobbiamo scartare le conclusioni tratte dagli autori in base alle risposte che hanno ottenuto a tale domanda.
whuber

yio~cun'uchy(μ,1)μ

... continua ... quindi anche se la copertura media a lungo termine è raggiunta, la copertura in una particolare classe di campioni non lo farà.
probabilityislogic

10

Domande 1-2, 4: nell'analisi frequentista, la vera media non è una variabile casuale, quindi le probabilità non sono definite, mentre nell'analisi bayesiana le probabilità dipenderebbero dal precedente.

Domanda 3: Ad esempio, considera un caso in cui sappiamo con certezza che sarebbe ancora possibile ottenere questi risultati, ma piuttosto irragionevole dire che l'ipotesi nulla è "improbabile" che sia vera. Abbiamo ottenuto dati che è improbabile che si verifichino se l'ipotesi nulla è vera, ma ciò non implica che è improbabile che l'ipotesi nulla sia vera.

Domanda 5: questo è un po 'discutibile in quanto dipende dalla definizione di "possiamo essere p% sicuri". Se definiamo l'affermazione per indicare la cosa che viene dedotta dagli intervalli di confidenza p%, l'affermazione è per definizione corretta. Il tipico argomento pro-bayesiano afferma che le persone tendono a interpretare queste affermazioni in modo intuitivo nel senso che "la probabilità è p%", il che sarebbe falso (confrontare le risposte con 1-2,4).

Domanda 6: La tua spiegazione "implica che la vera media sta cambiando da esperimento a esperimento" è esattamente corretta.

L'articolo è stato recentemente discusso nel blog di Andrew Gelman ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ). Ad esempio, la questione relativa all'interpretazione della dichiarazione nella domanda 5 è discussa nei commenti.


1
Quindi, se uno tornasse indietro e sostituisse ogni istanza di "media reale" con "migliore stima per la media reale", le affermazioni diventerebbero corrette?
Superbo

@Superbest No. Se consideriamo "la migliore stima dati questi dati", è una costante nota (purché la migliore sia ben definita). Se consideriamo la "migliore stima di un campione futuro", non sappiamo come varia perché non conosciamo la vera media.
Juho Kokkala,

Questa non è esattamente una confutazione al commento sopra, ma dovrei sottolineare che in effetti la "migliore stima" implica un numero reale, piuttosto che una distribuzione. Con un elemento della configurazione, si potrebbe forse parlare della "distribuzione di dove potrebbe trovarsi la vera media dati questi dati".
Superbo

1
@Super Questo è esattamente il malinteso di CI affrontato nel documento. In particolare, la vera media è un numero ; non ha distribuzione. Vedi i primi due risultati in una ricerca sul sito per l' intervallo di confidenza per ulteriori discussioni.
whuber

1
@super, "intervallo credibile" si avvicinerebbe.
whuber

8

Senza una definizione formale di cosa significhi essere "fiduciosi al 95%", quale giustificazione esiste per l'etichettatura n. 5 vera o falsa? Un profano senza dubbio lo interpreterebbe erroneamente come sinonimo di una probabilità del 95% che la media si trovi in ​​quell'intervallo: ma alcune persone lo usano nel senso di aver usato un metodo di generazione di intervalli i cui intervalli contengono la media vera del 95% delle volte, proprio per evitare di parlare della distribuzione di probabilità di un parametro sconosciuto; che sembra un'estensione abbastanza naturale della terminologia.

La struttura simile dell'affermazione precedente (n. 4) potrebbe aver incoraggiato gli intervistati a cercare di fare una distinzione tra "possiamo essere fiduciosi al 95%" e "c'è una probabilità del 95%" anche se non avevano mai intrattenuto l'idea prima. Mi aspettavo che questa astuzia avrebbe portato il numero 5 ad avere la più alta proporzione in accordo: guardando il documento, ho scoperto che mi sbagliavo, ma ho notato che almeno l'80% ha letto il questionario in una versione olandese, che forse dovrebbe sollevare domande su la pertinenza della traduzione inglese.


4

Ecco la definizione di un intervallo di confidenza, dal Dizionario di Statistica di BS Everitt :

"Un intervallo di valori, calcolato dalle osservazioni del campione, che si ritiene, con una certa probabilità, contenere il vero valore del parametro. Un CI del 95%, ad esempio, implica che il processo di stima è stato ripetuto più volte, quindi il 95% degli intervalli calcolati dovrebbe contenere il valore del parametro vero. Tieni presente che il livello di probabilità dichiarato si riferisce alle proprietà dell'intervallo e non al parametro stesso, che non è considerato una variabile casuale "

Un malinteso molto comune è quello di confondere il significato di un intervallo di confidenza con quello di un intervallo credibile , AKA "Intervallo di confidenza bayesiano", che fa affermazioni simili a quelle delle domande.

Ho sentito che gli intervalli di confidenza sono spesso simili agli intervalli credibili derivati ​​da un precedente non informativo, ma che mi è stato detto aneddoticamente (anche se da un ragazzo che rispetto molto), e non ho dettagli o cito.


Intervalli di confidenza cartacea di Jaynes 1976 contro intervalli bayesiani. Questo è almeno un modo credibile. Vi sono anche i sacerdoti di riferimento di Berger e Bernardo. Davvero, non ne hai mai sentito parlare?
probabilityislogic

2

Per quanto riguarda l'intuizione per la falsità della domanda 5, ottengo la seguente discussione su questo argomento da qui

È corretto affermare che esiste una probabilità del 95% che l'intervallo di confidenza calcolato contenga la media della popolazione reale. Non è del tutto corretto affermare che esiste una probabilità del 95% che la media della popolazione rientri nell'intervallo.

Qual è la differenza? La media della popolazione ha un valore. Non sai cosa sia (a meno che tu non stia facendo simulazioni) ma ha un valore. Se ripetessi l'esperimento, quel valore non cambierebbe (e ancora non sapresti di cosa si tratta). Pertanto non è strettamente corretto chiedere circa la probabilità che la popolazione media rientri in un certo intervallo. Al contrario, l'intervallo di confidenza calcolato dipende dai dati raccolti. Se ripetessi l'esperimento, il tuo intervallo di confidenza sarebbe quasi sicuramente diverso. Quindi è OK chiedere la probabilità che l'intervallo contenga la media della popolazione.

Ora alle tue domande specifiche su 5. Perché è sbagliato ...

  1. È perché potremmo avere alcune informazioni speciali sul campione che abbiamo appena preso che ci farebbe pensare che potrebbe essere uno del 5% che non contiene la vera media? No, piuttosto, penso che sia perché la vera media non è una variabile casuale, ma l'intervallo di confidenza è una funzione dei dati.
  2. 100(1-α)100(1-α)

Come nota a margine (menzionata in altre risposte a questa domanda), un intervallo credibile , un concetto delle statistiche bayesiane, prevede che il valore reale del parametro abbia una particolare probabilità di trovarsi nell'intervallo di confidenza dati i dati effettivamente ottenuti. Forse puoi ottenere maggiori informazioni su questo dal blog di Gelman.


5
"L'intervallo contiene il valore vero" e "il valore vero si trova nell'intervallo" significa esattamente la stessa cosa. È più utile pensare in termini di prima, ma non ha davvero senso dire che uno è corretto e l'altro non è corretto.
David Richerby,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.