Quando sono utili gli intervalli di confidenza?


30

Se capisco correttamente un intervallo di confidenza di un parametro è un intervallo costruito con un metodo che produce intervalli contenenti il ​​valore reale per una determinata percentuale di campioni. Quindi la "fiducia" riguarda il metodo piuttosto che l'intervallo che calcolo da un particolare campione.

Come utente di statistiche mi sono sempre sentito imbrogliato da questo dato che lo spazio di tutti i campioni è ipotetico. Tutto quello che ho è un campione e voglio sapere cosa mi dice quel campione su un parametro.

Questo giudizio è sbagliato? Esistono modi per esaminare gli intervalli di confidenza, almeno in alcune circostanze, che sarebbero significativi per gli utenti delle statistiche?

[Questa domanda nasce da ripensamenti dopo aver discusso gli intervalli di confidenza in una risposta math.se https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 # 7572 ]

Risposte:


15

Mi piace pensare agli EC come un modo per sfuggire al framework Hypothesis Testing (HT), almeno il framework delle decisioni binarie seguendo l'approccio di Neyman , e in qualche modo rimanere in linea con la teoria della misurazione. Più precisamente, li considero più vicini all'affidabilità di una stima (una differenza di mezzi, per esempio), e viceversa HT sono più vicini al ragionamento ipotetico-deduttivo, con le sue insidie ​​(non possiamo accettare il nulla, l'alternativa è spesso stocastico, ecc.). Tuttavia, sia con la stima dell'intervallo sia con HT dobbiamo fare affidamento sulla maggior parte delle ipotesi di distribuzione (ad esempio una distribuzione campionaria sotto ), che consente di fare deduzione dal nostro campione alla popolazione generale o rappresentativo (almeno nel frequentatore approccio).H0

In molti contesti, gli elementi della configurazione sono complementari al normale HT e li vedo come nella figura seguente (è sotto ):H0

testo alternativo

vale a dire, nel framework HT (a sinistra), guardi quanto è distante la tua statistica dal nulla, mentre con gli EC (a destra) stai osservando l'effetto null "dalla tua statistica", in un certo senso.

Inoltre, si noti che per un certo tipo di statistica, come il rapporto di probabilità, l'HT è spesso insignificante ed è meglio guardare la sua CI associata che è assimmetrica e fornire informazioni più pertinenti sulla direzione e la precisione dell'associazione, se presenti.


Perché dici che i test di ipotesi sono spesso insignificanti per i rapporti di probabilità, non più di qualsiasi altra stima degli effetti? Sottolineo invece che gli intervalli di confidenza sono più utili degli errori standard per gli odds ratio e altre stime con distribuzioni asimmetriche di campionamento in campioni finiti.
onestop il

@onestop Beh, stavo pensando in parte a quello che dici su "distribuzioni asimmetriche di campionamento ..." (e sembra che non ero così chiaro), ma anche sul fatto che negli studi epidemiologici siamo generalmente più interessati agli IC (che è, quanto è precisa la nostra stima) rispetto a HT.
chl

+1. Questo mi ricorda che ho usato i tuoi script per imparare l'asintoto saltando dentro e cambiando roba in giro, provando cose diverse. Grazie ancora per questo, molto utile per iniziare.
ars

@ars In realtà, mi sembra di ricordare che questa foto è stata fatta con PStricks. Comunque, un buon punto di partenza per Asymptote è piprime.fr/asymptote .
chl

@chl, questo potrebbe essere fuori tema, ma puoi dirmi se hai creato questi grafici in R?
suncoolsu,

7

Un approccio alternativo pertinente al tuo secondo Q, "Esistono modi per esaminare gli intervalli di confidenza, almeno in alcune circostanze, che sarebbero significativi per gli utenti delle statistiche?":

Dovresti dare un'occhiata all'inferenza bayesiana e agli intervalli credibili che ne risultano . Un intervallo credibile del 95% può essere interpretato come un intervallo che ritieni abbia il 95% di probabilità di includere il valore del parametro vero. Il prezzo da pagare è che è necessario inserire una distribuzione di probabilità precedente sui valori che si ritiene possano assumere il vero parametro prima di raccogliere i dati. E il tuo precedente può differire da quello di qualcun altro, quindi anche i tuoi intervalli credibili risultanti possono differire anche quando usi gli stessi dati.

Questo è solo il mio tentativo rapido e rozzo di riassumere! Un buon libro di testo recente con un focus pratico è:

Andrew Gelman, John B. Carlin, Hal S. Stern e Donald B. Rubin. "Bayesian Data Analysis" (2a edizione). Chapman & Hall / CRC, 2003. ISBN 978-1584883883


Grazie. Ma che dire degli intervalli di confidenza frequentista in particolare? Ci sono delle circostanze in cui sarebbero rilevanti?
Jyotirmoy Bhattacharya,

Credo che avere diversi priori sia un problema (almeno dal punto di vista bayesiano oggettivo), se succede che tu abbia una conoscenza diversa della situazione a portata di mano. Ci è piaciuto vedere i priori come un modo per trasmettere le nostre informazioni a priori. So che non è semplice ...
teucer,

@Jyotirmoy A proposito degli approcci bayesiano e frequentista, qui sono stati fatti punti interessanti: stats.stackexchange.com/questions/1611/…
chl

6

Penso che la premessa di questa domanda sia errata perché nega la distinzione tra incerto e conosciuto .

Descrivere il lancio di una moneta fornisce una buona analogia. Prima che la moneta venga lanciata, il risultato è incerto; in seguito, non è più "ipotetico". La confusione di questo fatto si accompagna alla situazione reale che desideriamo comprendere (il comportamento della moneta o le decisioni che devono essere prese a seguito del suo risultato) essenzialmente nega un ruolo per probabilità nella comprensione del mondo.

Questo contrasto è gettato in netto rilievo all'interno di un'arena sperimentale o normativa. In tali casi, lo scienziato o il regolatore sanno che dovranno affrontare situazioni i cui esiti, in qualsiasi momento prima, sono sconosciuti, tuttavia devono prendere importanti decisioni come come progettare l'esperimento o stabilire i criteri da utilizzare per determinare la conformità alle normative (per test antidroga, sicurezza sul lavoro, standard ambientali e così via). Queste persone e le istituzioni per le quali lavorano hanno bisogno di metodi e conoscenza delle caratteristiche probabilistiche di tali metodi al fine di sviluppare strategie ottimali e difendibili, come buoni progetti sperimentali e procedure di decisione eque che commettano errori il meno possibile.

Gli intervalli di confidenza, nonostante la loro scarsa giustificazione, si inseriscono in questo quadro teorico-decisionale. Quando un metodo per costruire un intervallo casuale ha una combinazione di buone proprietà, come assicurare una copertura minima prevista dell'intervallo e minimizzare la lunghezza prevista dell'intervallo - entrambe proprietà a priori , non a posteriori - quindi oltre una lunga carriera nell'uso di quel metodo possiamo minimizzare i costi associati alle azioni che sono indicate da quel metodo.


Fai un esempio dell'uso di un intervallo di confidenza per prendere una decisione. O, meglio ancora, confrontare due intervalli di confidenza e il modo in cui si prenderebbero decisioni diverse con ognuna, pur rimanendo completamente nel quadro del frequentista.
BrainPermafrost

@Brain Qualsiasi manuale introduttivo sulle statistiche fornirà tali esempi. Uno che è spudoratamente frequentatore è Freedman, Pisani e Purves, Statistics (qualsiasi edizione).
whuber

6

Hai ragione nel dire che gli intervalli di confidenza al 95% sono cose che derivano dall'uso di un metodo che funziona nel 95% dei casi, piuttosto che da ogni singolo intervallo con una probabilità del 95% di contenere il valore atteso.

"La base logica e l'interpretazione dei limiti di fiducia sono, anche adesso, una questione controversa". {David Colquhoun, 1971, Lectures on Biostatistics}

Tale citazione è tratta da un manuale di statistica pubblicato nel 1971, ma direi che è ancora vero nel 2010. La controversia è probabilmente più estrema nel caso di intervalli di confidenza per proporzioni binomiali. Esistono molti metodi concorrenti per calcolare quegli intervalli di confidenza, ma sono tutti inaccurati in uno o più sensi e anche il metodo peggiore ha proponenti tra gli autori di libri di testo. Anche i cosiddetti intervalli "esatti" non riescono a produrre le proprietà attese dagli intervalli di confidenza.

In un articolo scritto per i chirurghi (ampiamente noto per il loro interesse per le statistiche!), John Ludbrook e io abbiamo discusso dell'uso routinario degli intervalli di confidenza calcolati usando un Bayesiano uniforme prima perché tali intervalli hanno proprietà frequentiste come qualsiasi altro metodo (in media copertura esattamente del 95% su tutte le proporzioni reali), ma, soprattutto, copertura molto migliore su tutte le proporzioni osservate (copertura esattamente del 95%). Il documento, a causa del suo pubblico di riferimento, non è terribilmente dettagliato e quindi potrebbe non convincere tutti gli statistici, ma sto lavorando a un documento di follow-up con l'intera serie di risultati e giustificazioni.

Questo è un caso in cui l'approccio bayesiano ha proprietà frequentiste tanto quanto l'approccio frequentista, cosa che accade abbastanza spesso. L'ipotesi di un precedente uniforme non è problematica perché una distribuzione uniforme delle proporzioni della popolazione è integrata in ogni calcolo di copertura frequentista che ho incontrato.

Ti chiedi: "Esistono modi per guardare gli intervalli di confidenza, almeno in alcune circostanze, che potrebbero essere significativi per gli utenti delle statistiche?" La mia risposta, quindi, è che per gli intervalli di confidenza binomiale si possono ottenere intervalli che contengono la proporzione di popolazione esattamente il 95% delle volte per tutte le proporzioni osservate. Questo è un sì. Tuttavia, l'uso convenzionale degli intervalli di confidenza prevede una copertura per tutte le proporzioni della popolazione e per questo la risposta è "No!"

La lunghezza delle risposte alla tua domanda e le varie risposte suggeriscono che gli intervalli di confidenza sono ampiamente fraintesi. Se cambiamo il nostro obiettivo dalla copertura per tutti i valori dei parametri reali alla copertura del valore dei parametri reali per tutti i valori del campione, potrebbe essere più facile perché gli intervalli saranno quindi modellati per essere direttamente pertinenti ai valori osservati piuttosto che per le prestazioni del metodo di per sé.


5

Questa è un'ottima discussione Sento che gli intervalli credibili bayesiani e gli intervalli di supporto della probabilità sono la strada da percorrere, così come le probabilità posteriori bayesiane di eventi di interesse (ad esempio, un farmaco è efficace). Ma soppiantare i valori P con intervalli di confidenza è un guadagno importante. Praticamente ogni numero delle migliori riviste mediche come NEJM e JAMA ha un documento con il problema "l'assenza di prove non è prova di assenza" nei loro abstract. L'uso di intervalli di confidenza previene ampiamente tali errori. Un ottimo piccolo testo è http://www.amazon.com/Statistics-Confidence-Intervals-Statistical-Guidelines/dp/0727913751


3

Per rispondere direttamente alla tua domanda: supponi che stai contemplando l'uso di una macchina per riempire una scatola di cereali con una certa quantità di cereali. Ovviamente, non si desidera riempire / riempire eccessivamente la casella. Vuoi valutare l'affidabilità della macchina. Esegui una serie di test in questo modo: (a) Usa la macchina per riempire la scatola e (b) Misura la quantità di cereali che è riempita nella scatola.

Utilizzando i dati raccolti si costruisce un intervallo di confidenza per la quantità di cereali che è probabile che la macchina riempia nella casella. Questo intervallo di confidenza ci dice che l'intervallo che abbiamo ottenuto ha una probabilità del 95% che conterrà la quantità reale di cereali che la macchina metterà nella scatola. Come dici tu, l'interpretazione dell'intervallo di confidenza si basa su ipotetici, campioni invisibili generati dal metodo in esame. Ma questo è esattamente ciò che vogliamo nel nostro contesto. In tale contesto, ci sarà usare la macchina ripetutamente per riempire la scatola e quindi si preoccupano ipotetici, realizzazioni invisibili della quantità di cereali riempimenti macchina nella scatola.

Estrarre dal contesto precedente: un intervallo di confidenza ci dà la garanzia che se dovessimo usare ripetutamente il metodo in esame (nell'esempio sopra metodo = macchina) c'è una probabilità del 95% che l'intervallo di confidenza abbia il parametro vero .


2
μσ2μ

1
@Jyotirmoy Naturalmente, un elemento della configurazione specifico potrebbe essere fuori strada. In altre parole, esiste una probabilità del 5% che l'elemento della configurazione non contenga il valore reale. Tuttavia, l'interpretazione che ho dato è coerente con il modo in cui gli EC sono effettivamente costruiti. Immaginiamo di usare ripetutamente il metodo e di costruire l'IC in modo tale che la probabilità che l'IC osservato contenga il valore vero sia 0,95. Si noti che la mia risposta non dice nulla sulla probabilità di dove si trovi effettivamente il vero valore in quanto si tratta di un'affermazione che può essere fatta solo con intervalli credibili e non con intervalli di confidenza.

1
(100-α)H0tz

@Srikant. Forse ho frainteso "method = machine" nella risposta. Pensavo stessi dicendo che il 95% di tutte le scatole che uscivano dalla catena di montaggio avrebbe pesi entro l'intervallo di confidenza del 95% derivato da un particolare campione delle scatole.
Jyotirmoy Bhattacharya,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.