Come interpretare l'intervallo di confidenza della differenza nelle medie in un T-test di esempio?


21

SPSS fornisce l'output "intervallo di confidenza dei mezzi di differenza". Ho letto in alcuni punti che significa "95 volte su 100, la nostra differenza media di esempio sarà tra questi limiti" Lo trovo poco chiaro. Qualcuno può suggerire una formulazione più chiara per spiegare "intervallo di confidenza della differenza di mezzi"? Questo output viene visualizzato nel contesto di un test t di un campione.


1
Qual è la tua interpretazione?
mpiktas,

1
Si noti che non c'è nulla di speciale nel fatto che questa sia una proporzione: un elemento della configurazione per la stima di qualsiasi cosa verrà interpretato in modo simile. (Tuttavia, possono essere utilizzate diverse procedure per costruire l'IC, a seconda di ciò che viene stimato.) Di conseguenza, questa domanda è esattamente la stessa delle domande precedenti che richiedono interpretazioni di IC.
whuber

Risposte:


13

Questa non è una cosa facile, anche per statistici rispettati. Guarda un recente tentativo di Nate Silver :

... se ti chiedessi di dirmi quanto spesso il tuo tragitto dura 10 minuti in più rispetto alla media - qualcosa che richiede una versione di un intervallo di confidenza - dovresti pensarci un po ', ...

(dal blog FiveThirtyEight del New York Times, 29/09/10.) Questo non è un intervallo di confidenza. A seconda di come lo interpreti, è un intervallo di tolleranza o un intervallo di previsione. (Altrimenti non c'è nulla di importante nell'eccellente discussione di Mr. Silver sulla stima delle probabilità; è una buona lettura.) Molti altri siti web (in particolare quelli con un obiettivo di investimento) confondono allo stesso modo gli intervalli di confidenza con altri tipi di intervalli.

Il New York Times ha compiuto sforzi per chiarire il significato dei risultati statistici che produce e riporta. La stampa fine sotto molti sondaggi include qualcosa del genere:

In teoria, in 19 casi su 20, i risultati basati su tali campioni di tutti gli adulti differiranno di non più di tre punti percentuali in entrambe le direzioni da quanto sarebbe stato ottenuto cercando di intervistare tutti gli adulti americani.

( ad es . come è stato condotto il sondaggio , 5/2/2011.)

Un po 'prolisso, forse, ma chiaro e preciso: questa affermazione caratterizza la variabilità della distribuzione campionaria dei risultati del sondaggio. Questo si sta avvicinando all'idea dell'intervallo di confidenza, ma non è del tutto lì. In molti casi, tuttavia, si potrebbe considerare di utilizzare tale formulazione al posto degli intervalli di confidenza.

Quando c'è così tanta potenziale confusione su Internet, è utile rivolgersi a fonti autorevoli. Uno dei miei preferiti è Freedman, Pisani, il testo storico di Purves, Statistica. Giunto alla sua quarta edizione, è stato utilizzato nelle università per oltre 30 anni ed è noto per le sue spiegazioni chiare e chiare e per l'attenzione ai metodi classici "frequentisti". Vediamo cosa dice sull'interpretazione degli intervalli di confidenza:

Il livello di confidenza del 95% dice qualcosa sulla procedura di campionamento ...

[a p. 384; tutte le citazioni sono della terza edizione (1998)]. Continua

Se il campione fosse uscito in modo diverso, l'intervallo di confidenza sarebbe stato diverso. ... Per circa il 95% di tutti i campioni, l'intervallo ... copre la percentuale di popolazione e per l'altro 5% no.

[p. 384]. Il testo dice molto di più sugli intervalli di confidenza, ma questo è sufficiente per aiutare: il suo approccio è di spostare il focus della discussione sul campione, portando subito rigore e chiarezza alle dichiarazioni. Potremmo quindi provare la stessa cosa nei nostri rapporti. Ad esempio, applichiamo questo approccio alla descrizione di un intervallo di confidenza del [34%, 40%] attorno a una differenza percentuale riportata in un ipotetico esperimento:

"Questo esperimento ha utilizzato un campione selezionato casualmente di soggetti e una selezione casuale di controlli. Riportiamo un intervallo di confidenza dal 34% al 40% per la differenza. Ciò quantifica l'affidabilità dell'esperimento: se le selezioni di soggetti e controlli fossero state diverse , questo intervallo di confidenza cambierebbe per riflettere i risultati per i soggetti e i controlli scelti. Nel 95% di questi casi l'intervallo di confidenza includerebbe la vera differenza (tra tutti i soggetti e tutti i controlli) e nell'altro 5% dei casi non Pertanto è probabile - ma non certo - che questo intervallo di confidenza includa la vera differenza: ovvero, riteniamo che la vera differenza sia compresa tra il 34% e il 40%. "

(Questo è il mio testo, che sicuramente può essere migliorato: invito gli editori a lavorarci su.)

Un'affermazione lunga come questa è alquanto ingombrante. Nelle relazioni attuali la maggior parte del contesto - campionamento casuale, soggetti e controlli, possibilità di variabilità - sarà già stata stabilita, rendendo superflua metà dell'affermazione precedente. Quando il rapporto stabilisce che esiste una variabilità del campionamento e presenta un modello di probabilità per i risultati del campione, di solito non è difficile spiegare un intervallo di confidenza (o un altro intervallo casuale) nel modo chiaro e rigoroso di cui il pubblico ha bisogno.


Grazie Whuber, capisco abbastanza bene gli intervalli di confidenza. È la CI per una differenza di mezzi (tra un campione e un pop) in cui divento confuso.
Anne,

@Anne A cosa ti riferisci? Né la tua domanda né nessuna delle risposte fa riferimento a una differenza tra una media campionaria e una media della popolazione, per quanto posso dire. La tua domanda sembra riferirsi alla differenza tra due medie campionarie (forse tra la media di un gruppo di soggetti sperimentali e un gruppo di controlli).
whuber

L'esempio a cui sto pensando è dove stai cercando una differenza tra un campione e una media della popolazione. In questo caso, cosa significa esattamente l'IC tra sample e pop. Abbiamo usato la media del campione per stimare la deviazione standard del pop e quindi da ciò stiamo stimando l'IC intorno alla stima media. La differenza di medie non è la differenza tra la media pop che abbiamo fornito e la media di esempio. Quindi, cos'è?
Anne,

1
@Anne La "media della popolazione" è la media ipotetica e sconosciuta della popolazione campionata o è la media misurata di un'altra popolazione che è stata campionata esaurientemente? Inoltre, in che senso hai usato la "media campionaria" per stimare la deviazione standard della popolazione ? È forse un errore di battitura?
whuber

2
@whuber grazie. La tua riga "Gli IC calcolati per il 95% di tutti i campioni (cioè il 95% di tutte le repliche possibili) copriranno quella vera differenza". è più chiaro per me "95 volte su 100, la nostra differenza media di esempio sarà tra questi limiti" e la tua spiegazione ha un senso logico.
Anne,

5

Da un punto di vista tecnico pedante, personalmente non penso che esista una "formulazione chiara" dell'interpretazione degli intervalli di confidenza.

Interpreterei un intervallo di confidenza come: esiste una probabilità del 95% che l'intervallo di confidenza al 95% copra la vera differenza media

Un'interpretazione di ciò è che se dovessimo ripetere l'intero esperimentoNN

Il mio cavillo personale con la logica di tale ragionamento è che questa spiegazione degli intervalli di confidenza ci impone di ignorare l'altro N1

Ma nota che questo è tutto nella filosofia. Gli intervalli di confidenza sono meglio lasciati vaghi nella spiegazione che penso. Danno buoni risultati se usati correttamente.


Inizia una nuova frase dopo "N intervalli di confidenza diversi". non scorre bene con "puoi interpretare ulteriormente questo come dire ...". Suggerisco di modificare il terzo paragrafo.
Theta30,

2
Il tuo terzo paragrafo è molto meglio del secondo. In base ai dati osservati, l'intervallo di confidenza contiene il valore del parametro vero oppure no.
cardinale il

@probabilityislogic: poiché questa risposta è stata accettata, ti preghiamo di considerare di modificare il tuo secondo paragrafo. Inoltre, puoi chiarire cosa intendi nel tuo secondo o ultimo paragrafo? Come si legge, non sono del tutto sicuro di quale argomento stai sostenendo.
cardinale il

se interpretiamo gli intervalli di confidenza in termini di "ripetizione" dell'esperimento, allora dobbiamo ignorare gli esperimenti precedenti in queste ripetizioni. Il mio punto è: perché l'ignoranza di precedenti esperimenti in queste "ripetizioni" di intervalli di confidenza è buona per quei set di dati che non abbiamo osservato, ma dobbiamo mettere insieme i dati per i dati che abbiamo osservato? Non avrebbe lo stesso senso (da quello che ho capito sull'interpretazione degli elementi della configurazione) produrre il maggior numero possibile di EC con i dati che hai?
Probislogic,

1
Esiste un'intera teoria, in gran parte parallela alla teoria decisionale ottimale, su set di confidenza uniformemente più accurati. Forse questo è il pezzo del puzzle mancante per te. (?)
Cardinale il

3

La risposta approssimativa alla domanda è che un intervallo di confidenza al 95% ti consente di essere sicuro al 95% che il vero valore del parametro si trova nell'intervallo. Tuttavia, questa risposta approssimativa è sia incompleta che inaccurata.

L'incompletezza sta nel fatto che non è chiaro che "fiducia al 95%" significhi qualcosa di concreto, o se lo fa, allora quel significato concreto non sarebbe universalmente concordato nemmeno da un piccolo campione di statistici. Il significato della fiducia dipende dal metodo utilizzato per ottenere l'intervallo e dal modello di inferenza utilizzato (che spero diventerà più chiaro di seguito).

L'inesattezza sta nel fatto che molti intervalli di confidenza non sono progettati per dirti nulla sulla posizione del vero valore del parametro per il particolare caso sperimentale che ha prodotto l'intervallo di confidenza! Ciò sarà sorprendente per molti, ma deriva direttamente dalla filosofia Neyman-Pearson che è chiaramente dichiarata in questa citazione dal loro articolo del 1933 "Sul problema delle prove più efficienti delle ipotesi statistiche":

Siamo propensi a pensare che, per quanto riguarda una particolare ipotesi, nessun test basato sulla teoria della probabilità possa di per sé fornire alcuna prova preziosa della verità o della falsità di tale ipotesi.

Ma possiamo esaminare lo scopo dei test da un altro punto di vista. Senza sperare di sapere se ogni singola ipotesi separata sia vera o falsa, potremmo cercare delle regole per governare il nostro comportamento nei loro confronti, in seguito alle quali assicuriamo che, nel lungo periodo dell'esperienza, non dovremo sbagliare troppo spesso.

Gli intervalli che si basano sull'inversione dei test di ipotesi NP erediteranno quindi da quel test la natura di aver conosciuto proprietà di errore a lungo termine senza consentire deduzioni sulle proprietà dell'esperimento che li ha resi! La mia comprensione è che ciò protegge dall'inferenza induttiva, che apparentemente Neyman considerava un abominio.

Neyman rivendica esplicitamente il termine "intervallo di confidenza" e l'origine della teoria degli intervalli di confidenza nel suo articolo della Biometrika del 1941 "Argomento fiduciario e teoria degli intervalli di confidenza". In un certo senso, quindi, tutto ciò che è propriamente un intervallo di confidenza gioca secondo le sue regole e quindi il significato di un singolo intervallo può essere espresso solo in termini di frequenza di lungo periodo a cui gli intervalli calcolati da quel metodo contengono (coprono) il vero pertinente valore del parametro.

Ora dobbiamo rovesciare la discussione. Una parte segue la nozione di "copertura" e l'altra segue intervalli non neymaniani che sono come intervalli di confidenza. Rinvierò il primo in modo da poter completare questo post prima che diventi troppo lungo.

Esistono molti approcci diversi che producono intervalli che potrebbero essere chiamati intervalli di confidenza non neymanici. Il primo di questi sono gli intervalli fiduciali di Fisher. (La parola "fiduciale" può spaventare molti e suscitare sorrisi derisori da altri, ma lo lascerò da parte ...) Per alcuni tipi di dati (ad esempio normale con varianza della popolazione sconosciuta) gli intervalli calcolati con il metodo di Fisher sono numericamente identici al intervalli che sarebbero calcolati con il metodo di Neyman. Tuttavia, invitano interpretazioni diametralmente opposte. Gli intervalli di Neymanian riflettono solo le proprietà di copertura a lungo termine del metodo, mentre gli intervalli di Fisher hanno lo scopo di supportare l'inferenza induttiva relativa ai valori dei parametri reali per il particolare esperimento che è stato eseguito.

Il fatto che un insieme di limiti di intervallo possa derivare da metodi basati su uno di due paradigmi filosoficamente distinti porta a una situazione davvero confusa: i risultati possono essere interpretati in due modi contraddittori. Dall'argomento fiduciale esiste una probabilità del 95% che un particolare intervallo fiduciale del 95% conterrà il valore del parametro vero. Dal metodo di Neyman sappiamo solo che il 95% degli intervalli calcolati in quel modo conterrà il valore del parametro vero, e dobbiamo dire cose confuse sulla probabilità che l'intervallo contenente il valore del parametro vero sia sconosciuto ma 1 o 0.

In larga misura, l'approccio di Neyman ha dominato quello di Fisher. Questo è molto sfortunato, secondo me, perché non porta a una naturale interpretazione degli intervalli. (Rileggi la citazione sopra riportata da Neyman e Pearson e vedi se corrisponde alla tua naturale interpretazione dei risultati sperimentali. Molto probabilmente non lo fa.)

Se un intervallo può essere interpretato correttamente in termini di tassi di errore globali ma anche in termini inferenziali locali, non vedo una buona ragione per impedire agli utenti di intervallo l'interpretazione più naturale offerta da quest'ultimo. Quindi il mio suggerimento è che la corretta interpretazione di un intervallo di confidenza sia ENTRAMBE di quanto segue:

  • Neymanian: questo intervallo del 95% è stato costruito con un metodo che produce intervalli che coprono il vero valore del parametro nel 95% delle occasioni a lungo termine (... della nostra esperienza statistica).

  • Pescatore: questo intervallo del 95% ha una probabilità del 95% di coprire il vero valore del parametro.

(I metodi bayesiano e di probabilità forniranno anche intervalli con proprietà frequentiste desiderabili. Tali intervalli invitano interpretazioni leggermente diverse che probabilmente si sentiranno entrambe più naturali del neymaniano.)


@Micheal - il luogo in cui differiranno è che un intervallo legale deve essere basato su una statistica sufficiente e condizione su tutte le quantità accessorie. L'intervallo di confidenza di Neymans non richiede questa proprietà, e quindi sono soggetti all'intervallo di confidenza del 95% con copertura variabile per particolari sottoclassi di campioni.
Probislogic,

@probability - Puoi espanderci? Intendi dire che ci sono circostanze in cui un intervallo di confidenza neymaniano al 95% è un intervallo di confidenza ma non è un intervallo del 95%? Quali sarebbero tali circostanze? L'intervallo tra i pescatori avrebbe gli stessi limiti in quelle circostanze?
Michael Lew,

È possibile mostrare casi in cui si può dire dal campione che un intervallo di confidenza "95%" non contiene il valore vero. l'esempio 5 e l'esempio 6 nel documento di Jaynes indicano due casi in cui il mancato utilizzo di statistiche sufficienti negli EC fornirà la copertura a lungo termine, ma la copertura varierà su determinate classi di campioni. È analogo avere due variabili con la stessa media (copertura a lungo termine) ma varianza diversa (copertura nel caso specifico)
probabilitlogica

2

Il significato di un intervallo di confidenza è: se dovessi ripetere l'esperimento esattamente nello stesso modo (cioè: lo stesso numero di osservazioni, attingendo dalla stessa popolazione, ecc.), E se i tuoi presupposti sono corretti e calcoleresti quell'intervallo di nuovo in ogni ripetizione, quindi questo intervallo di confidenza conterrebbe la vera prevalenza nel 95% delle ripetizioni (in media).

Quindi, potresti dire di essere sicuro al 95% (se i tuoi presupposti sono corretti, ecc.) Che ora hai costruito un intervallo che contiene la vera prevalenza.

Questo è generalmente indicato come: con una sicurezza del 95%, tra il 4,5 e l'8,3% dei bambini di madri che hanno fumato durante la gravidanza diventano obesi.

Si noti che questo in genere non è interessante in sé: probabilmente si desidera confrontare questo con la prevalenza nei bambini di madri che non hanno fumato (odds ratio, rischio relativo, ecc.)


(Questa risposta, che è arrivata qui dopo una fusione di due thread, sta rispondendo a una domanda doppia incorniciata in termini di un IC di una proporzione.)
whuber

0

Se la vera differenza media è al di fuori di questo intervallo, allora c'è solo una probabilità del 5% che la differenza media dal nostro esperimento sarebbe così lontana dalla vera differenza media.


Cosa intendi con "così lontano"? È questo il limite superiore dell'IC che è lontano o la media osservata?
Probislogic,

La distanza tra la media vera e la media osservata è ciò che intendo per "così lontano". Ho intenzione di cambiarlo in "così lontano"; Penso che sia un po 'più chiaro.
Thomas Levine,

-2

La mia interpretazione: se conduci l'esperimento N volte (dove N tende all'infinito), da questo gran numero di esperimenti il ​​95% degli esperimenti avrà intervalli di confidenza che rientrano in questi limiti del 95%. Più chiaramente, supponiamo che tali limiti siano "a" e "b", quindi 95 su 100 volte la differenza media del campione si troverà tra "a" e "b". Presumo che tu capisca che esperimenti diversi possono avere campioni diversi da coprire di tutta la popolazione.


@ Ayush. Grazie. Questo è utile Mi dispiace non seguire abbastanza la tua frase finale.
Anne,

@anne - Ok. Quello che voglio dire è se vuoi testare la media tra due campioni e supponiamo che ogni campione abbia 1000 persone, puoi definirne infiniti campioni (diciamo 40 persone per ciascuno) .. Ho scritto questo per dire perché i diversi esperimenti differiscono l'uno dall'altro ... Gli esperimenti in cui stiamo osservando l'intervallo di confidenza.
Ayush Biyani,

2
@ayush - questa non è l'interpretazione corretta nella tua ultima ultima frase. O almeno dovresti aggiungere dei pedici a "a" e "b", il che chiarisce che sono queste quantità che variano oltre le 100 volte. La tua notazione attuale fa sembrare che "a" e "b" siano quantità fisse.
Probislogic,

@probabilityislogic - d'accordo .. gli abbonamenti sono necessari.
Ayush Biyani,

1
[a,b]

-2

"95 volte su 100, il tuo valore rientrerà in una deviazione standard della media"


4
Benvenuto nel sito, @beginnerstat. Mi chiedo se intendevi dire " due deviazioni standard della media"? Inoltre, non sono sicuro di vedere come questa formulazione migliora su ciò che l'OP ha letto altrove. Ti piacerebbe elaborare un po '?
gung - Ripristina Monica

1
Sì al commento di @ gung: sono particolarmente interessato a capire il senso in cui "medio" e "SD" sono usati qui. Si riferiscono a parametri sottostanti o a stime di esempio ? Si riferiscono alla distribuzione di una variabile casuale sottostante o alla distribuzione campionaria della media di iid variate da tale distribuzione?
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.