La risposta approssimativa alla domanda è che un intervallo di confidenza al 95% ti consente di essere sicuro al 95% che il vero valore del parametro si trova nell'intervallo. Tuttavia, questa risposta approssimativa è sia incompleta che inaccurata.
L'incompletezza sta nel fatto che non è chiaro che "fiducia al 95%" significhi qualcosa di concreto, o se lo fa, allora quel significato concreto non sarebbe universalmente concordato nemmeno da un piccolo campione di statistici. Il significato della fiducia dipende dal metodo utilizzato per ottenere l'intervallo e dal modello di inferenza utilizzato (che spero diventerà più chiaro di seguito).
L'inesattezza sta nel fatto che molti intervalli di confidenza non sono progettati per dirti nulla sulla posizione del vero valore del parametro per il particolare caso sperimentale che ha prodotto l'intervallo di confidenza! Ciò sarà sorprendente per molti, ma deriva direttamente dalla filosofia Neyman-Pearson che è chiaramente dichiarata in questa citazione dal loro articolo del 1933 "Sul problema delle prove più efficienti delle ipotesi statistiche":
Siamo propensi a pensare che, per quanto riguarda una particolare ipotesi, nessun test basato sulla teoria della probabilità possa di per sé fornire alcuna prova preziosa della verità o della falsità di tale ipotesi.
Ma possiamo esaminare lo scopo dei test da un altro punto di vista. Senza sperare di sapere se ogni singola ipotesi separata sia vera o falsa, potremmo cercare delle regole per governare il nostro comportamento nei loro confronti, in seguito alle quali assicuriamo che, nel lungo periodo dell'esperienza, non dovremo sbagliare troppo spesso.
Gli intervalli che si basano sull'inversione dei test di ipotesi NP erediteranno quindi da quel test la natura di aver conosciuto proprietà di errore a lungo termine senza consentire deduzioni sulle proprietà dell'esperimento che li ha resi! La mia comprensione è che ciò protegge dall'inferenza induttiva, che apparentemente Neyman considerava un abominio.
Neyman rivendica esplicitamente il termine "intervallo di confidenza" e l'origine della teoria degli intervalli di confidenza nel suo articolo della Biometrika del 1941 "Argomento fiduciario e teoria degli intervalli di confidenza". In un certo senso, quindi, tutto ciò che è propriamente un intervallo di confidenza gioca secondo le sue regole e quindi il significato di un singolo intervallo può essere espresso solo in termini di frequenza di lungo periodo a cui gli intervalli calcolati da quel metodo contengono (coprono) il vero pertinente valore del parametro.
Ora dobbiamo rovesciare la discussione. Una parte segue la nozione di "copertura" e l'altra segue intervalli non neymaniani che sono come intervalli di confidenza. Rinvierò il primo in modo da poter completare questo post prima che diventi troppo lungo.
Esistono molti approcci diversi che producono intervalli che potrebbero essere chiamati intervalli di confidenza non neymanici. Il primo di questi sono gli intervalli fiduciali di Fisher. (La parola "fiduciale" può spaventare molti e suscitare sorrisi derisori da altri, ma lo lascerò da parte ...) Per alcuni tipi di dati (ad esempio normale con varianza della popolazione sconosciuta) gli intervalli calcolati con il metodo di Fisher sono numericamente identici al intervalli che sarebbero calcolati con il metodo di Neyman. Tuttavia, invitano interpretazioni diametralmente opposte. Gli intervalli di Neymanian riflettono solo le proprietà di copertura a lungo termine del metodo, mentre gli intervalli di Fisher hanno lo scopo di supportare l'inferenza induttiva relativa ai valori dei parametri reali per il particolare esperimento che è stato eseguito.
Il fatto che un insieme di limiti di intervallo possa derivare da metodi basati su uno di due paradigmi filosoficamente distinti porta a una situazione davvero confusa: i risultati possono essere interpretati in due modi contraddittori. Dall'argomento fiduciale esiste una probabilità del 95% che un particolare intervallo fiduciale del 95% conterrà il valore del parametro vero. Dal metodo di Neyman sappiamo solo che il 95% degli intervalli calcolati in quel modo conterrà il valore del parametro vero, e dobbiamo dire cose confuse sulla probabilità che l'intervallo contenente il valore del parametro vero sia sconosciuto ma 1 o 0.
In larga misura, l'approccio di Neyman ha dominato quello di Fisher. Questo è molto sfortunato, secondo me, perché non porta a una naturale interpretazione degli intervalli. (Rileggi la citazione sopra riportata da Neyman e Pearson e vedi se corrisponde alla tua naturale interpretazione dei risultati sperimentali. Molto probabilmente non lo fa.)
Se un intervallo può essere interpretato correttamente in termini di tassi di errore globali ma anche in termini inferenziali locali, non vedo una buona ragione per impedire agli utenti di intervallo l'interpretazione più naturale offerta da quest'ultimo. Quindi il mio suggerimento è che la corretta interpretazione di un intervallo di confidenza sia ENTRAMBE di quanto segue:
Neymanian: questo intervallo del 95% è stato costruito con un metodo che produce intervalli che coprono il vero valore del parametro nel 95% delle occasioni a lungo termine (... della nostra esperienza statistica).
Pescatore: questo intervallo del 95% ha una probabilità del 95% di coprire il vero valore del parametro.
(I metodi bayesiano e di probabilità forniranno anche intervalli con proprietà frequentiste desiderabili. Tali intervalli invitano interpretazioni leggermente diverse che probabilmente si sentiranno entrambe più naturali del neymaniano.)