Questa è una cosa che può essere difficile da capire:
- se in media il 95% di tutti gli intervalli di confidenza conterrà il parametro
- e ho un intervallo di confidenza specifico
- perché la probabilità che questo intervallo contenga il parametro non è anche del 95%?
Un intervallo di confidenza si riferisce alla procedura di campionamento. Se prendessi molti campioni e calcolassi un intervallo di confidenza del 95% per ciascun campione, scopriresti che il 95% di tali intervalli contiene la media della popolazione.
Ciò è utile, ad esempio, per i dipartimenti di qualità industriale. Quei ragazzi prendono molti campioni e ora hanno la certezza che la maggior parte delle loro stime sarà abbastanza vicina alla realtà. Sanno che il 95% delle loro stime è abbastanza buono, ma non possono dirlo su ogni singola stima specifica.
Confronta questo con il lancio di dadi: se lanciassi 600 dadi (equi), quanti 6 lanceresti? La tua ipotesi migliore è * 600 = 100.16
Tuttavia, se hai lanciato UN dado, è inutile dire: "C'è una probabilità dell'1 / 6 o 16,6% che ora ho lanciato un 6". Perché? Perché il dado mostra un 6 o qualche altra figura. Hai lanciato un 6 o no. Quindi la probabilità è 1 o 0. La probabilità non può essere .16
Alla domanda prima del tiro quale sarebbe la probabilità di lanciare un 6 con UN dado, un bayesiano risponderebbe " " (in base a informazioni precedenti: tutti sanno che un dado ha 6 facce e pari probabilità di ricadere su uno di essi), ma un Frequentista direbbe "Nessuna idea" perché il frequentismo si basa esclusivamente sui dati, non su priori o informazioni esterne.16
Allo stesso modo, se hai solo 1 campione (quindi 1 intervallo di confidenza), non hai modo di dire quanto è probabile che la media della popolazione sia in quell'intervallo. La media (o qualsiasi parametro) è o in essa o no. La probabilità è 1 o 0.
Inoltre, non è corretto che i valori nell'intervallo di confidenza siano più probabili di quelli esterni. Ho fatto una piccola illustrazione; tutto è misurato in ° C. Ricorda, l'acqua si congela a 0 ° C e bolle a 100 ° C.
Il caso: in un lago freddo, vorremmo stimare la temperatura dell'acqua che scorre sotto il ghiaccio. Misuriamo la temperatura in 100 posizioni. Ecco i miei dati:
- 0,1 ° C (misurato in 49 posizioni);
- 0,2 ° C (anche in 49 posizioni);
- 0 ° C (in 1 posizione. Era acqua che stava per congelare);
- 95 ° C (in una posizione, c'è una fabbrica che scarica illegalmente acqua molto calda nel lago).
- Temperatura media: 1,1 ° C;
- Deviazione standard: 1,5 ° C;
- 95% -CI: (-0,8 ° C ...... + 3,0 ° C).
Le temperature all'interno di questo intervallo di confidenza NON sono sicuramente più probabili di quelle esterne. La temperatura media dell'acqua che scorre in questo lago NON PU be essere più fredda di 0 ° C, altrimenti non sarebbe acqua ma ghiaccio. Una parte di questo intervallo di confidenza (ovvero la sezione da -0,8 a 0) ha in realtà una probabilità dello 0% di contenere il parametro vero.
In conclusione: gli intervalli di confidenza sono un concetto frequentista e quindi si basano sull'idea di campioni ripetuti. Se molti ricercatori prenderebbero campioni da questo lago e se tutti quei ricercatori calcolassero gli intervalli di confidenza, allora il 95% di tali intervalli conterrà il parametro vero. Ma per un singolo intervallo di confidenza è impossibile dire quanto sia probabile che contenga il parametro vero.