In quali impostazioni gli intervalli di confidenza non migliorerebbero all'aumentare della dimensione del campione?


11

In un post sul blog , ho trovato l'affermazione che

"Credo che WG Cochrane abbia sottolineato per la prima volta (all'incirca negli anni '70) che con intervalli di confidenza in un contesto osservazionale, campioni di piccole dimensioni producono una copertura migliore con campioni abbastanza grandi che forniscono una copertura quasi nulla!"

Ora suppongo che la larghezza dell'IC dovrebbe avvicinarsi a 0 con l'aumentare della dimensione del campione, ma l'idea che la copertura peggiorerebbe contemporaneamente non mi convince. Questa affermazione è vera e in quali circostanze? O sto leggendo male?

Ho eseguito una simulazione utilizzando dati casuali normalmente distribuiti con dimensioni del campione comprese tra 10000 e 1000000 (test t per un campione, IC al 95%), 1000 serie per ogni dimensione del campione e la copertura non è peggiorata per le dimensioni del campione più elevate (invece, ho trovato il tasso di errore previsto quasi costante ~ 5%).


2
Per la cronaca, il celebre statistico menzionato qui era William G. Cochran (non Cochrane).
Nick Cox,

2
Poiché ha causato un po 'di confusione in una delle risposte, si noti che l'affermazione che la "larghezza dell'IC dovrebbe avvicinarsi a 1" non ha senso (1 cosa? Quali sono le unità di misura?) O semplicemente sbagliata.
whuber

Risposte:


17

Nota la qualifica "in un contesto osservazionale".

Controllando il contesto dal quale hai preso la citazione (il sottotread dei commenti in cui si trova), sembra che l'intento sia "nel mondo reale" piuttosto che nelle simulazioni, e probabilmente non include un esperimento controllato. e, in tal caso, l'intenzione probabile è una conseguenza del fatto che le ipotesi in base alle quali gli intervalli sono derivati ​​in realtà non valgono. Esistono numerose cose che possono influire sulla distorsione - che sono di piccolo effetto rispetto alla variabilità in piccoli campioni - ma che generalmente non riducono in termini di dimensioni all'aumentare delle dimensioni del campione, mentre gli errori standard lo fanno.

Poiché i nostri calcoli non incorporano il bias, poiché gli intervalli si restringono (come ), qualsiasi bias immutabile, anche se è piuttosto piccolo, appare più grande, lasciando i nostri intervalli sempre meno inclini a includere il valore reale.1/n

Ecco un'illustrazione - che forse esagera il bias - per indicare ciò che penso sia inteso in merito alla riduzione della probabilità di copertura CI all'aumentare della dimensione del campione:

Diagramma della probabilità di copertura CI che si riduce all'aumentare della dimensione del campione in presenza di polarizzazione

Ovviamente in un particolare campione, l'intervallo sarà casuale - sarà più ampio o più stretto e spostato a sinistra o a destra rispetto al diagramma, in modo che a qualsiasi dimensione del campione abbia una probabilità di copertura tra 0 e 1, ma qualsiasi quantità di bias lo farà restringere verso zero all'aumentare di . Ecco un esempio con 100 intervalli di confidenza per ogni dimensione del campione usando dati simulati (tracciati con trasparenza, quindi il colore è più solido dove più intervalli lo coprono):n

Trama simile a quella precedente con 10 esempi di EC per ogni n


0

Dolce ironia. Prima di quel paragrafo, la stessa persona dice "Non c'è da stupirsi che ci sia tanta confusione". "Intervalli di confidenza in un contesto osservativo": che cosa significa?

Mi sembra che questa sia ancora una volta una confusione tra la valutazione e la verifica delle ipotesi .

Ora so che la larghezza dell'IC dovrebbe avvicinarsi a 1 con l'aumentare della dimensione del campione.

No, dipende dal contesto. In linea di principio, la larghezza dovrebbe convergere a . La copertura dovrebbe essere vicina al valore nominale per un gran numero di simulazioni Monte Carlo. La copertura non dipende dalla dimensione del campione, a meno che alcune delle ipotesi in base alle quali è stato costruito l'IC siano difettose (che forse è ciò che l'OP intendeva implicare. "Tutti i modelli sono sbagliati", sì.).0

Il riferimento è un commento in un post di un blog personale . Non mi preoccuperei troppo della validità di questo tipo di riferimento. Il blog, di proprietà di Larry Wasserman, tende invece ad essere scritto molto bene. Questo mi ha ricordato il fumetto di xkcd:

http://xkcd.com/386/

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.