Qual è il significato di un intervallo di confidenza preso dai campioni bootstrap?


38

Ho esaminato numerose domande su questo sito per quanto riguarda il bootstrap e gli intervalli di confidenza, ma sono ancora confuso. Parte del motivo della mia confusione è probabilmente che non sono abbastanza avanzato nelle mie conoscenze statistiche per capire molte delle risposte. Sono a metà del corso di statistica introduttiva e il mio livello di matematica riguarda solo la metà di Algebra II, quindi qualsiasi cosa oltre quel livello mi confonde. Se una delle persone esperte su questo sito potesse spiegare questo problema al mio livello, sarebbe estremamente utile.

Stavamo imparando in classe come prendere campioni usando il metodo bootstrap e usarli per creare un intervallo di confidenza per alcune statistiche che vorremmo misurare. Ad esempio, supponiamo di prelevare un campione da una grande popolazione e di scoprire che il 40% afferma di votare per il candidato A. Partiamo dal presupposto che questo campione sia un riflesso abbastanza accurato della popolazione originale, nel qual caso possiamo prelevare campioni da per scoprire qualcosa sulla popolazione. Quindi prendiamo dei campioni e scopriamo (usando un livello di confidenza del 95%) che l'intervallo di confidenza risultante varia dal 35% al ​​45%.

La mia domanda è: cosa significa in realtà questo intervallo di confidenza ?

Continuo a leggere che c'è una differenza tra Intervalli di confidenza (frequentisti) e Intervalli credibili (bayesiani). Se avessi capito bene, un intervallo credibile direbbe che c'è una probabilità del 95% che nella nostra situazione il parametro vero sia all'interno dell'intervallo dato (35% -45%), mentre un intervallo di confidenza direbbe che c'è un 95% che in questo il tipo di situazione (ma non necessariamente nella nostra situazione specifica) il metodo che stiamo usando segnalerebbe accuratamente che il vero parametro rientra nell'intervallo dato.

Supponendo che questa definizione sia corretta, la mia domanda è: qual è il "vero parametro" di cui stiamo parlando quando si utilizzano gli intervalli di confidenza creati con il metodo bootstrap? Ci riferiamo a (a) il vero parametro della popolazione originale o (b) il vero parametro del campione ? Se (a), allora dovremmo dire che il 95% delle volte il metodo bootstrap riporterà accuratamente affermazioni vere sulla popolazione originale. Ma come potremmo saperlo? L'intero metodo bootstrap non si basa sul presuppostoche il campione originale è un riflesso accurato della popolazione da cui è stato prelevato? Se (b) non capisco affatto il significato dell'intervallo di confidenza. Non conosciamo già il vero parametro del campione? È una misura semplice!

Ne ho discusso con la mia insegnante ed è stata molto utile. Ma sono ancora confuso.

Risposte:


28

Se la procedura di bootstrap e la formazione dell'intervallo di confidenza sono state eseguite correttamente, significa lo stesso di qualsiasi altro intervallo di confidenza. Dal punto di vista del frequentista, un IC al 95% implica che se l'intero studio fosse ripetuto in modo identico all'infinito , il 95% di tali intervalli di confidenza formati in questo modo includerà il valore reale. Naturalmente, nel tuo studio, o in qualsiasi dato studio individuale, l'intervallo di confidenza includerà il valore vero o no, ma non saprai quale. Per comprendere ulteriormente queste idee, può aiutarti a leggere la mia risposta qui: Perché un intervallo di confidenza al 95% (CI) non implica una probabilità del 95% di contenere la media?

X¯μ. Per una breve dimostrazione breve della matematica, prendere in considerazione la seguente simulazione usando R:

# a function to perform bootstrapping
boot.mean.sampling.distribution = function(raw.data, B=1000){
  # this function will take 1,000 (by default) bootsamples calculate the mean of 
  # each one, store it, & return the bootstrapped sampling distribution of the mean

  boot.dist = vector(length=B)     # this will store the means
  N         = length(raw.data)     # this is the N from your data
  for(i in 1:B){
    boot.sample  = sample(x=raw.data, size=N, replace=TRUE)
    boot.dist[i] = mean(boot.sample)
  }
  boot.dist = sort(boot.dist)
  return(boot.dist)
}

# simulate bootstrapped CI from a population w/ true mean = 0 on each pass through
# the loop, we will get a sample of data from the population, get the bootstrapped 
# sampling distribution of the mean, & see if the population mean is included in the
# 95% confidence interval implied by that sampling distribution

set.seed(00)                       # this makes the simulation reproducible
includes = vector(length=1000)     # this will store our results
for(i in 1:1000){
  sim.data    = rnorm(100, mean=0, sd=1)
  boot.dist   = boot.mean.sampling.distribution(raw.data=sim.data)
  includes[i] = boot.dist[25]<0 & 0<boot.dist[976]
}
mean(includes)     # this tells us the % of CIs that included the true mean
[1] 0.952

Su quali particolari presupposti facciamo affidamento?
iarwain,

2
Grazie. Penso di aver trovato quello che cercavo nella seconda risposta a quel thread: "Ricorda che non stiamo usando i mezzi dei campioni bootstrap per stimare la media della popolazione, usiamo la media del campione per quello (o qualunque sia la statistica di interesse lo è. Ma stiamo usando i campioni bootstrap per stimare le proprietà (diffusione, bias) del processo di campionamento. E usare il campionamento da una popolazione nota (che speriamo sia rappresentativa della popolazione di interesse) per imparare gli effetti del campionamento ha senso ed è molto meno circolare. " ...
iarwain,

1
... In altre parole, tutto ciò che l'IC ci sta dicendo è che in una popolazione approssimativamente simile alla nostra ci aspetteremmo che il 95% dei campioni prelevati da quella popolazione riflettano il valore reale +/- il margine di errore. Quindi tutto ciò che stiamo facendo è dare un indizio molto approssimativo - sebbene forse il miglior indizio che abbiamo - su quanto vicino potrebbe essere la nostra statistica campione al vero parametro di popolazione. Se è così, allora sembra che non dovremmo prendere troppo sul serio i numeri esatti nell'IC - significano solo qualcosa del tipo: "la statistica del campione è probabilmente approssimativamente accurata per probabilmente circa questo grado". Ho capito bene?
iarwain,

1
È sostanzialmente corretto. Un elemento della configurazione ci dà un'idea della precisione della nostra stima, ma non sappiamo mai se il nostro elemento della configurazione (realizzato) reale contenga il valore reale. Il presupposto principale è che i nostri dati siano rappresentativi della popolazione di interesse. Si noti che nessuno di questi è particolare per gli elementi della configurazione con bootstrap , si ha la stessa interpretazione e assunzione in un elemento della configurazione calcolato tramite teoria asintotica.
gung - Ripristina Monica

1
Questa è una spiegazione eccellente. Aggiungo solo che il "vero valore" è a volte un artefatto del disegno dello studio. Nel sondaggio per candidati politici, campioni stratificati forniscono stime molto più precise e affidabili rispetto a un campione casuale. Il costo è un rischio di sovracampionamento del gruppo sbagliato in base alla progettazione. In quel caso, l'IC 95% è centrato sul valore corretto, quello che si ottiene replicando lo studio all'infinito , ma quel valore non è l'altro senso di un vero parametro: il parametro che volevamo stimare. Questo è il motivo per cui il disegno e l'inferenza dello studio sono intrinsecamente collegati.
AdamO,

0

Quello che stai dicendo è che non è necessario trovare un intervallo di confidenza dai campioni avviati. Se si è soddisfatti della statistica (media campionaria o proporzione campionaria) ottenuta dai campioni avviati, non trovare alcun intervallo di confidenza e quindi nessuna domanda di interpretazione. Ma se non sei soddisfatto della statistica ottenuta dai campioni bootstrap o sei soddisfatto ma vuoi comunque trovare l'intervallo di confidenza, l'interpretazione per tale intervallo di confidenza è la stessa di qualsiasi altro intervallo di confidenza. È perché quando i tuoi campioni avviati rappresentano esattamente (o si presume che lo siano) la popolazione originale, allora dov'è l'intervallo di confidenza? La statistica dai campioni bootstrap è il parametro di popolazione originale stesso ma quando non si considera la statistica come parametro di popolazione originale, è necessario trovare l'intervallo di confidenza. Quindi, è tutto su come consideri. Supponiamo che tu abbia calcolato un intervallo di confidenza del 95% dai campioni bootstrap. Ora l'interpretazione è: "Il 95% delle volte, questo metodo bootstrap si traduce esattamente in un intervallo di confidenza contenente il parametro di popolazione reale".

(Questo è quello che penso. Correggimi se ci sono errori).


-1

Ci riferiamo al vero parametro della popolazione originale. È possibile farlo supponendo che i dati siano stati estratti casualmente dalla popolazione originale - in tal caso, ci sono argomenti matematici che dimostrano che le procedure bootstrap forniranno un intervallo di confidenza valido, almeno quando le dimensioni del set di dati diventano sufficientemente grandi .


Quindi sembra che per capire perché funzioni dovrò conoscere abbastanza matematica per seguire le prove matematiche. È corretto?
iarwain,

Penso di sì (non ho familiarità con le prove)
Gareth,

Intuitivamente, però, puoi vedere che quando le dimensioni del campione aumentano, il campione inizia ad assomigliare molto alla popolazione. Ad esempio, supponiamo che prenda 1 milione di campioni da una distribuzione normale con media e varianza date. Chiama questo esempio X. Un campione casuale (con sostituzione) estratto da X assomiglia molto a un campione casuale estratto dalla distribuzione originale. Penso che questa sia l'idea di base del perché funzioni.
Gareth,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.