Domande sul bootstrap parametrico e non parametrico


14

Sto leggendo il capitolo di Frequent Statistics dal libro di Kevin Murphy " Machine Learning - A Probabilistic Perspective ". La sezione su bootstrap dice:

Il bootstrap è una semplice tecnica Monte Carlo per approssimare la distribuzione del campionamento. Ciò è particolarmente utile nei casi in cui lo stimatore è una funzione complessa dei parametri reali.

L'idea è semplice Se conoscessimo i parametri veri , potremmo generare molti (diciamo S ) set di dati falsi, ciascuno di dimensioni N , dalla distribuzione vera, x_i ^ s \ sim p (· | θ ^ ∗) , per s = 1: S, i = 1: N . Potremmo quindi calcolare il nostro stimatore da ciascun campione, \ hat {\ theta ^ s} = f (x ^ s_ {1: N}) e usare la distribuzione empirica dei campioni risultanti come nostra stima della distribuzione del campionamento. Poiché \ theta non è noto, l'idea del bootstrap parametrico è invece generare i campioni usando \ hat {\ theta} (D) .θ*SNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

Un'alternativa, chiamata bootstrap non parametrico , è campionare xis (con la sostituzione) dai dati originali D , e quindi calcolare la distribuzione indotta come prima. Alcuni metodi per accelerare il bootstrap quando applicati a enormi set di dati sono discussi in (Kleiner et al. 2011).

  • 1 . Il testo dice:

    Se conoscessimo i veri parametri θ ... potremmo calcolare il nostro stimatore da ciascun campione, θs^ ...

        ma perché dovrei usare lo stimatore di ogni campione se conosco già i parametri veri θ ?

  • 2 . Inoltre, qual è la differenza tra la distribuzione empirica e la distribuzione campionaria?

  • 3 . Infine, non capisco bene la differenza tra bootstrap parametrico e non parametrico da questo testo. Entrambi deducono dall'insieme delle osservazioni , ma qual è esattamente la differenza?DθD

Risposte:


14

La risposta data da Miura non è del tutto accurata, quindi sto rispondendo a questa vecchia domanda per i posteri:

(2). Queste sono cose molto diverse. Il cdf empirico è una stima del CDF (distribuzione) che ha generato i dati. Precisamente, è CDF discreta che assegna probabilità per ciascun punto di dati osservati, F ( x ) = 11/n, per ognix. Questo stimatore converge al vero cdf: F (x)F(x)=P(Xix)quasi sicuramente per ognix(in realtà in modo uniforme).F^(x)=1ni=1nI(Xix)xF^(x)F(x)=P(Xix)x

La distribuzione campionaria di una statistica è invece la distribuzione della statistica che ci si aspetterebbe di vedere sotto ripetute sperimentazioni. Cioè, esegui l'esperimento una volta e raccogli i dati X 1 , ... , X n . T è una funzione dei tuoi dati: T = T ( X 1 , , X n ) . Supponiamo ora di ripetere l'esperimento e di raccogliere i dati X 1 , ... , X n . Il ricalcolo di T sul nuovo campione fornisce T TX1,,XnTT=T(X1,,Xn)X1,,Xn . Se abbiamo raccolto 100 campioni avremmo 100 stime di T . Queste osservazioni del T formano la distribuzione campionaria di T . È una vera distribuzione. Man mano che il numero di esperimenti va all'infinito, la sua media converge in E ( T ) e la sua varianza in V a r ( T ) .T=T(X1,,Xn)TTTE(T)Var(T)

In generale, naturalmente, non lo facciamo esperimenti di ripetizione come questo, abbiamo sempre e solo vedere un'istanza di . Capire quale sia la varianza di T da una singola osservazione è molto difficile se non si conosce la funzione di probabilità di fondo di T a priori. Il bootstrap è un modo per stimare che la distribuzione di campionamento di T eseguendo artificialmente "nuovi esperimenti" su cui calcolare nuove istanze di T . Ogni nuovo campione è in realtà solo un ricampionamento dai dati originali. Che questo ti fornisca più informazioni di quelle che hai nei dati originali è misterioso e assolutamente fantastico.TTTTT

(1). Hai ragione, non lo faresti. L'autore sta cercando di motivare il bootstrap parametrico descrivendolo come "cosa faresti se conoscessi la distribuzione" ma sostituendo un ottimo stimatore della funzione di distribuzione - il cdf empirico.

Ad esempio, supponiamo che tu sappia che la tua statistica di test è normalmente distribuita con zero medio, varianza uno. Come stimeresti la distribuzione campionaria di T ? Bene, poiché conosci la distribuzione, un modo sciocco e ridondante per stimare la distribuzione di campionamento è usare R per generare 10.000 variabili casuali normali standard, quindi prendere la loro media e varianza campione e usarle come stime della media e varianza della distribuzione campionaria di T .TTT

Se non conosciamo a priori i parametri di , ma sappiamo che è normalmente distribuito, quello che possiamo fare invece è generare circa 10.000 campioni dal cdf empirico, calcolare T su ciascuno di essi, quindi prendere la media del campione e la varianza di questi 10.000 T s, e li usa come le nostre stime del valore atteso e la varianza di T . Poiché il cdf empirico è un buon stimatore del vero cdf, i parametri del campione dovrebbero convergere nei parametri reali. Questo è il bootstrap parametrico: si posiziona un modello sulla statistica che si desidera stimare. Il modello è indicizzato da un parametro, ad es. ( Μ , σ )TTTT(μ,σ), che si stima a seguito di campionamenti ripetuti dall'ecdf.

(3). Il bootstrap non parametrico non richiede nemmeno di sapere a priori che è normalmente distribuito. Invece, devi semplicemente estrarre campioni ripetuti dall'ecdf e calcolare T su ciascuno di essi. Dopo aver disegnato circa 10.000 campioni e aver calcolato 10.000 T s, è possibile tracciare un istogramma delle stime. Questa è una visualizzazione della distribuzione campionaria di TTTTT. Il bootstrap non parametrico non ti dirà che la distribuzione del campionamento è normale, o gamma, o così via, ma ti consente di stimare la distribuzione del campionamento (di solito) esattamente come necessario. Fa meno ipotesi e fornisce meno informazioni del bootstrap parametrico. È meno preciso quando il presupposto parametrico è vero ma più preciso quando è falso. Quale usi in ogni situazione che incontri dipende interamente dal contesto. Certo, più persone hanno familiarità con il bootstrap non parametrico, ma spesso un presupposto parametrico debole rende un modello completamente intrattabile suscettibile di stima, il che è adorabile.


1
Sono confuso riguardo alla tua descrizione del bootstrap parametrico "quello che possiamo fare invece è generare circa 10.000 campioni dal cdf empirico" La mia comprensione del bootstrap parametrico è che tu campioneresti da un modello che si adatta ai dati. Questo è ciò che descrive la citazione originale del libro Murphy. Potrei leggere male, ma campionare dal CDF empirico dei dati sarebbe campionare direttamente i punti dati, che sarebbe il bootstrap standard, no?
user20160

@ user20160 stai fraintendendo il "Invece" della risposta: sta descrivendo il bootstrap non parametrico, non quello parametrico.
daknowles,

4

Apprezzo molto lo sforzo offerto da guest47, ma non sono del tutto d'accordo con la sua risposta, in alcuni aspetti minori. Non vorrei porre direttamente i miei disaccordi, ma piuttosto rifletterli in questa risposta.

  1. In molti casi, è ridondante di calcolare θ s quando già sappiamo il vero sottostante parametro θ * . Tuttavia, è ancora utile quando vogliamo guardare l'accuratezza e la precisione di θ s nella stima θ * . Inoltre, il primo paragrafo nel tuo passaggio citato ti renderà più semplice la comprensione del concetto di "bootstrap parametrico", che affronterò poco dopo.θ^sθθ^sθ

  2. Guest47 dà una buona risposta. Non c'è bisogno di elaborare altro.

  3. In bootstrapping parametrico, quello che hai è il dato osservato D. si arriva con un modello parametrico per adattarsi ai dati, e utilizzare stimatori θ (che è una funzione dei dati D) per i veri parametri θ * . Poi si genera migliaia di set di dati dal modello parametrico con θ , e stimare θ s per questi modelli. Nel bootstrap non parametrico, si utilizza direttamente D, campione (per migliaia di volte) esattamente da D, anziché da dati generati. θ^θθ^θ^s


2

Non sono un esperto, ma per quello che vale:

  1. Perché sei interessato alla distribuzione del campionamento, come indicato nella prima frase del tuo preventivo.

  2. La distribuzione empirica è la distribuzione che vedi nel tuo numero finito di campioni. La distribuzione del campionamento è ciò che vedresti se tu prendessi un numero infinito di campioni.

Non posso rispondere 3. Ho sempre capito cosa è descritto qui come bootstrap non parametrico come "il" bootstrap.

Se non hai già compreso appieno il concetto di distribuzione del campionamento, qui c'è un thread davvero carino che presenta un codice R molto illustrativo.


5
La differenza tra il bootstrap parametrico e non parametrico è che il primo genera i suoi campioni dalla distribuzione (presunta) dei dati, usando i valori dei parametri stimati, mentre il secondo genera i suoi campioni campionando con la sostituzione dei dati osservati - nessun modello parametrico assunto .
jbowman,

@jbowman - bootstrap "non parametrico" non ha un modello sottostante - solo che è un modello diverso da quello utilizzato per motivare la stima dei parametri.
Probislogic,

@miura Per favore, non vandalizzare la tua risposta. Se desideri che il richiedente scelga una risposta diversa, commenta sotto la domanda. Se vuoi che la tua risposta sia cancellata, per favore segnalala e chiedila.
Glen_b -Reinstate Monica,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.