È possibile interpretare il bootstrap da una prospettiva bayesiana?


43

Ok, questa è una domanda che mi tiene sveglio la notte.

La procedura bootstrap può essere interpretata come approssimativa di una procedura bayesiana (ad eccezione del bootstrap bayesiano)?

Mi piace molto l '"interpretazione" bayesiana delle statistiche che trovo ben coerente e di facile comprensione. Tuttavia, ho anche un punto debole per la procedura bootstrap che è così semplice, ma offre inferenze ragionevoli in molte situazioni. Sarei più contento del bootstrap, tuttavia, se sapessi che il bootstrap si stava approssimando in qualche modo a una distribuzione posteriore.

Conosco il "bootstrap bayesiano" (Rubin, 1981), ma dal mio punto di vista quella versione del bootstrap è problematica come il bootstrap standard. Il problema è l'assunto del modello davvero peculiare che si fa, sia quando si fa il bootstrap classico sia quello bayesiano, cioè i possibili valori della distribuzione sono solo i valori che ho già visto. In che modo queste strane ipotesi di modello possono ancora produrre le inferenze molto ragionevoli fornite dalle procedure bootstrap? Ho cercato articoli che hanno studiato le proprietà del bootstrap (ad es. Weng, 1989) ma non ho trovato alcuna spiegazione chiara di cui sono contento.

Riferimenti

Donald B. Rubin (1981). Il bootstrap bayesiano. Ann. Statist. Volume 9, numero 1, 130-134.

Chung-Sing Weng (1989). Su una proprietà asintotica di secondo ordine della media bootstrap bayesiana. Gli annali della statistica , vol. 17, n. 2, pagg. 705-710.


3
Ho appena scritto un post sul blog "bootstrap come modello bayesiano" ( sumsar.net/blog/2015/04/… ) che esplora le "spiegazioni" bayesiane del bootstrap. Non risponde direttamente alle domande precedenti, ma spero che renda più chiaro cos'è il bootstrap e cosa fa.
Rasmus Bååth il

Leggi muliere e secchi (1996) tecniche di inferenza e bootstrap predittive bayesiane non parametriche. Thay indirizzo esattamente il tuo punto!

Risposte:


30

La Sezione 8.4 di The Elements of Statistical Learning di Hastie, Tibshirani e Friedman è "Relazione tra Bootstrap e Bayesian Inference". Potrebbe essere proprio quello che stai cercando. Credo che questo libro sia disponibile gratuitamente attraverso un sito Web di Stanford, anche se non ho il link a portata di mano.

Modificare:

Ecco un link al libro, che gli autori hanno reso liberamente disponibile online:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

A pagina 272, gli autori scrivono:

In questo senso, la distribuzione bootstrap rappresenta una distribuzione posteriore (approssimativa) non parametrica, non informativa per il nostro parametro. Ma questa distribuzione bootstrap si ottiene indolore - senza dover specificare formalmente un precedente e senza dover campionare dalla distribuzione posteriore. Quindi potremmo pensare alla distribuzione bootstrap come a un Bayes posteriore di un "povero". Disturbando i dati, il bootstrap si avvicina all'effetto bayesiano di perturbare i parametri ed è in genere molto più semplice da eseguire.

Un altro pezzo del puzzle si trova in questa domanda validata in modo incrociato che menziona la disuguaglianza di Dvoretzky – Kiefer – Wolfowitz che "mostra [...] che la funzione di distribuzione empirica converge uniformemente alla vera funzione di distribuzione esponenzialmente veloce nella probabilità".

Quindi tutto sommato il bootstrap non parametrico potrebbe essere visto come un metodo asintotico che produce "una distribuzione posteriore (approssimativa) non parametrica, non informativa per il nostro parametro" e dove questa approssimazione migliora "esponenzialmente velocemente" con l'aumentare del numero di campioni.


3
Sebbene apprezziamo sempre i riferimenti a materiale pertinente, questa risposta sarebbe notevolmente migliorata se fosse incluso un breve riassunto di quella sezione.
cardinale il

1
L'ultimo bit di quella sezione potrebbe essere più utile: il bootstrap è una distribuzione posteriore approssimativa non parametrica, non informativa per il parametro stimato. L'intera sezione merita una lettura.
Fraijo,

2
Grazie per il link! Se leggessi Hastie et al. a destra mostrano una corrispondenza tra il boostrap non parametrico e il bootstrap bayesiano e afferma che il primo si avvicina al secondo. Non scrivono molto sul perché il bootstrap (bayesiano o no) dia come risultato inferenze sensate in primo luogo. Quello che speravo era qualcosa del tipo: "In [alcune circostanze generali] il bootstrap approssima la vera distribuzione posteriore del parametro / statistica con un errore che è [qualcosa] e che dipende da [questo e quello]".
Rasmus Bååth,

Grazie per l'aiuto nel migliorare la mia risposta. La spiegazione più chiara che ho sentito per il motivo per cui il bootstrap funziona è che il campione che hai appena raccolto è la migliore rappresentazione che hai della popolazione complessiva. Ma non sono abbastanza un probabilista per dirlo in modo più formale.
EdM

Se ricordo, fanno questo argomento, avviano un NN e continuano a farsi cremare da un NN completamente bayesiano di Radford Neal. Penso che dica qualcosa, non so cosa.
ragazzo

3

Questo è l'ultimo documento che ho visto sull'argomento:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}

2
La mia interpretazione del documento è che descrive un metodo bootstrap per il calcolo della distribuzione posteriore di un modello specificato, che è un metodo che può essere usato al posto del campionamento metropolitano. Non vedo che il documento discute la connessione tra le ipotesi del modello bootstrap non parametrico e la stima bayesiana ...
Rasmus Bååth

1
Afferma di farlo. Non ho letto il documento in dettaglio.
Frank Harrell,

5
Frank: Non mi sono divertito molto a leggere questo articolo di Efron - quello che fa può essere visto come un semplice campionatore di importanza sequenziale che parte dalla probabilità e cerca di arrivare al posteriore (che spesso funzionerà). Lo scopo di Rubin nel documento del 1981 era di mettere in dubbio l'adeguatezza del bootstrap, ma apparentemente quello di Efron raggiunse la tesi opposta. David Draper l'ha ripreso questa estate nel suo corso di JSM e ha concluso male, tranne quando si vede la maggior parte delle possibilità nel campione. Ma vedi qui normaldeviate.wordpress.com/2013/06/12/…
phaneron

1

Anch'io sono stato sedotto sia dal bootstrap che dal teorema di Bayes, ma non riuscivo a dare un senso alle giustificazioni del bootstrap fino a quando non lo guardavo da una prospettiva bayesiana. Quindi - come spiego di seguito - la distribuzione bootstrap può essere vista come una distribuzione posteriore bayesiana, il che rende ovvia la (a?) Logica alla base del bootstrap e ha anche il vantaggio di chiarire le ipotesi formulate. Vi sono maggiori dettagli sull'argomento seguente e sulle ipotesi formulate, in https://arxiv.org/abs/1803.06214 (pagine 22-26).

Ad esempio, che è impostato sul foglio di calcolo in http://woodm.myweb.port.ac.uk/SL/resample.xlsx (fai clic sulla scheda Bootstrap nella parte inferiore dello schermo), supponiamo di avere un campione di 9 misurazioni con una media di 60. Quando ho usato il foglio di calcolo per produrre 1000 campioni con la sostituzione di questo campione e arrotondato i mezzi al numero pari più vicino, 82 di questi mezzi erano 54. L'idea del bootstrap è che noi usa il campione come popolazione "finta" per vedere quanto è probabile che la media dei campioni di 9 sia variabile, quindi questo suggerisce che la probabilità che una media del campione sia 6 al di sotto della media della popolazione (in questo caso la popolazione finta in base al campione con una media di 60) è dell'8,2%. E possiamo giungere a una conclusione simile sulle altre barre nell'istogramma di ricampionamento.

Ora immaginiamo che la verità sia che la media della popolazione reale è 66. Se è così la nostra stima della probabilità che la media del campione sia il 60 (cioè i Dati) è dell'8,2% (usando la conclusione nel paragrafo sopra ricordando che 60 è 6 al di sotto della media della popolazione ipotizzata di 66). Scriviamo come

P (dato dato media = 66) = 8,2%

e questa probabilità corrisponde a un valore x di 54 sulla distribuzione di ricampionamento. Lo stesso tipo di argomento si applica a ogni possibile media della popolazione compresa tra 0, 2, 4 ... 100. In ogni caso la probabilità viene dalla distribuzione di ricampionamento, ma questa distribuzione si riflette sulla media di 60.

Ora applichiamo il teorema di Bayes. La misurazione in questione può assumere solo valori compresi tra 0 e 100, quindi arrotondando al numero pari più vicino le possibilità per la media della popolazione sono 0, 2, 4, 6, .... 100. Se assumiamo che la distribuzione precedente sia piatta, ognuna di queste ha una probabilità precedente del 2% (a 1 dp) e il teorema di Bayes ci dice che

P (PopMean = 66 dati forniti) = 8,2% * 2% / P (Dati)

dove

P (Dati) = P (PopMean = 0 dati dati) * 2% + P (PopMean = 2 dati dati) * 2% + ... + P (PopMean = 100 dati dati) * 2%

Ora possiamo cancellare il 2% e ricordare che la somma delle probabilità deve essere 1 poiché le probabilità sono semplicemente quelle della distribuzione di ricampionamento. Il che ci lascia con la conclusione che

P (PopMean = 66) = 8,2%

Ricordando che l'8,2% è la probabilità dalla distribuzione di ricampionamento corrispondente a 54 (anziché 66), la distribuzione posteriore è semplicemente la distribuzione di ricampionamento riflessa sulla media del campione (60). Inoltre, se la distribuzione del ricampionamento è simmetrica nel senso che le asimmetrie sono casuali - come in questo e in molti altri casi, possiamo considerare la distribuzione del ricampionamento identica alla distribuzione di probabilità posteriore.

Questo argomento fa varie ipotesi, la principale è che la distribuzione precedente è uniforme. Questi sono spiegati più dettagliatamente nell'articolo sopra citato.


Esiste un bootstrap bayesiano che è stato introdotto da Rubin. Ma non credo sia quello a cui ti riferisci. Il normale bootstrap introdotto da Efron è davvero un concetto frequentista.
Michael Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.