Bootstrap vs Monte Carlo, stima degli errori


12

Sto leggendo l'articolo Propagazione degli errori con il metodo Monte Carlo nei calcoli geochimici, Anderson (1976) e c'è qualcosa che non capisco bene.

Considera alcuni dati misurati e un programma che li elabora e restituisce un dato valore. Nell'articolo, questo programma è usato per ottenere prima il valore migliore usando i mezzi dei dati (cioè: ).{A±σA,B±σB,C±σC}{A,B,C}

L'autore utilizza quindi un metodo Monte Carlo per assegnare un'incertezza a questo miglior valore, variando i parametri di input entro i loro limiti di incertezza (dati da una distribuzione gaussiana con mezzi e deviazioni standard ) prima di inviarli al programma. Questo è illustrato nella figura seguente:{A,B,C}{σA,σB,σC}

inserisci qui la descrizione dell'immagine

( Copyright: ScienceDirect )

dove l'incertezza può essere ottenuta dalla distribuzione finale .Z

Cosa succederebbe se, invece di questo metodo Monte Carlo, applicassi un metodo bootstrap? Qualcosa come questo:

inserisci qui la descrizione dell'immagine

Questo è: invece di variare i dati all'interno delle loro incertezze prima di inviarli al programma, campione con la sostituzione da loro.

Quali sono le differenze tra questi due metodi in questo caso? Di quali avvertenze dovrei essere a conoscenza prima di applicarne una?


Sono a conoscenza di questa domanda Bootstrap, Monte Carlo , ma non risolve del tutto i miei dubbi poiché, in questo caso, i dati contengono incertezze assegnate.


Giusto per chiarire: il "cambiamento casuale" nel metodo MC è generato casualmente dal ricercatore? Cioè, rumore / errori vengono aggiunti artificialmente ai dati di input?
Shadowtalker,

Viene "generato casualmente", in base alle incertezze dei dati misurati (cioè: i s) e presupponendo una certa distribuzione per questi errori (di solito gaussiani). Quindi no, gli errori non vengono aggiunti artificialmente. I dati di input hanno un errore associato dato dal processo di misurazione. σ
Gabriel,

Non credo di capire. Questo è rumore artificiale, ma con una deviazione standard stimata dai dati
Shadowtalker

Quindi probabilmente non capisco cosa sia il "rumore artificiale" (e cosa costituirebbe un "rumore non artificiale"). Hai visto l'articolo? Spiega sicuramente le cose molto meglio di me.
Gabriel

Rumore naturale: variazione casuale nei miei dati. Rumore artificiale: usare un generatore di numeri casuali per trarre numeri da una distribuzione di probabilità e aggiungere quei numeri ai miei dati
shadowtalker

Risposte:


7

Per quanto ho capito la tua domanda, la differenza tra l'approccio "Monte Carlo" e l'approccio bootstrap è essenzialmente la differenza tra statistiche parametriche e non parametriche.

Nel framework parametrico, si sa esattamente come vengono generati i dati , ovvero, dati i parametri del modello ( , , e tc. Nella descrizione), è possibile produrre nuove realizzazioni di tali set di dati e da loro nuove realizzazioni della tua procedura statistica (o "output"). È quindi possibile descrivere interamente ed esattamente la distribuzione di probabilità dell'uscita , mediante derivazioni matematiche o mediante un esperimento di Monte Carlo che restituisce un campione di dimensioni arbitrarie da questa distribuzione.x1,,xNAσAZ

Nel quadro non parametrico, non si vuole fare tali ipotesi sui dati e utilizza quindi i dati e solo i dati per stimare la sua distribuzione, . Il bootstrap è un tale approccio in quanto la distribuzione sconosciuta è stimata dalla distribuzione empirica effettuata impostando un peso di probabilità di su ciascun punto del campione (nel caso più semplice quando i dati sono iid). Utilizzando questa distribuzione empirica come un sostituto per il vero la distribuzione , si può ricavare da Monte Carlo simulazioni la distribuzione stimata dell'uscita .FF^1/nF^FZ

Pertanto, la principale differenza tra i due approcci è se si fa o meno questo presupposto parametrico sulla distribuzione dei dati.


2
Quasi due anni dopo, so che questa è la risposta migliore perché menziona esplicitamente la differenza tra gli approcci parametrici e non parametrici (che allora non conoscevo) Quindi, sto cambiando la risposta accettata a questa .
Gabriel,

ma per l'approccio paramrtric si può anche usare il bootstrap parametrico giusto?
Tom Wenseleers,

12

La modifica casuale nel tuo modello Monte Carlo è rappresentata da una curva a campana e il calcolo presuppone probabilmente "errore" o "modifica" normalmente distribuiti. Almeno, il tuo computer ha bisogno di alcune ipotesi sulla distribuzione da cui attingere il "cambiamento". Il bootstrap non fa necessariamente tali ipotesi. Prende le osservazioni come osservazioni e se il loro errore è distribuito asimmetricamente, entra nel modello in quel modo.

Il bootstrap si basa sull'osservazione e quindi necessita di numerose osservazioni vere. Se leggi in un libro, quella C ha una media di 5 con una deviazione standard di 1, allora puoi impostare un modello Monte Carlo anche se non hai osservazioni da cui attingere. Se la tua osservazione è scarsa (pensa: astronomia) puoi impostare un modello Monte Carlo con 6 osservazioni e alcune ipotesi sulla loro distribuzione, ma non partirai da 6 osservazioni.

Sono possibili modelli misti con alcuni input ricavati da dati osservati e alcuni da dati simulati (diciamo ipotetici).

Modifica: nella seguente discussione nei commenti, il poster originale ha trovato il seguente utile:

Al "programma originale" non importa, se ottiene un valore, che tu abbia calcolato da una media e una deviazione o che sia una vera realizzazione di una media e una deviazione in un processo naturale.


1
Grazie per la tua risposta Bernhard! Alcune domande che mi vengono in mente. 1. Comprendo correttamente che l'unica (principale?) Differenza tra questi due metodi è che MC deve assumere una distribuzione per le incertezze mentre il bootstrap no? 2. Se avessi un set di dati abbastanza grande e avessi eseguito ripetutamente l'iterazione (da ), questi due metodi converrebbero allora sull'incertezza stimata assegnata al valore migliore ? 3. Non sto scartando dati preziosi non usando le incertezze assegnate ai dati di input nel metodo bootstrap? N
Gabriel,

1
Sono autodidatta statisticamente / di apprendimento automatico, quindi non pretenderò che nessuna delle differenze che ho citato sia l'unica. Non sono nemmeno sicuro, se Bootstrapping sia considerato un metodo Monte Carlo stesso. Entrambi gli algoritmi simulano un gran numero di scenari realistici. Puoi trarre l'input dai presupposti o dalle osservazioni. Il mio campo è la medicina e le ipotesi sono notoriamente sbagliate in quel campo. Pertanto, proverei ad andare con le osservazioni ogni volta che sono disponibili in numero sufficiente. Può darsi che, nel campo più vicino alla fisica o alla chimica, ...
Bernhard,

1
... che nei campi più vicini alla fisica o alla chimica, i presupposti sono più affidabili. Per quanto riguarda il punto 2: se si analizzano campioni e iterazioni sufficientemente ampi, ritengo che i dati reali non vengano mai realmente distribuiti in modo normale e che i tuoi presupposti siano sempre un po 'sbagliati, ma non posso rivendicare alcuna conoscenza. Quanto al punto 3: non sono sicuro di aver capito cosa intendi scartando dati preziosi nel metodo bootstrap. "L'assegnazione dell'incertezza" è creata dall'uomo, i dati provengono dalla realtà. Ancora una volta, questa è la mia convinzione basata sul mio campo. In realtà, raramente avrai una buona teoria e grandi dati
Bernhard,

1
Da scartando dati importanti intendo che il metodo bootstrap non fa uso delle incertezze assegnati ai dati (es: ) Questo è "informazione" che il metodo MC tiene conto ma i rigetti bootstrap. σA,σB,σC
Gabriel,

1
Ogni osservazione è un valore misurato e quindi contiene già il proprio errore di misurazione e incertezza. Al "programma originale" non importa, se ottiene un valore, che tu abbia calcolato da una media e una deviazione o che sia una vera realizzazione di una media e una deviazione in un processo naturale. Ma ovviamente, tutte le tecniche di ricampionamento si basano su una grande base di dati e puoi calcolare numeri arbitrari o numeri casuali ma di solito non fare numeri arbitrari di osservazioni. Quindi nei casi in cui hai un gran numero di osservazioni, non vedo, dove i dati vengono scartati.
Bernhard,

1

Se la funzione che collega l'uscita Z agli ingressi è ragionevolmente lineare (cioè entro l'intervallo di variazione degli ingressi), la varianza di Z è una combinazione delle varianze e delle covarianze degli ingressi. I dettagli della distribuzione non contano troppo ... Quindi, entrambi i metodi dovrebbero restituire risultati simili.

Vedi il Supplemento 1 alla GUM


Cosa succede quando la funzione non è ragionevolmente lineare? In che modo questi due metodi differiranno allora?
Gabriel,

In tal caso, dovresti fare riferimento alla risposta sopra, di Bernhard. Cioè, affinché coincidano, dovresti avere una descrizione fedele dei dati pdf per Monte Carlo.
Pascal,

0

Bootstrap significa lasciare che i dati parlino da soli. Con il metodo Monte Carlo, campionate molti disegni casuali dal CDF imposto (normale; gamma; beta ...) tramite una distribuzione uniforme e create un PDF empirico (a condizione che il CDF sia continuo e derivabile). Una spiegazione interessante dell'intero processo di Monte Carlo è riportata in: Briggs A, Schulper M, Claxton K. Modellistica delle decisioni per la valutazione economica della salute. Oxford: Oxford University Press, 2006: 93-95.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.