In ogni caso il bootstrap - qualcuno può fornire una semplice spiegazione per iniziare?


9

Nonostante vari tentativi di leggere sul bootstrap, mi sembra di colpire sempre un muro di mattoni. Mi chiedo se qualcuno può dare una definizione ragionevolmente non tecnica di bootstrap?

So che in questo forum non è possibile fornire dettagli sufficienti per consentirmi di comprenderlo appieno, ma una leggera spinta nella giusta direzione con l'obiettivo principale e il meccanismo di bootstrap sarebbe molto apprezzato! Grazie.

Risposte:


8

La voce di Wikipedia su Bootstrapping è in realtà molto buona:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

Il motivo più comune per cui viene applicato il bootstrap è quando la forma della distribuzione sottostante da cui viene prelevato un campione è sconosciuta. Tradizionalmente gli statistici ipotizzano una distribuzione normale (per ottime ragioni legate al teorema del limite centrale), ma le statistiche (come la deviazione standard, gli intervalli di confidenza, i calcoli di potenza ecc.) Stimate tramite la teoria della distribuzione normale sono rigorosamente valide solo se la distribuzione della popolazione sottostante è normale.

Ricampionando ripetutamente il campione stesso, il bootstrap consente stime indipendenti dalla distribuzione. Tradizionalmente ogni "ricampionamento" del campione originale seleziona casualmente lo stesso numero di osservazioni del campione originale. Tuttavia, questi sono selezionati con la sostituzione. Se il campione ha N osservazioni, ogni ricampionamento del bootstrap avrà N osservazioni, con molti campioni originali ripetuti e molti esclusi.

Il parametro di interesse (ad es. Odds ratio ecc.) Può quindi essere stimato da ciascun campione avviato. Ripetendo il bootstrap diciamo che 1000 volte consente una stima dell'intervallo di confidenza "mediana" e del 95% sulla statistica (es. Odds ratio) selezionando il 2,5 °, 50 ° e 97,5 ° percentile.


8

Lo scienziato americano ha recentemente pubblicato sul bootstrap un bell'articolo di Cosma Shalizi che è abbastanza facile da leggere e ti dà gli elementi essenziali per afferrare il concetto.


7

In senso lato: l'intuizione, così come l'origine del nome ("tirarsi su dai bootstrap"), deriva dall'osservazione che nell'usare le proprietà di un campione per trarre inferenze su una popolazione (il problema "inverso" della statistica inferenza), ci aspettiamo di sbagliare. Per scoprire la natura di tale errore, trattare il campione stesso come una popolazione a sé stante e studiare come funziona la procedura inferenziale quando si prelevano campioni da esso. Questo è un problema "avanti": si sa tutto sulla tua Sample- qua-popolazione e non devi indovinare nulla al riguardo. Il tuo studio suggerirà (a) in che misura la tua procedura inferenziale può essere distorta e (b) la dimensione e la natura dell'errore statistico della tua procedura. Quindi, utilizzare queste informazioni per modificare le stime originali. In molte (ma sicuramente non tutte) situazioni, la distorsione regolata è asintoticamente molto più bassa.

Un'intuizione fornita da questa descrizione schematica è che il bootstrap non richiede simulazione o sottocampionamento ripetuto: quelli sono solo modi omnibus, calcolabili dal punto di vista computazionale per studiare qualsiasi tipo di procedura statistica quando la popolazione è nota. Esistono molte stime bootstrap che possono essere calcolate matematicamente.

Questa risposta deve molto al libro di Peter Hall "The Bootstrap and Edgeworth Expansion" (Springer 1992), in particolare la sua descrizione del "Principio principale" del bootstrap.


Mi piace questo approccio "originale" (wrt. Altre voci). Tuttavia, trovo sempre difficile spiegare perché il bootstrap funziona in pratica ...
chl

4

La wiki sul bootstrap fornisce la seguente descrizione:

Il bootstrap consente di raccogliere molte versioni alternative della singola statistica che normalmente verrebbero calcolate da un campione. Ad esempio, supponiamo che siamo interessati all'altezza delle persone in tutto il mondo. Dato che non possiamo misurare tutta la popolazione, ne campioniamo solo una piccola parte. Da quel campione si può ottenere solo un valore di una statistica, cioè una media o una deviazione standard ecc., E quindi non vediamo quanto varia quella statistica. Quando si utilizza il bootstrap, estraiamo casualmente un nuovo campione di n altezze dagli N dati campionati, in cui ogni persona può essere selezionata al massimo t volte. In questo modo più volte, creiamo un gran numero di set di dati che potremmo aver visto e calcoliamo la statistica per ciascuno di questi set di dati. Quindi otteniamo una stima della distribuzione della statistica.

Fornirò maggiori dettagli se puoi chiarire quale parte della descrizione sopra non capisci.


4

Mi piace pensarlo come segue: se si ottiene un set di dati campione casuale da una popolazione, presumibilmente quel campione avrà caratteristiche che corrispondono approssimativamente a quelle della popolazione di origine. Quindi, se sei interessato ad ottenere intervalli di confidenza su una particolare caratteristica della distribuzione, ad esempio la sua asimmetria, puoi trattare il campione come una pseudo-popolazione da cui puoi ottenere molti set di pseudo-campioni casuali, calcolando il valore della caratteristica di interesse in ciascuno. Il presupposto che il campione originale corrisponda approssimativamente alla popolazione significa anche che è possibile ottenere gli pseudo-campioni campionando dalla pseudo-popolazione "con sostituzione" (ad es. Campionare un valore, registrarlo, quindi rimetterlo; quindi ogni valore ha la possibilità di essere osservato più volte).


3

Bootstrap è essenzialmente una simulazione dell'esperimento ripetuto; diciamo che hai una scatola con le palle e vuoi ottenere una dimensione media di una palla - quindi ne disegni alcune, misuri e prendi una media. Ora vuoi ripeterlo per ottenere la distribuzione, ad esempio per ottenere una deviazione standard, ma hai scoperto che qualcuno ha rubato la scatola.
Ciò che si può fare ora è usare ciò che si possiede: questa serie di misurazioni. L'idea è di mettere le palline nella nuova scatola e simulare l'esperimento originale disegnando lo stesso numero di palline con la sostituzione, entrambe per avere la stessa dimensione del campione e una certa variabilità. Ora questo può essere replicato più volte per ottenere una serie di mezzi che possono essere finalmente utilizzati per approssimare la distribuzione media.


3

Questa è l'essenza del bootstrap: prelevare diversi campioni di dati, ottenere una statistica per ciascun campione (ad es. Media, mediana, correlazione, coefficiente di regressione, ecc.) E usare la variabilità nella statistica tra i campioni per indicare qualcosa riguardo gli errori standard e gli intervalli di confidenza per la statistica. - Bootstrap e pacchetto di avvio in R

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.