Metodologia Bootstrap. Perché ricampionare "con la sostituzione" invece del sottocampionamento casuale?


11

Il metodo bootstrap ha visto una grande diffusione negli ultimi anni, lo uso anche molto, soprattutto perché il ragionamento alla base è abbastanza intuitivo.

Ma questa è una cosa che non capisco. Perché Efron ha scelto di eseguire il ricampionamento con sostituire invece di semplicemente sottocampionare includendo o escludendo casualmente singole osservazioni?

Penso che il sottocampionamento casuale abbia una qualità molto buona, che rappresenta idealmente la situazione di vita reale in cui le osservazioni che abbiamo nel nostro studio sono un sottoinsieme di una popolazione ipotetica. Non vedo il vantaggio di avere moltiplicato le osservazioni durante il ricampionamento. In un contesto reale nessuna osservazione è simile a un'altra, specialmente per situazioni multivariate complesse.


3
il ricampionamento con il ricampionamento è fatto perché è la cosa giusta da fare, dato il modello. Il modello alla base del bootstrap consiste nell'utilizzare la massima probabilità non parametrica per stimare la funzione di distribuzione cumulativa, quindi campionare osservazioni indipendenti dalla funzione di distribuzione cumulativa stimata. Pensaci --- algoritmicamente, che si ottiene campionando per sostituzione dal campione originale.
kjetil b halvorsen,

Risposte:


10

Un modo per comprendere questa scelta è di considerare il campione a portata di mano come la migliore rappresentazione che hai della popolazione sottostante. Potresti non avere più l'intera popolazione da cui campionare, ma hai questa particolare rappresentazione della popolazione. Un ricampionamento veramente casuale da questa rappresentazione della popolazione significa che è necessario campionare con la sostituzione, altrimenti il ​​campionamento successivo dipenderà dai risultati del campionamento iniziale. La presenza di un caso ripetuto in un particolare campione di bootstrap rappresenta membri della popolazione sottostante che hanno caratteristiche vicine a quelle di quel particolare caso ripetuto. È possibile utilizzare anche gli approcci di esclusione o esclusione, come suggerisci, ma è una convalida incrociata piuttosto che il bootstrap.

Penso che praticamente metta in altre parole il commento di @kjetil_b_halvorsen


Capisco il punto. Rendere le singole osservazioni in un campione bootstrap indipendenti l'una dall'altra. In letteratura esistono metodi basati sul sottocampionamento, vedi Politis, Romano, Wolf. Utilizzare un sottoinsieme fisso m di n, scelto senza sostituzione. Come evitano la trappola che hai detto prima? Nel loro caso, non capisco perché usano un sottocampione di dimensioni fisse anziché un sottocampione casuale.
Bakaburg,

2
I metodi di sottocampionamento stanno provando a realizzare qualcosa di diverso dal bootstrap. Questi metodi stanno cercando di selezionare sottoinsiemi casuali dal campione di dati piuttosto che cercare di emulare un nuovo campione casuale dalla popolazione sottostante . Non è che l'uno o l'altro sia sbagliato; sono approcci diversi che hanno particolari punti di forza e di debolezza.
EdM

Quindi forse dovrei fare una nuova domanda riguardo alla differenza tra i due metodi nelle statistiche di inferenza. Grazie!
Bakaburg,

@Bakaburg vede questa domanda per una superba introduzione alla letteratura sul bootstrap rispetto alla validazione incrociata (che è un particolare tipo di sottocampionamento).
EdM

@Bakaburg Il metodo bootstrap sta simulando il disegno indipendente ripetuto di campioni casuali di dimensione n (non un sottoinsieme più piccolo di n) da una popolazione più ampia. Ciò significa che è concepibile che un campione casuale contenga un gran numero di valori estremamente piccoli o grandi della popolazione madre che sono spesso sottorappresentati nel nostro campione originale. Come sottolineato da EdM, il ricampionamento con sostituzione consente a una singola osservazione del campione di "rappresentare" più osservazioni nella popolazione che hanno valori simili - è un modo per ottenere un'approssimazione uniforme della distribuzione della popolazione.
RobertF
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.