Perché non utilizzare sempre elementi di configurazione bootstrap?


12

Mi chiedevo come si comportano i CI di bootstrap (e BCa in barticolare) su dati normalmente distribuiti. Sembra che ci sia molto lavoro per esaminare le loro prestazioni su vari tipi di distribuzioni, ma non è stato possibile trovare nulla sui dati normalmente distribuiti. Dal momento che sembra una cosa ovvia studiare prima, suppongo che i documenti siano troppo vecchi.

Ho fatto alcune simulazioni Monte Carlo usando il pacchetto di avvio R e ho scoperto che i CI di bootstrap erano in accordo con i CI di esattezza, sebbene per i piccoli campioni (N <20) tendano a essere un po 'liberali (CI di dimensioni minori). Per campioni abbastanza grandi, sono essenzialmente gli stessi.

Questo mi fa chiedermi se ci sia qualche buona ragione per non usare sempre il bootstrap. Data la difficoltà di valutare se una distribuzione è normale e le numerose insidie ​​dietro a ciò, sembra ragionevole non decidere e segnalare elementi di configurazione bootstrap indipendentemente dalla distribuzione. Capisco la motivazione per non usare sistematicamente test non parametrici, poiché hanno meno potenza, ma le mie simulazioni mi dicono che questo non è il caso degli EC di bootstrap. Sono ancora più piccoli.

Una domanda simile che mi dà fastidio è perché non usare sempre la mediana come misura della tendenza centrale. Le persone spesso raccomandano di usarlo per caratterizzare i dati non distribuiti normalmente, ma poiché la mediana è la stessa media dei dati distribuiti normalmente, perché fare una distinzione? Sembrerebbe abbastanza utile se potessimo sbarazzarci delle procedure per decidere se una distribuzione è normale o meno.

Sono molto curioso dei tuoi pensieri su questi temi e se sono stati discussi in precedenza. I riferimenti sarebbero molto apprezzati.

Grazie!

Pierre


Vedi la mia domanda qui riguardo a media e mediana: stats.stackexchange.com/questions/96371/…
Alexis,

Per molti problemi, il ricampionamento non è fattibile dal punto di vista computazionale. Ad esempio, se si desidera semplicemente calcolare gli elementi della configurazione per una matrice 3D di grandi dimensioni o per una serie di lunga durata.
jona,

Risposte:


4

È utile esaminare la motivazione dell'intervallo BCa e i suoi meccanismi (ovvero i cosiddetti "fattori di correzione"). Gli intervalli BCa sono uno degli aspetti più importanti del bootstrap perché sono il caso più generale degli intervalli percentuali Bootstrap (ovvero l'intervallo di confidenza basato esclusivamente sulla distribuzione bootstrap stessa).

In particolare, guarda la relazione tra gli intervalli BCa e gli intervalli percentuali Bootstrap: quando la regolazione per l'accelerazione (il primo "fattore di correzione") e l'asimmetria (il secondo "fattore di correzione") sono entrambi zero, quindi gli intervalli BCa ritornano a l'intervallo percentuale tipico Bootstrap.

Non penso che sarebbe una buona idea usare SEMPRE il bootstrap. Il bootstrap è una tecnica solida che ha una varietà di meccanismi (es: intervalli di confidenza e ci sono diverse varianti del bootstrap per diversi tipi di problemi come il bootstrap selvaggio quando c'è eteroscedasticità) per adattarsi a problemi diversi (es: non-normalità ), ma si basa su un presupposto cruciale: i dati rappresentano accuratamente la popolazione reale.

Questa ipotesi, sebbene di natura semplice, può essere difficile da verificare soprattutto nel contesto di campioni di piccole dimensioni (si potrebbe pensare che un piccolo campione sia un riflesso accurato della popolazione reale!). Se l'esempio originale su cui la distribuzione bootstrap (e quindi tutti i risultati che ne conseguono) non è adeguatamente accurato, i tuoi risultati (e quindi la tua decisione basata su tali risultati) saranno imperfetti.

CONCLUSIONE: c'è un sacco di ambiguità con il bootstrap e dovresti prestare attenzione prima di applicarlo.


2
"Se il campione originale su cui la distribuzione bootstrap (e quindi tutti i risultati che ne conseguono) non è adeguatamente accurato, i tuoi risultati (e quindi la tua decisione basata su tali risultati) saranno imperfetti." -> ma il CI bootstrap ha prestazioni peggiori rispetto all'alternativa analitica in questi casi?
jona,

3
L'ipotesi che i dati rappresentino adeguatamente la popolazione non è esclusiva del solo bootstrap: riguarda le statistiche in generale, quindi se i dati sono inadeguati, quindi qualsiasi inferenza, inferenza di bootstrap o altro, che sono state fatte sono fuorvianti (un presupposto falso implica conclusione!).
mmmmmmmmmm

4
Quindi questo avvertimento non è diretto al bootstrap, ma all'inferenza, e non è un argomento contro l'uso del bootstrap su un altro metodo, ma sulla fiducia assoluta nei metodi fallibili. Allora non vedo quanto sia rilevante in questo contesto.
jona,

Spiacente, un po 'in ritardo su questo thread .... @Jona: questo non sarebbe rilevante perché il bootstrap amplificherebbe ulteriormente il campione? Quindi se il tuo campione è una sfortunata travisamento della popolazione, l'utilizzo del bootstrap ti spedirebbe ancora più lontano dal centro della popolazione? Non è forse un argomento contro fare affidamento sul bootstrap in modo sistematico?
sisdog,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.