Calcolo dinamico del numero di campioni necessari per stimare la media


9

Sto cercando di stimare la media di una distribuzione gaussiana più o meno tramite campionamento. Non ho alcuna conoscenza preliminare della sua media o della sua varianza. Ogni campione è costoso da ottenere. Come faccio a decidere dinamicamente quanti campioni ho bisogno per ottenere un certo livello di affidabilità / accuratezza? In alternativa, come faccio a sapere quando posso smettere di prelevare campioni?

Tutte le risposte a domande come questa che trovo sembrano presumere una certa conoscenza della varianza, ma devo scoprirlo anche lungo la strada. Altri sono orientati a fare sondaggi e non mi è chiaro (principiante che sono) come generalizzi - la mia media non è w / in [0,1], ecc.

Penso che questa sia probabilmente una semplice domanda con una risposta ben nota, ma il mio Google-Fu mi sta fallendo. Anche solo dirmi cosa cercare sarebbe utile.


Qual è il motivo per cui hai contrassegnato questo come CW? La domanda sembra abbastanza specifica da consentire una risposta corretta e quindi non dovrebbe essere CW.

1
@josh va bene. Ero solo curioso della tua scelta.

1
Google "campionamento adattivo" e "campionamento sequenziale". Se sei ancora bloccato, includi "Wald" come parola chiave e poi procedi storicamente (ad esempio, guarda i documenti che fanno riferimento al lavoro di Wald sul campionamento sequenziale, quindi guarda i documenti che li fanno riferimento, ecc.).
whuber

1
@Robby McKilliam: Ma quali dati usi? Questa domanda sorge prima che tutti i dati siano stati raccolti. Se si raccolgono i valori uno alla volta e si calcola un elemento della configurazione dopo che ogni nuovo elemento è stato aggiunto al set di dati, non è possibile utilizzare formule standard per gli intervalli a causa dei confronti multipli correlati che si stanno effettuando. Pertanto, è necessaria una regola di arresto che ottimizzi la somma del rischio statistico dello stimatore e il costo della raccolta di ciascun campione aggiuntivo.
whuber

1
@whuber grazie! Sto ancora digerendo il materiale, ma penso che sia esattamente quello che sto cercando. Se questa fosse una risposta, la accetterei ...
Josh Bleecher Snyder,

Risposte:


2

È necessario cercare "disegni adattivi bayesiani". L'idea di base è la seguente:

  1. Si inizializza il precedente per i parametri di interesse.

    Prima di qualsiasi raccolta di dati i tuoi priori sarebbero diffusi. Man mano che vengono inseriti dati aggiuntivi, reimpostare il precedente in modo che corrisponda al "precedente + dati fino a quel momento".

  2. Raccogliere dati.

  3. Calcola il posteriore in base a dati + priori. Il posteriore viene quindi utilizzato come precedente nel passaggio 1 se si raccolgono effettivamente dati aggiuntivi.

  4. Valuta se i tuoi criteri di arresto sono soddisfatti

    I criteri di arresto potrebbero includere qualcosa come l'intervallo credibile del 95% non dovrebbe essere maggiore delle unità per i parametri di interesse. Potresti anche avere funzioni di perdita più formali associate ai parametri di interesse e calcolare la perdita attesa rispetto alla distribuzione posteriore per il parametro di interesse.±ε

Quindi ripetere i passaggi 1, 2 e 3 fino a quando i criteri di arresto dal passaggio 4 sono soddisfatti.


0

Normalmente vorresti che almeno 30 invocassero il teorema del limite centrale (sebbene questo sia in qualche modo arbitrario). A differenza del caso con sondaggi ecc., Che sono modellati utilizzando la distribuzione binomiale, non è possibile determinare anticipatamente una dimensione del campione che garantisce un livello di precisione con un processo gaussiano: dipende da quali residui si ottengono che determinano l'errore standard.

Va notato che se si dispone di una solida strategia di campionamento, è possibile ottenere risultati molto più accurati rispetto a una dimensione del campione molto più grande con una strategia scadente.


3
Perché si dovrebbe invocare il CLT quando si campiona da una distribuzione gaussiana nota (o presunta)? La media anche di un campione di uno sarà normalmente distribuita!
whuber

Buon punto! RTQ non è stato eseguito correttamente.
James,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.