Stima della varianza dei campioni normali censurati al centro


11

Ho processi normalmente distribuiti da cui ottengo piccoli campioni ( n in genere 10-30) che voglio usare per stimare la varianza. Ma spesso i campioni sono così vicini tra loro che non possiamo misurare singoli punti vicino al centro.

Ho questa vaga comprensione che dovremmo essere in grado di costruire uno stimatore efficiente utilizzando campioni ordinati: ad esempio, se so che il campione contiene 20 punti e che 10 sono raggruppati vicino al centro troppo strettamente per misurare singolarmente, ma ho misurazioni discrete di 5 su entrambe le code, esiste un approccio standard / formulaico per stimare la varianza del processo che fa un uso ottimale di tali campioni?

(Si noti che non penso di poter solo ponderare la media centrale. Ad esempio, è possibile che 7 campioni si raggruppino strettamente mentre altri tre sono asimmetrici inclinati su un lato ma abbastanza vicini non possiamo dirlo senza un singolo campionamento più noioso .)

Se la risposta è complicata, qualsiasi consiglio su cosa dovrei ricercare sarebbe apprezzato. Ad esempio, si tratta di un problema statistico dell'ordine? È probabile che ci sia una risposta formulaica o è un problema computazionale?

Dettagli aggiornati: l'applicazione è l'analisi degli obiettivi di tiro. Un singolo campione sottostante è il punto di impatto ( x, y ) di un singolo colpo sul bersaglio. Il processo sottostante ha una distribuzione normale bivaria simmetrica ma non esiste alcuna correlazione tra gli assi, quindi siamo in grado di trattare i campioni { x } e { y } come estrazioni indipendenti dalla stessa distribuzione normale. (Potremmo anche dire che il processo sottostante è distribuito da Rayleigh, ma non possiamo misurare i variati di Rayleigh di esempio perché non possiamo essere certi delle coordinate del "vero" centro del processo, che per i piccoli n può essere significativamente distante dal centro del campione ( , ˉ y ).)x¯y¯

Ci viene assegnato un bersaglio e il numero di colpi sparati al suo interno. Il problema è che per n >> 3 pistole precise spareranno tipicamente un "buco frastagliato" circondato da colpi distinti. Siamo in grado di osservare la larghezza x - y della buca, ma non sappiamo dove hanno colpito i colpi non distinti nella buca.

Ecco alcuni esempi di obiettivi più problematici:

[Target di esempio con n = 10]

Target di esempio con n = 100

(Certo, in un mondo ideale cambieremmo / cambieremo bersaglio dopo ogni tiro e poi aggregheremo i campioni per l'analisi. Ci sono una serie di ragioni che sono spesso poco pratiche, anche se è possibile quando possibile .)

xi

Per facilitare la soluzione, credo che sarà più semplice ridurlo a un insieme di campioni unidimensionali dal normale, con un intervallo centrale di larghezza w > d , dove d è il diametro del proiettile, contenente c < n campioni "censurati".


(1) La distribuzione normale è un presupposto o hai buone prove a sostegno di esso? (2) Il problema è che non è possibile contare accuratamente i dati vicino al centro? (Sarebbe diverso dal solito significato di "censura", ovvero che puoi contare quei dati ma sai solo che i loro valori si trovano entro determinati intervalli.)
whuber

@whuber: Sì, abbiamo prove sia fondamentali che empiriche che il processo è normalmente distribuito. E sì, conosciamo il conteggio esatto dei punti nel gruppo totale e possiamo osservare gli intervalli in cui si trovano troppi campioni per determinare i singoli valori.
feetwet

Grazie, è utile. La natura dell'incertezza non è ancora chiara, tuttavia, e un buon modello potrebbe motivare una buona soluzione. Potresti forse fornire un'illustrazione o un esempio o almeno descrivere il processo di misurazione in modo un po 'più dettagliato?
whuber

@whuber: aggiornato. Se sarà di aiuto, lavorerò anche sulla pubblicazione di collegamenti ad alcuni esempi reali.
feetwet

xi,(μ,σ2)σiB(xi,r)rB(x,r)rx

Risposte:


2

Questo è un problema interessante. Innanzitutto, non vorrei assumere una distribuzione normale. Sembra che ciò che stai davvero cercando sia una stima della dispersione che applichi in modo equo a molti tiratori o pistole o munizioni o altro.

Proverei a capovolgere questo. Non sai esattamente dove sono finiti tutti i proiettili se non vedi 10 fori separati (supponendo 10 colpi). Ma sai dove non sono andati. Questo potrebbe essere usato per limitare la distribuzione ipotizzando statistiche bayesiane se si desidera iniziare con una distribuzione.

Un'idea che potrebbe essere la migliore qui è smettere di provare a farlo matematicamente e fare qualcosa di sensato come questo. Prendi il bersaglio ed esegui una routine di elaborazione delle immagini per contrassegnare l'area di scatto che potrebbe non essere collegata. Misura la media e il secondo momento di questo e usa questi sono uno stimatore. Se vuoi andare un po 'oltre e provare a gaussianizzarlo, puoi eseguire un semplice esperimento Monte Carlo per ottenere un fattore di calibrazione.


Lasciami spiegare un po 'di più. Diciamo che hai 10 colpi e ci sono 6 buchi chiari dove sai dove sono andati i proiettili. Per prima cosa prendi questi punti e usali per limitare la larghezza gaussiana. Seguendo la solita routine, questo vincola il sigma del sigma gaussiano (per essere una distribuzione nota. Cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf
Dave31415

Ora, una volta che lo hai fatto, vuoi considerare i 4 proiettili che non hanno fatto nuovi buchi. Poiché i proiettili sono indipendenti, questa nuova probabilità (sul sigma gaussiano) può essere semplicemente moltiplicata. Quindi sostanzialmente per ciascuno dei 4 proiettili, si desidera moltiplicare per la probabilità che non facciano un nuovo buco.
Dave31415

Un modo semplice per farlo con Monte Carlo è quello di disegnare un set di sigma dalla tua distribuzione vincolata e usando questo sigma, calcolare la possibilità di non creare un nuovo buco. Quindi, disegna molti colpi simulati da questo e conta quale frazione non crea nuovi buchi. Questo può quindi essere utilizzato per aggiornare la probabilità. Passa quindi a quello successivo e fai lo stesso. Ora hai la tua verosimiglianza finale.
Dave31415

Ultimo commento Da un punto di vista pratico, la stima del sigma non dovrebbe essere influenzata così tanto da dove sono finiti esattamente i proiettili invisibili fintanto che si presume che siano passati attraverso i buchi precedenti. Sarà per lo più vincolato da quelli che puoi vedere che definiscono il bordo. Questo perché la possibilità che un proiettile passi attraverso una buca due volte lontano dal centro è molto bassa. Quindi anche un Monte Carlo grezzo ti porterà molto vicino allo stimatore ottimale.
Dave31415

Se non affermiamo una distribuzione normale (o altra), allora sembra improbabile che possiamo dire altro che mettere un limite superiore o inferiore a ciò che sta accadendo nella regione censurata. Nel caso monodimensionale in cui sono stati censurati n colpi, un limite inferiore della varianza è quello di supporre che tutti colpiscano lo stesso punto interno più vicino alla media e (supponendo che la media sia centrata all'interno) un limite superiore è supponiamo che i punti censurati siano equamente distribuiti sulla periferia dell'interno. Ma se assumiamo che il processo sottostante sia normale, sembra che dovremmo essere in grado di fare qualcosa di meglio.
feetwet

0

Da un altro punto di vista, si potrebbe vedere questo alla luce del campo delle statistiche spaziali, che ha creato un assortimento di metriche, molte delle quali sono state inserite in cassette degli strumenti (vedere, ad esempio, https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

Wikipedia (link: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) in realtà ha una buona pagina introduttiva che discute concetti come misure di tendenza spaziale centrale e dispersione spaziale. Per citare Wikipedia su quest'ultimo:

"Per la maggior parte delle applicazioni, la dispersione spaziale dovrebbe essere quantificata in modo invariante a rotazioni e riflessioni. Diverse semplici misure di dispersione spaziale per un set di punti possono essere definite utilizzando la matrice di covarianza delle coordinate dei punti. La traccia, il determinante e il più grande autovalore della matrice di covarianza può essere utilizzato come misura della dispersione spaziale. Una misura di dispersione spaziale che non si basa sulla matrice di covarianza è la distanza media tra i vicini più vicini. [1] "

I concetti correlati includono misure di omogeneità spaziale, funzioni K e L di Ripley e forse più rilevanti per l'analisi dei cluster di proiettili, il test Cuzick-Edwards per il raggruppamento di sottopopolazioni all'interno di popolazioni raggruppate. Quest'ultimo test si basa sul confronto (usando le analisi del "vicino più vicino" per tabulare le statistiche) con una popolazione di controllo, che nel contesto attuale potrebbe basarsi su obiettivi osservati effettivi classificati come non visualizzati in cluster, o per una simulazione teorica, da dire la distribuzione di Rayleigh.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.