Adattamento della distribuzione ai dati spaziali


10

Pubblicare in modo incrociato la mia domanda da mathoverflow per trovare un aiuto specifico per le statistiche.

Sto studiando un processo fisico che genera dati che si proiettano bene in due dimensioni con valori non negativi. Ogni processo ha una traccia (proiettata) di punti - - vedi l'immagine sotto.xy

Le tracce di esempio sono blu, un tipo di traccia problematico è stato disegnato a mano in verde e una regione di interesse disegnata in rosso: tracce e regione di interesse

Ogni traccia è il risultato di un esperimento indipendente. Venti milioni di esperimenti sono stati condotti nel corso di diversi anni, ma tra questi solo duemila esibiscono la caratteristica che tracciamo come traccia. Ci occupiamo solo degli esperimenti che generano una traccia, quindi il nostro set di dati è (approssimativamente) duemila tracce.

È possibile che una traccia entri nella regione di interesse e ci aspettiamo che ciò avvenga nell'ordine di su tracce. Stimare quel numero è la domanda a portata di mano:1104

Come possiamo calcolare la probabilità che una pista arbitraria entri nella regione di interesse?

Non è possibile condurre esperimenti abbastanza rapidamente per vedere con che frequenza vengono generate le tracce che entrano nella regione di interesse, quindi è necessario estrapolare dai dati disponibili.

Abbiamo adattato ad esempio i valori dati , ma questo non gestisce in modo sufficiente dati come la traccia verde: sembra necessario disporre di un modello che comprenda entrambe le dimensioni.xy200

Abbiamo adattato la distanza minima da ciascuna traccia alla regione interessata, ma non siamo convinti che ciò stia producendo un risultato giustificabile.

1) Esiste un modo noto per adattare una distribuzione a questo tipo di dati per l'estrapolazione?

-o-

2) Esiste un modo ovvio di utilizzare questi dati per creare un modello per generare tracce? Ad esempio, utilizzare l'analisi dei componenti principali sulle tracce come punti in un ampio spazio, quindi adattare una distribuzione (Pearson?) Alle tracce proiettate su tali componenti.


1
Non devo fornire ulteriori informazioni su quel particolare processo, ma aggiornerò la domanda per parlare di come vengono raccolti i dati.
Jeff Snider,

1
Ho aggiornato la lingua per cercare di essere più concreto. Immagina di lanciare ciottoli contro una finestra all'ultimo piano aperta e ci interessa solo come i ciottoli che attraversano la finestra rimbalzano sul pavimento all'interno. Abbiamo lanciato milioni di ciottoli e circa 2000 sono passati attraverso la finestra. Quando un ciottolo attraversa la finestra, tracciamo una traccia dei suoi progressi sul pavimento. Dato che un sasso attraversa la finestra, vogliamo stimare la probabilità che attraversi la regione di interesse.
Jeff Snider,

Risposte:


1

Sembra che tu voglia simulare la formazione di tracce e quindi condurre una simulazione Monte Carlo per vedere quante tracce cadono nella regione rossa. Per fare ciò, vorrei prima convertire le linee in due funzioni, una che indica la direzione e l'altra distanza da un punto all'altro su quella traccia. Ora puoi studiare le distribuzioni di probabilità associate a queste due funzioni. Ad esempio, potresti scoprire che la distanza percorsa segue una distribuzione specifica (fai attenzione che la distribuzione non cambi nel tempo). Se una delle variabili cambia nel tempo, è necessario approfondire l'analisi delle serie temporali (non il mio campo, scusa).

Un altro pensiero che viene in mente è che, poiché la direzione del movimento in xy cambia gradualmente nella maggior parte delle tracce, è possibile esaminare meglio il cambio di direzione rispetto al tempo per le tracce.

Dovrai anche stimare la probabilità che una traccia inizi a una data coordinata xy con una data direzione. È possibile prendere in considerazione l'utilizzo della stima della densità del kernel per smussare il PDF risultante o, se sembra seguire una distribuzione per la quale esiste un modello analitico, è possibile utilizzare la massimizzazione delle aspettative per adattare tale distribuzione ai dati.

La simulazione Monte Carlo trarrebbe quindi campioni casuali da queste distribuzioni per simulare le forme delle tracce. Quindi devi simulare un gran numero di tracce e vedere quanto spesso queste tracce passano attraverso la regione rossa. Potrebbero essere migliaia o milioni di tracce, dovrai sperimentare per vedere quando la distribuzione smette di cambiare quando aggiungi altre tracce.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.