Pubblicare in modo incrociato la mia domanda da mathoverflow per trovare un aiuto specifico per le statistiche.
Sto studiando un processo fisico che genera dati che si proiettano bene in due dimensioni con valori non negativi. Ogni processo ha una traccia (proiettata) di punti - - vedi l'immagine sotto.
Le tracce di esempio sono blu, un tipo di traccia problematico è stato disegnato a mano in verde e una regione di interesse disegnata in rosso:
Ogni traccia è il risultato di un esperimento indipendente. Venti milioni di esperimenti sono stati condotti nel corso di diversi anni, ma tra questi solo duemila esibiscono la caratteristica che tracciamo come traccia. Ci occupiamo solo degli esperimenti che generano una traccia, quindi il nostro set di dati è (approssimativamente) duemila tracce.
È possibile che una traccia entri nella regione di interesse e ci aspettiamo che ciò avvenga nell'ordine di su tracce. Stimare quel numero è la domanda a portata di mano:
Come possiamo calcolare la probabilità che una pista arbitraria entri nella regione di interesse?
Non è possibile condurre esperimenti abbastanza rapidamente per vedere con che frequenza vengono generate le tracce che entrano nella regione di interesse, quindi è necessario estrapolare dai dati disponibili.
Abbiamo adattato ad esempio i valori dati , ma questo non gestisce in modo sufficiente dati come la traccia verde: sembra necessario disporre di un modello che comprenda entrambe le dimensioni.
Abbiamo adattato la distanza minima da ciascuna traccia alla regione interessata, ma non siamo convinti che ciò stia producendo un risultato giustificabile.
1) Esiste un modo noto per adattare una distribuzione a questo tipo di dati per l'estrapolazione?
-o-
2) Esiste un modo ovvio di utilizzare questi dati per creare un modello per generare tracce? Ad esempio, utilizzare l'analisi dei componenti principali sulle tracce come punti in un ampio spazio, quindi adattare una distribuzione (Pearson?) Alle tracce proiettate su tali componenti.