Diversi metodi non parametrici per stimare la distribuzione di probabilità dei dati


10

Ho alcuni dati e stavo cercando di adattarmi a una curva regolare. Tuttavia, non voglio far valere troppe credenze precedenti o preconcetti troppo forti (tranne quelli implicati dal resto della mia domanda) su di esso, o qualsiasi distribuzione specifica.

Volevo solo adattarlo con una curva liscia (o avere una buona stima della distribuzione di probabilità da cui potrebbe provenire). L'unico metodo che conosco per fare questo è la stima della densità del kernel (KDE). Mi chiedevo se le persone fossero a conoscenza di altri metodi per stimare una cosa del genere. Volevo solo un loro elenco e da quello posso fare le mie ricerche per scoprire quali voglio usare.

Dare collegamenti o buoni riferimenti (o intuizioni su quali sono buoni) sono sempre ben accetti (e incoraggiati)!


3
" Non volevo far valere alcun credo precedente su di esso " - quindi non puoi presumere che sia liscio o addirittura continuo (quelle sarebbero credenze precedenti). Nel qual caso l'ecdf riguarda la tua unica risorsa.
Glen_b -Restate Monica

1
A forte di credere che sia un modo migliore di formulare la mia domanda. Volevo dire che non volevo assumere la sua opinione, Bernoulli o qualcosa che potrebbe essere restrittivo. Non so cosa sia ecdf tra i due. Se hai un buon suggerimento o un elenco di suggerimenti, sentiti libero di pubblicarlo.
Pinocchio,

Ho aggiornato la mia domanda. Va meglio? Più chiaro? A proposito, non c'è una risposta giusta alla mia domanda, solo buone e meno utili. :)
Pinocchio

2
ecdf = cdf empirico , scusa. Possiamo solo rispondere alla domanda che fai, non a quella che intendevi porre, quindi devi stare attento a essere chiaro quando esprimi i tuoi presupposti.
Glen_b -Restate Monica

Un istogramma normalizzato può essere visto come una stima della densità
Dason

Risposte:


5

Non specifichi che stai parlando di variabili casuali continue, ma assumerò, dal momento che menzioni KDE, che intendi questo.

Altri due metodi per il montaggio di densità lisce:

1) stima della densità log-spline. Qui una curva spline è adattata alla densità del log.

Un esempio:

Kooperberg and Stone (1991),
"Uno studio sulla stima della densità logspline",
Statistiche computazionali e analisi dei dati , 12 , 327-347

Kooperberg fornisce un collegamento a un pdf del suo documento qui , sotto "1991".

Se usi R, c'è un pacchetto per questo. Un esempio di adattamento generato da esso è qui . Di seguito è riportato un istogramma dei log dei set di dati lì e le riproduzioni delle logspline e le stime della densità del kernel dalla risposta:

istogramma dei dati di registro

Stima della densità della logspline:

trama logspline

Stima della densità del kernel:

stima della densità del kernel

2) Modelli a miscela finita . Qui viene scelta una comoda famiglia di distribuzioni (in molti casi, la normale), e si presume che la densità sia una miscela di diversi membri di quella famiglia. Si noti che le stime della densità del kernel possono essere viste come una tale miscela (con un kernel gaussiano, sono una miscela di gaussiani).

Più in generale, questi potrebbero essere adattati tramite ML, o l'algoritmo EM, o in alcuni casi tramite la corrispondenza del momento, sebbene in circostanze particolari possano essere fattibili altri approcci.

(Esistono numerosi pacchetti R che eseguono varie forme di modellazione di miscele.)

Aggiunto in modifica:

3) Istogrammi spostati medi
(che non sono letteralmente lisci, ma forse abbastanza lisci per i tuoi criteri non dichiarati):

Immagina di calcolare una sequenza di istogrammi a una certa larghezza di bin fissa ( ), attraverso un'origine bin che si sposta di per qualche intero ogni volta, e quindi una media. A prima vista sembra un istogramma fatto a binwidth , ma è molto più fluido.BB/KKB/K

Ad esempio, calcola 4 istogrammi ciascuno alla larghezza di binario 1, ma compensa di + 0, + 0,25, + 0,5, + 0,75 e quindi calcola la media delle altezze a una data . Si finisce con qualcosa del genere:X

Istogramma spostato medio

Diagramma tratto da questa risposta . Come ho detto lì, se vai a quel livello di sforzo, potresti anche fare una stima della densità del kernel.


Per aggiungere a questo. Per il modello di miscela - suppongo che potresti adattare una miscela di 2, quindi 3, quindi 4 distribuzioni e fermarti dopo che non c'è un aumento significativo della probabilità di log o di alcuni di questi ...
waferthin

4

Con riserva dei commenti sopra su ipotesi come levigatezza, ecc. È possibile eseguire una stima della densità non parametrica bayesiana utilizzando modelli di miscela con il processo di Dirichlet in precedenza.

L'immagine seguente mostra i contorni della densità di probabilità recuperati dalla stima MCMC di un modello bivariato normale di miscela DP per i dati "vecchi fedeli". I punti sono colorati IIRC in base al raggruppamento ottenuto nell'ultima fase MCMC.

inserisci qui la descrizione dell'immagine

Il 2010 fornisce un buon background.


1

Una scelta popolare è la foresta casuale (vedere concretamente il capitolo cinque di " Foreste decisionali: un quadro unificato per la classificazione, la regressione, la stima della densità, l'apprendimento collettivo e l'apprendimento semi-supervisionato ".

Descrive in dettaglio l'algoritmo e lo valuta rispetto ad altre scelte popolari come k-mean, GMM e KDE. La foresta casuale è implementata in R e scikit-learn.

Foresta casuale sono alberi decisionali insaccati in modo intelligente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.