Come trovare la modalità di una funzione di densità di probabilità?


14

Ispirato dall'altra mia domanda , vorrei chiederti come si trova la modalità di una funzione di densità di probabilità (PDF) di una funzione ?f(x)

Esiste una procedura "ricettario" per questo? Apparentemente, questo compito è molto più difficile di quanto sembri inizialmente.


3
Nel caso in cui ti chiedi delle risposte molto diverse che hai ricevuto, nota che la risposta di Nick * si riferisce alla stima da un campione , piuttosto che alla situazione in cui hai un pdf noto; Ho letto la tua domanda chiedendomi il caso di pdf noto, ma è un post molto utile se vuoi vedere come fare le cose dai campioni. ... (* Pierre è anche sulla stima di un campione)
Glen_b -Reinstate Monica

Risposte:


13

Dire "la modalità" implica che la distribuzione ne abbia una e una sola. In generale, una distribuzione può avere molte modalità o (probabilmente) nessuna.

Se esiste più di una modalità, è necessario specificare se si desidera tutte o solo la modalità globale (se esiste esattamente una).

Supponendo che ci limitiamo a distribuzioni unimodali *, in modo da poter parlare della modalità "the", si trovano allo stesso modo di trovare massimi di funzioni più in generale.

* nota che la pagina dice " come il termine" mode "ha molteplici significati, così il termine" unimodal " " e offre diverse definizioni di mode - che possono cambiare ciò che, esattamente, conta come una modalità, sia che ci sia 0 1 o di più - e modifica anche la strategia per identificarli. Nota in particolare quanto sia generale la frase "più generale" di ciò che è l'unimodalità nel paragrafo iniziale "l' unimodalità significa che esiste un solo valore più alto, in qualche modo definito "

Una definizione offerta in quella pagina è:

Una modalità di una distribuzione di probabilità continua è un valore al quale la funzione di densità di probabilità (pdf) raggiunge il suo valore massimo

Quindi, data una definizione specifica della modalità, la trovate come troverete quella particolare definizione di "valore più alto" quando trattate le funzioni più in generale, (supponendo che la distribuzione sia unimodale sotto quella definizione).

Esistono varie strategie in matematica per identificare tali cose, a seconda delle circostanze. Vedi la sezione "Trovare massimi e minimi funzionali" della pagina Wikipedia su Massimi e minimi che fornisce una breve discussione.

Ad esempio, se le cose sono sufficientemente belle - diciamo che abbiamo a che fare con una variabile casuale continua, in cui la funzione di densità ha la prima derivata continua - potresti procedere cercando di trovare dove la derivata della funzione di densità è zero e controllando che tipo di punto critico è (massimo, minimo, punto orizzontale di inflessione). Se esiste esattamente uno di questi punti che è un massimo locale, dovrebbe essere la modalità di una distribuzione unimodale.

Tuttavia, in generale le cose sono più complicate (ad esempio, la modalità potrebbe non essere un punto critico) e entrano in gioco le strategie più ampie per trovare i massimi di funzioni.

A volte, scoprire dove i derivati ​​sono zero algebricamente può essere difficile o almeno ingombrante, ma può essere ancora possibile identificare i massimi in altri modi. Ad esempio, è possibile che si possano invocare considerazioni di simmetria nell'identificare la modalità di una distribuzione unimodale. Oppure si potrebbe invocare una qualche forma di algoritmo numerico su un computer, per trovare una modalità numericamente.

Ecco alcuni casi che illustrano cose tipiche che è necessario verificare, anche quando la funzione è unimodale e almeno a tratti continua.

inserisci qui la descrizione dell'immagine

Quindi, per esempio, dobbiamo controllare gli endpoint (diagramma centrale), i punti in cui la derivata cambia segno (ma potrebbe non essere zero; primo diagramma) e punti di discontinuità (terzo diagramma).

In alcuni casi, le cose potrebbero non essere così pulite come queste tre; devi cercare di capire le caratteristiche della particolare funzione con cui hai a che fare.


Non ho toccato il caso multivariato, in cui anche quando le funzioni sono abbastanza "carine", solo trovare i massimi locali può essere sostanzialmente più complesso (ad esempio i metodi numerici per farlo possono fallire in senso pratico, anche quando logicamente devono avere successo infine).


1
+1 Come osservazione minore, anche la modalità globale potrebbe non essere unica; per esempio, una densità di miscela con pesi uguali di una variabile casuale e N ( - 1 , 1 ) . N(1,1)N(-1,1)
Dilip Sarwate,

@Dilip Aggiungerò un piccolo testo su questo.
Glen_b -Restate Monica

1
@DilipSarwate Anche le modalità di distribuzione congiunta possono differire dalle modalità di distribuzione marginale.
Marcelo Ventura,

17

Questa risposta si concentra interamente sulla stima della modalità da un campione, con enfasi su un metodo particolare. Se c'è un forte senso in cui conosci già la densità, analiticamente o numericamente, la risposta preferita è, in breve, cercare direttamente il massimo singolo o multiplo multiplo, come nella risposta di @Glen_b.

Le "modalità mezzo campione" possono essere calcolate utilizzando la selezione ricorsiva del mezzo campione con la lunghezza più breve. Sebbene abbia radici più lunghe, un'eccellente presentazione di questa idea è stata data da Bickel e Frühwirth (2006).

L'idea di stimare la modalità come il punto medio dell'intervallo più breve che contiene un numero fisso di osservazioni risale almeno a Dalenius (1965). Vedi anche Robertson e Cryer (1974), Bickel (2002) e Bickel e Frühwirth (2006) su altri stimatori della modalità.

Le statistiche dell'ordine di un campione di valori di x sono definite da x ( 1 )x ( 2 )x ( n - 1 )x ( n ) .nXX(1)X(2)X(n-1)X(n)

La modalità mezzo campione viene qui definita usando due regole.

Regola 1. Se , la modalità mezzo campione è x ( 1 ) . Se n = 2 , la modalità mezzo campione è ( x ( 1 ) + x ( 2 ) ) / 2 . Se n = 3 , la modalità mezzo campione è ( x ( 1 ) + x ( 2 ) ) / 2 se x ( 1 ) e x ( 2n=1X(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1) sono più vicini di x ( 2 ) e x ( 3 ) ,( x ( 2 ) + x ( 3 ) ) / 2se è vero il contrario, e x ( 2 ) in caso contrario.x(2)x(2)x(3)(x(2)+x(3))/2x(2)

Regola 2. Se , applichiamo la selezione ricorsiva fino a sinistra con 3 o meno valori. Prima di tutto h 1 = n / 2 . La metà più breve dei dati dal rango k al rango k + h 1 viene identificata per ridurre al minimo x ( k + h 1 ) - x ( k ) su k = 1 , , n - h 1 . Quindi la metà più breve di quellin43h1=n/2kk+h1x(k+h1)x(k)k=1,,nh1 valori è identificato utilizzando h 2 = h 1 / 2 , e così via. Per finire, usa la Regola 1.h1+1h2=h1/2

L'idea di identificare la metà più breve viene applicata nel "shorth" chiamato da JW Tukey e introdotto nello studio sulla robustezza di Princeton degli stimatori della posizione di Andrews, Bickel, Hampel, Huber, Rogers e Tukey (1972, p.26) come media della mezza lunghezza più breve per h = n / 2 . Rousseeuw (1984), basandosi su un suggerimento di Hampel (1975), ha sottolineato che il punto medio della metà più breve ( x k + x ( k + h )x(k),,x(k+h)h=n/2 è lo stimatore meno mediano dei quadrati (LMS) della posizione per x . Vedi Rousseeuw (1984) e Rousseeuw e Leroy (1987) per applicazioni di LMS e idee correlate alla regressione e ad altri problemi. Si noti che questo punto medio LMS è anche chiamato shorth in alcune pubblicazioni più recenti (ad esempio Maronna, Martin e Yohai 2006, p.48). Inoltre, la metà più corta stessa viene talvolta chiamata shorth, come indica il titolo di Grübel (1988). Per un'implementazione Stata e maggiori dettagli, vedere da SSC.(xk+x(k+h))/2xshorth

Alcuni commenti generici seguono i vantaggi e gli svantaggi delle modalità a mezzo campione, dal punto di vista degli analisti di dati pratici quanto degli statistici matematici o teorici. Qualunque sia il progetto, sarà sempre saggio confrontare i risultati con le misure riassuntive standard (ad es. Mediane o mezzi, compresi i mezzi geometrici e armonici) e mettere in relazione i risultati con i grafici delle distribuzioni. Inoltre, se il tuo interesse è per l'esistenza o l'estensione della bimodalità o della multimodalità, sarà meglio guardare direttamente stime adeguatamente livellate della funzione di densità.

Stima della modalità Riassumendo dove i dati sono più densi, la modalità a mezzo campione aggiunge uno strumento di stima automatizzata della modalità alla casella degli strumenti. Stime più tradizionali della modalità basate sull'identificazione dei picchi degli istogrammi o persino dei grafici di densità del kernel sono sensibili alle decisioni sull'origine o sulla larghezza del contenitore o sul tipo di kernel e sulla mezza larghezza del kernel e più difficili da automatizzare in ogni caso. Se applicato a distribuzioni unimodali e approssimativamente simmetriche, la modalità mezzo campione sarà vicina alla media e alla mediana, ma più resistente della media ai valori anomali in entrambe le code. Quando applicato a distribuzioni unimodali e asimmetriche, la modalità mezzo campione sarà in genere molto più vicina alla modalità identificata da altri metodi rispetto alla media o alla mediana.

Semplicità L'idea della modalità mezzo campione è abbastanza semplice e facile da spiegare a studenti e ricercatori che non si considerano specialisti statistici.

Interpretazione grafica La modalità mezzo campione può essere facilmente correlata a visualizzazioni standard di distribuzioni quali grafici di densità del kernel, distribuzione cumulativa e grafici quantici, istogrammi e grafici stelo-foglia.

Allo stesso tempo, nota che

Non utile per tutte le distribuzioni Se applicato a distribuzioni che sono approssimativamente a forma di J, la modalità a mezzo campionamento approssima il minimo dei dati. Quando applicato a distribuzioni che sono approssimativamente a forma di U, la modalità del mezzo campione si troverà all'interno di qualunque metà della distribuzione abbia una densità media più elevata. Nessuno dei due comportamenti sembra particolarmente interessante o utile, ma allo stesso modo c'è poca richiesta di riassunti a modalità singola per le distribuzioni a forma di J o a forma di U. Per le forme a U, la bimodalità rende l'idea di un moot in modalità singola, se non invalido.

Legami La metà più breve potrebbe non essere definita in modo univoco. Anche con i dati misurati, l'arrotondamento dei valori riportati può spesso generare legami. Cosa fare con due o più metà più corte è stato poco discusso in letteratura. Si noti che le metà legate possono sovrapporsi o essere disgiunte.

La procedura adottata nell'implementazione di Stata hsmodedati legami è quella di usare il più medio in ordine, tranne che a sua volta non è definito in modo univoco a meno che t sia dispari. Il punto più centrale viene arbitrariamente preso per avere la posizione t / 2 in ordine, contando verso l'alto. Questo è quindi il 1 ° di 2, il 2 ° di 3 o 4 e così via.ttt/2

9,4,1,0,1,4,90.501+n/2nn, che è difficile da ottenere, dato che altri desideri, in particolare che la lunghezza della finestra non dovrebbe mai diminuire con la dimensione del campione. Preferiamo credere che questo sia un problema minore con set di dati di dimensioni ragionevoli.

1+n/2nnn=1,n=2n/2

1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66.hsmode5.00,5.02,5.04

Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers e JW Tukey. 1972. Stime affidabili dell'ubicazione: rilievo e anticipazioni. Princeton, New Jersey: Princeton University Press.

Bickel, DR 2002. Stimatori robusti della modalità e dell'asimmetria dei dati continui. Statistiche computazionali e analisi dei dati 39: 153-163.

Bickel, DR e R. Frühwirth. 2006. Su uno stimatore rapido e robusto della modalità: confronti con altri stimatori con applicazioni. Statistiche computazionali e analisi dei dati 50: 3500-3530.

Dalenius, T. 1965. La modalità - Un parametro statistico trascurato. Rivista, Royal Statistical Society A 128: 110-117.

Grübel, R. 1988. La lunghezza dello shorth. Annali delle statistiche 16: 619-628.

Hampel, FR 1975. Oltre i parametri di localizzazione: concetti e metodi robusti. Bollettino, International Statistical Institute 46: 375-382.

Maronna, RA, RD Martin e VJ Yohai. 2006. Statistiche affidabili: teoria e metodi . Chichester: John Wiley.

Robertson, T. e JD Cryer. 1974. Una procedura iterativa per stimare la modalità. Journal, American Statistical Association 69: 1012-1016.

Rousseeuw, PJ 1984. Minima mediana della regressione dei quadrati. Journal, American Statistical Association 79: 871-880.

Rousseeuw, PJ e AM Leroy. 1987. Robusta regressione e rilevazione anomala . New York: John Wiley.

Questo account si basa sulla documentazione di

Cox, New Jersey 2007. HSMODE: modulo Stata per calcolare le modalità mezzo campione, http://EconPapers.repec.org/RePEc:boc:bocode:s456818 .

Vedi anche il sito Web di David R. Bickel qui per informazioni sulle implementazioni in altri software.


5

Se hai campioni dalla distribuzione in un vettore "x", farei:

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

Dovresti sintonizzare la funzione di densità in modo che sia abbastanza liscia nella parte superiore ;-).

Se hai solo la densità della distribuzione, utilizzerei un ottimizzatore per trovare la modalità (REML, LBFGS, simplex, ecc.) ...

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

Oppure utilizzare un campionatore Monte-Carlo per ottenere alcuni campioni dalla distribuzione (pacchetto rstan) e utilizzare la procedura sopra. (Comunque, il pacchetto Stan come funzione di "ottimizzazione" per ottenere la modalità di una distribuzione).


Sembra che tali stime non vengano più utilizzate. Devi specificare la larghezza del kernel per usare gli stimatori della densità del kernel. D'altra parte, HSM e HRM non hanno bisogno di alcuna sintonia e funzionano in tempo lineare.
Viktor
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.