Questa risposta si concentra interamente sulla stima della modalità da un campione, con enfasi su un metodo particolare. Se c'è un forte senso in cui conosci già la densità, analiticamente o numericamente, la risposta preferita è, in breve, cercare direttamente il massimo singolo o multiplo multiplo, come nella risposta di @Glen_b.
Le "modalità mezzo campione" possono essere calcolate utilizzando la selezione ricorsiva del mezzo campione con la lunghezza più breve. Sebbene abbia radici più lunghe, un'eccellente presentazione di questa idea è stata data da Bickel e Frühwirth (2006).
L'idea di stimare la modalità come il punto medio dell'intervallo più breve che contiene un numero fisso di osservazioni risale almeno a Dalenius (1965). Vedi anche Robertson e Cryer (1974), Bickel (2002) e Bickel e Frühwirth (2006) su altri stimatori della modalità.
Le statistiche dell'ordine di un campione di valori di x sono definite da x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n - 1 ) ≤ x ( n ) .nXX( 1 )≤ x( 2 )≤ ⋯ ≤ x( n - 1 )≤ x( n )
La modalità mezzo campione viene qui definita usando due regole.
Regola 1. Se , la modalità mezzo campione è x ( 1 ) . Se n = 2 , la modalità mezzo campione è ( x ( 1 ) + x ( 2 ) ) / 2 . Se n = 3 , la modalità mezzo campione è ( x ( 1 ) + x ( 2 ) ) / 2 se x ( 1 ) e x ( 2n = 1X( 1 )n = 2( x( 1 )+x(2))/2n=3(x(1)+x(2))/2x(1) sono più vicini di x ( 2 ) e x ( 3 ) ,( x ( 2 ) + x ( 3 ) ) / 2se è vero il contrario, e x ( 2 ) in caso contrario.x(2)x(2)x(3)(x(2)+x(3))/2x(2)
Regola 2. Se , applichiamo la selezione ricorsiva fino a sinistra con 3 o meno valori. Prima di tutto h 1 = ⌊ n / 2 ⌋ . La metà più breve dei dati dal rango k al rango k + h 1 viene identificata per ridurre al minimo x ( k + h 1 ) - x ( k ) su k = 1 , ⋯ , n - h 1 . Quindi la metà più breve di quellin≥43h1=⌊n/2⌋kk+h1x(k+h1)−x(k)k=1,⋯,n−h1 valori è identificato utilizzando h 2 = ⌊ h 1 / 2 ⌋ , e così via. Per finire, usa la Regola 1.h1+1h2=⌊h1/2⌋
L'idea di identificare la metà più breve viene applicata nel "shorth" chiamato da JW Tukey e introdotto nello studio sulla robustezza di Princeton degli stimatori della posizione di Andrews, Bickel, Hampel, Huber, Rogers e Tukey (1972, p.26) come media della mezza lunghezza più breve per h = ⌊ n / 2 ⌋ . Rousseeuw (1984), basandosi su un suggerimento di Hampel (1975), ha sottolineato che il punto medio della metà più breve ( x k + x ( k + h )x(k),⋯,x(k+h)h=⌊n/2⌋ è lo stimatore meno mediano dei quadrati (LMS) della posizione per x . Vedi Rousseeuw (1984) e Rousseeuw e Leroy (1987) per applicazioni di LMS e idee correlate alla regressione e ad altri problemi. Si noti che questo punto medio LMS è anche chiamato shorth in alcune pubblicazioni più recenti (ad esempio Maronna, Martin e Yohai 2006, p.48). Inoltre, la metà più corta stessa viene talvolta chiamata shorth, come indica il titolo di Grübel (1988). Per un'implementazione Stata e maggiori dettagli, vedere
da SSC.(xk+x(k+h))/2xshorth
Alcuni commenti generici seguono i vantaggi e gli svantaggi delle modalità a mezzo campione, dal punto di vista degli analisti di dati pratici quanto degli statistici matematici o teorici. Qualunque sia il progetto, sarà sempre saggio confrontare i risultati con le misure riassuntive standard (ad es. Mediane o mezzi, compresi i mezzi geometrici e armonici) e mettere in relazione i risultati con i grafici delle distribuzioni. Inoltre, se il tuo interesse è per l'esistenza o l'estensione della bimodalità o della multimodalità, sarà meglio guardare direttamente stime adeguatamente livellate della funzione di densità.
Stima della modalità Riassumendo dove i dati sono più densi, la modalità a mezzo campione aggiunge uno strumento di stima automatizzata della modalità alla casella degli strumenti. Stime più tradizionali della modalità basate sull'identificazione dei picchi degli istogrammi o persino dei grafici di densità del kernel sono sensibili alle decisioni sull'origine o sulla larghezza del contenitore o sul tipo di kernel e sulla mezza larghezza del kernel e più difficili da automatizzare in ogni caso. Se applicato a distribuzioni unimodali e approssimativamente simmetriche, la modalità mezzo campione sarà vicina alla media e alla mediana, ma più resistente della media ai valori anomali in entrambe le code. Quando applicato a distribuzioni unimodali e asimmetriche, la modalità mezzo campione sarà in genere molto più vicina alla modalità identificata da altri metodi rispetto alla media o alla mediana.
Semplicità L'idea della modalità mezzo campione è abbastanza semplice e facile da spiegare a studenti e ricercatori che non si considerano specialisti statistici.
Interpretazione grafica La modalità mezzo campione può essere facilmente correlata a visualizzazioni standard di distribuzioni quali grafici di densità del kernel, distribuzione cumulativa e grafici quantici, istogrammi e grafici stelo-foglia.
Allo stesso tempo, nota che
Non utile per tutte le distribuzioni Se applicato a distribuzioni che sono approssimativamente a forma di J, la modalità a mezzo campionamento approssima il minimo dei dati. Quando applicato a distribuzioni che sono approssimativamente a forma di U, la modalità del mezzo campione si troverà all'interno di qualunque metà della distribuzione abbia una densità media più elevata. Nessuno dei due comportamenti sembra particolarmente interessante o utile, ma allo stesso modo c'è poca richiesta di riassunti a modalità singola per le distribuzioni a forma di J o a forma di U. Per le forme a U, la bimodalità rende l'idea di un moot in modalità singola, se non invalido.
Legami La metà più breve potrebbe non essere definita in modo univoco. Anche con i dati misurati, l'arrotondamento dei valori riportati può spesso generare legami. Cosa fare con due o più metà più corte è stato poco discusso in letteratura. Si noti che le metà legate possono sovrapporsi o essere disgiunte.
La procedura adottata nell'implementazione di Stata hsmode
dati legami è quella di usare il più medio in ordine, tranne che a sua volta non è definito in modo univoco a meno che t sia dispari. Il punto più centrale viene arbitrariamente preso per avere la posizione ⌈ t / 2 ⌉ in ordine, contando verso l'alto. Questo è quindi il 1 ° di 2, il 2 ° di 3 o 4 e così via.tt⌈t/2⌉
−9,−4,−1,0,−1,4,9−0.501+⌊n/2⌋nn, che è difficile da ottenere, dato che altri desideri, in particolare che la lunghezza della finestra non dovrebbe mai diminuire con la dimensione del campione. Preferiamo credere che questo sia un problema minore con set di dati di dimensioni ragionevoli.
1+⌊n/2⌋nnn=1,n=2⌈n/2⌉
1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66.hsmode
5.00,5.02,5.04
Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers e JW Tukey. 1972. Stime affidabili dell'ubicazione: rilievo e anticipazioni.
Princeton, New Jersey: Princeton University Press.
Bickel, DR 2002. Stimatori robusti della modalità e dell'asimmetria dei dati continui. Statistiche computazionali e analisi dei dati 39: 153-163.
Bickel, DR e R. Frühwirth. 2006. Su uno stimatore rapido e robusto della modalità: confronti con altri stimatori con applicazioni. Statistiche computazionali e analisi dei dati 50: 3500-3530.
Dalenius, T. 1965. La modalità - Un parametro statistico trascurato. Rivista, Royal Statistical Society A 128: 110-117.
Grübel, R. 1988. La lunghezza dello shorth. Annali delle statistiche 16: 619-628.
Hampel, FR 1975. Oltre i parametri di localizzazione: concetti e metodi robusti. Bollettino, International Statistical Institute 46: 375-382.
Maronna, RA, RD Martin e VJ Yohai. 2006. Statistiche affidabili: teoria e metodi . Chichester: John Wiley.
Robertson, T. e JD Cryer. 1974. Una procedura iterativa per stimare la modalità. Journal, American Statistical Association 69: 1012-1016.
Rousseeuw, PJ 1984. Minima mediana della regressione dei quadrati. Journal, American Statistical Association 79: 871-880.
Rousseeuw, PJ e AM Leroy. 1987. Robusta regressione e rilevazione anomala . New York: John Wiley.
Questo account si basa sulla documentazione di
Cox, New Jersey 2007. HSMODE: modulo Stata per calcolare le modalità mezzo campione, http://EconPapers.repec.org/RePEc:boc:bocode:s456818 .
Vedi anche il sito Web di David R. Bickel qui per informazioni sulle implementazioni in altri software.