Stima dei parametri di una distribuzione normale: mediana anziché media?


15

L'approccio comune per stimare i parametri di una distribuzione normale è quello di utilizzare la media e la deviazione / varianza standard del campione.

Tuttavia, se ci sono alcuni valori anomali, la deviazione mediana e mediana dalla mediana dovrebbe essere molto più robusta, giusto?

Su alcuni set di dati che ho provato, la distribuzione normale stimata da sembra produrre molto meglio in forma rispetto al classicoN ( μ , σ )N(median(x),median|xmedian(x)|)N(μ^,σ^) usando media e deviazione RMS.

C'è qualche motivo per non farlo usare la mediana se si presume che ci siano dei valori anomali nel set di dati? Conosci qualche riferimento per questo approccio? Una rapida ricerca su Google non mi ha trovato risultati utili che discutono i vantaggi dell'utilizzo di mediane qui (ma ovviamente, "mediana di stima dei parametri di distribuzione normale" non è un insieme molto specifico di termini di ricerca).

La deviazione mediana, è di parte? Devo moltiplicarlo conn1n per ridurre la distorsione?

Conoscete approcci di stima dei parametri robusti simili per altre distribuzioni come la distribuzione gamma o la distribuzione gaussiana modificata esponenzialmente (che ha bisogno di asimmetria nella stima dei parametri e che i valori anomali incasinano davvero questo valore)?


2
Se hai valori anomali, è possibile che la tua distribuzione non sia davvero normale gaussiana. Questo non risponde alla tua domanda, ovviamente, ma, IMO, questa è una possibilità che dovresti sempre divertire.
SSD

2
Non ho una distribuzione matematica semplice, pulita. Ho dei dati reali, che sono disordinati per natura. Nessuna distribuzione sarà la soluzione perfetta, perché non è più possibile gestire la situazione analiticamente. E gli outlier sono in realtà il mio interesse. :-)
Erich Schubert,

Risposte:


15

L'osservazione che in un esempio che coinvolge dati ricavati da una distribuzione gaussiana contaminata, otterresti stime migliori dei parametri che descrivono la maggior parte dei dati usando invece didove è:med | x - med ( x ) | pazzo ( x )pazzomed|X-med(X)|pazzo(X)

pazzo=1,4826×med|X-med(X)|

--where, è un fattore di coerenza progettato per garantire che quando è contaminato-- è stato originariamente realizzato da Gauss (Walker, H. (1931)).E ( pazzo ( x ) 2 ) = Var ( x ) x(Φ-1(0.75))-1=1,4826

E(pazzo(X)2)=Var(X)
X

In questo caso non riesco a pensare a nessun motivo per non usare la invece della media di esempio. La minore efficienza (al gaussiano!) Di può essere un motivo per non usare nel tuo esempio. Tuttavia, esistono alternative altrettanto solide e altamente efficienti a . Uno di questi è ilmad mad mad Q n Q n Q nmedpazzopazzopazzoQn. Questo stimatore ha molti altri vantaggi a parte. È anche molto insensibile agli outlier (in effetti quasi insensibile come il matto). Contrariamente al matto, non è costruito attorno a una stima della posizione e non presume che la distribuzione della parte incontaminata dei dati sia simmetrica. Come il matto, si basa sulle statistiche degli ordini, in modo che sia sempre ben definito anche quando la distribuzione sottostante del campione non ha momenti. Come il matto, ha una forma esplicita semplice. Ancor più che per i matti, non vedo motivi per usare la deviazione standard del campione invece del nell'esempio che descrivi (vedi Rousseeuw e Croux 1993 per maggiori informazioni sulQnQn ).

Per quanto riguarda la tua ultima domanda, sul caso specifico in cui , quindiX~Γ(ν,λ)

med(X)λ(ν-1/3)

e

pazzo(X)λν

(in entrambi i casi le approssimazioni diventano buone quando ) in modo che ν>1.5

ν^=(med(X)pazzo(X))2

e

λ^=pazzo(X)2med(X)

Vedi Chen e Rubin (1986) per una derivazione completa.

  • J. Chen e H. Rubin, 1986. Rileva la differenza tra mediana e media delle distribuzioni Gamma e Poisson, Statista. Probab. Lett., 4, 281–283.
  • PJ Rousseeuw e C. Croux, 1993. Alternative al Median Absolute Deviation Journal dell'American Statistical Association, vol. 88, n. 424, pagg. 1273-1283
  • Walker, H. (1931). Studi nella storia del metodo statistico. Baltimora, MD: Williams & Wilkins Co. pagg. 24–25.

1
Φ-1(0.75)-11,4826 - è questo il valore da usare o è una delle due inversioni in più?
Erich Schubert,

@ErichSchubert: hai ragione: ho dimenticato il secondo inverso ... corretto.
user603

2
+1. Ma penso che tu caratterizzi erroneamente il "fattore di efficienza": non è analogo al fattore per la varianza perché quest'ultimo è universale mentre il tuo fattore è specifico solo per le distribuzioni normali: con una distribuzione diversa in mente, dovresti cambiare il tuo fattore. Questa differenza è una delle ragioni cruciali per cui varianze e SD hanno visto molte più applicazioni rispetto alla MAD. n/(n-1)
whuber

1
@whuber: grazie per questo, ora mi rendo conto che la mia frase 'questo è simile nello spirito ' può essere facilmente fraintesa. L'ho rimosso.
user603

1
Ho reso la parte ExNormal una domanda separata: stats.stackexchange.com/questions/48907/… Ma ne ho un'altra per te: distribuzione LogNormal - gestisci applicando il log, quindi procedi come con la distribuzione normale?
Erich Schubert,

7

Se, come affermi, i dati sono normali a parte una piccola parte di valori anomali, la deviazione assoluta mediana e mediana sarà robusta per errori grossolani ma non farà un uso molto efficiente delle informazioni nei dati non periferici.

Se conoscessi qualche a priori legato alla percentuale di valori anomali, potresti tagliare quella proporzione per la media e Winsorize la deviazione standard. Un'alternativa che non richiede tale conoscenza sarebbe quella di utilizzare gli stimatori M. per la posizione e le quantità correlate per la varianza. Il guadagno in termini di efficienza se le tue assunzioni sono corrette (come ad esempio i dati realmente normali a parte una piccola percentuale di valori anomali) può in alcuni casi essere sostanziale.

La deviazione mediana è distorta come una stima della deviazione standard - ma non come l' adeguamento ; il quadrato medio del campione non aggiustato sta andando asintoticamente alla varianza, ma la deviazione assoluta mediana del campione non sta andando asintoticamente alla deviazione standard della popolazione; devi moltiplicarlo per una costante semplicemente per ottenere coerenza . Dopo averlo fatto , è ancora distorto un piccolo campione nello stesso senso del quadrato medio non rettificato.nn-1

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.