Errore standard della mediana


14

La seguente formula è corretta se voglio misurare l'errore standard della mediana nel caso di un piccolo campione con distribuzione non normale (sto usando Python)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

Risposte:


12

Sulla base di alcuni dei commenti di @mary penso che quanto segue sia appropriato. Sembra che stia selezionando la mediana perché il campione è piccolo.

Se stavi selezionando la mediana perché è un piccolo campione che non è una buona giustificazione. Si seleziona la mediana perché la mediana è un valore importante. Dice qualcosa di diverso dalla media. Potresti anche selezionarlo per alcuni calcoli statistici perché è robusto contro alcuni problemi come valori anomali o inclinati. Tuttavia, la piccola dimensione del campione non è uno di quei problemi contro i quali è affidabile. Ad esempio, quando la dimensione del campione si riduce, in realtà è molto più sensibile all'inclinazione rispetto alla media.


Grazie Giovanni! In realtà ho scelto di usare la mediana al posto della media per il motivo che hai appena scritto. Ho diversi campioni, tutti con distribuzione non gaussiana. Ci sono campioni che contengono più di 50 punti, altri che contengono meno di 10 punti, ma per tutti penso che il tuo commento sia valido, no?
Maria,

Con così pochi punti non sono sicuro di cosa si possa dire sulla distribuzione sottostante. Se si confrontano campioni contenenti meno di 10 con campioni contenenti 50 e la distribuzione sottostante non è simmetrica, una mediana mostrerà un effetto anche se non ce n'è uno perché avrà più distorsioni nel campione piccolo rispetto a quello grande. Il cattivo non lo farà.
Giovanni,

In futuro approfondisci meglio le tue domande e chiedi di più su ciò che devi veramente sapere. Di 'perché hai fatto quello che hai fatto finora e descrivi i dati che hai bene. Otterrai risposte molto migliori.
Giovanni,

1
"La piccola dimensione del campione non è uno di quei problemi contro i quali è robusta " vale da sola +1; il resto è un bonus
Glen_b -Restate Monica

È un dato di fatto, Huber sottolinea nel suo libro che non esiste un unico concetto di robustezza. C'è robustezza nei valori anomali (ed è per questo che la mediana è robusta). Un altro punto di vista, tuttavia, è la solidità all'errore di misurazione, ed è per questo che la media è solida, poiché fa la media di questi errori di misurazione. La mediana, tuttavia, è altamente suscettibile alle fluttuazioni degli errori di misurazione in quanto possono influenzare il centro della distribuzione altrettanto male delle code.
StasK

12

Sokal e Rohlf danno questa formula nel loro libro Biometry (pagina 139). Sotto "Commenti sull'applicabilità" scrivono: Grandi campioni da popolazioni normali. Pertanto, temo che la risposta alla tua domanda sia no. Vedi anche qui .

Un modo per ottenere gli errori standard e gli intervalli di confidenza per la mediana in piccoli campioni con distribuzioni non normali sarebbe il bootstrap. Questo post fornisce collegamenti a pacchetti Python per il bootstrap.

avvertimento

@whuber ha sottolineato che il bootstrap della mediana in piccoli campioni non è molto informativo in quanto le giustificazioni del bootstrap sono asintotiche (vedere i commenti di seguito).


grazie per la tua risposta! So che il bootstrap sarebbe un'alternativa, stavo solo immaginando se c'è un modo per misurare l'errore della mediana in un modo diverso. La risposta è no anche per l'errore standard sul MEAN (stesso piccolo campione non gaussiano)?
Maria,

@mary Per l'errore standard della media, Sokal e Rohl scrivono che è applicabile a "[...] qualsiasi popolazione con varianza finita". Quindi la risposta per l'errore standard della media sembra essere sì, puoi calcolarla. Sidenote: Esistono tuttavia distribuzioni (ad esempio la distribuzione di Cauchy) che non hanno una varianza o una media definite e in tali casi, il SEM non può essere calcolato.
COOLSerdash

5
tt

@whuber Grazie per il tuo commento. Buono a sapersi. Ho eliminato il consiglio di avviare la mediana in piccoli campioni dalla mia risposta.
COOLSerdash,

1
Non stavo cercando di suggerire che fosse un cattivo consiglio: volevo solo sottolineare i suoi limiti (inevitabili). Imparare molto da piccoli campioni è difficile. Ma il bootstrap di piccoli campioni è doppiamente gravoso, perché non esiste alcuna giustificazione teorica per supportarlo (tutta la giustificazione è asintotica).
whuber

12

Il numero magico 1.253 deriva dalla formula della varianza asintotica :

UNS.Vun'r.[m^]=14f(m)2n
dove m è la vera mediana e f(m) è la vera densità a quel punto.

Per qualsiasi distribuzione diversa dalla normale (e Mary ammette che ciò è dubbio nei suoi dati), avresti un fattore diverso. Ottenere la stima medianam^non è un grosso problema, anche se puoi iniziare a soffrire per i valori medi per il numero pari di osservazioni rispetto a invertire il cdf o qualcosa del genere. Il valore di densità rilevante può essere stimato dagli stimatori di densità del kernel , se necessario. Nel complesso, questo ovviamente è relativamente dubbio poiché vengono prese tre approssimazioni:

  1. Che la formula asintotica per la varianza funzioni per il piccolo campione;
  2. Che la mediana stimata sia abbastanza vicina alla mediana vera;
  3. Che lo stimatore della densità del kernel dia un valore preciso.

Più bassa è la dimensione del campione, più diventa dubbia.


3
Forse vale la pena aggiungere che il numero magico è π21.253314
Henry,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.