Addomesticamento dell'inclinazione ... Perché ci sono così tante funzioni di inclinazione?


9

Spero di avere maggiori informazioni sui quattro tipi di inclinazione di questa comunità.

I tipi a cui mi riferisco sono menzionati nella pagina di aiuto http://www.inside-r.org/packages/cran/e1071/docs/skewness .

Il vecchio metodo non è stato menzionato nella pagina di aiuto, ma lo includo comunque.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

Ecco l'articolo a cui l'autore di e1071 fa riferimento: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes e CA Gill (1998), Confronto tra misure di inclinazione del campione e curtosi.

Dalla mia lettura di quel documento, suggeriscono che il tipo # 3 abbia il minimo errore.

Ecco alcuni esempi di asimmetria dal codice sopra:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

Ho anche notato che l'autore di e1071 ha scritto la funzione di inclinazione diversa dalle note nella pagina di aiuto. Si noti lo sqrt:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

Qualche idea sul perché sqrt (n) sia nella prima equazione? Quale equazione gestisce meglio overflow / underflow? Altre idee sul perché sono diverse (ma producono gli stessi risultati)?


3
La tua domanda menziona "i quattro tipi di inclinazione" ... ma poi fornisce un collegamento e si avvia in un mucchio di codice (quale lingua non hai nemmeno menzionato). Quindi le persone non devono leggere un link per scoprire cosa stai chiedendo, e per il beneficio delle persone che non leggono R, e di coloro che trovano inutile leggere il codice nel comunicare la comprensione, sarebbe utile definire quali quattro misure di asimmetria intendi prima (o preferibilmente invece di) una striscia di codice. [Quando dici "i quattro", piuttosto che dire "questi quattro", perché pensi che ce ne siano esattamente quattro anziché cinque o sette o qualche altro numero?]
Glen_b -Reinstate Monica

1
Ho tentato di dare una qualche forma di risposta alle domande specifiche che ho potuto trovare nel tuo post e ho affrontato una serie di problemi lungo il percorso, ma al di fuori di questo "sperare di avere più intuizioni" è troppo vago per rispondere. Puoi identificare più chiaramente quali cose vuoi approfondire? Ci sono molte domande sul nostro sito relative all'asimmetria.
Glen_b -Restate Monica

Grazie Glen, per i tuoi post. Ho incluso R a scopo illustrativo e per mostrare le formule. Inoltre non conosco il lattice. :(
Chris,

Risposte:


10

Cominciamo con quello che descrivi come "un vecchio metodo"; questa è la seconda asimmetria di Pearson, o asimmetria mediana ; in realtà l'asimmetria del momento e che sono sostanzialmente della stessa annata (l'asimmetria mediana è in realtà un po 'più giovane dal momento che l'asimmetria precede gli sforzi di Pearson).

Una piccola discussione di parte della storia può essere trovata qui ; quel post potrebbe anche far luce su un paio di altre tue domande.

Se cerchi nel nostro sito usando la seconda inclinazione di Pearson, colpirai parecchi post che contengono alcune discussioni sul comportamento di questa misura.

Non è affatto più strano del momento in cui le misure di asimmetria nella mia mente; a volte entrambi fanno alcune cose strane che non corrispondono alle aspettative delle persone di una misura dell'asimmetria.


La solita forma di è discussa in Wikipedia qui ; come dice, è un metodo di stima dei momenti e una cosa naturale da usare dato il calcolo della popolazione in termini di terzo momento standardizzato.B1

Se si usa per (cioè senza correzione di Bessel) si ottiene il tipo si menziona; uno di questi è quello che definirei "metodo dei momenti". Non è chiaro per me ha molto senso cercare di separare il denominatore dal momento che ciò non separa necessariamente il rapporto; può avere senso farlo in modo che il calcolo corrisponda a ciò che le persone potrebbero aspettarsi di fare a mano.s n - 1 g 1SnSn-1g1

Tuttavia, esiste un secondo modo (equivalente) per definire l'asimmetria della popolazione, in termini di cumulativi (vedere il link Wikipedia sopra) e se per un'asimmetria di esempio hai usato stime imparziali di questi, ottieni .sol1

[Nota inoltre che la moltiplicazione del numeratore in per non lo distingue, quindi questo può essere un altro motivo per cui le persone guardano quel modulo. Se si tenta di separare entrambi i calcoli del terzo e del secondo momento, si ottiene un fattore leggermente diverso in e uscendo in primo piano.]n 2B1 n,(n-1)(n-2)n2(n-1)(n-2)n,(n-1)(n-2)

Tutti e tre sono semplicemente variazioni leggermente diverse sull'asimmetria del terzo momento. In campioni molto grandi non c'è davvero alcuna differenza che usi. In campioni più piccoli hanno tutti una tendenza e una varianza leggermente diverse.


Le forme discusse qui non esauriscono le definizioni di asimmetria (ne ho viste circa una dozzina, penso - l' articolo di Wikipedia ne elenca alcune, ma anche questo non copre la gamma), e nemmeno le definizioni relative alla terza -momente asimmetria, di cui ho visto più delle tre che hai sollevato qui.

Perché ci sono molte misure di asimmetria?

Quindi (trattando tutte quelle asimmetrie del terzo momento come una per un momento) perché così tante asimmetrie diverse? In parte è perché l' asimmetria come idea è in realtà abbastanza difficile da definire. È una cosa scivolosa che non puoi davvero fissare ad un solo numero. Di conseguenza, tutte le definizioni sono in qualche modo inadeguate, ma di solito sono in accordo con il nostro ampio senso di ciò che pensiamo dovrebbe fare una misura di disomogeneità. Le persone continuano a cercare di trovare definizioni migliori, ma le vecchie misure, come le tastiere QWERTY, non vanno da nessuna parte.

Perché ci sono diverse misure di asimmetria basate sul 3 ° momento?

Per quanto riguarda il motivo per cui così tante asimmetrie del terzo momento, è semplicemente perché c'è più di un modo per trasformare una misura di popolazione in una misura di esempio. Abbiamo visto due percorsi basati sui momenti e uno basato sui cumulativi. Potremmo costruire ancora di più; potremmo ad esempio tentare di ottenere una misura imparziale (di piccolo campione) in base a un presupposto distributivo, o una misura di errore quadratico medio minimo o qualche altra quantità del genere.

Potresti trovare alcuni dei post sul sito relativi all'illuminazione dell'asimmetria; ce ne sono alcuni che mostrano esempi di distribuzioni che non sono simmetriche ma hanno zero asimmetria al terzo momento. Ce ne sono alcuni che mostrano l'asimmetria mediana di Pearson e l'asimmetria del terzo momento può avere segni opposti.

Ecco i link ad alcuni post relativi all'asimmetria:

Mean = median implica che una distribuzione unimodale è simmetrica?

Nei dati distorti a sinistra, qual è la relazione tra media e mediana?

come determinare l'asimmetria dall'istogramma con valori anomali?


B1

nΣ(X-X¯)3(Σ(X-X¯)2)3/2 #da e1071 :: fonte di asimmetria

Σ(X-X¯)3/n(Σ(X-X¯)2/n)3/2 #from moments e pagina di aiuto di e1071

32n

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.