"Nessun metodo grafico" è una specie di grande handicap, ma ... ecco un paio di idee strane. Entrambi trattano le valutazioni come continue, il che è una sorta di debolezza concettuale, e probabilmente non è l'unica ...
curtosi
- La curtosi di {1,1,1,5,5,5} = 1. Non otterrai una curtosi inferiore con una combinazione di 1–5 voti.
- La curtosi di {1,2,3,4,5} = 1,7. Inferiore significa valori più estremi; più alto significa più medio.
- Questo non funzionerà se la distribuzione non è approssimativamente simmetrica. Dimostrerò di seguito.
Regressione binomiale negativa
Con un frame di dati come questo: Montare il modelloFrequency∼Rating+√
R a t i n g12345F r e qu e n c y31157937
utilizzando la regressione binomiale negativa. Il
√F r e qu e n c y ∼ R a t i n g + R a t i n g------√ coefficiente dovrebbe essere vicino allo zero se i rating sono
uniformemente distribuiti, positivo se ci sono proporzionalmente valori medio raggio (cfr più
distribuzione binomiale), o negative con distribuzioni polarizzato come quello sopra, per cui il coefficiente è - 11.8.
R at i n g------√
FWIW, ecco il codice r con cui ho giocato:
x=rbinom(99,4,c(.1,.9))+1;y=sample(0:4,99,replace=T)+1 #Some polarized & uniform rating data
table(x);table(y) #Frequencies
require(moments);kurtosis(x);kurtosis(y) #Kurtosis
Y=data.frame(n=as.numeric(table(y)),rating=as.numeric(levels(factor(y)))) #Data frame setup
X=data.frame(n=as.numeric(table(x)),rating=as.numeric(levels(factor(x)))) #Data frame setup
require(MASS);summary(glm.nb(n~rating+sqrt(rating),X)) #Negative binomial of polarized data
summary(glm.nb(n~rating+sqrt(rating),Y)) #Negative binomial of uniform data
Non posso resistere a lanciare in una trama ...
require(ggplot2);ggplot(X,aes(x=rating,y=n))+geom_point()+stat_smooth(formula=y~x+I(sqrt(x)),method='glm',family='poisson')
Il R a t i n g------√
Modifica: ho appena visto questa domanda pubblicizzata sulla barra laterale:
e quando ho fatto clic, l'ho vista nelle Domande sulla rete attiva che rimandavano a se stesse, come a volte accade ,
quindi ho pensato che questo potrebbe meritare una rivisitazione in un modo più generalmente utile. Ho deciso di provare i miei metodi sulle recensioni dei clienti di Amazon per la maglietta The Mountain Three Wolf Moon :
R a t i n gF r e qu e n c y1208254389419852273
βR a t i n g√= - 19.1
A proposito, @ Duncan's σ2F r e qu e n c yT-shirt a maniche corte The Mountain Three Wolf Moon= 1,31
x=rep(5:1,c(2273,198,89,54,208))
var(x)/(4*length(x)/(length(x)-1))