Valutare un sistema di classificazione per privilegiare gli articoli più votati da un numero maggiore di persone rispetto agli articoli che hanno un punteggio più alto da un minor numero di persone?

Grazie in anticipo per avermi accompagnato, non sono uno statistico di alcun tipo e non so come descrivere ciò che sto immaginando, quindi Google non mi sta aiutando qui ...

Sto includendo un sistema di classificazione in un'applicazione Web su cui sto lavorando. Ogni utente può valutare ogni articolo esattamente una volta.

Stavo immaginando una scala con 4 valori: "fortemente antipatia", "antipatia", "mi piace" e "fortemente mi piace", e avevo programmato di assegnare questi valori rispettivamente di -5, -2, +2 e +5 .

Ora, se ogni articolo avesse lo stesso numero di voti, allora mi sentirei abbastanza a mio agio con questo sistema di punteggio che differenzia chiaramente gli articoli più apprezzati e meno apprezzati. Tuttavia, gli articoli non avranno lo stesso numero di voti e la disparità tra il numero di voti su foto diverse potrebbe essere abbastanza drammatica.

In tal caso, confrontando i punteggi cumulativi su due articoli significa che un vecchio oggetto con un sacco di valutazioni mediocri avrà un punteggio molto più alto di un nuovo oggetto eccezionale con molti meno voti.

Quindi, la prima cosa ovvia che ho pensato di prendere una media ... ma ora se un articolo ha solo una valutazione di "+5" ha una media migliore di un articolo che ha un punteggio di 99 "+5" e 1 valutazione "+2". Intuitivamente questa non è una rappresentazione accurata della popolarità di un oggetto.

Immagino che questo problema sia comune e voi ragazzi non avete bisogno che io lo spieghi con altri esempi, quindi mi fermerò a questo punto ed elaborerò commenti se necessario.

Le mie domande sono:

Come si chiama questo tipo di problema e esiste un termine per le tecniche utilizzate per risolverlo? Mi piacerebbe saperlo per poterlo leggere.
Se ti capita di conoscere qualsiasi risorsa laica sull'argomento, apprezzerei molto un link.
Infine, apprezzerei qualsiasi altro suggerimento su come raccogliere e analizzare in modo efficace questo tipo di dati.

scales rating

— Andrea
fonte

Risposte:

Un modo per combatterlo è usare le proporzioni in ogni categoria, che non richiede di inserire numeri per ogni categoria (puoi lasciarlo all'80% valutato come "Mi piace"). Tuttavia, le proporzioni risentono del numero limitato di emissioni di rating . Questo mostra nel tuo esempio che la foto con valutazione 1 +5 otterrebbe un punteggio medio (e proporzione) più alto di uno con la valutazione 99 +5 e 1 +2. Questo non si adatta bene alla mia intuizione (e sospetto che la maggior parte delle persone).

Un modo per aggirare questo piccolo problema di dimensioni del campione è utilizzare una tecnica bayesiana nota come " regola di successione di Laplace " (la ricerca di questo termine può essere utile). Si tratta semplicemente di aggiungere 1 "osservazione" a ciascuna categoria prima di calcolare le probabilità. Se si volesse prendere una media per un valore numerico, suggerirei una media ponderata in cui i pesi sono le probabilità calcolate dalla regola di successione.

Per la forma matematica, lascia rispettivamente il numero di risposte rispettivamente di "fortemente antipatia", "antipatia", "like" e "like" (nei due esempi, e ). Quindi si calcola la probabilità (o il peso) per un like molto simile $n_{sd},n_{d},n_{l},n_{sl}$ $n_{sl}=1,n_{sd}=n_{d}=n{l}=0$ $n_{sl}=99,n_{l}=1,n_{sd}=n_{d}=0$

P r ("Strongly Like") = \frac{n_{s l} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4}

$Pr(\text{"Strongly Like"}) = \frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

Per i due esempi che dai, danno probabilità di "fortemente simile" come e che ritengo più d'accordo con il "buon senso". La rimozione delle costanti aggiunte dà e che fa sembrare il primo risultato più alto di quanto dovrebbe essere (almeno per me comunque). $\frac{1+1}{1+0+0+0+4}=\frac{2}{5}$ $\frac{99+1}{99+1+0+0+4}=\frac{100}{104}$ $\frac{1}{1}$ $\frac{99}{100}$

I rispettivi punteggi sono semplicemente dati dalla media ponderata, che ho scritto di seguito come:

S c o r e = \begin{matrix} 5 \frac{n_{s l} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} + 2 \frac{n_{l} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} \\ - 2 \frac{n_{d} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} - 5 \frac{n_{s d} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} \end{matrix}

$Score=\begin{array}{1 1} 5\frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}+2\frac{n_{l}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} \\ - 2\frac{n_{d}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} -5\frac{n_{sd}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}\end{array}$

O più succintamente come

S c o r e = \frac{5 n_{s l} + 2 n_{l} - 2 n_{d} - 5 n_{s d}}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4}

$Score=\frac{5 n_{sl}+ 2 n_{l} - 2 n_{d} - 5 n_{sd}}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

Il che dà punteggi nei due esempi di e . Penso che ciò mostri una differenza appropriata tra i due casi. $\frac{5}{5}=1$ $\frac{497}{104}\sim 4.8$

Potrebbe essere stato un po '"matematico", quindi fammi sapere se hai bisogno di ulteriori spiegazioni.

— probabilityislogic
fonte

È stato un po '"matematico" per me, e inizialmente non ho capito la formula, ma l'ho letta attentamente tre volte e ha fatto clic! Questo è esattamente quello che stavo cercando, e la tua spiegazione è stata molto chiara, anche per qualcuno che non è affatto un matematico o uno statistico. Grazie mille!

— Andrew

Molto bella risposta non tecnica e un approccio che non avrei pensato a me stesso. Aggiungo solo che è possibile aggiungere un numero qualsiasi di "osservazioni" false a ciascuna categoria anziché 1, compresi i numeri non interi. Questo ti dà la flessibilità di decidere quanto vuoi 'restringere' a zero i punteggi degli articoli con pochi voti. E se ti capita di desiderare una descrizione dal suono tecnico di questo metodo, potresti dire che stai eseguendo un'analisi bayesiana dei dati da una distribuzione multinomiale usando un Dirichlet simmetrico precedente.

— onestop il

Mentre possono sembrare osservazioni "false", hanno un significato ben definito quando è +1 (al contrario di +2 o superiore, che sono in realtà numeri "falsi" o numeri di una precedente raccolta di dati). Descrive sostanzialmente uno stato di conoscenza che è possibile votare per ciascuna categoria, prima di osservare qualsiasi dato. Questo è esattamente ciò che fa il flat precedente sul simplex (N-1).

— Probislogic

Un'altra osservazione, per le persone future che trovano questo post: Nell'implementare questo nel mio modello ho preso il punteggio finale e lo ho moltiplicato per 20, il che dà un intervallo da -100 a 100 dal punteggio peggiore al migliore possibile (anche se suppongo tecnicamente sono limiti che non puoi mai raggiungere del tutto, ma hai l'idea). Questo rende l'output per gli utenti nella mia app molto intuitivo!

— Andrew,

@probabilityislogic: sicuramente alcuni parametri strettamente positivi per il Dirichlet descrivono che tutte le probabilità sono rigorosamente tra 0 e 1? E questo argomento suggerisce di impostarli su 2 / m, dove m è il numero di categorie, anziché 1: en.wikipedia.org/wiki/…

— onestop

Avrei un approccio grafico. L'asse x potrebbe essere la valutazione media e y potrebbe essere il numero di valutazioni. Lo facevo con le statistiche sportive per confrontare il contributo dei giovani fenomeni con quello delle stelle veterane. Più un punto è vicino all'angolo in alto a destra, più è vicino all'ideale. Naturalmente, decidere l'elemento "migliore" sarebbe comunque una decisione soggettiva, ma ciò fornirebbe una struttura.

Se si desidera tracciare la valutazione media su un'altra variabile, è possibile impostare il numero di valutazioni come terza variabile utilizzando la dimensione della bolla, in un grafico a bolle, ad esempio in XL o SAS.

— rolando2
fonte