Come trovare gli intervalli di confidenza per le valutazioni?


32

" Come non ordinare in base alla valutazione media " di Evan Miller propone di utilizzare il limite inferiore di un intervallo di confidenza per ottenere un "punteggio" aggregato ragionevole per gli elementi classificati. Tuttavia, funziona con un modello Bernoulli: le valutazioni sono pollici in su o pollici in giù.

Qual è un intervallo di confidenza ragionevole da utilizzare per un modello di classificazione che assegna un punteggio discreto da a stelle, supponendo che il numero di valutazioni per un articolo possa essere piccolo?k1K

Penso di poter vedere come adattare il centro degli intervalli Wilson e Agresti-Coull come

p~=Σio=1nXio+zα/22p0n+zα/22

dove o (probabilmente migliore) è la valutazione media su tutti gli articoli. Tuttavia, non sono sicuro di come adattare la larghezza dell'intervallo. La mia ipotesi (rivista) migliore sarebbep0=K+12

p~±zα/2n~i=1n(xip~)2+zα/2(p0p~)2n~

con n~=n+zα/22 , ma non posso giustificare con più che agitarlo a mano come un'analogia di Agresti-Coull, prendendo come

Estimate(X¯)±zα/2n~Estimate(Var(X))

Esistono intervalli di confidenza standard applicabili? (Nota che non ho abbonamenti ad alcuna rivista o facile accesso a una biblioteca universitaria; fornisci sicuramente riferimenti adeguati, ma ti preghiamo di integrare il risultato reale!)


4
Poiché le risposte attuali hanno (forse per gentilezza) aggirato questo problema, vorrei sottolineare che questa applicazione è un terribile abuso dei limiti di fiducia. Non esiste alcuna giustificazione teorica per l'uso dell'LCL per classificare le medie (e molte ragioni per cui l'LCL è effettivamente peggiore della media stessa ai fini della classifica). Quindi questa domanda si basa su un approccio gravemente imperfetto, che potrebbe essere il motivo per cui ha attirato relativamente poca attenzione.
whuber

2
Una caratteristica interessante di questa particolare domanda è che contiene un contesto sufficiente per ignorare la domanda reale e concentrarci su ciò che sembrava essere il più importante alla base.
Karl,

1
Sono contento che tu abbia modificato il titolo modificato a tuo piacimento, Peter. La mia modifica originale è stata fatta non per essere self-service, ma per far sì che il titolo riflettesse il testo della domanda. Sei l'arbitro finale di ciò che realmente intendi.
whuber

Risposte:


23

Come ha affermato Karl Broman nella sua risposta, un approccio bayesiano sarebbe probabilmente molto meglio dell'uso degli intervalli di confidenza.

Il problema con intervalli di confidenza

Perché l'utilizzo degli intervalli di confidenza potrebbe non funzionare troppo bene? Uno dei motivi è che se non si hanno molte valutazioni per un articolo, l'intervallo di confidenza sarà molto ampio, quindi il limite inferiore dell'intervallo di confidenza sarà piccolo. Pertanto, gli elementi senza molte classificazioni finiranno in fondo all'elenco.

Intuitivamente, tuttavia, probabilmente si desidera che gli articoli senza molte classificazioni siano vicini all'elemento medio, quindi si desidera spostare la valutazione stimata dell'articolo verso la valutazione media su tutti gli articoli (ovvero, si desidera spostare la valutazione stimata verso una precedente ) . Questo è esattamente ciò che fa un approccio bayesiano.

Approccio bayesiano I: distribuzione normale su valori nominali

Un modo per spostare la valutazione stimata verso un precedente è, come nella risposta di Karl, utilizzare una stima della forma :w*R+(1-w)*C

  • è la media delle classificazioni degli articoli.R
  • C è la media di tutti gli articoli (o di qualsiasi altra cosa in cui desideri ridurre la valutazione).
  • Si noti che la formula è solo una combinazione ponderata di e .CRC
  • Rvmw=vv+m è il peso assegnato a , dove è il numero di recensioni per la birra e è una sorta di parametro "soglia" costante.Rvm
  • Si noti che quando è molto grande, ovvero quando abbiamo molte valutazioni per l'elemento corrente, allora è molto vicino a 1, quindi la nostra valutazione stimata è molto vicina a e prestiamo poca attenzione alla precedente . Quando è piccolo, tuttavia, è molto vicino a 0, quindi la valutazione stimata attribuisce molto peso alla precedente .w R C v w CvwRCvwC

A questa stima, infatti, può essere data un'interpretazione bayesiana come stima posteriore della valutazione media dell'articolo quando le valutazioni individuali provengono da una distribuzione normale centrata su quella media.

Tuttavia, supponendo che i rating provengano da una distribuzione normale ha due problemi:

  • Una distribuzione normale è continua , ma le valutazioni sono discrete .
  • Le valutazioni per un articolo non seguono necessariamente una forma gaussiana unimodale. Ad esempio, forse il tuo articolo è molto polarizzante, quindi le persone tendono a dargli un punteggio molto alto o a un punteggio molto basso.

Approccio bayesiano II: distribuzione multinomiale rispetto alle valutazioni

Quindi, invece di assumere una distribuzione normale per le classifiche, ipotizziamo una distribuzione multinomiale . Cioè, dato un elemento specifico, c'è una probabilità che un utente casuale gli darà 1 stella, una probabilità che un utente casuale gli darà 2 stelle e così via.p 2p1p2

Naturalmente, non abbiamo idea di quali siano queste probabilità. Man mano che otteniamo sempre più valutazioni per questo articolo, possiamo supporre che sia vicino a , dove è il numero di utenti che gli hanno assegnato 1 stella e è il numero totale di utenti che hanno valutato l'oggetto, ma quando iniziamo per la prima volta, non abbiamo nulla. Quindi posizioniamo un Dirichlet precedente su queste probabilità.n 1p1n1nn1n Dior(α1,...,αK)

Cos'è questo Dirichlet prima? Possiamo pensare a ciascun parametro come a un "conteggio virtuale" del numero di volte in cui una persona virtuale ha assegnato l'elemento stelle. Ad esempio, se , e tutti gli altri sono uguali a 0, allora possiamo pensare a questo come a dire che due persone virtuali hanno dato l'oggetto 1 stella e una persona virtuale ha dato l'oggetto 2 stelle. Quindi, prima ancora di ottenere qualsiasi utente reale, possiamo utilizzare questa distribuzione virtuale per fornire una stima della valutazione dell'articolo.αioioα1=2α2=1αio

[Un modo di scegliere i parametri sarebbe quello di serie pari alla percentuale complessiva dei voti stelle. (Nota che i parametri non sono necessariamente numeri interi.)]αioαioioαio

Quindi, una volta che arrivano le valutazioni effettive, aggiungi semplicemente i loro conteggi ai conteggi virtuali del tuo Dirichlet prima. Ogni volta che vuoi stimare la valutazione del tuo articolo, prendi semplicemente la media di tutte le valutazioni dell'articolo (sia le sue valutazioni virtuali che le sue effettive).


1
L'approccio 2 risulta identico all'approccio 1, non è vero, ma con una giustificazione diversa?
Peter Taylor,

2
@Peter: oh, vero! Non me ne sono reso conto finché non l'hai menzionato =). (Se tutto ciò che vuoi fare è prendere la media del posteriore, sono identici. Immagino che avere un Dirichlet posteriore potrebbe essere utile se vuoi calcolare un diverso tipo di punteggio, ad esempio un qualche tipo di misura di polarità, anche se potrebbe essere un po 'raro.)
raegtin,

1
m

15

Questa situazione chiede un approccio bayesiano. Ci sono semplici approcci per le classifiche bayesiane di rating qui (prestare particolare attenzione ai commenti, che sono interessanti) e qui , e quindi un ulteriore commento su questi qui . Come sottolinea uno dei commenti nel primo di questi link:

The Best of BeerAdvocate (BA) ... utilizza una stima bayesiana:

rango ponderato (WR) = (v / (v + m)) × R + (m / (v + m)) × C

dove:
R = media delle recensioni per la birra
v = numero di recensioni per la birra
m = recensioni minime richieste per essere elencate (attualmente 10)
C = media in tutto l'elenco (attualmente 2.5)


2
Uno svantaggio del metodo Beer Advocate è che non tiene conto della variabilità. Tuttavia, preferisco questa linea di pensiero all'idea del limite inferiore di condifferenza.
Karl,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.