La "valutazione media" di Amazon è fuorviante?


49

Se ho capito bene, le valutazioni dei libri su una scala 1-5 sono punteggi Likert. Cioè, un 3 per me potrebbe non essere necessariamente un 3 per qualcun altro. È un IMO su scala ordinale. Non si dovrebbero veramente medie scale ordinali ma si può sicuramente prendere la modalità, la mediana e i percentili.

Quindi è 'ok' piegare le regole poiché gran parte della popolazione comprende mezzi rispetto alle statistiche di cui sopra? Anche se la comunità di ricerca rimprovera fortemente di prendere medie di dati basati su scala Likert, va bene farlo con le masse (praticamente parlando)? Prendere la media in questo caso è persino fuorviante per cominciare?

Sembra improbabile che una società come Amazon possa armeggiare con le statistiche di base, ma se no allora cosa mi sto perdendo? Possiamo affermare che la scala ordinale è una comoda approssimazione all'ordinale per giustificare l'assunzione della media? Per quali motivi?


3
Se il 3 per te non è uguale al 3 per qualcun altro, allora non hai nemmeno una scala: hai una raccolta di misurazioni incomparabili e c'è poco significato che puoi fare per riassumere. Ciò che rende ordinale una scala è che (a) i valori possono essere confrontati, quindi il tuo 3 e il mio 3 significano la stessa cosa, ma (b) le differenze numeriche dei valori sono prive di significato a parte i loro segni, in modo che (diciamo) due 3, un 4 e un 2, oppure un 5 e un 1 potrebbero essere inseriti in qualsiasi ordine, sebbene numericamente ciascuna coppia di rating abbia la stessa media e mediana.
whuber

1
@whuber - ma non è vero che 2 persone potrebbero non condividere la stessa opinione in una scala 1-9 sui numeri? Un 6 per me potrebbe davvero non essere un 6 per qualcun altro a meno che non abbia una scala predefinita da percorrere?
Dottorato di ricerca

1
Di recente ho letto una recensione su Amazon che diceva "Un prodotto geniale non può criticare. Non darei mai 5 stelle, quindi ne ho premiate 4". Se questo non inclinare la media, allora non so che fa
Matt Wilko

2
@Wilko Stai parlando di differenze di opinione, non di differenze di scala. Anche quando una scala viene calibrata con molta attenzione, come nel (diciamo) punteggio per la ginnastica o il pattinaggio artistico o la scala internazionale per valutare la difficoltà delle rapide sui fiumi, e anche quando gli esperti sono addestrati per usare quella scala, ci saranno comunque variazioni. Questo di solito non è interpretato come prova che la scala è soggettiva: è interpretata come variazione tra i giudici.
whuber

1
Siamo spiacenti, questa non è davvero una risposta, ma sfortunatamente non sono riuscito a trovare la funzione "commento". Di recente, ho iniziato a scrivere la mia tesi di laurea sugli elementi chiave delle recensioni dei clienti. In considerazione delle seguenti circostanze, ho anche iniziato a dubitare del significato del sistema di valutazione a 5 stelle di Amazon. - Numero di recensioni diffidenti - Effetti della distorsione dei voti e delle curve a J ( buildingreputation.com/writings/2009
derPio

Risposte:


42

Vantaggi dell'utilizzo della media per sintetizzare la tendenza centrale di un punteggio di 5 punti

Come menzionato da @gung, penso che ci siano spesso ottime ragioni per prendere la media di un elemento a cinque punti come indice di tendenza centrale. Ho già delineato questi motivi qui .

Per parafrasare:

  1. la media è facile da calcolare
  2. Il mezzo è intuitivo e ben compreso
  3. La media è un singolo numero
  4. Altri indici spesso producono un ordinamento di oggetti simile

Perché la media è buona per Amazon

Pensa agli obiettivi di Amazon nel riportare la media. Potrebbero mirare a

  • fornire una valutazione intuitiva e comprensibile per un articolo
  • assicurare l'accettazione da parte dell'utente del sistema di classificazione
  • assicurarsi che le persone capiscano cosa significa il rating in modo da poterlo utilizzare in modo appropriato per informare le decisioni di acquisto

Amazon fornisce una sorta di media arrotondata, conteggi di frequenza per ciascuna opzione di classificazione e dimensione del campione (ovvero numero di valutazioni). Questa informazione è presumibilmente sufficiente per la maggior parte delle persone ad apprezzare sia il sentimento generale relativo all'elemento che la fiducia in tale valutazione (vale a dire, un 4.5 con 20 voti ha più probabilità di essere accurato di un 4,5 con 2 voti; un articolo con 10 5 valutazioni a stella e una valutazione a 1 stella senza commenti potrebbero comunque essere un buon elemento).

Potresti anche vedere la media come un'opzione democratica. Molte elezioni vengono decise in base a quale candidato ottiene la media più alta su una scala di due punti. Allo stesso modo, se si sostiene che ogni persona che invia una recensione ottiene un voto, allora si può vedere la media come un modulo che pondera il voto di ogni persona allo stesso modo.

Le differenze nell'uso della scala sono davvero un problema?

Esiste una vasta gamma di pregiudizi di valutazione noti nella letteratura psicologica (per una recensione, vedere Saal et al 1980), come la tendenza alla tendenza centrale, la propensione alla clemenza e la rigidità. Inoltre, alcuni raters saranno più arbitrari e alcuni saranno più affidabili. Alcuni potrebbero persino mentire sistematicamente dando recensioni false positive o false negative. Ciò creerà varie forme di errore quando si tenta di calcolare la valutazione media effettiva per un articolo.

Tuttavia, se si dovesse prelevare un campione casuale della popolazione, tali distorsioni si annullerebbero e, con una dimensione del campione sufficiente di rater, si otterrebbe comunque la vera media.

Ovviamente, non ottieni un campione casuale su Amazon, e c'è il rischio che il particolare set di rater che ottieni per un oggetto sia sistematicamente distorto per essere più indulgente o rigoroso e così via. Detto questo, penso che gli utenti di Amazon apprezzerebbero che le valutazioni inviate dagli utenti provengano da un campione imperfetto. Penso anche che sia abbastanza probabile che con una dimensione del campione ragionevole che in molti casi, la maggior parte delle differenze di polarizzazione della risposta inizierebbe a scomparire.

Possibili progressi oltre la media

In termini di miglioramento dell'accuratezza della valutazione, non sfiderei il concetto generale della media, ma piuttosto penso che ci siano altri modi per stimare la valutazione media effettiva della popolazione per un elemento (ovvero la valutazione media che si otterrebbe dove un campione rappresentativo di grandi dimensioni ha chiesto di valutare l'articolo).

  • Peso rater basato sulla loro affidabilità
  • Utilizzare un sistema di valutazione bayesiano che stima la valutazione media come somma ponderata della valutazione media per tutti gli articoli e la media dall'elemento specifico e aumentare la ponderazione per l'articolo specifico all'aumentare del numero di valutazioni
  • Regola le informazioni di un valutatore in base a qualsiasi tendenza di valutazione generale tra gli elementi (ad esempio, un 5 da qualcuno che in genere dà 3s varrebbe la pena di qualcuno che in genere dà 4s).

Pertanto, se l'accuratezza nella valutazione fosse l'obiettivo principale di Amazon, penso che dovrebbe tentare di aumentare il numero di valutazioni per articolo e adottare alcune delle strategie di cui sopra. Tali approcci potrebbero essere particolarmente rilevanti quando si creano classifiche "best-of". Tuttavia, per l'umile valutazione sulla pagina, può darsi che la media del campione soddisfi meglio gli obiettivi di semplicità e trasparenza.

Riferimenti

  • Saal, FE, Downey, RG & Lahey, MA (1980). Valutazione delle valutazioni: valutazione della qualità psicometrica dei dati di valutazione. Bollettino psicologico, 88, 413.

1
+1. Penso che questo vada oltre / estenda la tua risposta precedente in un modo molto carino. Mi piace in particolare la sezione "perché la media è buona per Amazon", che elenca più chiaramente ciò che stavo cercando di ottenere nella mia ultima frase. Anche "diversi usi di una scala" sono piuttosto penetranti; Gradirei una citazione per una recensione di quella letteratura, se ne conosci una buona. Noto però che l'ultima sezione è in qualche modo in tensione con la seconda.
gung - Ripristina Monica

2
Grazie. Ho aggiunto un riferimento alla letteratura sulla distorsione del rating e alla fine ho aggiunto qualcosa che cerca di conciliare le due prospettive.
Jeromy Anglim

2
+1 @JeromyAnglim - una prospettiva approfondita che fa luce sui vari aspetti del problema. Complimenti!
Dottorato di ricerca

+1, ottima risposta. Anche se ho trovato una frase leggermente fuorviante. Quando hai detto "Tuttavia, se dovessi prelevare un campione casuale della popolazione, tali distorsioni si annullerebbero e, con una dimensione del campione sufficiente di rater, otterrai comunque la vera media". - Non penso che si applichi a tutti i pregiudizi anche se tu avessi un campione casuale della popolazione.
Michael Bishop,

1
@MichaelBishop Grazie, sono d'accordo che la mia lingua era un po 'sciatta lì. Immagino che dipenda da cosa si intende per "vero significato". Vedo come se nella tua popolazione ci fossero falsi questo potrebbe distogliere la media della popolazione non corretta da un ipotetico "vero mezzo". Stavo pensando di più che eventuali distorsioni sistematiche di individui che si applicano a tutti gli articoli si annullerebbero per consentire un ordinamento di classificazione imparziale degli articoli in base alla media risultante.
Jeromy Anglim,

15

Per essere un po 'tecnici qui, quei voti non sono in realtà una scala Likert ; sono solo voti ordinali. Ora, detto questo, il tuo punto è essenzialmente corretto. Tuttavia, penso spesso che sia stato fatto troppo di questo problema. Una cosa da notare è che in genere si comprende che la media di un numero di elementi ordinali può essere approssimativamente intervallo, e quindi, quando ci sono molti voti, la media diventa una rappresentazione più ragionevole. Ho trovato questa risposta di @JeromyAnglim eccellente (davvero, vale la pena leggere la domanda e tutte le risposte degli operatori). Per un trattamento più teorico, vedi qui. Da un altro punto di vista, mi piace Amazon, ma non vedo alcun motivo per aspettarmi una raffinatezza statistica da loro, soprattutto in termini di progettazione di base del sito: il punto è l'usabilità da parte dei consumatori, non per impressionare i professori di statistica.


2
Amazon è stato uno dei leader nel settore della tecnologia (internet) nella progettazione sperimentale per la pubblicità online e l'utilizzo del sito Web. Puoi essere sicuro che in realtà sono piuttosto sofisticati nei loro approcci statistici. :-) Il tuo punto è buono. Per fare un piccolo passo avanti, puoi immaginare se Amazon stesse facendo qualcosa di "più sofisticato" e qualcuno li ha controllati usando una media semplice, ha scoperto che alcuni elementi sono stati classificati "più alti" della loro media e altri "più bassi", sollevando un fare storie e lasciare Amazon per cercare di spiegare i loro "pregiudizi nascosti" riguardo ai prodotti?
cardinale il

1
Altri servizi, ad esempio Netflix, evitano questo problema fornendo solo i dati "di riepilogo". :)
Cardinale

@cardinal, è molto interessante, non lo sapevo su Amazon.
gung - Ripristina Monica

15

Tutti hanno buone opinioni su questo. Non credo davvero di poter aggiungere molto di più. Tuttavia, posterò questo :


7
Immagino che i fumetti evidenzino che alcune persone sono poveri giudici della qualità di un articolo e facendo una media su molte di queste persone, si ottiene una media scadente. In generale, la saggezza della folla suggerisce che le medie si comportano abbastanza bene laddove almeno una parte ragionevole delle persone ha una certa conoscenza. Anche la valutazione ponderale per affidabilità potrebbe essere una strategia per superare i problemi.
Jeromy Anglim,

1
L'altra opzione sta usando i consigli di stile Netflix, confrontando la tua valutazione con le valutazioni di altri utenti e quindi calcolando la media delle valutazioni offerte da utenti con scelte simili a te.
rahul,

1
@rahul Questo è un buon punto. Nella mia risposta, a volte presumo che le valutazioni siano in gran parte vero punteggio + errore, anche se c'è struttura nell'errore. Ma quando si tratta di domini in cui le preferenze personali fanno parte della definizione di qualità, questo non ha sempre molto senso.
Jeromy Anglim,

Mi piace, ed è per questo che (come consumatore) provo a leggere le recensioni e non solo a guardare il numero di stelle. Ma ho pensato che fosse ironico che in questo caso i metodi più "sofisticati" di mediana, modalità e percentili danno tutti un risultato peggiore della media ;-)
Darren Cook,

3

Nella mia esperienza, la media dei dati della scala di valutazione è spesso la più strettamente correlata al livello di metriche del mondo reale che proviamo ad associare alla scala di valutazione. Abbiamo trovato molte relazioni lineari e la media è quindi uno dei modi migliori per riassumere i dati. Detto questo, come ha sottolineato Jeromy, la maggior parte dei modi di analizzare la tendenza centrale di una scala di valutazione fornirà risultati simili (ordini di livello, ecc.) Il più delle volte.

Inoltre, sospetto che Amazon non sia probabilmente tutto ciò che riguarda la validità scientifica in un modo o nell'altro. L'obiettivo di Amazon, alla fine, è quello di indurre le persone a fare acquisti di più su Amazon.com e il modo in cui le recensioni aiutano a raggiungere questo obiettivo probabilmente non varierà con qualsiasi riepilogo a un numero. I buoni prodotti saranno premiati, i prodotti veramente cattivi puniti e gli acquirenti nervosi avranno la possibilità di rivedere pro e contro in modo più dettagliato.


2

Le valutazioni di Amazon sono fuorvianti a causa delle società che giocano al sistema. Quando ai clienti vengono offerti sconti e merce gratuita in cambio di recensioni a 5 stelle, le "statistiche" su ciò che il numero di rating è o significa diventano discutibili.


1
Hai qualche dato sulla frequenza con cui accadono queste cose?
Michael Bishop,

1

Hai un buon punto. Prendere la media dei numeri ordinali è in qualche modo fuorviante. Qualsiasi riassunto di diverse classifiche soffrirebbe del fatto che il mio 3 soggettivo potrebbe davvero equivalere al tuo 4. Quindi, combinare diversi punteggi individuali è probabilmente il problema più grande. L'interpretazione della media di 3 e 4 come 3,5 non è altrettanto egregia.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.