Vantaggi dell'utilizzo della media per sintetizzare la tendenza centrale di un punteggio di 5 punti
Come menzionato da @gung, penso che ci siano spesso ottime ragioni per prendere la media di un elemento a cinque punti come indice di tendenza centrale. Ho già delineato questi motivi qui .
Per parafrasare:
- la media è facile da calcolare
- Il mezzo è intuitivo e ben compreso
- La media è un singolo numero
- Altri indici spesso producono un ordinamento di oggetti simile
Perché la media è buona per Amazon
Pensa agli obiettivi di Amazon nel riportare la media. Potrebbero mirare a
- fornire una valutazione intuitiva e comprensibile per un articolo
- assicurare l'accettazione da parte dell'utente del sistema di classificazione
- assicurarsi che le persone capiscano cosa significa il rating in modo da poterlo utilizzare in modo appropriato per informare le decisioni di acquisto
Amazon fornisce una sorta di media arrotondata, conteggi di frequenza per ciascuna opzione di classificazione e dimensione del campione (ovvero numero di valutazioni). Questa informazione è presumibilmente sufficiente per la maggior parte delle persone ad apprezzare sia il sentimento generale relativo all'elemento che la fiducia in tale valutazione (vale a dire, un 4.5 con 20 voti ha più probabilità di essere accurato di un 4,5 con 2 voti; un articolo con 10 5 valutazioni a stella e una valutazione a 1 stella senza commenti potrebbero comunque essere un buon elemento).
Potresti anche vedere la media come un'opzione democratica. Molte elezioni vengono decise in base a quale candidato ottiene la media più alta su una scala di due punti. Allo stesso modo, se si sostiene che ogni persona che invia una recensione ottiene un voto, allora si può vedere la media come un modulo che pondera il voto di ogni persona allo stesso modo.
Le differenze nell'uso della scala sono davvero un problema?
Esiste una vasta gamma di pregiudizi di valutazione noti nella letteratura psicologica (per una recensione, vedere Saal et al 1980), come la tendenza alla tendenza centrale, la propensione alla clemenza e la rigidità. Inoltre, alcuni raters saranno più arbitrari e alcuni saranno più affidabili. Alcuni potrebbero persino mentire sistematicamente dando recensioni false positive o false negative. Ciò creerà varie forme di errore quando si tenta di calcolare la valutazione media effettiva per un articolo.
Tuttavia, se si dovesse prelevare un campione casuale della popolazione, tali distorsioni si annullerebbero e, con una dimensione del campione sufficiente di rater, si otterrebbe comunque la vera media.
Ovviamente, non ottieni un campione casuale su Amazon, e c'è il rischio che il particolare set di rater che ottieni per un oggetto sia sistematicamente distorto per essere più indulgente o rigoroso e così via. Detto questo, penso che gli utenti di Amazon apprezzerebbero che le valutazioni inviate dagli utenti provengano da un campione imperfetto. Penso anche che sia abbastanza probabile che con una dimensione del campione ragionevole che in molti casi, la maggior parte delle differenze di polarizzazione della risposta inizierebbe a scomparire.
Possibili progressi oltre la media
In termini di miglioramento dell'accuratezza della valutazione, non sfiderei il concetto generale della media, ma piuttosto penso che ci siano altri modi per stimare la valutazione media effettiva della popolazione per un elemento (ovvero la valutazione media che si otterrebbe dove un campione rappresentativo di grandi dimensioni ha chiesto di valutare l'articolo).
- Peso rater basato sulla loro affidabilità
- Utilizzare un sistema di valutazione bayesiano che stima la valutazione media come somma ponderata della valutazione media per tutti gli articoli e la media dall'elemento specifico e aumentare la ponderazione per l'articolo specifico all'aumentare del numero di valutazioni
- Regola le informazioni di un valutatore in base a qualsiasi tendenza di valutazione generale tra gli elementi (ad esempio, un 5 da qualcuno che in genere dà 3s varrebbe la pena di qualcuno che in genere dà 4s).
Pertanto, se l'accuratezza nella valutazione fosse l'obiettivo principale di Amazon, penso che dovrebbe tentare di aumentare il numero di valutazioni per articolo e adottare alcune delle strategie di cui sopra. Tali approcci potrebbero essere particolarmente rilevanti quando si creano classifiche "best-of". Tuttavia, per l'umile valutazione sulla pagina, può darsi che la media del campione soddisfi meglio gli obiettivi di semplicità e trasparenza.
Riferimenti
- Saal, FE, Downey, RG & Lahey, MA (1980). Valutazione delle valutazioni: valutazione della qualità psicometrica dei dati di valutazione. Bollettino psicologico, 88, 413.