Grazie in anticipo per avermi accompagnato, non sono uno statistico di alcun tipo e non so come descrivere ciò che sto immaginando, quindi Google non mi sta aiutando qui ...
Sto includendo un sistema di classificazione in un'applicazione Web su cui sto lavorando. Ogni utente può valutare ogni articolo esattamente una volta.
Stavo immaginando una scala con 4 valori: "fortemente antipatia", "antipatia", "mi piace" e "fortemente mi piace", e avevo programmato di assegnare questi valori rispettivamente di -5, -2, +2 e +5 .
Ora, se ogni articolo avesse lo stesso numero di voti, allora mi sentirei abbastanza a mio agio con questo sistema di punteggio che differenzia chiaramente gli articoli più apprezzati e meno apprezzati. Tuttavia, gli articoli non avranno lo stesso numero di voti e la disparità tra il numero di voti su foto diverse potrebbe essere abbastanza drammatica.
In tal caso, confrontando i punteggi cumulativi su due articoli significa che un vecchio oggetto con un sacco di valutazioni mediocri avrà un punteggio molto più alto di un nuovo oggetto eccezionale con molti meno voti.
Quindi, la prima cosa ovvia che ho pensato di prendere una media ... ma ora se un articolo ha solo una valutazione di "+5" ha una media migliore di un articolo che ha un punteggio di 99 "+5" e 1 valutazione "+2". Intuitivamente questa non è una rappresentazione accurata della popolarità di un oggetto.
Immagino che questo problema sia comune e voi ragazzi non avete bisogno che io lo spieghi con altri esempi, quindi mi fermerò a questo punto ed elaborerò commenti se necessario.
Le mie domande sono:
- Come si chiama questo tipo di problema e esiste un termine per le tecniche utilizzate per risolverlo? Mi piacerebbe saperlo per poterlo leggere.
- Se ti capita di conoscere qualsiasi risorsa laica sull'argomento, apprezzerei molto un link.
- Infine, apprezzerei qualsiasi altro suggerimento su come raccogliere e analizzare in modo efficace questo tipo di dati.