Sto cercando di mettere insieme un pacchetto di data mining per i siti StackExchange e, in particolare, sono bloccato nel tentativo di determinare le domande "più interessanti". Vorrei utilizzare il punteggio della domanda, ma rimuovere la distorsione a causa del numero di visualizzazioni, ma non so come affrontarlo rigorosamente.
Nel mondo ideale, potrei ordinare le domande calcolando , dove è il totale dei voti e è il numero di visualizzazioni. Dopotutto misurerebbe la percentuale di persone che votano la domanda, meno la percentuale di persone che votano la domanda.
Sfortunatamente, il modello di voto è molto più complicato. I voti tendono a "plateau" a un certo livello e questo ha l'effetto di sottovalutare drasticamente le domande selvaggiamente popolari. In pratica, una domanda con 1 vista e 1 voto avrebbe sicuramente un punteggio ed essere classificata più in alto rispetto a qualsiasi altra domanda con 10.000 visualizzazioni, ma meno di 10.000 voti.
Attualmente sto usando come formula empirica, ma vorrei essere preciso. Come posso affrontare questo problema con rigore matematico?
Per rispondere ad alcuni dei commenti, cercherò di riaffermare il problema in un modo migliore:
Diciamo che ho una domanda con voti totali e visualizzazioni. Vorrei essere in grado di stimare quali voti totali è più probabile quando le visualizzazioni raggiungono .
In questo modo potrei semplicemente scegliere un valore nominale per e ordinare tutta la domanda in base al totale previsto .
Ho creato due query sul datadump SO per mostrare meglio l'effetto di cui sto parlando:
Visualizzazioni medie per punteggio
Risultato:
Punteggio medio per visualizzazioni (bucket con 100 visualizzazioni)
Risultato:
Risultati, non sono sicuro che sia più dritto: ( in blu, in rosso)