Funzione "Interessante" per domande StackExchange

Sto cercando di mettere insieme un pacchetto di data mining per i siti StackExchange e, in particolare, sono bloccato nel tentativo di determinare le domande "più interessanti". Vorrei utilizzare il punteggio della domanda, ma rimuovere la distorsione a causa del numero di visualizzazioni, ma non so come affrontarlo rigorosamente.

Nel mondo ideale, potrei ordinare le domande calcolando , dove è il totale dei voti e è il numero di visualizzazioni. Dopotutto misurerebbe la percentuale di persone che votano la domanda, meno la percentuale di persone che votano la domanda. $\frac{v}{n}$ $v$ $n$

Sfortunatamente, il modello di voto è molto più complicato. I voti tendono a "plateau" a un certo livello e questo ha l'effetto di sottovalutare drasticamente le domande selvaggiamente popolari. In pratica, una domanda con 1 vista e 1 voto avrebbe sicuramente un punteggio ed essere classificata più in alto rispetto a qualsiasi altra domanda con 10.000 visualizzazioni, ma meno di 10.000 voti.

Attualmente sto usando come formula empirica, ma vorrei essere preciso. Come posso affrontare questo problema con rigore matematico? $\frac{v}{\log{n}+1}$

Per rispondere ad alcuni dei commenti, cercherò di riaffermare il problema in un modo migliore:

Diciamo che ho una domanda con voti totali e visualizzazioni. Vorrei essere in grado di stimare quali voti totali è più probabile quando le visualizzazioni raggiungono . $v_0$ $n_0$ $v_1$ $n_1$

In questo modo potrei semplicemente scegliere un valore nominale per e ordinare tutta la domanda in base al totale previsto . $n_1$ $v_1$

Ho creato due query sul datadump SO per mostrare meglio l'effetto di cui sto parlando:

Visualizzazioni medie per punteggio

Risultato:

Visualizzazioni per punteggio

Punteggio medio per visualizzazioni (bucket con 100 visualizzazioni)

Risultato:

Punteggio per visualizzazioni

Le due formule a confronto

Risultati, non sono sicuro che sia più dritto: ( in blu, in rosso) $\frac{v}{n}$ $\frac{v}{log{n}+1}$

formule

data-mining predictive-models

— Sklivvz
fonte

Questa è certamente una domanda interessante, ma penso che potresti fare meglio a chiedere questo su stats.SE.

@Theo Potresti avere ragione, in realtà. Contrassegnerò la migrazione delle mod se pensano che sia la cosa migliore.

Perché i punti di vista non dovrebbero contribuire all'interesse? (ma peggio, perché dovrebbero contribuire negativamente?) Le cose più interessanti tendono ad essere viste più spesso ... Il problema fondamentale qui è cosa significa anche interessante ? Significa domande di interesse generale o domande che interessano un pubblico di livello superiore più specifico? Affinché qualcuno possa rispondere a questa domanda con "rigore matematico", deve prima essere posto rigorosamente.

Le visualizzazioni distorcono le domande perché una domanda potrebbe essere, ad esempio, essere collegata da un buon sito e ricevere tonnellate di visualizzazioni: se si guardano le domande più votate , sono tutte domande di alto profilo; per interessante intendo le domande che hanno più valore percepite dagli utenti del sito. In ogni caso, la domanda è ancora valida: qual è il modo corretto di combinare opinioni e voti per ottenere il miglior predittore di qualità?

La gente di matematica ha fatto buone domande. La logica di questa domanda sembra circolare: sembra chiederci una formula per misurare la "qualità" di una domanda SE ma non stabilisce cosa significa "qualità" se non per dare sinonimi non operativi come "valore percepito dagli utenti del sito ". Non puoi ottenere qualcosa per niente!

— whuber

Risposte:

Si potrebbe definire una domanda interessante come quella che ha ricevuto relativamente molti voti dato il numero di visualizzazioni. A tal fine, è possibile creare una curva di base che rifletta il numero previsto di voti dati le viste. Le curve che hanno attirato molti più voti rispetto alla linea di base sono state considerate particolarmente interessanti.

Per costruire la baseline, potresti voler calcolare il numero mediano di voti per bin di 100 visualizzazioni. Inoltre, è possibile calcolare la deviazione assoluta mediana (MAD) come misura solida per la deviazione standard per bin. Quindi, "interesse" può essere calcolato come

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

— Jonas
fonte

Questa è la mia teoria Penso che ci siano due tipi di domande: quelle che rimangono per lo più all'interno di SE (che di solito hanno un minor numero di visualizzazioni) e quelle che vengono visualizzate da estranei perché collegate da qualche altra parte (di solito hanno più visualizzazioni).

Per le domande che rimangono per lo più all'interno della SE, i voti sono una buona misura di domande interessanti. Questo è il punto dei voti.

Quando una domanda è collegata all'esterno del sito, i voti smettono di significare altrettanto. Alcuni siti di collegamento potrebbero avere pochissimi membri SE, altri potrebbero averne di più. La varianza del numero di voti per queste domande è probabilmente alta (come evidenziato dal tuo punteggio rispetto alla trama della vista, dove fiorisce il lato destro della curva). Queste domande avranno più punti di vista e le viste POSSONO essere un indicatore migliore di domande interessanti. O domande che una comunità più grande ha trovato più interessanti. Ci sono molte variabili in questa situazione e penso che varrebbe la pena cercare di trovare più informazioni per differenziare questi casi. SE pubblica informazioni sui referral?

— rm999
fonte

SE pubblica informazioni sui referral? Sarei interessato a conoscere il modello di visualizzazione dei post piuttosto che solo voti positivi, commenti, ecc.

— d_a_c321