Di recente ho fatto alcune analisi degli effetti della reputazione sui voti positivi (vedi il post sul blog ), e successivamente ho avuto alcune domande su analisi e grafici forse più illuminanti (o più appropriati).
Quindi alcune domande (e sentiti libero di rispondere a qualcuno in particolare e di ignorare gli altri):
Nella sua attuale incarnazione, non intendevo centrare il numero postale. Penso che ciò che fa sia dare la falsa apparizione di una correlazione negativa nel grafico a dispersione, poiché ci sono più messaggi verso l'estremità inferiore del conteggio dei post (vedi che questo non accade nel pannello Jon Skeet, solo negli utenti mortali pannello). Non è opportuno non centrare il numero di post (dal momento che intendo il punteggio centrato per il punteggio medio dell'utente)?
Dovrebbe essere ovvio dai grafici che il punteggio è molto distorto (e che la centratura media non ha cambiato questo). Quando si adatta una linea di regressione, si adattano sia i modelli lineari che un modello che utilizza gli errori sandwhich Huber-White (tramite
rlm
nel pacchetto MASS R ) e non ha fatto alcuna differenza nelle stime della pendenza. Avrei dovuto considerare una trasformazione dei dati anziché una regressione robusta? Si noti che qualsiasi trasformazione dovrebbe tenere conto della possibilità di 0 e punteggi negativi. O avrei dovuto usare un altro tipo di modello per i dati di conteggio anziché OLS?Credo che le ultime due grafiche, in generale, potrebbero essere migliorate (ed è anche correlata a migliori strategie di modellazione). Secondo la mia opinione (sfinita), sospetterei che se gli effetti sulla reputazione fossero reali, sarebbero stati realizzati abbastanza presto nella storia di un poster (suppongo che se fossero veri, questi potrebbero essere riconsiderati "hai dato delle risposte eccellenti, quindi ora voterò su tutti i tuoi pubblica effetti "anziché" reputazione per punteggio totale "). Come posso creare un grafico per dimostrare se questo è vero, tenendo conto della sovra-trama? Ho pensato che forse un buon modo per dimostrare questo sarebbe adattarsi a un modello del modulo;
dove è lo stesso (lo stesso degli attuali grafici a dispersione), è il , e sono variabili fittizie che rappresentano un intervallo arbitrario di numeri postali (ad esempio uguale se il numero postale è , uguale se il il numero postale è ecc.). e sono rispettivamente il termine intercettazione generale ed errore. Quindi esaminerei semplicemente le pendenze stimate per determinare se gli effetti della reputazione apparivano all'inizio nella storia di un poster (o visualizzarli graficamente). È un approccio ragionevole (e appropriato)?score - (mean score per user)
post number
1
1 through 25
1
26 through 50
Sembra popolare adattare un qualche tipo di linea di livellamento non parametrico a grafici a dispersione come questi (come loess o spline), ma la mia sperimentazione con spline non ha rivelato nulla di illuminante (qualsiasi evidenza di effetti postivi nelle prime fasi della storia dei poster era lieve e temperante al numero di spline che ho incluso). Dal momento che ho l'ipotesi che gli effetti si manifestino presto, il mio approccio alla modellazione è più ragionevole delle spline?
Nota anche se ho praticamente dragato tutti questi dati, ci sono ancora molte altre comunità là fuori da esaminare (e alcuni come superutente e serverfault hanno campioni altrettanto grandi da cui attingere), quindi è ragionevole suggerire in futuro analisi che utilizzo un campione di controllo per esaminare qualsiasi relazione.