Come posso migliorare la mia analisi degli effetti della reputazione sul voto?


15

Di recente ho fatto alcune analisi degli effetti della reputazione sui voti positivi (vedi il post sul blog ), e successivamente ho avuto alcune domande su analisi e grafici forse più illuminanti (o più appropriati).

Quindi alcune domande (e sentiti libero di rispondere a qualcuno in particolare e di ignorare gli altri):

  1. Nella sua attuale incarnazione, non intendevo centrare il numero postale. Penso che ciò che fa sia dare la falsa apparizione di una correlazione negativa nel grafico a dispersione, poiché ci sono più messaggi verso l'estremità inferiore del conteggio dei post (vedi che questo non accade nel pannello Jon Skeet, solo negli utenti mortali pannello). Non è opportuno non centrare il numero di post (dal momento che intendo il punteggio centrato per il punteggio medio dell'utente)?

  2. Dovrebbe essere ovvio dai grafici che il punteggio è molto distorto (e che la centratura media non ha cambiato questo). Quando si adatta una linea di regressione, si adattano sia i modelli lineari che un modello che utilizza gli errori sandwhich Huber-White (tramite rlmnel pacchetto MASS R ) e non ha fatto alcuna differenza nelle stime della pendenza. Avrei dovuto considerare una trasformazione dei dati anziché una regressione robusta? Si noti che qualsiasi trasformazione dovrebbe tenere conto della possibilità di 0 e punteggi negativi. O avrei dovuto usare un altro tipo di modello per i dati di conteggio anziché OLS?

  3. Credo che le ultime due grafiche, in generale, potrebbero essere migliorate (ed è anche correlata a migliori strategie di modellazione). Secondo la mia opinione (sfinita), sospetterei che se gli effetti sulla reputazione fossero reali, sarebbero stati realizzati abbastanza presto nella storia di un poster (suppongo che se fossero veri, questi potrebbero essere riconsiderati "hai dato delle risposte eccellenti, quindi ora voterò su tutti i tuoi pubblica effetti "anziché" reputazione per punteggio totale "). Come posso creare un grafico per dimostrare se questo è vero, tenendo conto della sovra-trama? Ho pensato che forse un buon modo per dimostrare questo sarebbe adattarsi a un modello del modulo;

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

dove è lo stesso (lo stesso degli attuali grafici a dispersione), è il , e sono variabili fittizie che rappresentano un intervallo arbitrario di numeri postali (ad esempio uguale se il numero postale è , uguale se il il numero postale è ecc.). e sono rispettivamente il termine intercettazione generale ed errore. Quindi esaminerei semplicemente le pendenze stimate per determinare se gli effetti della reputazione apparivano all'inizio nella storia di un poster (o visualizzarli graficamente). È un approccio ragionevole (e appropriato)?Yscore - (mean score per user)X1post numberZ1ZkZ111 through 25Z2126 through 50β0ϵγ

Sembra popolare adattare un qualche tipo di linea di livellamento non parametrico a grafici a dispersione come questi (come loess o spline), ma la mia sperimentazione con spline non ha rivelato nulla di illuminante (qualsiasi evidenza di effetti postivi nelle prime fasi della storia dei poster era lieve e temperante al numero di spline che ho incluso). Dal momento che ho l'ipotesi che gli effetti si manifestino presto, il mio approccio alla modellazione è più ragionevole delle spline?

Nota anche se ho praticamente dragato tutti questi dati, ci sono ancora molte altre comunità là fuori da esaminare (e alcuni come superutente e serverfault hanno campioni altrettanto grandi da cui attingere), quindi è ragionevole suggerire in futuro analisi che utilizzo un campione di controllo per esaminare qualsiasi relazione.


Al momento ho preso alcune note sulla mia prima domanda e possono essere trovate qui . Non sono sicuro al momento se dovrei semplicemente pubblicare questo come risposta alla mia domanda o aprire una domanda separata (poiché questo è in gran parte focalizzato sulla visualizzazione dei dati). Ma sentiti libero di lasciarmi un commento sul documento Google o qui o nella chat room .
Andy W,

Risposte:


14

Questo è un tentativo coraggioso, ma con questi soli dati, sarà difficile o impossibile rispondere alla domanda di ricerca riguardante "l'effetto della reputazione sui voti positivi". Il problema sta nel separare gli effetti di altri fenomeni, che elencherò insieme a brevi indicazioni su come potrebbero essere affrontati.

  • Effetti di apprendimento . Man mano che la reputazione aumenta, l'esperienza aumenta; man mano che l'esperienza aumenta, ci aspetteremmo che una persona pubblichi domande e risposte migliori; poiché la loro qualità migliora, ci aspettiamo più voti per post. Concepibilmente, un modo per gestirlo in un'analisi sarebbe quello di identificare le persone che sono attive su più di un sito SE . Su un determinato sito la loro reputazione aumenterebbe più lentamente della quantità della loro esperienza, fornendo così una maniglia per prendere in giro la reputazione e gli effetti di apprendimento.

  • Cambiamenti temporali nel contesto. Sono una miriade, ma quelli ovvi includerebbero

    • Cambiamenti nel numero di elettori nel tempo , tra cui una tendenza generale al rialzo, tendenze stagionali (spesso associate a cicli accademici) e valori anomali (derivanti da pubblicità esterna come collegamenti a thread specifici). Qualsiasi analisi dovrebbe tener conto di ciò quando si valutano le tendenze della reputazione per ogni individuo .

    • Cambiamenti nei costumi di una comunità nel tempo . Le comunità e il modo in cui interagiscono, si evolvono e si sviluppano. Nel tempo possono tendere a votare più o meno spesso. Qualsiasi analisi dovrebbe valutare questo effetto e includerlo .

    • Il tempo stesso. Col passare del tempo, i post precedenti rimangono disponibili per la ricerca e continuano a ottenere voti. Così, caeteris paribus , più anziani messaggi dovrebbe produrre più voti di quelli più recenti. (Questo è un forte effetto: alcune persone costantemente alte sui campionati mensili di reputazione non hanno visitato questo sito tutto l'anno!) Ciò maschererebbe o addirittura invertirebbe qualsiasi effetto positivo sulla reputazione. Ogni analisi deve tener conto del periodo di tempo in cui ciascun post è stato presente sul sito .

  • Popolarità del soggetto. Alcuni tag (ad esempio, ) sono molto più popolari di altri. Pertanto, i cambiamenti nel tipo di domande a cui una persona risponde possono essere confusi con cambiamenti temporali, come un effetto reputazione. Pertanto, qualsiasi analisi deve tener conto della natura delle domande a cui si risponde.

  • Visualizzazioni [aggiunte come modifica]. Le domande vengono visualizzate da diversi numeri di persone per vari motivi (filtri, collegamenti, ecc.). È possibile che il numero di voti ricevuti dalle risposte sia correlato al numero di visualizzazioni, anche se ci si aspetterebbe una percentuale in calo all'aumentare del numero di visualizzazioni. (È una questione di quante persone veramente interessate alla domanda la vedono effettivamente, non il numero grezzo. La mia esperienza, aneddotica, è che circa la metà dei voti che ricevo su molte domande arriva entro i primi 5-15 viste, anche se alla fine le domande vengono visualizzate centinaia di volte.) Pertanto, qualsiasi analisi deve tener conto del numero di viste, ma probabilmente non in modo lineare.

  • Difficoltà di misurazione. "Reputazione" è la somma dei voti ricevuti per le diverse attività: reputazione iniziale, risposte, domande, domande di approvazione, modifica di tag wiki, downvoting e ottenere downvoting (in ordine decrescente di valore). Poiché queste componenti valutano cose diverse e non tutte sono sotto il controllo degli elettori della comunità, dovrebbero essere separate per l'analisi . Un "effetto reputazione" è presumibilmente associato a valutazioni delle risposte e, forse, alle domande, ma non dovrebbe influire su altre fonti di reputazione. La reputazione di partenza sicuramente dovrebbe essere sottratta (ma forse potrebbe essere utilizzata come proxy per un po 'di esperienza iniziale).

  • Fattori nascosti Ci possono essere molti altri fattori confondenti che sono impossibili da misurare. Ad esempio, ci sono varie forme di "esaurimento" nella partecipazione ai forum. Cosa fanno le persone dopo poche settimane, mesi o anni di entusiasmo? Alcune possibilità includono concentrarsi su domande rare, insolite o difficili; fornire risposte solo a domande senza risposta; fornire meno risposte ma di qualità superiore; ecc. Alcuni di questi potrebbero mascherare un effetto reputazione, mentre altri potrebbero erroneamente essere confusi con uno. Una delega per tali fattori potrebbe essere la variazione dei tassi di partecipazione di un individuo : essi potrebbero segnalare cambiamenti nella natura dei posti di quella persona.

  • Fenomeni di subcomunità. Uno sguardo approfondito alle statistiche, anche su pagine SE molto attive, mostra che un numero relativamente piccolo di persone fa la maggior parte delle risposte e delle votazioni. Una cricca piccola come due o tre persone può avere una profonda influenza sulla crescita della reputazione. Una cricca per due persone verrà rilevata dai monitor incorporati del sito (e uno di questi gruppi esiste su questo sito), ma probabilmente non saranno presenti cricche più grandi. (Non sto parlando di collusione formale: le persone possono essere membri di tali cricche senza nemmeno esserne consapevoli.) Come separeremmo un apparente effetto reputazione dalle attività di queste cricche invisibili, non individuate, informali? Dati di voto dettagliati potrebbero essere utilizzati in modo diagnostico, ma non credo che abbiamo accesso a questi dati.

  • Dati limitati. Per rilevare un effetto reputazione, probabilmente dovrai concentrarti su individui con dozzine o centinaia di post (almeno). Ciò riduce l'attuale popolazione a meno di 50 individui. Con tutte le possibilità di variazione e confusione, è troppo piccolo per provocare effetti significativi a meno che non siano davvero molto forti. La cura è quella di aumentare il set di dati con i record di altri siti SE .

Date tutte queste complicazioni, dovrebbe essere chiaro che la grafica esplorativa nell'articolo del blog ha poche possibilità di rivelare qualcosa a meno che non sia palesemente ovvio. Nulla ci salta fuori: come previsto, i dati sono disordinati e complicati. È prematuro raccomandare miglioramenti ai grafici o all'analisi che è stata presentata: modifiche incrementali e analisi aggiuntive non aiuteranno fino a quando questi problemi fondamentali non saranno stati affrontati .


Grazie per la risposta. Data l'ampiezza della critica, non sarò in grado di rispondere adeguatamente a tutti i suggerimenti nei commenti (dovrò pensare a un'altra sede, forse solo pubblicare un altro documento di Google). Ma ora dirò che non credo sia impossibile rispondere (nella misura in cui chiunque può rispondere a qualsiasi cosa con dati osservativi come questo). Come minimo, dati i limiti di potenziali confusione, si può vedere se gli effetti sulla reputazione sono coerenti con le prove disponibili.
Andy W,

@Andy Penso che il confondimento sia sostanziale e pervasivo, quindi anche se sembra che ci sia un effetto reputazione, potrebbe essere un artefatto: non sarai in grado di trarre alcuna conclusione valida se non hai affrontato questi problemi. Certo, potrei sbagliarmi, ma l'onere della prova è per te.
whuber

il "se sembra che ci sia un effetto reputazione" è la frase chiave (come la vedo io). La maggior parte dei problemi che hai presentato sarebbero collegati in modo ambiguo alla reputazione di un poster / numero di post / storia o teoricamente ci si aspetta che aumenti il ​​punteggio dei poster sulle risposte più avanti nella loro storia. Se non trovo alcuna prova degli effetti della reputazione, molti dei potenziali problemi non possono essere usati per spiegare la sua assenza.
Andy W,

@Andy Ma almeno uno può, ed è abbastanza. Questi includono fattori nascosti, popolarità del soggetto e cambiamenti temporali nel contesto. Se non analizzi esplicitamente tutto ciò nell'analisi, le tue conclusioni saranno sospette. Uno sguardo ai registri mostra che la popolarità dei soggetti e i cambiamenti temporali sono enormi; le loro potenziali influenze sommergono ciò che potremmo ragionevolmente aspettarci che gli effetti della reputazione siano fino a un ordine di grandezza.
whuber

2
@ cardinale, anche senza una definizione formale, sarebbe possibile per un piccolo numero di persone avere un impatto apprezzabile sugli schemi di voto (che è ciò a cui presumo si riferisca in questo contesto). Il post medio di Jon Skeet era solo 5 voti positivi. Se all'improvviso una persona decide di votare tutte le sue risposte, ciò potrebbe avere un impatto piuttosto sostanziale dato il punteggio medio basso all'inizio.
Andy W,

5

YtZtYt=un'0+un'1Yt-1+un'2Zt-1+εtZt=B0+B1Yt-1+B2Zt-1+δtun'2ZYZYtΔYt=Yt-Yt-1YtFχ2T-1T-1/2YtZtun'0un'1un'2

Al punto 1: se avessi fatto effetti fissi a mano, avresti dovuto centrare sia la variabile di risposta sia le variabili esplicative. Il pacchetto di regressione dei dati del panel lo avrebbe fatto per te, ma il modo econometrico ufficiale di guardare le cose è sottrarre la regressione "tra" dalla regressione "aggregata" (vedi il libro nero di Wooldridge ; non ho controllato la seconda edizione, ma generalmente vedo la prima edizione come la migliore descrizione da manuale dei dati del pannello econometrico).

Sul tuo punto 2: ovviamente gli errori standard di Eicker / White non influenzeranno le tue stime dei punti; se lo facessero, ciò indicherebbe un'implementazione errata! Nel contesto delle serie temporali, uno stimatore ancora più appropriato è dovuto a Newey e West (1987) . Provare trasformazioni potrebbe aiutare. Personalmente sono un grande fan della trasformazione di Box-Cox, ma nel contesto dell'analisi che stai intraprendendo, è difficile farlo in modo pulito. In primo luogo, avresti bisogno di un parametro di spostamento in cima al parametro di forma e i parametri di spostamento sono notoriamente difficili da identificare in modelli come questo. In secondo luogo, probabilmente avresti bisogno di parametri di spostamento / forma diversi per persone diverse e / o post diversi e / o ... (tutto l'inferno si scatena). Anche i dati di conteggio sono un'opzione, ma nel contesto della modellazione media, una regressione di Poisson è altrettanto buona della trasformazione del log, ma impone un'ipotesi ingombrante di varianza = media.

PS Potresti probabilmente etichettarlo con "dati longitudinali" e "serie temporali".


grazie per la risposta e alcuni commenti / domande. Sono d'accordo che avrei dovuto esplorare almeno un approccio più esplicito delle serie temporali in questi dati (non ho nemmeno verificato se ci fossero prove di autocorrelazione nei residui). Ci sono alcune ulteriori complicazioni anche se nella modellazione di serie temporali di questi dati (cos'è t ?, e il punteggio stesso è dinamico e non fisso per numero di post), inoltre non ci sarebbe bisogno di una regressione che preveda Z_t, so perfettamente cosa Z_t è una funzione di!
Andy W,

Inoltre dubito fortemente che il punteggio sia non stazionario, cosa ti fa pensare che sia?
Andy W,

Per lo meno, è probabilmente eteroschedastico: alcuni post sono interessanti, ottengono molti successi e molti voti positivi, mentre altri sono piccoli chiarimenti o tipo di domande / risposte RTFM- "Leggi questo link". Quello di per sé lo renderebbe tecnicamente non stazionario. Naturalmente la stazionarietà è un presupposto verificabile, ma con dati folli come questi, probabilmente vorrai essere un lato molto sicuro di essere eccessivamente conservatore nei metodi di analisi (o, come ho già detto, essere consapevole che i risultati potrebbero essere strano).
StasK,

Sono un po 'confuso dall'ultimo commento. In che modo i fattori esogeni che influenzano il punteggio di una risposta rendono la serie eteroschedastica (suppongo che tu intenda che la varianza del punteggio aumenta o diminuisce con il numero di post?), E di quale rilevanza è questo rispetto alla domanda attuale?
Andy W,

Una serie temporale è stazionaria se le distribuzioni marginali in tutti i punti temporali sono uguali. Quindi, anche se potresti avere la stessa media, una variazione variabile renderà la serie non stazionaria. Un esempio sono i modelli (G) ARCH per i quali è stato assegnato un premio Nobel nei primi anni 2000. Ma in questi dati mi aspetterei anche dei cambiamenti nella media. Se il pubblico del sito Web cresce, quindi per una determinata qualità di risposta, è probabile che tu veda più voti su di esso, il che probabilmente aumenterà sia la media che la varianza dei punteggi.
StasK,

3

Diverse altre modifiche ai grafici:

  1. Bande quantiche per il punteggio di risposta rispetto alla reputazione precedente. (Grafici 1 e 3)
  2. Diagrammi di densità per Skeet rispetto ad altri, stratificati per posta # (grafico 3)
  3. Valuta la stratificazione per numero di post in competizione
  4. Stratificare per tempo (si può continuare a guadagnare punti molto tempo dopo che la domanda è stata posta)

Modellare questo sarà più difficile. Potresti considerare la regressione di Poisson. Francamente, però, sviluppare buone trame è un metodo molto migliore per sviluppare intuizioni e abilità. Inizia la modellazione dopo aver compreso meglio i dati.


(+1) Dopo aver lasciato riposare il post per un po ', mi sono reso conto che visualizzare la densità dei punti sembra essere una soluzione molto migliore rispetto al tentativo di visualizzare i punti stessi (anche se non sono del tutto sicuro di cosa intendi per "stratificare per il post # "). Penso anche che tracciare i quantili stimati sembri una buona idea, anche se per la trama 1 e 2 sarà probabilmente nella nuvola massiccia. Ancora una volta non so cosa significhi "stratificare in base al tempo" in questo contesto, vedere il commento di Brad Larson sul post del blog e la mia risposta al riguardo.
Andy W,

Inoltre dubito fortemente che i post in competizione abbiano qualcosa a che fare con le relazioni osservate. Pensi che le persone che hanno un'alta reputazione pubblicate in thread con più risposte concorrenti all'inizio della loro storia? I tuoi suggerimenti sull'inclusione di altre covariate sembrano essere in conflitto con il suggerimento di evitare la modellazione e concentrarsi sulle trame.
Andy W,

L'idea alla base dei posti in competizione è di natura esplorativa. La motivazione alla risposta non ha nulla a che fare con esso. Per quanto riguarda la modellazione, non è che sono contrario alla modellazione in sé, ma che non sei ancora pronto per farlo fino a quando non avrai una migliore comprensione dei dati. Se non capisci i dati, non capirai i modelli.
Iteratore

Stratificando per numero di post, sto suggerendo di inserire i post. Può essere su una scala di intervallo, come 0-100 post, 101-200, ecc. O su una scala quantile: dividere gli utenti per quelli nell'ile 10% inferiore dei post totali, 20% ile, ecc. Perché Skeet ha così tanti post, è meglio confrontarlo con il suo peer group, ma è difficile confrontarlo con un peer group di quelli con esattamente lo stesso numero di post - il binning dei dati può aiutare.
Iteratore

A proposito, per la stratificazione, puoi usare coplot().
Iteratore

1

Whoa lì. (E intendo che in senso buono ;-)) Prima di andare oltre con i modelli, è necessario affrontare cosa sta succedendo con i dati.

Non vedo una spiegazione per la curva molto particolare nel mezzo di questa trama: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

Vedere una tale curva mi fa pensare che ci sia qualcosa di molto strano in quei punti - che non sono indipendenti l'uno dall'altro e riflettono invece una sequenza di osservazioni della stessa fonte.

(Nota minore: intitolare quella trama "Correlazione ..." è fuorviante.)


5
23

Quella curva può essere spiegata dalla natura di come la reputazione è correlata ai voti positivi, ed è probabile che le persone che hanno pubblicato una risposta e abbiano guadagnato tutta la reputazione da quella risposta unica (posso andare più in dettaglio sul perché ciò è probabilmente il caso, se necessario) . Se avessi tracciato la reputazione attuale meno la reputazione dal post più attuale, questo mi avrebbe curato per la maggior parte (anche quelle osservazioni non hanno nulla a che fare con l'analisi successiva). Ti interessa approfondire la correlazione che è fuorviante?
Andy W,

@whuber, non credo che direi qualcosa al di sotto di 10 ^ 3 è solo rumore. Sicuramente una teoria degli effetti della reputazione dovrebbe essere applicabile a quando la reputazione è assente. Accolgo con favore anche eventuali miglioramenti suggeriti alle trame (non ci sono molte informazioni in nessuna delle trame!)
Andy W

Grazie. Per il titolo, non esiste alcun calcolo della correlazione. È solo un diagramma a dispersione di punteggio marginale rispetto alla reputazione. Tranne, come menzionate tu e @whuber, non è proprio il punteggio marginale: dovrebbe essere deltaRep (o Rep (t) - Rep (t-1)) contro Rep (t-1).
Iteratore

1
@Iteratore, corretto per l'ultima affermazione (10 punti per votazione), ma sembra ancora che tu possa essere confuso da ciò che sto tramando con l'altra affermazione. L'asse Y non è reputazione, ma il numero di voti per il post più recente (questo non è necessariamente Rep(t) - Rep(t-1)poiché gli utenti possono guadagnare reputazione da altri luoghi), l'asse X è la reputazione corrente (inclusa la reputazione acquisita da quel post). L'asse X è ciò che ho suggerito di sostituire (sottraendo i voti ottenuti dalla risposta in questione che ho tracciato sull'asse Y).
Andy W,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.