Come misurare la "completezza" dei collaboratori di SE?


12

Stack Exchange, come lo sappiamo tutti, è una raccolta di siti di domande e risposte con argomenti diversificati. Supponendo che ogni sito sia indipendente l'uno dall'altro, date le statistiche di un utente, come calcolare la sua "completezza" rispetto al ragazzo successivo? Qual è lo strumento statistico che dovrei utilizzare?

Ad essere sincero, non so come definire matematicamente la "rotondità", ma deve avere le seguenti caratteristiche:

  1. A parità di condizioni, più un utente ha un rappresentante, più è completo
  2. A parità di condizioni, maggiore è il numero di siti a cui un utente partecipa, più è completo.
  3. Se la risposta o la domanda non influiscono sulla rotondità

Come definireste "completezza" nel contesto SE, prima di tutto?
JM non è uno statistico

@JM, non lo so, è per questo che spero che la community possa aiutare a dare un tocco in più ai concetti.
Graviton,

1
A rischio di sembrare una delle poliziotte del PC istintivo - Comprendiamo le donne che visitano il nostro sito. @Graviton, tutti i tuoi riferimenti sono ai maschi.
rolando2,

La rotondità definita da un ID utente non indica la rotondità di un contributore , poiché un collaboratore può avere ID utente diversi per diversi SE. Alcuni ID utente possono anche essere utilizzati da più di un collaboratore (ad es. Partner che condividono un account).
Alexis,

Risposte:


7

È necessario tenere conto anche della somiglianza tra i siti. Qualcuno che partecipa a StackOverflow e ai consigli stagionali è più completo rispetto a qualcuno che partecipa a SO e CrossValidated, che è a sua volta (direi) più arrotondato di qualcuno che partecipa a SO e programmatori . Ci sono indubbiamente molti modi per farlo, ma puoi controllare la registrazione sovrapposta per avere un'idea.


1
@Matt Parker, punti positivi - Se rep è parte della metrica, penso anche che tu debba guardare come è stato guadagnato il rappresentante. Una persona che ha ottenuto il proprio rappresentante da piccoli guadagni su molte domande / risposte sarebbe probabilmente più ben arrotondata di una persona che ha ottenuto lo stesso rappresentante su una singola domanda che ha ottenuto un sacco di voti positivi.
DQdlM,

3
@Kenny Questo è un buon punto e penso che il modo in cui hai affermato sia corretto, ma mi sento come se molte delle domande e delle risposte più votate siano spesso indicative di competenza, mentre le buone risposte a domande tecniche davvero grintose hanno spesso voti molto bassi.
Matt Parker,

1
Controlla le risposte di whuber, per esempio. Le sue risposte sono uniformemente eccellenti, quindi cosa differenzia tra le sue risposte molto apprezzate e il suo 1 voto? Quando guardo il primo, vedo delle risposte superbe alle domande che capisco; in quest'ultimo caso, risposte superbe a domande che non ho nemmeno iniziato a lamentarmi. Quindi le risposte a basso voto possono effettivamente essere indicative di una profonda specializzazione (ma nota: se sei curioso di sapere come appare un utente SE a tutto tondo, questo è tutto ).
Matt Parker,

1
In effetti, @Graviton, potrebbe essere saggio cercare utenti multi-sito che considereresti a tutto tondo e vedere come si comportano nelle tue varie metriche.
Matt Parker,

1
@KennyPeanuts, a complemento del punto di cui sopra sopra Matt, sembra che ci sia anche un numero apprezzabile di utenti sui siti SE che rispondono a un numero tremendo di domande, ma con pochi voti positivi. Questo non è di solito indicativo di competenza o completezza, neanche. (Tuttavia, è una delle strategie più semplici per guadagnare "reputazione").
cardinale

6

ESEMPIO: diciamo che ci sono tre siti e vogliamo confrontare la rotondità degli Utenti A, B, C. Scriviamo la reputazione degli utenti sui tre siti in forma vettoriale:

Utente A: [23, 23, 0]

Utente B: [15, 15, 0]

Utente C: [10, 10, 10]

Considereremmo A più arrotondato di B (la loro reputazione è distribuita uniformemente su due siti, ma A ha una reputazione più totale). Inoltre, considereremmo C più arrotondato di B (hanno la stessa reputazione totale, ma C ha una diffusione uniforme su più siti.) Non è chiaro se A debba essere considerato più arrotondato di C o viceversa .

xAxBxC

f(x)ff(xA)>f(xB)f(xC)>f(xB)

f(x)

Due esempi comuni di funzioni convesse sono la "norma frazionaria"

f([x1,...,xm])=ixip

0<p<1

p=1/2

f(xA)=2239.6
f(xB)=2157.7
f(xC)=3109.5

1/2

f

f([x1,...,xm])=ixilog(xi/c).

c=ixi

f

f(xA)=46log(2)31.9
f(xB)=30log(2)20.8
f(xC)=30log(3)33.0

Misurato secondo l'entropia di Shannon in scala, quindi, diremmo che C è il più arrotondato dei tre e A il secondo più arrotondato.

f(x)

EDIT2: aggiunto un esempio alla luce del commento di Whuber.


f

f[1,101]f

La norma frazionaria non è definita quando una qualsiasi x_i <0. L'entropia di Shannon fallisce quando una qualsiasi x_i / c ≤ 0. Non ha senso che una misura di rotondità esploda improvvisamente quando alcune x_i cambiano da 0 a -𝜀.
200_successo

4

Questa è una domanda davvero molto interessante (in effetti sono un po 'innamorato dell'idea di modellare i siti di scambio di stack in generale).

Sulla questione della completezza, un modo per valutarlo sarebbe attraverso i tag a cui gli utenti particolari tendono a rispondere e la loro distribuzione tra i siti. Gli esempi possono rendere questo più chiaro.

Sono un membro di TeX, StackOverflow, CrossValidated e AskUbuntu. Ora, contribuisco davvero solo a qui e StackOverflow, e solo a R su Stackoverflow. Quindi, per definire una buona rotondità, guarderei a) la quantità di tag che due siti hanno in comune (per definire la somiglianza tra i siti) e la misura in cui un utente risponde a domande su siti che hanno tag piccoli o assenti in comune.

Se, ad esempio, qualcuno contribuisce ai tag Python su StackOverflow e cucina, quella persona è più a tutto tondo di qualcuno che sta rispondendo a domande su software statistico (ad esempio) su Overflow e statistiche qui.

Spero che questo sia in qualche modo utile.


4
(+1) Qualcuno che sta contribuendo ai tag Python sia su SO che in cucina ha alcuni sapori esotici nel cibo :-) Ho sentito che sa di pollo.
whuber

3

Se definissi "completezza" come "contributo a molti diversi siti di scambio di stack", calcolerei alcune metriche di contributo per sito. È possibile utilizzare post totali o post medi al giorno o forse reputazione. Quindi osserva la distribuzione di questa metrica su tutti i siti e calcola la sua asimmetria in un modo che abbia senso.

In altre parole, una persona "a tutto tondo" sarebbe una persona che contribuisce a molti siti diversi, mentre una persona "non a tutto tondo" sarebbe una persona che contribuisce principalmente a un sito. Potresti migliorare ulteriormente ridimensionando la metrica con il totale di un utente su tutti i siti. vale a dire qualcuno che ha contribuito molto a molti siti diversi dovrebbe essere considerato più completo rispetto a qualcuno che non ha contribuito a nessuno dei siti. Una persona che non ha mai usato SE non è molto ben arrotondata!


1

Già molte buone risposte, quindi perché ancora una? Questo è principalmente per attirare l'attenzione sulle idee interessanti discusse qui al The n-Category Café . Mentre la diversità nell'ecologia (e altrove) guarda principalmente all'abbondanza, si dovrebbe anche guardare a quanto siano simili / diverse le diverse specie.

Rappresentando le specie (o qualsiasi altra cosa, come i siti SE ...) come punti in uno spazio metrico, ciò porta a generalizzare l' entropia negli spazi metrici, vedi ad esempio L'entropia massima di uno spazio metrico di Tom Leinster, Emily Roff . Le stesse idee potrebbero essere utilizzate all'interno dei siti SE guardando i tag come punti in uno spazio metrico.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.