"Hunting of the Snark" di Joel Spolsky è un'analisi dei contenuti statistici valida?


25

Se hai letto recentemente i bollettini della community, probabilmente hai visto The Hunting of the Snark, un post sul blog ufficiale StackExchange di Joel Spolsky, CEO della rete StackExchange. Discute un'analisi statistica condotta su un campione di commenti SE per valutare la loro "cordialità" dal punto di vista dell'utente esterno. I commenti sono stati campionati casualmente da StackOverflow e gli analisti del contenuto erano membri della comunità Mechanical Turk di Amazon, un mercato del lavoro che collega le aziende ai lavoratori che svolgono piccole e brevi attività a costi accessibili.

Non molto tempo fa, ero uno studente laureato in scienze politiche e una delle lezioni che ho preso era l' analisi del contenuto statistico . Il progetto finale della classe, in effetti il ​​suo intero scopo, era quello di condurre un'analisi dettagliata dei rapporti di guerra del New York Times, per verificare se molti presupposti che gli americani fanno sulla copertura delle notizie durante le guerre fossero accurati (spoiler: le prove suggeriscono che sono non). Il progetto è stato enorme e abbastanza divertente, ma di gran lunga la sua sezione più dolorosa è stata la "fase di test di addestramento e affidabilità", che è avvenuta prima che potessimo condurre un'analisi completa. Aveva due scopi (vedere pagina 9 del documento collegato per una descrizione dettagliata, nonché riferimenti a standard di affidabilità dell'intercoder nella letteratura statistica sull'analisi del contenuto):

  1. Confermare che tutti i programmatori, ovvero i lettori del contenuto, abbiano ricevuto le stesse definizioni qualitative. Nell'analisi di Joel, ciò significava che tutti avrebbero saputo esattamente come il progetto definiva "amichevole" e "ostile".

  2. Confermare che tutti i programmatori abbiano interpretato queste regole in modo affidabile, ovvero abbiamo campionato il nostro campione, analizzato il sottoinsieme e quindi dimostrato statisticamente che le nostre correlazioni a coppie sulle valutazioni qualitative erano abbastanza simili.

I test di affidabilità fanno male perché abbiamo dovuto farlo tre o quattro volte. Fino a quando -1- non è stato bloccato e -2- ha mostrato correlazioni sufficientemente elevate a coppie, i nostri risultati per l'analisi completa erano sospetti. Non potevano essere dimostrati validi o non validi. Ancora più importante, abbiamo dovuto fare test pilota di affidabilità prima del set di campioni finale.

La mia domanda è questa: l'analisi statistica di Joel mancava di un test di affidabilità pilota e non stabiliva alcuna definizione operativa di "cordialità". I dati finali erano abbastanza affidabili da dire qualcosa sulla validità statistica dei suoi risultati?

Per una prospettiva, considerare questo primer sul valore di affidabilità dell'intercoder e definizioni operative coerenti. Più in profondità nella stessa fonte, puoi leggere i test di affidabilità del pilota (elemento 5 nell'elenco).

Secondo il suggerimento di Andy W. nella sua risposta, sto tentando di calcolare una serie di statistiche sull'affidabilità nel set di dati, che è disponibile qui, usando questa serie di comandi in R (aggiornata mentre calcolo nuove statistiche).

Le statistiche descrittive sono qui

Accordo percentuale (con tolleranza = 0): 0,0143

Accordo percentuale (con tolleranza = 1): 11.8

Alfa di Krippendorff: 0,1529467

Ho anche tentato un modello di risposta agli articoli per questi dati in un'altra domanda.


1
L' ha fatto pubblicamente rilasciare i dati di codifica e quindi si può andare a valutare l'affidabilità degli stessi programmatori, se si voleva.
Andy W

3
Ri: # 1 - Va notato che questo non era tanto un esercizio se i commenti erano amichevoli o meno, ma più un esercizio se i commenti venivano percepiti come amichevoli o meno per un utente esterno.
Rachel,

3
@ Rachel Non penso che sia giusto. Se stessero misurando il modo in cui gli estranei percepiscono i commenti su SO, avrebbero avuto bisogno di un set di campioni piuttosto più ampio di 20 persone.
Christopher,

2
È la differenza tra la conclusione di qualcosa su come gli estranei percepiscono i commenti e la conclusione di qualcosa sui commenti stessi. Nel primo caso, avresti bisogno di un campione molto più ampio di persone, e la conclusione sarebbe "Gli estranei pensano che il 2,3% dei commenti SO sia ostile". Nel secondo, è "2,3% dei commenti SO sono ostili". Sono conclusioni diverse, e penso che il secondo potrebbe non essere possibile fare, perché non possiamo dimostrare che i programmatori valutano i commenti in modo simile senza un test di affidabilità.
Christopher,

2
@Christopher L'amicizia è comunque molto soggettiva. A seconda di chi chiedi, lo stesso commento può essere visto come amichevole e ostile. Questo è il motivo per cui penso che sia più importante ottenere il punto di vista da un gran numero di utenti casuali anziché da qualcuno che abbia lo stesso punto di vista.
Rachel,

Risposte:


6

Accordo percentuale (con tolleranza = 0): 0,0143

Accordo percentuale (con tolleranza = 1): 11.8

Alfa di Krippendorff: 0,1529467

Queste misure di accordo affermano che praticamente non esiste un accordo categorico: ogni programmatore ha il proprio punto di interruzione interno per giudicare i commenti come "amichevoli" o "ostili".

Se assumiamo che le tre categorie siano ordinate, ovvero: Scortese <Neutro <Amichevole, possiamo anche calcolare la correlazione intraclasse come un'altra misura di accordo. Su un campione casuale di 1000 commenti, c'è un ICC (2,1) di .28 e un ICC (2, k) di .88. Ciò significa che, se prendessi solo uno dei 20 raters, i risultati sarebbero molto inaffidabili (.28), se prendessi la media di 20 raters, i risultati sarebbero affidabili (.88). Prendendo diverse combinazioni di tre rater casuali, l'affidabilità media è compresa tra .50 e .60, che sarebbe comunque giudicata troppo bassa.

La correlazione media bivariata tra due programmatori è .34, che è anche piuttosto bassa.

Se queste misure di accordo sono viste come una misura di qualità dei programmatori (che in realtà dovrebbero mostrare un buon accordo), la risposta è: non sono buoni programmatori e dovrebbero essere meglio formati. Se questo è visto come una misura di "quanto è buono l'accordo spontaneo tra persone a caso", la risposta è anche: non molto alta. Come parametro di riferimento, la correlazione media per i rating di attrattiva fisica è di circa 0,47-0,71 [1]

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., & Smoot, M. (2000). Massime o miti della bellezza? Una revisione meta-analitica e teorica. Bollettino psicologico, 126, 390–423. DOI: 10,1037 / 0033-2909.126.3.390


7

L'affidabilità dei punteggi viene spesso interpretata in termini di teoria dei test classici . Qui si ha un punteggio vero X, ma ciò che si osserva a qualsiasi risultato particolare non è solo il punteggio vero, ma il punteggio vero con qualche errore (cioè Observed = X + error). In teoria, prendendo più misure osservate dello stesso test sottostante (facendo alcune ipotesi sulla distribuzione degli errori di tali test) si può quindi misurare il punteggio vero non osservato.

Nota qui in questo framework che devi supporre che le tue misure osservate multiple stiano misurando lo stesso test sottostante. La scarsa affidabilità degli articoli di prova viene quindi spesso presa come prova del fatto che le misure osservate non misurano lo stesso test sottostante. Questa è solo una convenzione del settore, la scarsa affidabilità, di per sé, non prova (in alcun senso statistico) che gli elementi non misurino lo stesso costrutto. Quindi si potrebbe sostenere che prendendo molte misure osservate, anche con test molto inaffidabili, si potrebbe ottenere una misura affidabile del punteggio reale.

Va anche detto che la teoria classica dei test non è necessariamente l'unico modo per interpretare tali test, e molti studiosi sostengono che il concetto di variabili latenti e la teoria degli oggetti-risposta è sempre più appropriato della teoria classica dei test.


Anche un'ipotesi implicita simile nella teoria del test classico è quando le persone affermano che l'affidabilità è troppo elevata. Non dice nulla sulla validità del fatto che determinati articoli misurino alcuni test sottostanti, ma che quando l'affidabilità è troppo elevata i ricercatori lo prendono come prova che gli errori tra i test non sono indipendenti.

Non sono del tutto sicuro del motivo per cui sei così veemente nel non entrare e nel calcolare tu stesso l'affidabilità. Perché non si può fare questo e successivamente interpretare l'analisi alla luce di queste informazioni extra?


Quindi, prima di tutto, vorrei sottolineare che non sono più uno studente laureato a fare statistiche per una buona ragione: non era proprio il mio punto di forza. Potrei non ricordare la metodologia. Tuttavia, penso che tu e io potremmo parlare di diverse misure di affidabilità, o almeno ci sono ricerche che suggeriscono di misurare l'affidabilità dell'intercoder prima che l'analisi finale venga condotta per ragioni di validità. Ho modificato la domanda per includere una fonte che ho trovato sul web, che cita molte più ricerche sull'argomento.
Christopher,

È un contesto diverso (affidabilità degli elementi di test dicotomici anziché un risultato continuo), ma la logica è funzionalmente la stessa. Ecco perché non ho menzionato alcuna misura specifica di affidabilità (ce ne sono molte). La tua citazione non insinua nulla before the final analysis, quindi non sono del tutto sicuro da dove provenga questa nozione.
Andy W,

Ah ah Hai ragione, non è proprio un requisito. Leggendo ulteriormente in quel link che ho pubblicato, sembra che questi test pilota siano considerati una best practice metodologica (ricerca di test pilota in esso).
Christopher,

Ho modificato la mia domanda per accogliere le nuove informazioni. Grazie per l'aiuto che corregge il mio errore.
Christopher,

2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.