Se hai letto recentemente i bollettini della community, probabilmente hai visto The Hunting of the Snark, un post sul blog ufficiale StackExchange di Joel Spolsky, CEO della rete StackExchange. Discute un'analisi statistica condotta su un campione di commenti SE per valutare la loro "cordialità" dal punto di vista dell'utente esterno. I commenti sono stati campionati casualmente da StackOverflow e gli analisti del contenuto erano membri della comunità Mechanical Turk di Amazon, un mercato del lavoro che collega le aziende ai lavoratori che svolgono piccole e brevi attività a costi accessibili.
Non molto tempo fa, ero uno studente laureato in scienze politiche e una delle lezioni che ho preso era l' analisi del contenuto statistico . Il progetto finale della classe, in effetti il suo intero scopo, era quello di condurre un'analisi dettagliata dei rapporti di guerra del New York Times, per verificare se molti presupposti che gli americani fanno sulla copertura delle notizie durante le guerre fossero accurati (spoiler: le prove suggeriscono che sono non). Il progetto è stato enorme e abbastanza divertente, ma di gran lunga la sua sezione più dolorosa è stata la "fase di test di addestramento e affidabilità", che è avvenuta prima che potessimo condurre un'analisi completa. Aveva due scopi (vedere pagina 9 del documento collegato per una descrizione dettagliata, nonché riferimenti a standard di affidabilità dell'intercoder nella letteratura statistica sull'analisi del contenuto):
Confermare che tutti i programmatori, ovvero i lettori del contenuto, abbiano ricevuto le stesse definizioni qualitative. Nell'analisi di Joel, ciò significava che tutti avrebbero saputo esattamente come il progetto definiva "amichevole" e "ostile".
Confermare che tutti i programmatori abbiano interpretato queste regole in modo affidabile, ovvero abbiamo campionato il nostro campione, analizzato il sottoinsieme e quindi dimostrato statisticamente che le nostre correlazioni a coppie sulle valutazioni qualitative erano abbastanza simili.
I test di affidabilità fanno male perché abbiamo dovuto farlo tre o quattro volte. Fino a quando -1- non è stato bloccato e -2- ha mostrato correlazioni sufficientemente elevate a coppie, i nostri risultati per l'analisi completa erano sospetti. Non potevano essere dimostrati validi o non validi. Ancora più importante, abbiamo dovuto fare test pilota di affidabilità prima del set di campioni finale.
La mia domanda è questa: l'analisi statistica di Joel mancava di un test di affidabilità pilota e non stabiliva alcuna definizione operativa di "cordialità". I dati finali erano abbastanza affidabili da dire qualcosa sulla validità statistica dei suoi risultati?
Per una prospettiva, considerare questo primer sul valore di affidabilità dell'intercoder e definizioni operative coerenti. Più in profondità nella stessa fonte, puoi leggere i test di affidabilità del pilota (elemento 5 nell'elenco).
Secondo il suggerimento di Andy W. nella sua risposta, sto tentando di calcolare una serie di statistiche sull'affidabilità nel set di dati, che è disponibile qui, usando questa serie di comandi in R (aggiornata mentre calcolo nuove statistiche).
Le statistiche descrittive sono qui
Accordo percentuale (con tolleranza = 0): 0,0143
Accordo percentuale (con tolleranza = 1): 11.8
Alfa di Krippendorff: 0,1529467
Ho anche tentato un modello di risposta agli articoli per questi dati in un'altra domanda.