La statistica di Kappa ( ) è un indice di qualità che confronta l'accordo osservato tra 2 rater su una scala nominale o ordinale con l'accordo atteso solo per caso (come se i rater si stessero lanciando). Esistono estensioni per il caso di più rater (2, pagg. 284–291). Nel caso dei dati ordinali , è possibile utilizzare il κ ponderato , che in sostanza legge come al solito κ con elementi off-diagonali che contribuiscono alla misura dell'accordo. Fleiss (3) ha fornito le linee guida per interpretare i valori di κ ma queste sono semplicemente regole del pollice.κ κκκ
La statistica è asintoticamente equivalente all'ICC stimata da un ANOVA a effetti casuali a due vie, ma i test di significatività e SE provenienti dal solito framework ANOVA non sono più validi con i dati binari. È meglio utilizzare bootstrap per ottenere l'intervallo di confidenza (CI). Fleiss (8) ha discusso della connessione tra la kappa ponderata e la correlazione intraclasse (ICC).κ
Va notato che ad alcuni psicometrici non piace molto perché è influenzato dalla prevalenza dell'oggetto di misura, così come i valori predittivi sono influenzati dalla prevalenza della malattia in esame, e questo può portare a risultati paradossali.κ
Affidabilità tra valutatori per valutatori può essere stimata con coefficiente di Kendall di concordanza, W . Quando il numero di elementi o unità classificati n > 7 , k ( n - 1 ) W ∼ χ 2 ( n - 1 ) . (2, pagg. 269–270). Questa approssimazione asintotica è valida per un valore moderato di n e k (6), ma con meno di 20 elementi F o i test di permutazione sono più adatti (7). C'è una stretta relazione tra ρ di Spearman e W di KendallKWn>7k(n−1)W∼χ2(n−1)nkFρWstatistica: può essere calcolato direttamente dalla media delle correlazioni di Spearman a coppie (solo per osservazioni sciolte).W
La correlazione policorica (dati ordinali) può anche essere usata come misura di accordo inter-rater. Anzi, lo consentono
- stimare quale sarebbe la correlazione se le valutazioni fossero effettuate su una scala continua,
- testare l'omogeneità marginale tra i rater.
In effetti, si può dimostrare che si tratta di un caso speciale di modellizzazione dei tratti latenti, che consente di rilassare le ipotesi distributive (4).
A proposito di misurazioni continue (o così presunte), l'ICC che quantifica la proporzione di varianza attribuibile alla variazione tra soggetti va bene. Ancora una volta, si consigliano elementi di configurazione bootstraped. Come affermato da @ars, esistono sostanzialmente due versioni - accordo e coerenza - applicabili nel caso di studi di accordo (5) e che differiscono principalmente per il modo in cui viene calcolata la somma dei quadrati; l'ICC di "coerenza" è generalmente stimata senza considerare l'interazione Item × Rater. Il framework ANOVA è utile con la progettazione di blocchi specifici in cui si vuole ridurre al minimo il numero di classificazioni ( BIBD ) - in effetti, questa è stata una delle motivazioni originali del lavoro di Fleiss. È anche il modo migliore per scegliere più rater. La naturale estensione di questo approccio è chiamata Teoria della Generalizzabilità . Una breve panoramica è fornita in Rater Models: An Introduction , altrimenti il riferimento standard è il libro di Brennan, rivisto in Psychometrika 2006 71 (3) .
Per quanto riguarda i riferimenti generali, raccomando il capitolo 3 di Statistica in Psichiatria , da Graham Dunn (Hodder Arnold, 2000). Per un trattamento più completo degli studi di affidabilità, il miglior riferimento alla data è
Dunn, G (2004). Progettazione e analisi di studi di affidabilità . Arnold. Vedi la recensione sull'International Journal of Epidemiology .
Una buona introduzione online è disponibile sul sito Web di John Uebersax, Intraclass Correlation e metodi correlati ; include una discussione dei pro e dei contro dell'approccio ICC, in particolare rispetto alle scale ordinali.
I pacchetti R rilevanti per la valutazione a due vie (misurazioni ordinali o continue) si trovano nella vista Attività psicometriche ; In genere uso i pacchetti psy , psych o irr . C'è anche il pacchetto concord ma non l'ho mai usato. Per gestire più di due rater , il pacchetto lme4 è la strada da percorrere perché consente di incorporare facilmente effetti casuali, ma la maggior parte dei progetti di affidabilità può essere analizzata usando aov()
perché abbiamo solo bisogno di stimare i componenti di varianza.
Riferimenti
- J Cohen. Kappa ponderata: accordo di scala nominale con accantonamento per disaccordo sulle scale del credito parziale. Bollettino psicologico , 70 , 213–220, 1968.
- S Siegel e Jr N John Castellan. Statistica non parametrica per le scienze comportamentali . McGraw-Hill, Seconda edizione, 1988.
- JL Fleiss. Metodi statistici per tariffe e proporzioni . New York: Wiley, Seconda edizione, 1981.
- JS Uebersax. I coefficienti di correlazione tetrachorica e policorica . Metodi statistici per il sito web dell'Accordo di rater, 2006. Disponibile su: http://john-uebersax.com/stat/tetra.htm . Accesso 24 febbraio 2010.
- PE Shrout e JL Fleiss. Correlazione intraclasse: utilizza nella valutazione dell'affidabilità dei valutatori . Bollettino psicologico , 86 , 420–428, 1979.
- MG Kendall e B Babington Smith. Il problema delle classifiche m . Annali di statistiche matematiche , 10 , 275–287, 1939.
- P Legendre. Coefficiente di concordanza . In NJ Salkind, editore, Encyclopedia of Research Design . Pubblicazioni SAGE, 2010.
- JL Fleiss. L'equivalenza di kappa ponderata e il coefficiente di correlazione intraclasse come misure di affidabilità . Misura educativa e psicologica , 33 , 613-619, 1973.