Affidabilità inter-rater per dati ordinali o ad intervallo


25

Quali metodi di affidabilità inter-rater sono più appropriati per i dati ordinali o di intervallo?

Credo che "Probabilità congiunta di accordo" o "Kappa" siano progettati per dati nominali. Mentre "Pearson" e "Spearman" possono essere usati, sono usati principalmente per due raters (sebbene possano essere usati per più di due raters).

Quali altre misure sono adatte per i dati ordinali o di intervallo, vale a dire più di due valutatori?

Risposte:


29

La statistica di Kappa ( ) è un indice di qualità che confronta l'accordo osservato tra 2 rater su una scala nominale o ordinale con l'accordo atteso solo per caso (come se i rater si stessero lanciando). Esistono estensioni per il caso di più rater (2, pagg. 284–291). Nel caso dei dati ordinali , è possibile utilizzare il κ ponderato , che in sostanza legge come al solito κ con elementi off-diagonali che contribuiscono alla misura dell'accordo. Fleiss (3) ha fornito le linee guida per interpretare i valori di κ ma queste sono semplicemente regole del pollice.κ κκκ

La statistica è asintoticamente equivalente all'ICC stimata da un ANOVA a effetti casuali a due vie, ma i test di significatività e SE provenienti dal solito framework ANOVA non sono più validi con i dati binari. È meglio utilizzare bootstrap per ottenere l'intervallo di confidenza (CI). Fleiss (8) ha discusso della connessione tra la kappa ponderata e la correlazione intraclasse (ICC).κ

Va notato che ad alcuni psicometrici non piace molto perché è influenzato dalla prevalenza dell'oggetto di misura, così come i valori predittivi sono influenzati dalla prevalenza della malattia in esame, e questo può portare a risultati paradossali.κ

Affidabilità tra valutatori per valutatori può essere stimata con coefficiente di Kendall di concordanza, W . Quando il numero di elementi o unità classificati n > 7 , k ( n - 1 ) W χ 2 ( n - 1 ) . (2, pagg. 269–270). Questa approssimazione asintotica è valida per un valore moderato di n e k (6), ma con meno di 20 elementi F o i test di permutazione sono più adatti (7). C'è una stretta relazione tra ρ di Spearman e W di KendallKWn>7k(n1)Wχ2(n1)nkFρWstatistica: può essere calcolato direttamente dalla media delle correlazioni di Spearman a coppie (solo per osservazioni sciolte).W

La correlazione policorica (dati ordinali) può anche essere usata come misura di accordo inter-rater. Anzi, lo consentono

  • stimare quale sarebbe la correlazione se le valutazioni fossero effettuate su una scala continua,
  • testare l'omogeneità marginale tra i rater.

In effetti, si può dimostrare che si tratta di un caso speciale di modellizzazione dei tratti latenti, che consente di rilassare le ipotesi distributive (4).

A proposito di misurazioni continue (o così presunte), l'ICC che quantifica la proporzione di varianza attribuibile alla variazione tra soggetti va bene. Ancora una volta, si consigliano elementi di configurazione bootstraped. Come affermato da @ars, esistono sostanzialmente due versioni - accordo e coerenza - applicabili nel caso di studi di accordo (5) e che differiscono principalmente per il modo in cui viene calcolata la somma dei quadrati; l'ICC di "coerenza" è generalmente stimata senza considerare l'interazione Item × Rater. Il framework ANOVA è utile con la progettazione di blocchi specifici in cui si vuole ridurre al minimo il numero di classificazioni ( BIBD ) - in effetti, questa è stata una delle motivazioni originali del lavoro di Fleiss. È anche il modo migliore per scegliere più rater. La naturale estensione di questo approccio è chiamata Teoria della Generalizzabilità . Una breve panoramica è fornita in Rater Models: An Introduction , altrimenti il ​​riferimento standard è il libro di Brennan, rivisto in Psychometrika 2006 71 (3) .

Per quanto riguarda i riferimenti generali, raccomando il capitolo 3 di Statistica in Psichiatria , da Graham Dunn (Hodder Arnold, 2000). Per un trattamento più completo degli studi di affidabilità, il miglior riferimento alla data è

Dunn, G (2004). Progettazione e analisi di studi di affidabilità . Arnold. Vedi la recensione sull'International Journal of Epidemiology .

Una buona introduzione online è disponibile sul sito Web di John Uebersax, Intraclass Correlation e metodi correlati ; include una discussione dei pro e dei contro dell'approccio ICC, in particolare rispetto alle scale ordinali.

I pacchetti R rilevanti per la valutazione a due vie (misurazioni ordinali o continue) si trovano nella vista Attività psicometriche ; In genere uso i pacchetti psy , psych o irr . C'è anche il pacchetto concord ma non l'ho mai usato. Per gestire più di due rater , il pacchetto lme4 è la strada da percorrere perché consente di incorporare facilmente effetti casuali, ma la maggior parte dei progetti di affidabilità può essere analizzata usando aov()perché abbiamo solo bisogno di stimare i componenti di varianza.

Riferimenti

  1. J Cohen. Kappa ponderata: accordo di scala nominale con accantonamento per disaccordo sulle scale del credito parziale. Bollettino psicologico , 70 , 213–220, 1968.
  2. S Siegel e Jr N John Castellan. Statistica non parametrica per le scienze comportamentali . McGraw-Hill, Seconda edizione, 1988.
  3. JL Fleiss. Metodi statistici per tariffe e proporzioni . New York: Wiley, Seconda edizione, 1981.
  4. JS Uebersax. I coefficienti di correlazione tetrachorica e policorica . Metodi statistici per il sito web dell'Accordo di rater, 2006. Disponibile su: http://john-uebersax.com/stat/tetra.htm . Accesso 24 febbraio 2010.
  5. PE Shrout e JL Fleiss. Correlazione intraclasse: utilizza nella valutazione dell'affidabilità dei valutatori . Bollettino psicologico , 86 , 420–428, 1979.
  6. MG Kendall e B Babington Smith. Il problema delle classifiche m . Annali di statistiche matematiche , 10 , 275–287, 1939.
  7. P Legendre. Coefficiente di concordanza . In NJ Salkind, editore, Encyclopedia of Research Design . Pubblicazioni SAGE, 2010.
  8. JL Fleiss. L'equivalenza di kappa ponderata e il coefficiente di correlazione intraclasse come misure di affidabilità . Misura educativa e psicologica , 33 , 613-619, 1973.

3
Tre riferimenti aggiuntivi: 1. Beyond Kappa: una rassegna delle misure di accordo interrattive di Mousumi Banerjee, Michelle Capozzoli, Laura McSweeney e Debajyoti Sinha 2. Affidabilità dell'interratore e accordo sui punteggi delle prestazioni: un confronto metodologico di John W. Fleenor, Julie B. Fleenor e William F. Grossnickle
M. Tibbits,

3. Metodi statistici per la valutazione dell'errore di misurazione (affidabilità) nelle variabili rilevanti per la medicina dello sport. di Atkinson G & Nevill AM. Il primo riferimento è specifico per i dati ordinali e discute altre misure oltre a Kappa per i dati ordinali. Il secondo e il terzo sono specifici dei dati di intervallo.
M. Tibbits,

(+1) Mille grazie M. Tibbits! In genere fornisco molti riferimenti ed esempi durante le mie lezioni di psicometria, incluso il primo che hai citato, ma non conoscevo gli altri due.
chl,

Inoltre, il pacchetto ordinale consente la modellazione multilivello come lme4 ma con regressione ordinale.
Giovanni

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.