Calcolo della varianza Kappa di Cohen (ed errori standard)


44

La statistica Kappa ( ) fu introdotta nel 1960 da Cohen [1] per misurare l'accordo tra due rater. La sua varianza, tuttavia, era stata fonte di contraddizioni per un bel po 'di tempo.κ

La mia domanda è su quale sia il miglior calcolo della varianza da utilizzare con campioni di grandi dimensioni. Sono propenso a credere che quello testato e verificato da Fleiss [2] sarebbe la scelta giusta, ma questo non sembra essere l'unico pubblicato che sembra essere corretto (e usato in tutta la letteratura abbastanza recente).

In questo momento ho due modi concreti per calcolare la sua grande varianza asintotica di campioni:

  • Il metodo corretto pubblicato da Fleiss, Cohen ed Everitt [2];
  • Il metodo delta che può essere trovato nel libro di Colgaton, 2009 [4] (pagina 106).

Per illustrare un po 'di questa confusione, ecco una citazione di Fleiss, Cohen ed Everitt [2], sottolineando la mia:

Molte attività umane sono state maledette da ripetuti fallimenti prima che si raggiunga il successo finale. Il ridimensionamento del Monte Everest è un esempio. La scoperta del passaggio a nord-ovest è un secondo. La derivazione di un errore standard corretto per kappa è un terzo .

Quindi, ecco un piccolo riassunto di ciò che è accaduto:

  • 1960: Cohen pubblica il suo articolo "Un coefficiente di accordo per le scale nominali" [1] introducendo la sua misura di accordo corretta per caso tra due rater chiamata . Tuttavia, pubblica formule errate per i calcoli della varianza.κ
  • 1968: Everitt tenta di correggerli, ma anche le sue formule erano errate.
  • 1969: Fleiss, Cohen ed Everitt pubblicano le formule corrette nel documento "Grandi campioni di errori standard di Kappa e Kappa ponderata" [2].
  • 1971: Fleiss pubblica un'altra statistica (ma diversa) con lo stesso nome, con formule errate per le varianze.κ
  • 1979: Fleiss Nee e Landis pubblicano le formule corrette per Fleiss ' .κ

Innanzitutto, considera la seguente notazione. Questa notazione implica che l'operatore di sommatoria dovrebbe essere applicato a tutti gli elementi nella dimensione su cui è posizionato il punto:

   pi.=j=1kpij p . j = k i = 1 p i j   p.j=i=1kpij

Ora, si può calcolare Kappa come:

   κ^=popc1pe

In quale

   po=i=1kpii è l'accordo osservato e

   pc=i=1kpi.p.i è l'accordo casuale.

Finora, il calcolo della varianza corretto per Cohen's è dato da:κ

   var^(κ^)=1N(1pc)4{i=1kpii[(1po)(p.i+pi.)(1po)]2   +(1po)2i=1kj=1ijkpij(p.i+pj.)2(popc2pc+po)2}

e sotto l'ipotesi nulla è dato da:

   var^(κ^)=1N(1pc)2{i=1kp.ipi.[1(p.i+pi.)2]+i=1kj=1,ijkp.ipj.(p.i+pj.)2pc2}

Il metodo di Congalton sembra essere basato sul metodo delta per ottenere varianze (Agresti, 1990; Agresti, 2002); tuttavia non sono sicuro di quale sia il metodo delta o perché debba essere utilizzato. La varianza , con questo metodo, è data da:κ

   var^(κ^)=1n{θ1(1θ1)(1θ2)2+2(1θ1)(2θ1θ2θ3)(1θ2)3+(1θ1)2(θ44θ22)(1θ2)4}

in quale

   θ1=1ni=1knii

   θ2=1n2i=1kni+n+i

   θ3=1n2i=1knii(ni++n+i)

   θ4=1n3i=1kj=1knij(nj++n+i)2

(Congalton usa un pedice anziché un , Ma sembra significare la stessa cosa. Inoltre, suppongo che dovrebbe essere una matrice di conteggio, cioè la matrice di confusione prima di essere divisa per il numero di campioni come correlato alla formula )+.nijpij=nijsamples

Un'altra parte strana è che il libro di Colgaton sembra fare riferimento al documento originale di Cohen, ma non sembra citare le correzioni alla varianza Kappa pubblicata da Fleiss et al, non fino a quando non continua a discutere di Kappa ponderata. Forse la sua prima pubblicazione è stata scritta quando la vera formula del kappa era ancora persa nella confusione?

Qualcuno è in grado di spiegare perché queste differenze? O perché qualcuno dovrebbe usare la varianza del metodo delta invece della versione corretta di Fleiss?

[1]: Fleiss, Joseph L .; Cohen, Jacob; Everitt, BS; Grandi campioni standard di errori di kappa e kappa ponderata. Psychological Bulletin, Vol 72 (5), novembre 1969, 323-327. doi: 10.1037 / h0028106

[2]: Cohen, Jacob (1960). Un coefficiente di accordo per le scale nominali. Misura educativa e psicologica 20 (1): 37–46. DOI: 10,1177 / 001316446002000104.

[3]: Alan Agresti, Analisi dei dati categorici, 2a edizione. John Wiley and Sons, 2002.

[4]: Russell G. Congalton e Green, K .; Valutazione dell'accuratezza dei dati rilevati a distanza: principi e pratiche, 2a edizione. 2009.


alcune delle tue parentesi sono spente, puoi sistemarle? Inoltre, potresti voler formattare le parentesi nidificate come {[(x + y) ^ z + a] ^ b - c} per renderle più leggibili.
StasK,

inoltre, si prega di dare stesso e formulazioni equivalenti alternative se esistono. A seconda delle specifiche formulazioni alternative, le espressioni di varianza potrebbero essere più facili da ottenere. (Sto pensando all'indice Gini, per il quale ci sono circa cinque formulazioni per dati iid che implicano stimatori di varianza totalmente diversi per dati di sondaggi complessi.)κ
StasK

Grazie per il feedback. Ho corretto le formule e aggiunto il modo in cui viene calcolato Kappa. La formulazione Kappa sembra coerente in tutta la letteratura, solo la sua varianza no.
Cesar,

1
A proposito, ho appena notato quello che sembra essere un errore di stampa sul libro di Colgaton: definisce , ma questo viene dal nulla. Suppongo che doveva essere , altrimenti non sono sicuro che abbia molto senso. pc=i=1kpi+p+jjpc=i=1kpi+p+i
Cesar,

2
Posso almeno darti una mano con questa parte: "Non sono sicuro di quale sia il metodo delta" - en.wikipedia.org/wiki/Delta_method e la varianza che viene da qui
Glen_b

Risposte:


7

Non so quale dei due modi per calcolare la varianza sia preferire, ma posso darti un terzo modo pratico e utile per calcolare intervalli di confidenza / credibilità usando la stima bayesiana della Kappa di Cohen.

Il seguente codice R e JAGS genera campioni MCMC dalla distribuzione posteriore dei valori credibili di Kappa dati i dati.

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

Il diagramma seguente mostra un diagramma di densità dei campioni MCMC dalla distribuzione posteriore di Kappa.

Densità Kappa posteriore

Usando i campioni MCMC ora possiamo usare il valore mediano come stima di Kappa e usare i quantili del 2,5% e del 97,5% come intervallo di confidenza / credibilità del 95%.

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890 

Confrontalo con le stime "classiche" calcolate secondo Fleiss, Cohen ed Everitt:

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

Personalmente preferirei l'intervallo di confidenza bayesiana rispetto all'intervallo di confidenza classico, soprattutto perché ritengo che l'intervallo di confidenza bayesiana abbia migliori proprietà di campionamento. Una preoccupazione comune che le persone tendono ad avere con le analisi bayesiane è che è necessario specificare credenze precedenti riguardo alla distribuzione dei parametri. Fortunatamente, in questo caso, è facile costruire priori "oggettivi" mettendo semplicemente distribuzioni uniformi su tutti i parametri. Ciò dovrebbe rendere il risultato del modello bayesiano molto simile a un calcolo "classico" del coefficiente Kappa.

Riferimenti

Sanjib Basu, Mousumi Banerjee e Ananda Sen (2000). Inferenza bayesiana per Kappa da studi singoli e multipli. Biometria , vol. 56, n. 2 (giugno 2000), pagg. 577-582


Sai se esiste un'estensione di questo per più di due rater?
Fomito,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.