Coefficiente di correlazione intraclasse vs. test F (ANOVA unidirezionale)?


10

Sono un po 'confuso per quanto riguarda il coefficiente di correlazione intraclasse e ANOVA a senso unico. A quanto ho capito, entrambi ti dicono quanto sono simili le osservazioni all'interno di un gruppo, rispetto alle osservazioni in altri gruppi.

Qualcuno potrebbe spiegarlo un po 'meglio e forse spiegare le situazioni in cui ciascun metodo è più vantaggioso?


Per favore, prenditi il ​​tempo di esaminare i tag di affidabilità o inter-rater . L'ICC si basa su una tabella ANOVA, ma l'idea è semplicemente di analizzare i componenti della varianza piuttosto che produrre una singola statistica di test con proprietà distributive conosciute, come il test F. Quale applicazione hai in mente?
chl

@chl Sto cercando di analizzare i singoli punteggi per i dati raggruppati. Ho visto alcuni articoli che esaminavano le differenze tra i punteggi dei genitori e dei bambini, usando l'ICC per dire se c'era una differenza significativa nelle risposte dei genitori rispetto ai figli. Penso che l'ICC sia quello che voglio qui, ma come ho già detto, non capisco davvero la differenza tra i due. Esito a chiedere di più, ma conosci qualche buona referenza (di base)? Il mio background statistico si è fermato alla regressione lineare e mi sento come se stessi ponendo domande che non sono ben formulate. Grazie.
blep

Sembra che tu abbia i dati associati. Quando si considerano gruppi separati (genitori rispetto ai loro figli) e si utilizza un ICC per riportare l'affidabilità dei punteggi, si gettano via parte delle informazioni, vale a dire se le valutazioni dei genitori e il loro atto relativo agiscono in modo coerente. I tuoi due ICC ti diranno solo se entrambe le serie di punteggi, ritenute indipendenti, sono "affidabili", nel senso che una parte significativa della varianza potrebbe essere spiegata dall'effetto di valutazione. (...)
chl

(...) Riassumendo, se vuoi dimostrare che i voti dei genitori sono più affidabili di quelli dei bambini, allora usare ICC va bene; se, d'altra parte, vuoi studiare come le valutazioni dei genitori si collegano alle valutazioni dei bambini, allora potresti ricorrere ad altri tipi di analisi (precisamente, analisi dei dati diadici).
chl

Risposte:


17

Entrambi i metodi si basano sulla stessa idea, quella di scomporre la varianza osservata in parti o componenti diversi. Tuttavia, ci sono sottili differenze nel considerare oggetti e / o rater come effetti fissi o casuali. Oltre a dire quale parte della variabilità totale è spiegata dal fattore tra (o da quanto la varianza tra si allontana dalla varianza residua), il test F non dice molto. Almeno questo vale per un ANOVA a senso unico in cui assumiamo un effetto fisso (e che corrisponde all'ICC (1,1) descritto di seguito). D'altra parte, l'ICC fornisce un indice limitato quando si valuta l'affidabilità del rating per diversi valutatori "intercambiabili" o l'omogeneità tra le unità analitiche.

Solitamente facciamo la seguente distinzione tra i diversi tipi di ICC. Ciò deriva dal lavoro fondamentale di Shrout e Fleiss (1979):

  • Modello di effetti casuali a una via , ICC (1,1): ogni oggetto è valutato da diversi raters che sono considerati campionati da un pool più ampio di potenziali raters, quindi sono trattati come effetti casuali; l'ICC viene quindi interpretato come la percentuale della varianza totale spiegata dalla varianza dei soggetti / articoli. Questa è chiamata coerenza ICC.
  • Modello di effetti casuali a due vie , ICC (2,1): entrambi i fattori - rater e oggetti / soggetti - sono visti come effetti casuali e abbiamo due componenti di varianza (o quadrati medi) oltre alla varianza residua; supponiamo inoltre che i valutatori valutino tutti gli oggetti / argomenti; l'ICC fornisce in questo caso la percentuale di varianza attribuibile a valutatori + oggetti / soggetti.
  • Modello misto bidirezionale , ICC (3,1): contrariamente all'approccio unidirezionale, qui i rater sono considerati effetti fissi (nessuna generalizzazione oltre il campione a portata di mano) ma oggetti / soggetti sono trattati come effetti casuali; l'unità di analisi può essere la valutazione individuale o media.

Ciò corrisponde ai casi da 1 a 3 nella loro tabella 1. Una distinzione aggiuntiva può essere fatta a seconda che si consideri che i rating osservati sono la media di diversi rating (sono chiamati ICC (1, k), ICC (2, k), e ICC (3, k)) o no.

In breve, devi scegliere il modello giusto (unidirezionale o bidirezionale), e questo è ampiamente discusso nel documento di Shrout e Fleiss. Un modello a una via tende a produrre valori più piccoli rispetto al modello a due vie; allo stesso modo, un modello a effetti casuali generalmente produce valori più bassi rispetto a un modello a effetti fissi. Un ICC derivato da un modello a effetti fissi è considerato un modo per valutare la coerenza dei rater (perché ignoriamo la varianza dei rater), mentre per un modello a effetti casuali parliamo di una stima dell'accordo sui raters (se i rater sono intercambiabili o meno). Solo i modelli a due vie incorporano l'interazione rater x soggetto, che potrebbe essere di interesse quando si tenta di svelare schemi di valutazione atipici.

La seguente illustrazione è prontamente una copia / incolla dell'esempio ICC()del pacchetto psichico (i dati provengono da Shrout e Fleiss, 1979). I dati consistono in 4 giudici (J) che valutano 6 soggetti o obiettivi (S) e sono riassunti di seguito (suppongo che siano memorizzati come una matrice R denominata sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Questo esempio è interessante perché mostra come la scelta del modello possa influenzare i risultati, quindi l'interpretazione dello studio di affidabilità. Tutti e 6 i modelli ICC sono i seguenti (questa è la tabella 4 di Shrout e del documento di Fleiss)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Come si può vedere, considerare i raters come effetti fissi (quindi non cercare di generalizzare a un pool più ampio di raters) produrrebbe un valore molto più elevato per l'omogeneità della misurazione. (Risultati simili potrebbero essere ottenuti con il pacchetto irr ( icc()), anche se dobbiamo giocare con le diverse opzioni per tipo di modello e unità di analisi.)

Cosa ci dice l'approccio ANOVA? Dobbiamo montare due modelli per ottenere i quadrati medi pertinenti:

  • un modello a senso unico che considera solo la materia; ciò consente di separare gli obiettivi valutati (tra i gruppi MS, BMS) e ottenere una stima del termine entro l'errore (WMS)
  • un modello a due vie che considera soggetto + rater + la loro interazione (quando non ci sono repliche, quest'ultimo termine verrà confuso con i residui); questo permette di stimare l'effetto principale del rater (JMS) che può essere preso in considerazione se vogliamo usare un modello di effetti casuali (cioè, lo aggiungeremo alla variabilità totale)

Non c'è bisogno di guardare il test F, qui sono interessanti solo gli Stati membri.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Ora, possiamo assemblare i diversi pezzi in una Tabella ANOVA estesa che assomiglia a quella mostrata di seguito (questa è la Tabella 3 nella carta di Shrout e Fleiss):


(fonte: mathurl.com )

dove le prime due file provengono dal modello a senso unico, mentre le due successive provengono dall'ANOVA a due vie.

È facile controllare tutte le formule nell'articolo di Shrout e Fleiss e abbiamo tutto ciò di cui abbiamo bisogno per stimare l' affidabilità per una singola valutazione . Che dire dell'affidabilità per la media delle valutazioni multiple (che spesso è la quantità di interesse negli studi inter-rater)? A seguito di Hays e Revicki (2005), si può ottenere dalla suddetta decomposizione semplicemente cambiando la SM totale considerata nel denominatore, ad eccezione del modello a effetti casuali a due vie per il quale dobbiamo riscrivere il rapporto tra MS.

  • Nel caso di ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), l'affidabilità complessiva viene calcolata come (BMS-WMS) /BMS=0.443.
  • Per ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), l'affidabilità complessiva è (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
  • Infine, per ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS), abbiamo un'affidabilità di (BMS-EMS) /BMS=0.909.

Ancora una volta, scopriamo che l'affidabilità complessiva è maggiore quando si considerano i valutatori come effetti fissi.

Riferimenti

  1. Shrout, PE e Fleiss, JL (1979). Correlazioni intraclasse: usi nella valutazione dell'affidabilità dei valutatori . Bollettino psicologico , 86, 420-3428.
  2. Hays, RD e Revicki, D. (2005). Affidabilità e validità (compresa la reattività). In Fayers, P. and Hays, RD (eds.), Valutazione della qualità della vita in studi clinici , 2a edizione, pagg. 25-39. La stampa dell'università di Oxford.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.