Come posso gestire al meglio gli effetti dei marcatori con diversi livelli di generosità nella classificazione dei documenti degli studenti?


13

Circa 600 studenti hanno ottenuto un punteggio su una vasta valutazione, che si può presumere abbia una buona affidabilità / validità. La valutazione è valutata su 100 ed è un test a scelta multipla contrassegnato dal computer.

Quei 600 studenti hanno anche punteggi su un secondo, minore, pezzo di valutazione. In questo secondo pezzo di valutazione sono divisi in 11 coorti con 11 diversi selezionatori e vi è un grado indesiderabilmente grande di variazione tra i valutatori in termini di "generosità" nella marcatura o mancanza di ciò. Anche questa seconda valutazione è valutata su 100.

Gli studenti non sono stati assegnati a coorti in modo casuale e ci sono buone ragioni per aspettarsi differenze nei livelli di abilità tra le coorti.

Mi viene presentato il compito di garantire che le differenze tra i marcatori di coorte nel secondo compito non comportino vantaggi / svantaggi materiali per i singoli studenti.

La mia idea è quella di ottenere i punteggi di coorte sulla seconda valutazione in modo che siano coerenti con i punteggi di coorte sulla prima, mantenendo allo stesso tempo le differenze individuali all'interno delle coorti. Dovremmo presumere che io abbia buone ragioni per credere che le prestazioni sui due compiti saranno altamente correlate, ma che i marcatori differiscono considerevolmente nella loro generosità.

È questo l'approccio migliore? In caso contrario, cos'è?

Sarebbe molto apprezzato se il risponditore potesse fornire alcuni consigli pratici su come implementare una buona soluzione, diciamo in R o SPSS o Excel.


3
Ottima domanda! I punteggi finali per la scelta multipla e le parti del saggio dovrebbero essere comparabili (ovvero gli stessi intervalli numerici)?
gung - Ripristina Monica

2
Mentre stavo scrivendo questa domanda, ho pensato che potesse essere il tuo vicolo! I punteggi finali sono sostanzialmente comparabili, ma un po 'diversi. La media nella sezione a scelta multipla è ~ 70 con una SD intorno a 15. La media nell'altra sezione è ~ 85 con una SD intorno a 6.
user1205901 - Ripristina Monica

7
Sarei sospettoso di qualsiasi sforzo per risolvere questo problema basato solo sui dati che hai descritto, perché dovrebbe basarsi sul presupposto forte (e non verificabile) che non vi sia interazione tra coorte e prestazioni sui due strumenti di prova separati. Se possibile, prendi in considerazione l'opzione di condurre un piccolo esperimento separato per calibrare i calibratori.
whuber

9
Per vedere meglio dove si trova il problema, supponi (ipoteticamente) che (1) le due forme di valutazione siano la scelta multipla e il saggio e (2) i tuoi studenti più anziani tendano a fare relativamente meglio sulle domande del saggio. Quando usi i tuoi dati per rendere "coerenti" i punteggi, confonderai gli effetti del grader con gli effetti dell'età e, apportando aggiustamenti, svantaggierà sistematicamente gli studenti più anziani rispetto ai più giovani. Non importa quanto sia sofisticato un algoritmo che scegli, può solo documentare questo problema di base. Hai bisogno di alcuni dati aggiuntivi per risolvere questo confondimento.
whuber

3
Una cosa da considerare è quanto comodo si sarebbe spiegando la procedura di regolazione per gli studenti o gli altri soggetti interessati: molti potrebbero pensare che dato un potenziale problema con la marcatura, mettendo un po 'di sforzo in una corretta calibrazione di marcatori non sarebbe troppo aspettarsi se l'esame è importante.
Scortchi - Ripristina Monica

Risposte:


8

Sapendo come livellatrici differiscono è buona, ma ancora non vi dice cosa per compensare i voti a . Per semplicità, immagina solo due selezionatrici. Anche se concludiamo che il voto 1 è costantemente 5 voti più generosi del voto 2, ciò non ti dice cosa fare con due studenti che sono stati classificati ciascuno 70, uno per voto 1 e uno per voto 2. Diciamo che voto 2 è stato un marcatore duro, e l'upgrade da 70 a 75, mantenendo invariati i 70 segnati dal classificatore 1? Oppure supponiamo che il voto 1 sia stato indebitamente indulgente, abbattendo il suo studente a 65 voti e mantenendo invariati i 70 del voto 2? Scendiamo a compromessi a metà strada tra - estendendo al tuo caso, sulla base di una media degli 11 selezionatori? Sono i voti assoluti che contano, quindi non è sufficiente conoscere la relativa generosità.

La tua conclusione può dipendere da quanto "oggettivo" ritieni che dovrebbe essere il voto assoluto finale. Un modello mentale sarebbe quello di proporre a ogni studente un voto "corretto" - quello che verrebbe assegnato dal Capo Valutatore se avessero il tempo di contrassegnare ciascun articolo individualmente - a cui i voti osservati sono approssimazioni. In questo modello, i voti osservati devono essere compensati per il loro selezionatore, al fine di avvicinarli il più vicino possibile al loro livello "vero" non osservato. Un altro modello potrebbe essere che tutte le classificazioni siano soggettive e cerchiamo di trasformare ogni valutazione osservata in base al voto che prevediamo sarebbe stato assegnato se tutti i valutatori avessero preso in considerazione la stessa carta e raggiunto una sorta di compromesso o voto medio per questo. Trovo il secondo modello meno convincente come soluzione anche se l'ammissione della soggettività è più realistica. In un ambiente educativo di solito c'è qualcuno che ha la responsabilità ultima per la valutazione, per garantire che gli studenti ricevano "il voto che meritano", ma questo ruolo principale ha sostanzialmente assolto la responsabilità verso i selezionatori che già conosciamo in forte disaccordo. Da qui presumo lìè un voto "corretto" che intendiamo stimare, ma questa è una proposta contestabile e potrebbe non essere adatta alle tue circostanze.

Supponiamo che gli studenti A, B, C e D, tutti nella stessa coorte, "debbano" essere classificati rispettivamente come 75, 80, 85 e 90, ma il loro voto generoso segna costantemente 5 voti troppo alti. Osserviamo 80, 85, 90 e 95 e dovremmo sottrarre 5, ma trovare la cifra da sottrarre è problematico. Non è possibile farlo confrontando i risultati tra le coorti poiché prevediamo che le coorti possano variare in media. Una possibilità consiste nell'utilizzare i risultati dei test a scelta multipla per prevedere i punteggi corretti nella seconda assegnazione, quindi utilizzarli per valutare la variazione tra ciascun classificatore e i voti corretti. Ma fare questa previsione non è banale: se ti aspetti una deviazione media e standard diversa tra le due valutazioni, non puoi semplicemente supporre che i voti della seconda valutazione debbano corrispondere al primo.

Inoltre, gli studenti differiscono in attitudine relativa nelle valutazioni a scelta multipla e scritte. Potresti trattarlo come una sorta di effetto casuale, formando una componente dei voti "osservati" e "veri" dello studente, ma non catturati dal loro voto "previsto". Se le coorti differiscono sistematicamente e gli studenti in una coorte tendono ad essere simili, allora non dovremmo aspettarci che questo effetto raggiunga la media a zero all'interno di ciascuna coorte. Se i voti osservati di una coorte in media +5 rispetto a quelli previsti, è impossibileper determinare se ciò è dovuto a un selezionatore generoso, una coorte particolarmente più adatta alla valutazione scritta rispetto alla scelta multipla o una combinazione delle due. In un caso estremo, la coorte potrebbe anche avere un'attitudine inferiore alla seconda valutazione, ma ciò è stato più che compensato da un selezionatore molto generoso - o viceversa. Non puoi separarlo. È confuso.

Dubito anche dell'adeguatezza di un modello additivo così semplice per i tuoi dati. I valutatori possono differire dal Lead Assessor non solo per spostamento nella posizione, ma anche per diffusione - anche se poiché le coorti probabilmente variano nell'omogeneità, non è possibile semplicemente controllare la diffusione dei voti osservati in ciascuna coorte per rilevare questo. Inoltre, la maggior parte della distribuzione ha punteggi alti, abbastanza vicini al massimo teorico di 100. Anticiperei l'introduzione di una non linearità dovuta alla compressione vicino al massimo - un selezionatore molto generoso potrebbe dare segni A, B, C e D come 85, 90, 94, 97. Questo è più difficile da invertire che sottrarre una costante. Peggio ancora, potresti vedere un "ritaglio" - un selezionatore estremamente generoso può classificarli come 90, 95, 100, 100. Questo è impossibileal contrario, e le informazioni sulle prestazioni relative di C e D vengono irrimediabilmente perse.

I tuoi selezionatori si comportano in modo molto diverso. Sei sicuro che differiscano solo per la loro generosità complessiva, piuttosto che per la loro generosità in vari componenti della valutazione? Questo potrebbe valere la pena di essere verificato, in quanto potrebbe introdurre varie complicazioni - ad esempio, il grado osservato per B potrebbe essere peggiore di quello di A, nonostante B sia "migliore" di 5 punti, anche se i voti assegnati dal classificatore per ciascun componente sono una funzione monotonicamente crescente del capo valutatore! Supponiamo che la valutazione sia suddivisa tra Q1 (A dovrebbe segnare 30/50, B 45/50) e Q2 (A dovrebbe segnare 45/50, B 35/50). Immagina che il selezionatore sia molto indulgente su Q1 (gradi osservati: A 40/50, B 50/50) ma duro su Q2 (osservato: A 42/50, 30/50), quindi osserviamo i totali di 82 per A e 80 per B. Se devi prendere in considerazione i punteggi dei componenti,

Probabilmente si tratta di un commento esteso piuttosto che di una risposta, nel senso che non propone una soluzione particolare entro i limiti originali del problema. Ma se i tuoi selezionatori stanno già gestendo circa 55 documenti ciascuno, è così male per loro doverne esaminare altri cinque o dieci per scopi di calibrazione? Hai già una buona idea delle capacità degli studenti, quindi potresti scegliere un campione di documenti da tutta la gamma di voti. È quindi possibile valutare se è necessario compensare la generosità del classificatore nell'intero test o in ciascun componente e se farlo semplicemente aggiungendo / sottraendo una costante o mediante qualcosa di più sofisticato come l'interpolazione (ad esempio se si è preoccupati per non linearità vicino a 100). Ma un avvertimento sull'interpolazione: supponiamo che il Lead Assessor contrassegni cinque documenti campione come 70, 75, 80, 85 e 90, mentre un selezionatore li contrassegna come 80, 88, 84, 93 e 96, quindi c'è un disaccordo sull'ordine. Probabilmente si desidera mappare i gradi osservati da 96 a 100 nell'intervallo 90 a 100 e i gradi osservati da 93 a 96 nell'intervallo da 85 a 90. Ma è necessario un pensiero per i segni al di sotto. Forse i gradi osservati da 84 a 93 dovrebbero essere mappati all'intervallo da 75 a 85? Un'alternativa sarebbe una regressione (possibilmente polinomiale) per ottenere una formula per "grado reale previsto" da "grado osservato". Forse i gradi osservati da 84 a 93 dovrebbero essere mappati all'intervallo da 75 a 85? Un'alternativa sarebbe una regressione (possibilmente polinomiale) per ottenere una formula per "grado reale previsto" da "grado osservato". Forse i gradi osservati da 84 a 93 dovrebbero essere mappati all'intervallo da 75 a 85? Un'alternativa sarebbe una regressione (possibilmente polinomiale) per ottenere una formula per "grado reale previsto" da "grado osservato".


1
Sfortunatamente la natura della valutazione 2 rende impossibile per i selezionatori cercare di più ai fini della calibrazione. Puoi pensarlo come una recita di poesia orale che è stata fatta una volta senza registrazione e che è stata valutata immediatamente dopo. Non sarebbe pratico programmare nuove recitazioni esclusivamente a scopo di calibrazione. Per rispondere alla tua altra domanda, Assessment 2 non aveva davvero dei sottocomponenti chiari e non abbiamo bisogno di considerare i punteggi dei componenti.
user1205901 - Ripristina Monica il

1
Questa "non è una risposta" ma in un mondo ideale avrei suggerito di cambiare le cose e usare un esempio di esempio (possibilmente di incarichi artificiali deliberatamente progettati per essere al limite del livello, piuttosto che da veri studenti) come un modo di allenarsi i selezionatori hanno la stessa generosità, piuttosto che dedurre e compensare le loro generosità. Se le valutazioni sono state fatte, questa non è chiaramente una soluzione per te.
Silverfish,

1
(+1) Molto approfondito "non una risposta". La coerenza nei test piuttosto soggettivi può spesso essere notevolmente migliorata suddividendo il compito di classificazione in componenti, altrimenti un selezionatore potrebbe dare più peso al ritmo, un altro alla proiezione, ecc.
Scortchi - Ripristina Monica

È chiaro che oltre a presentare un eventuale adeguamento alla persona che alla fine deciderà il problema, dovrò anche presentare alcune spiegazioni dei pro e dei contro dell'adeguamento. La tua risposta fornisce molto materiale utile a riguardo. Tuttavia, mi chiedo quali criteri posso usare per giudicare se sia più vantaggioso lasciare tutto da solo o fare un cambiamento. Guardo i voti di coorte e la mia intuizione dice che le differenze tra i marker hanno un grande impatto. L'intuizione è inaffidabile, ma non sono sicuro di cos'altro posso continuare in questo caso.
user1205901 - Ripristina Monica il

2
Una domanda è se si hanno ragionevoli motivi per ritenere che l'effetto "attitudine al compito differenziale" sia piccolo, in particolare se mediato su una coorte, rispetto all'effetto "generosità del gradatore". In tal caso, potresti tentare di stimare l'effetto di generosità per ogni coorte, ma rischi di essere confuso. Inoltre, esiste un Catch 22. Sarei più cauto nell'applicazione di grandi "correzioni" ai voti osservati. Ma se le correzioni suggerite sono piccole, è plausibile che siano dovute a differenze sistematiche nell'abilità di compiti differenziali tra le coorti, non nella generosità del gradatore.
Silverfish,

2

Un modello molto semplice:

s1,iis2,iA1,,Ap

Ogni coorte è influenzata dalla forza dei suoi studenti e dalla facilità del selezionatore. Supponendo che si tratti di un effetto aggiuntivo, ne facciamo un passo indietro nel modo seguente: sottrarremo il punteggio medio della coorte nel primo test e aggiungeremo il punteggio medio della coorte nel secondo test.

s1

jp,iAj,s1,i=s1,i1|Aj|iAj(s1,is2,i)

s

i,si=αs1,i+(1α)s2,i

Il rovescio della medaglia è che un singolo studente potrebbe essere penalizzato se le persone nella sua coorte fossero sfortunate nel secondo test. Ma qualsiasi tecnica statistica porterà questo svantaggio potenzialmente ingiusto.


3
α

1
No - le coorti non sono selezionate a caso.
Scortchi - Ripristina Monica

1
... che, come continua a dire @whuber, è confuso con qualsiasi tendenza intrinseca della coorte (a causa dell'età o altro) a fare relativamente meglio su un tipo di test rispetto a un altro.
Scortchi - Ripristina Monica

2
Non puoi eliminare confusione prendendo coorti più grandi! Nella migliore delle ipotesi è possibile elaborare stime sempre più precise di valori non interpretabili.
whuber

3
Ragionevole, forse: ma non è verificabile date le informazioni disponibili per l'OP. La validità della tua risposta si basa sulla verità di questo presupposto implicito. Ancora peggio, la sua negazione (che ovviamente è anche non verificabile) è anche eminentemente ragionevole: poiché le coorti sono auto-selezionate, possono consistere in persone che si comportano in modo comune su diversi strumenti di valutazione, suggerendo che potrebbe effettivamente essere probabile un successo differenziale sarà dovuto in parte alla coorte e solo in parte a causa della variabilità tra i selezionatori.
whuber

1

Non puoi. Almeno, non senza la raccolta di dati aggiuntivi. Per capire perché, leggi i numerosi commenti votati di @ whuber in questo thread.


0

modificare

Il problema risolto in questa risposta è quello di trovare i selezionatori che danno meno punti agli studenti che non amano.

Posta originale

Il mio approccio, che penso sia facile da implementare, sarebbe il seguente:

μK,ioK, appartenente alla coorte io ottenuto l'incarico 1. Let yK,io denota il voto per il secondo incarico.

1

Assumi il modello

yK,io=μK,io+α+τeK,io e stima αsu tutti gli studenti. Questo è,α è stimato indipendentemente da io. È possibile questoα è zero ma gli studenti possono cambiare le loro prestazioni per l'esame finale dando un aumento / una riduzione complessivi.

2

Permettere solio denota la generosità per il selezionatore in numero di coorte io. Quindi formay~K,io e assumere il modello

yK,io-μK,io-α=y~K,io=solio+σioe~K,io

E fare 11 stime individuali di sol e σ

3

Ora un'osservazione insolita è tale che la quantità

T=|y~-solioσio|è grande. Seleziona il più grande di questi quantitativi per ogni coorte e studiali.

Nota

Tutti esi presume che sia gaussiano. I voti non sono normalmente distribuiti, quindi linee guida sulla dimensione diT sono difficili da dare.

R-code

Di seguito è riportato il codice in R. Nota che nel tuo caso, sia mu sia y saranno dati in modo che le righe generanti quando vengono assegnate i numeri rnorm dovrebbero essere ignorate. Li includo per poter valutare lo script senza dati.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

4
Sembra che tu non abbia risposto alla domanda: finisci solo con una raccomandazione per indagare su eventuali "osservazioni insolite". Come risolve il problema?
whuber

Reading the question again, perhaps I focused too much on the "individual" part. The problem solved in this answer is rather that of finding graders who give less points to the students they dislike. The original question is impossible(!) to solve. As already suggested, it is very likely that students collaborate or otherwise strongly correlate within each cohort.
Hunaphu

0

Riformulando il problema: il modo migliore per avvicinarsi alla definizione di un voto di due parti in un esame con le condizioni che richiedono che la seconda parte sia esposta a una maggiore incertezza a causa della gamma di valutazioni qualitative dei marcatori delegati.

Dove: Master Tester = responsabile per esame Delegated Tester = persona (1 di 11) assegnata per contrassegnare il par # 2 dell'esame Studente = il ragazzo che si diverte a sostenere un esame

Gli obiettivi includono: A) Gli studenti ricevono un voto che riflette il loro lavoro B) Gestire l'incertezza della seconda parte per allinearsi con l'intento del Master Tester

Approccio suggerito (risposta): 1. Master Tester seleziona casualmente un set rappresentativo di esami, segna la parte 2 e sviluppa la correlazione con la parte 1 2. Utilizza la correlazione per valutare tutti i dati dei marcatori delegati (parte 1 vs punteggio n. 2) 3. Se la correlazione è significativamente diversa dal Master Tester - il significato deve essere accettabile per il Master Tester - esaminare l'esame come Master Tester per riassegnare il risultato.

Questo approccio garantisce che il Master Tester sia responsabile della correlazione e del significato accettabile. La correlazione potrebbe essere semplice come il punteggio per la parte # 1 vs # 2 o i punteggi relativi per le domande del test n. 1 vs n. 2.

Il Master Tester sarà anche in grado di impostare una qualità del risultato per la Parte 2 in base alla "elasticità" della correlazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.