Sapendo come livellatrici differiscono è buona, ma ancora non vi dice cosa per compensare i voti a . Per semplicità, immagina solo due selezionatrici. Anche se concludiamo che il voto 1 è costantemente 5 voti più generosi del voto 2, ciò non ti dice cosa fare con due studenti che sono stati classificati ciascuno 70, uno per voto 1 e uno per voto 2. Diciamo che voto 2 è stato un marcatore duro, e l'upgrade da 70 a 75, mantenendo invariati i 70 segnati dal classificatore 1? Oppure supponiamo che il voto 1 sia stato indebitamente indulgente, abbattendo il suo studente a 65 voti e mantenendo invariati i 70 del voto 2? Scendiamo a compromessi a metà strada tra - estendendo al tuo caso, sulla base di una media degli 11 selezionatori? Sono i voti assoluti che contano, quindi non è sufficiente conoscere la relativa generosità.
La tua conclusione può dipendere da quanto "oggettivo" ritieni che dovrebbe essere il voto assoluto finale. Un modello mentale sarebbe quello di proporre a ogni studente un voto "corretto" - quello che verrebbe assegnato dal Capo Valutatore se avessero il tempo di contrassegnare ciascun articolo individualmente - a cui i voti osservati sono approssimazioni. In questo modello, i voti osservati devono essere compensati per il loro selezionatore, al fine di avvicinarli il più vicino possibile al loro livello "vero" non osservato. Un altro modello potrebbe essere che tutte le classificazioni siano soggettive e cerchiamo di trasformare ogni valutazione osservata in base al voto che prevediamo sarebbe stato assegnato se tutti i valutatori avessero preso in considerazione la stessa carta e raggiunto una sorta di compromesso o voto medio per questo. Trovo il secondo modello meno convincente come soluzione anche se l'ammissione della soggettività è più realistica. In un ambiente educativo di solito c'è qualcuno che ha la responsabilità ultima per la valutazione, per garantire che gli studenti ricevano "il voto che meritano", ma questo ruolo principale ha sostanzialmente assolto la responsabilità verso i selezionatori che già conosciamo in forte disaccordo. Da qui presumo lìè un voto "corretto" che intendiamo stimare, ma questa è una proposta contestabile e potrebbe non essere adatta alle tue circostanze.
Supponiamo che gli studenti A, B, C e D, tutti nella stessa coorte, "debbano" essere classificati rispettivamente come 75, 80, 85 e 90, ma il loro voto generoso segna costantemente 5 voti troppo alti. Osserviamo 80, 85, 90 e 95 e dovremmo sottrarre 5, ma trovare la cifra da sottrarre è problematico. Non è possibile farlo confrontando i risultati tra le coorti poiché prevediamo che le coorti possano variare in media. Una possibilità consiste nell'utilizzare i risultati dei test a scelta multipla per prevedere i punteggi corretti nella seconda assegnazione, quindi utilizzarli per valutare la variazione tra ciascun classificatore e i voti corretti. Ma fare questa previsione non è banale: se ti aspetti una deviazione media e standard diversa tra le due valutazioni, non puoi semplicemente supporre che i voti della seconda valutazione debbano corrispondere al primo.
Inoltre, gli studenti differiscono in attitudine relativa nelle valutazioni a scelta multipla e scritte. Potresti trattarlo come una sorta di effetto casuale, formando una componente dei voti "osservati" e "veri" dello studente, ma non catturati dal loro voto "previsto". Se le coorti differiscono sistematicamente e gli studenti in una coorte tendono ad essere simili, allora non dovremmo aspettarci che questo effetto raggiunga la media a zero all'interno di ciascuna coorte. Se i voti osservati di una coorte in media +5 rispetto a quelli previsti, è impossibileper determinare se ciò è dovuto a un selezionatore generoso, una coorte particolarmente più adatta alla valutazione scritta rispetto alla scelta multipla o una combinazione delle due. In un caso estremo, la coorte potrebbe anche avere un'attitudine inferiore alla seconda valutazione, ma ciò è stato più che compensato da un selezionatore molto generoso - o viceversa. Non puoi separarlo. È confuso.
Dubito anche dell'adeguatezza di un modello additivo così semplice per i tuoi dati. I valutatori possono differire dal Lead Assessor non solo per spostamento nella posizione, ma anche per diffusione - anche se poiché le coorti probabilmente variano nell'omogeneità, non è possibile semplicemente controllare la diffusione dei voti osservati in ciascuna coorte per rilevare questo. Inoltre, la maggior parte della distribuzione ha punteggi alti, abbastanza vicini al massimo teorico di 100. Anticiperei l'introduzione di una non linearità dovuta alla compressione vicino al massimo - un selezionatore molto generoso potrebbe dare segni A, B, C e D come 85, 90, 94, 97. Questo è più difficile da invertire che sottrarre una costante. Peggio ancora, potresti vedere un "ritaglio" - un selezionatore estremamente generoso può classificarli come 90, 95, 100, 100. Questo è impossibileal contrario, e le informazioni sulle prestazioni relative di C e D vengono irrimediabilmente perse.
I tuoi selezionatori si comportano in modo molto diverso. Sei sicuro che differiscano solo per la loro generosità complessiva, piuttosto che per la loro generosità in vari componenti della valutazione? Questo potrebbe valere la pena di essere verificato, in quanto potrebbe introdurre varie complicazioni - ad esempio, il grado osservato per B potrebbe essere peggiore di quello di A, nonostante B sia "migliore" di 5 punti, anche se i voti assegnati dal classificatore per ciascun componente sono una funzione monotonicamente crescente del capo valutatore! Supponiamo che la valutazione sia suddivisa tra Q1 (A dovrebbe segnare 30/50, B 45/50) e Q2 (A dovrebbe segnare 45/50, B 35/50). Immagina che il selezionatore sia molto indulgente su Q1 (gradi osservati: A 40/50, B 50/50) ma duro su Q2 (osservato: A 42/50, 30/50), quindi osserviamo i totali di 82 per A e 80 per B. Se devi prendere in considerazione i punteggi dei componenti,
Probabilmente si tratta di un commento esteso piuttosto che di una risposta, nel senso che non propone una soluzione particolare entro i limiti originali del problema. Ma se i tuoi selezionatori stanno già gestendo circa 55 documenti ciascuno, è così male per loro doverne esaminare altri cinque o dieci per scopi di calibrazione? Hai già una buona idea delle capacità degli studenti, quindi potresti scegliere un campione di documenti da tutta la gamma di voti. È quindi possibile valutare se è necessario compensare la generosità del classificatore nell'intero test o in ciascun componente e se farlo semplicemente aggiungendo / sottraendo una costante o mediante qualcosa di più sofisticato come l'interpolazione (ad esempio se si è preoccupati per non linearità vicino a 100). Ma un avvertimento sull'interpolazione: supponiamo che il Lead Assessor contrassegni cinque documenti campione come 70, 75, 80, 85 e 90, mentre un selezionatore li contrassegna come 80, 88, 84, 93 e 96, quindi c'è un disaccordo sull'ordine. Probabilmente si desidera mappare i gradi osservati da 96 a 100 nell'intervallo 90 a 100 e i gradi osservati da 93 a 96 nell'intervallo da 85 a 90. Ma è necessario un pensiero per i segni al di sotto. Forse i gradi osservati da 84 a 93 dovrebbero essere mappati all'intervallo da 75 a 85? Un'alternativa sarebbe una regressione (possibilmente polinomiale) per ottenere una formula per "grado reale previsto" da "grado osservato". Forse i gradi osservati da 84 a 93 dovrebbero essere mappati all'intervallo da 75 a 85? Un'alternativa sarebbe una regressione (possibilmente polinomiale) per ottenere una formula per "grado reale previsto" da "grado osservato". Forse i gradi osservati da 84 a 93 dovrebbero essere mappati all'intervallo da 75 a 85? Un'alternativa sarebbe una regressione (possibilmente polinomiale) per ottenere una formula per "grado reale previsto" da "grado osservato".