Come posso utilizzare questi dati per calibrare marcatori con diversi livelli di generosità nella valutazione dei documenti degli studenti?

9

12 insegnanti insegnano a 600 studenti. Le 12 coorti insegnate da questi insegnanti variano da 40 a 90 studenti e prevediamo differenze sistematiche tra le coorti, poiché gli studenti laureati sono stati assegnati in modo sproporzionato a determinate coorti e l'esperienza precedente ha dimostrato che gli studenti laureati in media hanno un punteggio considerevolmente più alto di gli studenti universitari.

Gli insegnanti hanno valutato tutti i documenti nella loro coorte e hanno assegnato loro un voto su 100.

Ogni insegnante ha anche esaminato un documento selezionato a caso tra altri tre insegnanti e gli ha assegnato un punteggio di 100. Ogni insegnante ha avuto tre dei suoi documenti contrassegnati da un altro insegnante. In questo modo sono stati quindi contrassegnati in modo incrociato 36 diversi documenti e io chiamo questi i miei dati di calibrazione.

Vedo anche quanti studenti universitari erano presenti in ciascuna coorte.

Le mie domande sono:

A) Come posso usare questi dati di calibrazione per regolare i segni originali al fine di renderli più equi? In particolare, vorrei eliminare il più possibile gli effetti dei produttori eccessivamente generosi / non generosi.

B) Quanto sono appropriati i miei dati di calibrazione? Non avevo scelta tra i 36 punti di dati di calibrazione dei dati di calibrazione piuttosto limitati che ho ottenuto in questo corso, e non ho alcuna opzione per raccogliere più durante il semestre in corso. Tuttavia, se questa situazione si ripresenta, potrei essere in grado di raccogliere più dati di calibrazione oppure di raccogliere diversi tipi di dati di calibrazione.

Questa domanda è un parente di una domanda popolare che ho posto a: Come posso gestire al meglio gli effetti dei marcatori con diversi livelli di generosità nella valutazione dei documenti degli studenti? . Tuttavia, è un corso diverso e non sono sicuro di quanto sia utile leggere questa domanda come sfondo per questa attuale, dal momento che il problema principale era che non avevo dati di calibrazione.

teaching agreement-statistics

— user1205901 - Ripristina Monica
fonte

6

Sembra un'ottima opportunità per utilizzare un sistema di raccomandazione per la fattorizzazione in matrice . In breve, funziona come segue:

Inserisci le tue osservazioni in una matrice parzialmente osservata in cui è il punteggio dell'insegnante che dato allo studente . $M$ $M_{ij}$ $i$ $j$
Supponiamo che questa matrice sia il prodotto esterno di alcuni vettori di caratteristiche latenti, e - cioè . $\vec t$ $\vec s$ $M_{ij} = t_i s_j$
Risolvi i vettori di elementi latenti che minimizzano l'errore di ricostruzione al quadrato (dove la somma varia su tutte le celle osservate di ). $\sum_{i,j} (t_is_j - M_{ij})^2$ $M$
È possibile eseguire questo stile di ottimizzazione delle aspettative fissando un'ipotesi per e risolvendo per tramite minimi quadrati, quindi correggendo tale ipotesi per e risolvendo per e ripetendo fino alla convergenza. $\vec t$ $\vec s$ $\vec s$ $\vec t$

Si noti che questo presuppone abbastanza forte la forma del pregiudizio di un insegnante - in particolare, se si considera le caratteristiche latenti degli studenti come il loro "punteggio reale", allora il pregiudizio di un insegnante moltiplica ogni punteggio vero per un importo costante (a rendendolo additivo invece esponeri i punteggi che inserisci nella matrice, e poi impari gli esponenziali dei "punteggi veri"). Con così pochi dati di calibrazione, probabilmente non puoi andare molto lontano senza fare una forte ipotesi su questo modulo, ma se avessi più dati, potresti aggiungere una seconda dimensione di funzionalità latenti, ecc. (Ad esempio, supponi e prova nuovamente a minimizzare l'errore di ricostruzione al quadrato). $M_{ij} = \sum_{k=1}^n s_{ik} t_{kj}$

EDIT: per avere un problema ben definito devi avere più operazioni a matrice rispetto ai parametri latenti (oppure puoi usare un qualche tipo di regolarizzazione). Qui ce l'hai a malapena (hai 636 osservazioni e 612 parametri latenti), quindi la fattorizzazione a matrice potrebbe non funzionare molto bene - non ho lavorato con loro su campioni così piccoli, quindi non lo so davvero.

Se la calibrazione risulta insufficiente per utilizzare un buon modello di raccomandazione, è possibile provare una regressione multilivello su Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(ignorando i dati di calibrazione) per estrarre le stime di un pregiudizio dell'insegnante additivo e quindi verificare se questo bias è coerente con i dati di calibrazione che si ha preso. (Dovresti consentire l'eteroschedasticità da parte dell'insegnante, se possibile.) Questo è più ad-hoc, ma può darti problemi di raccolta dei dati meno gravi.

— Ben Kuhn
fonte

Per approfondire questo, probabilmente inizierei con un modello semplice con effetti fissi dell'insegnante ed errori standard robusti potenzialmente raggruppati (vedere questo post sul blog per una discussione di questo in R) e quindi confrontare gli effetti fissi per eventuali valori anomali. In R, qualcosa del genere lm(score ~ gradStudent + ... + teacherIDdovrebbe farlo.

— iacobus,

2

Ecco un paio di approcci correlati.

Prendi l'insieme di documenti contrassegnati da più di un insegnante, poiché quelli contengono la maggior parte delle informazioni sugli effetti dell'insegnante e al di fuori di questi documenti, gli effetti dell'insegnante e della coorte sono confusi (se c'era un modo per ottenere l'effetto di coorte - forse tramite GPA o qualche altro predittore, ad esempio, potresti usare tutti i dati, ma complicherà un po 'i modelli).

Etichetta gli studenti e i marker . Lascia che l'insieme dei segni sia . $i=1,2, ... n$ $j=1, 2, ...,m$ $y_{ij}, i=1,2, ... m$

Devi prima considerare il tuo modello per come si applica l'effetto marker. È additivo? È moltiplicativo? Devi preoccuparti degli effetti al contorno (ad esempio, sarebbe meglio un effetto additivo o moltiplicativo su una scala logitica)?

Immagina due marcatori dati su due fogli e immagina che il secondo marcatore sia più generoso. Diciamo che il primo marcatore darebbe i fogli 30 e 60. Il secondo marcatore tenderà ad aggiungere un numero costante di segni (diciamo 6 segni) ad entrambi? Tenderanno ad aggiungere percentuali costanti (diciamo il 10% ad entrambi o 3 o 6 punti)? E se il primo marcatore avesse dato 99? - cosa succederebbe allora? Che dire di 0? E se il secondo marcatore fosse meno generoso? cosa succederebbe a 99 o 0? (questo è il motivo per cui menziono un modello logit - si potrebbero considerare i segni come una proporzione dei segni possibili ( ), e quindi l'effetto marker potrebbe essere quello di aggiungere una costante (diciamo) al logit di - ie ). $p_{ij}=m_{ij}/100$ $p$ $\log(p_{ij}/(1-p_{ij})$

(Non avrai abbastanza dati qui per stimare la forma di generosità e le sue dimensioni. Devi scegliere un modello dalla tua comprensione della situazione. Dovrai anche ignorare qualsiasi possibilità di interazione; non avere i dati per esso)

Possibilità 1 - modello additivo semplice. Questo potrebbe essere adatto se nessun segno era davvero vicino a 0 o 100:

Prendi in considerazione un modello come $E(y_{ij}) = \mu_{i}+\tau_j$

Questo è essenzialmente un ANOVA a due vie. Hai bisogno di vincoli su questo, quindi potresti impostare una deviazione codifica / impostare il modello in modo tale che gli effetti del marker siano 0, oppure potresti impostare un modello in cui un marker è la linea di base (il cui effetto è 0 e di cui ti contrassegni proverà a regolare ogni altro marker verso).

Quindi prendi i valori e regola la popolazione più ampia di segni . $\hat{\tau}_j$ $y_{kj}^\text{adj}=y_{kj}-\hat{\tau}_j$

Possibilità 2: in effetti, un tipo di idea simile ma . Qui potresti adattare un modello dei minimi quadrati non lineari o un GLM con un log-link (probabilmente mi spingerei verso il secondo di quei due). Ancora una volta hai bisogno di un vincolo su s. $E(y_{ij}) = \mu_{i}\tau_j$ $\tau$

Quindi una regolazione adeguata sarebbe quella di dividere per . $\hat{\tau_j}$

Possibilità 3: additivo sulla scala logit. Questo potrebbe essere più adatto se alcuni segni si avvicinano a 0 o 100. Sembrerà approssimativamente moltiplicativo per segni molto piccoli, additivo per segni mediocri e approssimativamente moltiplicativo in per segni molto alti. È possibile utilizzare una regressione beta o un GLM quasi binomiale con collegamento logit per adattarsi a questo modello. $1-p=(100-m)/100$

— Glen_b - Ripristina Monica
fonte