Ci sono due parti in questo: (a) selezionare un grafico ( disegno sperimentale ) per determinare quali coppie di saggi valuteranno gli studenti nel processo di classificazione tra pari, e (b) classificare tutti i saggi, in base ai voti dei pari dello studente, a determinare quale insegnante dovrebbe classificare. Suggerirò alcuni metodi per ciascuno.
La scelta di un grafico
Dichiarazione problema. Il primo passo è generare un grafico. In altre parole, è necessario selezionare le coppie di saggi da mostrare agli studenti durante l'esercizio di valutazione tra pari.
G
d
n
Fortunatamente, ci sono algoritmi noti per farlo. Fondamentalmente, fai quanto segue:
3nn3n3n
n
Quindi, verifica se il grafico risultante è semplice (ovvero non ha loop automatici e bordi ripetuti). Se non è semplice, scartare il grafico e tornare al passaggio 1. Se è semplice, il gioco è fatto; output questo grafico.
O(1)
Ho visto questo approccio accreditato a Bollobas, Bender e Canfield. L'approccio è anche brevemente sintetizzato su Wikipedia . Puoi anche trovare una discussione su questo post del blog .
nnn
Classifica tutti i saggi
Dichiarazione problema. OK, quindi ora hai un grafico e hai presentato queste coppie di saggi (come indicato dai bordi nel grafico) agli studenti affinché possano valutare durante l'esercizio di valutazione tra pari. Hai i risultati di ogni confronto di saggi. Ora il tuo compito è inferire una classifica lineare su tutti i saggi, per aiutarti a determinare quali devono essere valutati dall'insegnante.
Soluzione. Ti ho suggerito di usare il modello Bradley-Terry . È un approccio matematico che risolve esattamente questo problema. È stato progettato per classificare i giocatori in alcuni sport, in base ai risultati delle partite tra alcune coppie di giocatori. Presuppone che ogni giocatore abbia una forza (sconosciuta), che può essere quantificata come un numero reale, e la probabilità che Alice batte Bob è determinata da una funzione regolare della differenza dei suoi punti di forza. Quindi, dati i record di vittorie / perdite a coppie, stima la forza di ciascun giocatore.
Questo dovrebbe essere perfetto per te. Puoi trattare ogni saggio come un giocatore. Ogni confronto tra due saggi (durante il processo di classificazione tra pari) è come il risultato di una corrispondenza tra loro. Il modello Bradley-Terry ti consentirà di prendere tutti quei dati e inferire un punto di forza per ogni saggio, dove punti di forza più elevati corrispondono a saggi migliori. Ora puoi usare questi punti di forza per classificare tutti i saggi.
ij
Esistono modi alternativi per inferire valutazioni o classifiche per tutti i saggi, dati i dati che hai. Ad esempio, il metodo Elo è un altro. Riassumo alcuni di essi nella mia risposta a una domanda diversa ; leggi quella risposta per maggiori dettagli.
Un altro commento: il modello Bradley-Terry presuppone che il risultato di ogni confronto tra due giocatori sia una vittoria o una perdita (cioè un risultato binario). Tuttavia, sembra che in realtà avrai dati più dettagliati: il tuo dispositivo di scorrimento fornirà una stima approssimativa di quanto il classificatore peer abbia valutato meglio un saggio rispetto a un altro. L'approccio più semplice sarebbe quello di mappare ciascun dispositivo di scorrimento su un risultato binario. Tuttavia, se lo desideri davvero, potresti essere in grado di utilizzare tutti i dati, utilizzando un'analisi più sofisticata. Il modello Bradley-Terry prevede la regressione logistica. Se generalizzi questo per usare il logit ordinato , scommetto che potresti trarre vantaggio dalle informazioni extra che hai da ogni cursore, dato che i risultati dei cursori non sono binari ma sono una delle diverse possibilità.
Uso efficiente dell'insegnante
Suggerisci che l'insegnante classifichi manualmente la X% superiore e la X% inferiore di tutti i saggi (utilizzando la classifica inferita dai risultati della valutazione tra pari). Potrebbe funzionare, ma sospetto che non sia l'uso più efficiente del tempo limitato dell'insegnante. Invece, vorrei suggerire un approccio alternativo.
Ti suggerisco di fare in modo che l'insegnante classifichi un sottoinsieme dei saggi, con il sottoinsieme accuratamente selezionato per cercare di fornire la migliore calibrazione possibile per tutti i saggi che non sono stati classificati dall'insegnante. Per questo, penso che potrebbe essere utile se hai selezionato un campione di saggi che coprono la gamma di possibili risposte (quindi per ogni saggio, c'è un saggio di livello insegnante che non è troppo lontano da esso). Per questo, posso pensare a due approcci che potresti prendere in considerazione di provare:
nkkk
kd(ei,ej)eiejSd(e,S)=mine′∈Sd(e,e′)la distanza dal al saggio più vicino a . Il primo algoritmo più lontano calcola un elenco di saggi, , come segue: è il saggio che massimizza (tra tutti i saggi tale che ). Questo algoritmo genera una serie di saggi che sono il più diversi possibile l'uno dall'altro - il che significa che ciascuno dei saggi rimanenti è abbastanza simile ad almeno uno di quei . Pertanto, sarebbe ragionevole avere il voto dell'insegnante ileSke1,e2,…,ekei+1d(e,{e1,e2,…,ei})ee∉{e1,e2,…,ei}kkk saggi selezionati dall'algoritmo FPF.
Sospetto che uno di questi approcci potrebbe fornire punteggi più accurati rispetto al fatto che l'insegnante classifica il X% superiore e il X% inferiore dei saggi, poiché i saggi migliori e peggiori probabilmente non sono rappresentativi della massa di saggi nel mezzo.
In entrambi gli approcci, è possibile utilizzare una funzione di distanza più sofisticata che tenga conto non solo delle stime di resistenza basate sulla classificazione tra pari, ma anche di altri fattori derivati dai saggi. La funzione di distanza più semplice possibile prenderebbe in considerazione solo il risultato del modello Terry-Bradley, ovvero dove è la forza di saggio come stimato dal modello di Terry-Bradley basato sui risultati della classificazione tra pari. Tuttavia, puoi fare qualcosa di più sofisticato. Ad esempio, è possibile calcolare la distanza di modifica normalizzata di Levenshtein tra il saggio ed(e1,e2)=(s(e1)−s(e2))2s(e)ee1e2(trattandoli come stringhe di testo, calcolando la distanza di modifica e dividendoli per la lunghezza del più grande dei due) e utilizzandolo come un altro fattore nella funzione di distanza. È inoltre possibile calcolare i vettori di funzioni utilizzando un modello bag-of-words sulle parole nei saggi e utilizzare la distanza L2 tra questi vettori di funzionalità (con funzionalità normalizzate utilizzando tf-idf) come altro fattore nella funzione di distanza. È possibile utilizzare una funzione di distanza che è una media ponderata della differenza di punti di forza (basata sulle stime di Terry-Bradley), la distanza di modifica normalizzata e qualsiasi altra cosa che sembri utile. Tale un più sofisticato aiuto potenza funzione di distanza fare un lavoro migliore di aiutare l'algoritmo di clustering selezionare quali sono i migliori saggi per avere il grado insegnante.k