Progettazione di classificazione tra pari: scelta di un grafico per ottenere classifiche / valutazioni accurate


9

Sfondo. Sto scrivendo un po 'di codice per la valutazione semi-automatica, usando la valutazione tra pari come parte del processo di classificazione. Agli studenti vengono fornite coppie di saggi alla volta e gli studenti hanno un dispositivo di scorrimento per scegliere quale è meglio e quanto sia migliore. ad esempio, il dispositivo di scorrimento potrebbe essere simile al seguente:

A---X-B

Sulla base dei risultati della valutazione tra pari, i saggi vengono classificati e l'insegnante valuterà quindi la X% superiore e la X% inferiore e i punteggi per tutti i saggi verranno calcolati automaticamente in base a questo. Ho già escogitato metodi per fare questo processo di classifica / punteggio; quella parte funziona bene.

La mia domanda. Come devo selezionare quali coppie di saggi dare agli studenti?

Le simulazioni suggeriscono che abbiamo bisogno di un saggio per essere valutati alla pari almeno 3 volte, per ottenere una classifica accurata. Pertanto, ogni saggio dovrebbe apparire in almeno 3 delle coppie presentate per la classificazione tra pari.

Possiamo considerarlo un problema grafico. Pensa ai saggi come a nodi. Ogni margine rappresenta una coppia di saggi che vengono presentati durante il processo di classificazione tra pari. I risultati di precisione sopra suggeriscono che il grado di ciascun nodo (o della maggior parte dei nodi) dovrebbe essere almeno 3. Che tipo di grafico dovrei usare? Come devo generare il grafico da utilizzare durante la classificazione tra pari?

Una sfida è che se hai grappoli nel grafico, questo distorcerà le valutazioni tra pari. Ad esempio, non vorremmo avere saggi di alta qualità classificati per lo più rispetto a saggi di alta qualità, perché ciò distorcerebbe i risultati della valutazione tra pari.

Cosa raccomanderesti?

Penso che questo problema possa essere modellato con un grafico non indirizzato usando qualcosa di simile al seguente:

  • Inizia prendendo il nodo con il minimo grado e collegalo con il minimo successivo
  • Continua fino a quando il tuo grado medio è di almeno 3
  • Massimizza la connettività del nodo
  • Ridurre al minimo il numero di cricche

è un buon approccio? In caso contrario, cosa consiglieresti invece?


Questa potrebbe essere un'applicazione interessante per gli espansori . Hai provato a organizzare gli incarichi in un espansore?
Shaull

la tua idea di bordi sembra a metà destra. i bordi indicano solo un confronto, non un risultato di un confronto. quindi semplicemente la presenza / assenza di bordi non codifica molte informazioni, ma solo i confronti che si sono verificati. un modo naturale di gestire il problema comporta bordi ponderati / diretti in cui la direzione è ad esempio verso il favorito ... sembra essere simile a un problema di flusso ... dici "slider", è multivalore? o binario? "slider" mi sembrava multivalore, come una valutazione.
vzn

Puoi chiarire qual è la tua domanda? Stai chiedendo come scegliere il grafico? Oppure stai chiedendo, dato un grafico e una serie di valutazioni per ciascun margine, come classificare tutti i saggi? Il primo rientra nella categoria generale del "disegno sperimentale" (e la mia risposta si rivolge a questo); quest'ultimo, sotto la categoria generale di "analisi dei dati" (e sia la mia risposta che la risposta di vzn forniscono alcune risorse utili per questo).
DW

In realtà avevamo elaborato la classifica e il punteggio, ma proveremo l'approccio di seguito.
Ismail,

in alcune analisi di problemi simili le parole "classifica" e "punteggio" sono intercambiabili. appare ora da ulteriori revisioni e modifiche, nel tuo sistema fai riferimento alla "classifica" come stima basata su computer di una classifica basata sui dati di confronto e al "punteggio" come decisione soggettiva basata sull'uomo sulla qualità del saggio (anche di solito chiamato "classificazione") che segue il processo di classificazione. e sei principalmente interessato a distribuire le coppie di confronto ...
vzn

Risposte:


7

Ci sono due parti in questo: (a) selezionare un grafico ( disegno sperimentale ) per determinare quali coppie di saggi valuteranno gli studenti nel processo di classificazione tra pari, e (b) classificare tutti i saggi, in base ai voti dei pari dello studente, a determinare quale insegnante dovrebbe classificare. Suggerirò alcuni metodi per ciascuno.

La scelta di un grafico

Dichiarazione problema. Il primo passo è generare un grafico. In altre parole, è necessario selezionare le coppie di saggi da mostrare agli studenti durante l'esercizio di valutazione tra pari.

G

d

n

Fortunatamente, ci sono algoritmi noti per farlo. Fondamentalmente, fai quanto segue:

  1. 3nn3n3n

  2. n

  3. Quindi, verifica se il grafico risultante è semplice (ovvero non ha loop automatici e bordi ripetuti). Se non è semplice, scartare il grafico e tornare al passaggio 1. Se è semplice, il gioco è fatto; output questo grafico.

O(1)

Ho visto questo approccio accreditato a Bollobas, Bender e Canfield. L'approccio è anche brevemente sintetizzato su Wikipedia . Puoi anche trovare una discussione su questo post del blog .

nnn

Classifica tutti i saggi

Dichiarazione problema. OK, quindi ora hai un grafico e hai presentato queste coppie di saggi (come indicato dai bordi nel grafico) agli studenti affinché possano valutare durante l'esercizio di valutazione tra pari. Hai i risultati di ogni confronto di saggi. Ora il tuo compito è inferire una classifica lineare su tutti i saggi, per aiutarti a determinare quali devono essere valutati dall'insegnante.

Soluzione. Ti ho suggerito di usare il modello Bradley-Terry . È un approccio matematico che risolve esattamente questo problema. È stato progettato per classificare i giocatori in alcuni sport, in base ai risultati delle partite tra alcune coppie di giocatori. Presuppone che ogni giocatore abbia una forza (sconosciuta), che può essere quantificata come un numero reale, e la probabilità che Alice batte Bob è determinata da una funzione regolare della differenza dei suoi punti di forza. Quindi, dati i record di vittorie / perdite a coppie, stima la forza di ciascun giocatore.

Questo dovrebbe essere perfetto per te. Puoi trattare ogni saggio come un giocatore. Ogni confronto tra due saggi (durante il processo di classificazione tra pari) è come il risultato di una corrispondenza tra loro. Il modello Bradley-Terry ti consentirà di prendere tutti quei dati e inferire un punto di forza per ogni saggio, dove punti di forza più elevati corrispondono a saggi migliori. Ora puoi usare questi punti di forza per classificare tutti i saggi.

ij

Esistono modi alternativi per inferire valutazioni o classifiche per tutti i saggi, dati i dati che hai. Ad esempio, il metodo Elo è un altro. Riassumo alcuni di essi nella mia risposta a una domanda diversa ; leggi quella risposta per maggiori dettagli.

Un altro commento: il modello Bradley-Terry presuppone che il risultato di ogni confronto tra due giocatori sia una vittoria o una perdita (cioè un risultato binario). Tuttavia, sembra che in realtà avrai dati più dettagliati: il tuo dispositivo di scorrimento fornirà una stima approssimativa di quanto il classificatore peer abbia valutato meglio un saggio rispetto a un altro. L'approccio più semplice sarebbe quello di mappare ciascun dispositivo di scorrimento su un risultato binario. Tuttavia, se lo desideri davvero, potresti essere in grado di utilizzare tutti i dati, utilizzando un'analisi più sofisticata. Il modello Bradley-Terry prevede la regressione logistica. Se generalizzi questo per usare il logit ordinato , scommetto che potresti trarre vantaggio dalle informazioni extra che hai da ogni cursore, dato che i risultati dei cursori non sono binari ma sono una delle diverse possibilità.

Uso efficiente dell'insegnante

Suggerisci che l'insegnante classifichi manualmente la X% superiore e la X% inferiore di tutti i saggi (utilizzando la classifica inferita dai risultati della valutazione tra pari). Potrebbe funzionare, ma sospetto che non sia l'uso più efficiente del tempo limitato dell'insegnante. Invece, vorrei suggerire un approccio alternativo.

Ti suggerisco di fare in modo che l'insegnante classifichi un sottoinsieme dei saggi, con il sottoinsieme accuratamente selezionato per cercare di fornire la migliore calibrazione possibile per tutti i saggi che non sono stati classificati dall'insegnante. Per questo, penso che potrebbe essere utile se hai selezionato un campione di saggi che coprono la gamma di possibili risposte (quindi per ogni saggio, c'è un saggio di livello insegnante che non è troppo lontano da esso). Per questo, posso pensare a due approcci che potresti prendere in considerazione di provare:

  • nkkk

  • kd(ei,ej)eiejSd(e,S)=mineSd(e,e)la distanza dal al saggio più vicino a . Il primo algoritmo più lontano calcola un elenco di saggi, , come segue: è il saggio che massimizza (tra tutti i saggi tale che ). Questo algoritmo genera una serie di saggi che sono il più diversi possibile l'uno dall'altro - il che significa che ciascuno dei saggi rimanenti è abbastanza simile ad almeno uno di quei . Pertanto, sarebbe ragionevole avere il voto dell'insegnante ileSke1,e2,,ekei+1d(e,{e1,e2,,ei})ee{e1,e2,,ei}kkk saggi selezionati dall'algoritmo FPF.

Sospetto che uno di questi approcci potrebbe fornire punteggi più accurati rispetto al fatto che l'insegnante classifica il X% superiore e il X% inferiore dei saggi, poiché i saggi migliori e peggiori probabilmente non sono rappresentativi della massa di saggi nel mezzo.

In entrambi gli approcci, è possibile utilizzare una funzione di distanza più sofisticata che tenga conto non solo delle stime di resistenza basate sulla classificazione tra pari, ma anche di altri fattori derivati ​​dai saggi. La funzione di distanza più semplice possibile prenderebbe in considerazione solo il risultato del modello Terry-Bradley, ovvero dove è la forza di saggio come stimato dal modello di Terry-Bradley basato sui risultati della classificazione tra pari. Tuttavia, puoi fare qualcosa di più sofisticato. Ad esempio, è possibile calcolare la distanza di modifica normalizzata di Levenshtein tra il saggio ed(e1,e2)=(s(e1)s(e2))2s(e)ee1e2(trattandoli come stringhe di testo, calcolando la distanza di modifica e dividendoli per la lunghezza del più grande dei due) e utilizzandolo come un altro fattore nella funzione di distanza. È inoltre possibile calcolare i vettori di funzioni utilizzando un modello bag-of-words sulle parole nei saggi e utilizzare la distanza L2 tra questi vettori di funzionalità (con funzionalità normalizzate utilizzando tf-idf) come altro fattore nella funzione di distanza. È possibile utilizzare una funzione di distanza che è una media ponderata della differenza di punti di forza (basata sulle stime di Terry-Bradley), la distanza di modifica normalizzata e qualsiasi altra cosa che sembri utile. Tale un più sofisticato aiuto potenza funzione di distanza fare un lavoro migliore di aiutare l'algoritmo di clustering selezionare quali sono i migliori saggi per avere il grado insegnante.k


difficile da seguire rispetto alla dichiarazione del problema originale. stai risolvendo il problema della distribuzione uniforme dei confronti?
vzn

2
@vzn, ho modificato la mia risposta per chiarire. La domanda sembra porsi su come selezionare il grafico, ovvero quali coppie di saggi chiedere agli studenti di confrontare durante la valutazione tra pari. La prima metà della mia risposta offre una soluzione a questa domanda. La seconda parte della mia risposta descrive come utilizzare i risultati della valutazione tra pari per classificare tutti i saggi, per aiutare l'insegnante a scegliere quali saggi valutare.
DW

0

alcune idee basate sulla descrizione non esattamente precisa di ingressi e uscite e su cosa calcolare (forse puoi rivedere la tua domanda tenendo presente quello).

apparentemente questo è fondamentalmente il problema "caldo o no" "del facemash" che ha avuto origine con la fondazione di Facebook (come rappresentato nel film "social network"). nel "gioco" originale, gli utenti avevano due foto e sceglievano la femmina più attraente. nel tuo sistema, la scelta è tra due saggi, uno dei quali è migliore.

dal folklore quasi cyber apparentemente gli algoritmi di classificazione Elo utilizzati nei sistemi di punteggio delle partite di scacchi possono essere utilizzati per calcolare una soluzione convergente (in questo caso fondamentalmente stimare il punteggio dei saggi coerente con il grafico delle preferenze diretto espresso), ma non hanno ancora visto un attento descrizione / scrittura di questo.

un'altra opzione è usare Pagerank. che calcola l'influenza stimata di una pagina in base al grafico del collegamento diretto. le preferenze per i saggi sono analoghe ai collegamenti a una pagina Web.

il problema sembra anche simile all'analisi delle citazioni in cui articoli scientifici citano altri articoli e si stima l'influenza degli articoli. [ma nota che Pagerank è anche un algoritmo leader in quest'area.]

[1] perché usare le classifiche Elo per l'algoritmo facemash? StackOverflow

[2] Sistema di classificazione Elo , Wikipedia

[3] Pagerank , wikipedia

[4] analisi delle citazioni , wikipedia


schizzo di come applicare Elo: le partite di gioco sono come confronti di saggi. i saggi hanno punteggi e i saggi con punteggi più alti dovrebbero vincere più partite. l'algoritmo calcola i punteggi più coerenti con tutte le partite.
vzn

si noti che le idee di citazione tendono ad assumere che tutti i confronti siano distribuiti in qualche modo uniformemente su tutti i saggi, altrimenti se un saggio è in più confronti potrebbe aumentare la sua relativa favorebilità. quindi parte di questo approccio sta anche bilanciando i confronti, a cui sembra che ti riferisca, ed è simile al problema di tentare di distribuire le partite su tutti i giocatori ...
vzn,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.