Rilevamento di schemi di imbrogli in un esame a più domande


25

DOMANDA:

Ho dati binari su domande d'esame (corretto / errato). Alcune persone potrebbero aver avuto accesso preliminare a un sottoinsieme di domande e alle loro risposte corrette. Non so chi, quanti o quali. Se non ci fossero imbrogli, supponiamo che modellerei la probabilità di una risposta corretta per l'elemento come , dove rappresenta la difficoltà della domanda e è l'abilità latente dell'individuo. Questo è un modello di risposta degli oggetti molto semplice che può essere stimato con funzioni come ltm's rasch () in R. Oltre alle stime (dove indicizza gli individui) della variabile latente, ho accesso a stime separatel o g i t ( ( p i = 1 | z ) ) = β i + z β i z z j j q jilogit((pi=1|z))=βi+zβizz^jjq^j della stessa variabile latente derivata da un altro set di dati in cui non era possibile imbrogliare.

L'obiettivo è identificare le persone che probabilmente hanno imbrogliato e gli oggetti su cui hanno tradito. Quali sono alcuni approcci che potresti adottare? Oltre ai dati non , , e sono tutti disponibili, anche se i primi due avranno qualche pregiudizio a causa di imbrogli. Idealmente, la soluzione dovrebbe presentarsi sotto forma di cluster / classificazione probabilistica, sebbene ciò non sia necessario. Le idee pratiche sono molto apprezzate così come gli approcci formali. z j q jβ^iz^jq^j

Finora, ho confrontato la correlazione dei punteggi delle domande per coppie di individui con punteggi più alti o più bassi (dove è un indice approssimativo della probabilità che abbiano imbrogliato). Ad esempio, ho ordinato gli individui per e poi tracciato la correlazione delle coppie successive di punteggi delle domande degli individui. Ho anche provato a tracciare la correlazione media dei punteggi per gli individui i cui valori erano maggiori del quantile di , in funzione di . Nessun modello ovvio per nessuno dei due approcci. q j - Z j q j - Z j q j - Z jnth q j - Z jnq^jz^jq^jz^jq^jz^jq^jz^jnthq^jz^jn


AGGIORNARE:

Ho finito per unire le idee di @SheldonCooper e l'utile documento di Freakonomics che @whuber mi ha indicato. Altre idee / commenti / critiche sono benvenute.

Lascia che sia il punteggio binario della persona alla domanda . Stimare il modello di risposta dell'oggetto dove è il parametro di facilità e è una variabile di abilità latente. (Un modello più complicato può essere sostituito; I sto usando un 2PL nella mia applicazione. Come ho già detto nel mio post originale, ho delle stime della variabile abilità da un set di dati separato (elementi diversi, stesse persone) su quale imbroglio non era possibile. In particolare, sono stime empiriche di Bayes dello stesso modello di risposta degli oggetti di cui sopra. j i l o g i t ( P r ( X i j = 1 | z j ) = β i + z j , β i z j ^ q j { y i j } ^ q jXijji

logit(Pr(Xij=1|zj)=βi+zj,
βizjqj^{yij}qj^

La probabilità del punteggio osservato , in base alla facilità dell'oggetto e all'abilità della persona, può essere scritta dove è la probabilità prevista di una risposta corretta e è il logit inverso. Quindi, in base alle caratteristiche dell'oggetto e della persona, la probabilità congiunta che la persona abbia le osservazioni è e allo stesso modo, la probabilità congiunta che l'articolo abbia le osservazioni p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q j ) ) 1 - xxijPij( ^ β i , ^ q j )=ilogit( ^ β i + ^ q j )ilogitjxjpj= ipij,ixipi= jpij.

pioj=Pr(Xioj=Xioj|βio^,qj^)=Pioj(βio^,qj^)Xioj(1-Pioj(βio^,qj^))1-Xioj,
Pioj(βio^,qj^)=iologiot(βio^+qj^)iologiotjXj
pj=Πiopioj,
ioXio èLe persone con i valori di più bassi sono quelle i cui punteggi osservati sono condizionatamente meno probabili - probabilmente sono imbroglioni. Gli articoli con i valori più bassi sono quelli che sono condizionalmente meno probabili: sono i possibili elementi trapelati / condivisi. Questo approccio si basa sulle ipotesi che i modelli siano corretti e che la persona punteggi ‘s sono subordinati scorrelati sulla persona e la voce caratteristiche. Una violazione del secondo presupposto non è tuttavia problematica, purché il grado di correlazione non vari tra le persone e il modello di possa essere facilmente migliorato (ad esempio aggiungendo ulteriori caratteristiche di persona o oggetto).
pio=Πjpioj.
p j j p i jpjpjjpioj

Un ulteriore passaggio che ho provato è di prendere il r% delle persone meno probabili (cioè le persone con il r% più basso di valori p_j ordinati), calcolare la distanza media tra i loro punteggi osservati x_j (che dovrebbe essere correlato per le persone con r basso, che sono possibili imbroglioni), e traccialo per r = 0,001, 0,002, ..., 1.000. La distanza media aumenta per r = da 0,001 a r = 0,025, raggiunge un massimo, quindi diminuisce lentamente al minimo a r = 1. Non esattamente quello che speravo.


4
Questo è un problema difficile perché hai pochissime informazioni sulla natura della frode. Come si differenzia un imbroglione da uno studente che ha studiato molto di più? Senza ulteriori informazioni, non puoi. Una possibilità è se gli studenti possono imbrogliare copiandosi l'un l'altro o se sottogruppi di studenti hanno accesso alle stesse risposte. In tal caso, è possibile creare una funzione di distanza tra gli studenti (una distanza inferiore significa che hanno fatto bene le stesse domande) e cercare schemi qui. Questo sarebbe IMO più conclusivo.
rm999

2
Levitt e Dubner descrivono il loro approccio in Freakonomics ( freakonomicsmedia.com ).
whuber

@ rm999 Per chiarire, gli imbroglioni hanno avuto accesso allo stesso sottoinsieme di domande (ad esempio, una chiave di risposta parziale è stata trapelata prima dell'amministrazione dell'esame). Non mi interessa barare che potrebbe essere successo dalla copia. Revisionerò la mia domanda nel fine settimana se questo non è chiaro.
chiuso il

@whuber Grazie, cercherò il documento (supponendo che sia pubblicato). Ho ascoltato l'audiolibro, ma non riesco a ricordare i dettagli di come hanno identificato gli imbroglioni (credo che fossero insegnanti che stavano sfogliando le risposte degli studenti).
chiuso il

Se ricordo il caso Freakonomics, si trattava di individuare bambini nella stessa scuola / classe che avevano (a) grandi salti nel conseguimento rispetto a un anno prima, (b) risposte diverse per le domande più semplici precedenti e (c) sequenze identiche di le risposte a domande più difficili in seguito, quindi suggerendo a un insegnante di compilare le risposte che i bambini avevano lasciato in bianco.
Henry,

Risposte:


4

Approccio ad hoc

Suppongo che sia ragionevolmente affidabile perché è stato stimato su molti studenti, la maggior parte dei quali non ha tradito la domanda . Per ogni studente , ordina le domande in ordine di difficoltà crescente, calcola (nota che i j β i + q j q jβioiojβio+qjqjè solo un offset costante) e soglia in un punto ragionevole (es. p (corretto) <0.6). Questo dà una serie di domande alle quali è improbabile che lo studente risponda correttamente. Ora puoi usare il test delle ipotesi per vedere se questo è violato, nel qual caso lo studente probabilmente ha tradito (supponendo ovviamente che il tuo modello sia corretto). Un avvertimento è che se ci sono poche di queste domande, potresti non avere abbastanza dati per il test per essere affidabile. Inoltre, non penso che sia possibile determinare su quale domanda ha tradito, perché ha sempre il 50% di possibilità di indovinare. Ma se supponi inoltre che molti studenti abbiano avuto accesso (e tradito) alla stessa serie di domande, puoi confrontarle tra gli studenti e vedere a quali domande è stata data risposta più spesso del caso.

Puoi fare un trucco simile con le domande. Vale a dire per ogni domanda, ordina gli studenti per , aggiungi (questo è ora un offset costante) e soglia alla probabilità 0.6. Questo ti dà un elenco di studenti che non dovrebbero essere in grado di rispondere correttamente a questa domanda. Quindi hanno una probabilità del 60% di indovinare. Ancora una volta, fai test di ipotesi e vedi se questo è violato. Questo funziona solo se la maggior parte degli studenti ha tradito la stessa serie di domande (ad esempio se un sottoinsieme di domande "trapelava" prima dell'esame).β iqjβio

Approccio di principio

Per ogni studente, esiste una variabile binaria con un Bernoulli precedente con qualche probabilità adeguata, che indica se lo studente è un imbroglione. Per ogni domanda c'è una variabile binaria , sempre con qualche Bernoulli adatto prima, che indica se la domanda è trapelata. Quindi c'è una serie di variabili binarie , che indica se lo studente risposto correttamente alla domanda . Se e , la distribuzione di è Bernoulli con probabilità 0,99. Altrimenti la distribuzione è . Questi sono le variabili osservate.l i a i j j i c j = 1 l i = 1 a i j l o g i t ( β i + q j ) a i j c j l icjlioun'iojjiocj=1lio=1un'iojlogiot(βio+qj)un'iojcj e sono nascosti e devono essere dedotti. Probabilmente puoi farlo campionando Gibbs. Ma potrebbero anche essere possibili altri approcci, forse qualcosa legato al ciclismo.lio


Ho letto la prima parte della tua risposta e penso che sia promettente. Due note rapide: questa è stata una scelta multipla, quindi le probabilità di indovinare correttamente sono del 25% o 20%. Hai ragione nel ritenere che un sottoinsieme di domande sia trapelato prima dell'esame. Torneremo su questo domenica o lunedì.
chiuso il

3

Se vuoi entrare in approcci più complessi, potresti esaminare i modelli di teoria della risposta degli oggetti. È quindi possibile modellare la difficoltà di ogni domanda. Gli studenti che hanno corretto gli articoli difficili mentre ne mancano di più facili, credo, avrebbero maggiori probabilità di barare rispetto a quelli che hanno fatto il contrario.

È passato più di un decennio da quando ho fatto questo genere di cose, ma penso che potrebbe essere promettente. Per maggiori dettagli, dai un'occhiata ai libri di psicometria


Di solito, i trucchi o le ipotesi possono essere incorporati direttamente in un IRM. Questo è essenzialmente ciò che un modello 3-PL intende fare, in quanto include un parametro per difficoltà , discriminazione e ipotesi che funge da asintoto inferiore per la probabilità di avallare un oggetto. Tuttavia, è stato dimostrato che non è realistico nella maggior parte delle situazioni, e sono state sviluppate altre statistiche dedicate alla persona (sia nei test educativi che nella valutazione psicologica). Meijer, ricerca Person-Fit: un'introduzione. APM (1996), 9: 3-8 ha una bella recensione sui modelli di risposta aberranti.
chl

@chl Grazie! Ho studiato queste cose alla scuola elementare, ma è stato tanto tempo fa - la mia ultima lezione è stata nel 1996 o giù di lì.
Peter Flom - Ripristina Monica

@chl Grazie per i tuoi suggerimenti. Il modello nella mia domanda è in realtà un modello di risposta dell'articolo (un modello Rasch o 1PL con parametro di discriminazione fisso). Penso che il suggerimento di guardare le persone con prestazioni aberranti sia un buon inizio, ma sto cercando un approccio che sfrutti le informazioni aggiuntive fornite dalla correlazione nelle risposte degli imbroglioni per gli elementi su cui vi sono stati imbrogli. Puoi immaginare che se usassimo la tua procedura per identificare gli imbroglioni, ad esempio, avrebbero funzionato bene su oggetti difficili simili.
chiuso il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.