DOMANDA:
Ho dati binari su domande d'esame (corretto / errato). Alcune persone potrebbero aver avuto accesso preliminare a un sottoinsieme di domande e alle loro risposte corrette. Non so chi, quanti o quali. Se non ci fossero imbrogli, supponiamo che modellerei la probabilità di una risposta corretta per l'elemento come , dove rappresenta la difficoltà della domanda e è l'abilità latente dell'individuo. Questo è un modello di risposta degli oggetti molto semplice che può essere stimato con funzioni come ltm's rasch () in R. Oltre alle stime (dove indicizza gli individui) della variabile latente, ho accesso a stime separatel o g i t ( ( p i = 1 | z ) ) = β i + z β i z z j j q j della stessa variabile latente derivata da un altro set di dati in cui non era possibile imbrogliare.
L'obiettivo è identificare le persone che probabilmente hanno imbrogliato e gli oggetti su cui hanno tradito. Quali sono alcuni approcci che potresti adottare? Oltre ai dati non , , e sono tutti disponibili, anche se i primi due avranno qualche pregiudizio a causa di imbrogli. Idealmente, la soluzione dovrebbe presentarsi sotto forma di cluster / classificazione probabilistica, sebbene ciò non sia necessario. Le idee pratiche sono molto apprezzate così come gli approcci formali. z j q j
Finora, ho confrontato la correlazione dei punteggi delle domande per coppie di individui con punteggi più alti o più bassi (dove è un indice approssimativo della probabilità che abbiano imbrogliato). Ad esempio, ho ordinato gli individui per e poi tracciato la correlazione delle coppie successive di punteggi delle domande degli individui. Ho anche provato a tracciare la correlazione media dei punteggi per gli individui i cui valori erano maggiori del quantile di , in funzione di . Nessun modello ovvio per nessuno dei due approcci. q j - Z j q j - Z j q j - Z jnth q j - Z jn
AGGIORNARE:
Ho finito per unire le idee di @SheldonCooper e l'utile documento di Freakonomics che @whuber mi ha indicato. Altre idee / commenti / critiche sono benvenute.
Lascia che sia il punteggio binario della persona alla domanda . Stimare il modello di risposta dell'oggetto dove è il parametro di facilità e è una variabile di abilità latente. (Un modello più complicato può essere sostituito; I sto usando un 2PL nella mia applicazione. Come ho già detto nel mio post originale, ho delle stime della variabile abilità da un set di dati separato (elementi diversi, stesse persone) su quale imbroglio non era possibile. In particolare, sono stime empiriche di Bayes dello stesso modello di risposta degli oggetti di cui sopra. j i l o g i t ( P r ( X i j = 1 | z j ) = β i + z j , β i z j ^ q j { y i j } ^ q j
La probabilità del punteggio osservato , in base alla facilità dell'oggetto e all'abilità della persona, può essere scritta dove è la probabilità prevista di una risposta corretta e è il logit inverso. Quindi, in base alle caratteristiche dell'oggetto e della persona, la probabilità congiunta che la persona abbia le osservazioni è e allo stesso modo, la probabilità congiunta che l'articolo abbia le osservazioni p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q j ) ) 1 - xPij( ^ β i , ^ q j )=ilogit( ^ β i + ^ q j )ilogitjxjpj= ∏ ipij,ixipi= ∏ jpij.
Un ulteriore passaggio che ho provato è di prendere il r% delle persone meno probabili (cioè le persone con il r% più basso di valori p_j ordinati), calcolare la distanza media tra i loro punteggi osservati x_j (che dovrebbe essere correlato per le persone con r basso, che sono possibili imbroglioni), e traccialo per r = 0,001, 0,002, ..., 1.000. La distanza media aumenta per r = da 0,001 a r = 0,025, raggiunge un massimo, quindi diminuisce lentamente al minimo a r = 1. Non esattamente quello che speravo.