È importante inquadrare correttamente la domanda e adottare un utile modello concettuale dei punteggi.
La domanda
Le potenziali soglie di frode, come 55, 65 e 85, sono note a priori indipendentemente dai dati: non devono essere determinate dai dati. (Pertanto non si tratta né di un problema di rilevamento anomalo né di un problema di adattamento della distribuzione.) Il test dovrebbe valutare l'evidenza che alcuni punteggi (non tutti) solo meno di queste soglie siano stati spostati su quelle soglie (o, forse, appena sopra quelle soglie).
Modello concettuale
Per il modello concettuale, è cruciale capire che è improbabile che i punteggi abbiano una distribuzione normale (né qualsiasi altra distribuzione facilmente parametrizzabile). Questo è abbondantemente chiaro nell'esempio pubblicato e in ogni altro esempio del rapporto originale. Questi punteggi rappresentano una miscela di scuole; anche se le distribuzioni all'interno di qualsiasi scuola erano normali (non lo sono), è improbabile che la miscela sia normale.
Un approccio semplice accetta l'esistenza di una vera distribuzione dei punteggi: quella che verrebbe segnalata ad eccezione di questa particolare forma di frode. È quindi un'impostazione non parametrica. Sembra troppo ampio, ma ci sono alcune caratteristiche della distribuzione del punteggio che possono essere anticipate o osservate nei dati reali:
I conteggi dei punteggi , i e i + 1 saranno strettamente correlati, 1 ≤ i ≤ 99 .i - 1ioi + 11 ≤ i ≤ 99
Ci saranno variazioni in questi conteggi attorno ad una versione liscia idealizzata della distribuzione dei punteggi. Queste variazioni avranno in genere dimensioni pari alla radice quadrata del conteggio.
La frode relativa a una soglia non influirà sui conteggi di alcun punteggio i ≥ t . Il suo effetto è proporzionale al conteggio di ciascun punteggio (il numero di studenti "a rischio" per essere colpiti da imbrogli). Per i punteggi i al di sotto di questa soglia, il conteggio c ( i ) verrà ridotto di una frazione δ ( t - i ) c ( i ) e questo importo verrà aggiunto a t ( i ) .ti ≥ tioc ( i )δ( t - i ) c ( i )t ( i )
La quantità di variazione diminuisce con la distanza tra un punteggio e la soglia: è una funzione decrescente di i = 1 , 2 , … .δ( i )i = 1 , 2 , ...
Data una soglia , l'ipotesi nulla (nessun imbroglio) è che δ ( 1 ) = 0 , implicando δ è identicamente 0 . L'alternativa è che δ ( 1 ) > 0 .tδ( 1 ) = 0δ0δ( 1 ) > 0
Costruire un test
Quale statistica test usare? Secondo questi presupposti, (a) l'effetto è additivo nei conteggi e (b) l'effetto maggiore si verificherà proprio attorno alla soglia. Ciò indica che si osservano le prime differenze dei conteggi, . Ulteriore considerazione suggerisce andare oltre: sotto l'ipotesi alternativa, ci aspettiamo di vedere una sequenza di conteggi gradualmente depresse come il punteggio i avvicina alla soglia t dal basso, allora (i) una grande variazione positiva t seguita da (ii) grande cambiamento negativo ac′(i)=c(i+1)−c(i)itt . Per massimizzare la potenza del test, quindi, diamo un'occhiata alleseconde differenze,t+1
c′′(i)=c′(i+1)−c′(i)=c(i+2)−2c(i+1)+c(i),
perché a questo combinerà un grande declino negativo con il negativo di un grande aumento positivo , aumentando in tal modo l'effetto barare .i=t−1c ( t ) - c ( t - 1 )c(t+1)−c(t)c(t)−c(t−1)
Ho intenzione di ipotizzare - e questo può essere verificato - che la correlazione seriale dei conteggi vicino alla soglia sia abbastanza piccola. (La correlazione seriale altrove è irrilevante.) Ciò implica che la varianza di è approssimativamentec′′(t−1)=c(t+1)−2c(t)+c(t−1)
var(c′′(t−1))≈var(c(t+1))+(−2)2var(c(t))+var(c(t−1)).
In precedenza avevo suggerito che per tutti (qualcosa che può anche essere verificato). da cuivar(c(i))≈c(i)i
z=c′′(t−1)/c(t+1)+4c(t)+c(t−1)−−−−−−−−−−−−−−−−−−−−√
dovrebbe avere approssimativamente una varianza unitaria. Per popolazioni di punteggi elevati (quella pubblicata sembra essere di circa 20.000), possiamo anche aspettarci una distribuzione approssimativamente normale di . Poiché ci aspettiamo che un valore altamente negativo indichi un modello di frode, otteniamo facilmente un test di dimensione : writing per il cdf della distribuzione normale standard, respingiamo l'ipotesi di non barare alla soglia quando .c′′(t−1)αΦtΦ(z)<α
Esempio
Ad esempio, considera questo insieme di punteggi di test reali , tratti da una combinazione di tre distribuzioni normali:
A questo ho applicato un programma di frode alla soglia definita da . Questo focalizza quasi tutti i trucchi su uno o due punteggi immediatamente inferiori a 65:t=65δ(i)=exp(−2i)
Per avere un'idea di cosa fa il test, ho calcolato per ogni punteggio, non solo , e lo ho tracciato rispetto al punteggio:zt
(In realtà, per evitare problemi con piccoli conteggi, per prima cosa ho aggiunto 1 a ogni conteggio da 0 a 100 per calcolare il denominatore di .)z
La fluttuazione vicino a 65 è evidente, così come la tendenza per tutte le altre fluttuazioni ad avere una dimensione di circa 1, in linea con le ipotesi di questo test. La statistica del test è con un corrispondente valore p di , un risultato estremamente significativo. Il confronto visivo con la figura nella domanda stessa suggerisce che questo test restituirebbe un valore p almeno altrettanto piccolo.z=−4.19Φ(z)=0.0000136
(Si noti, tuttavia, che il test stesso non utilizza questa trama, che viene mostrato per illustrare le idee. Il test esamina solo il valore tracciato sulla soglia, da nessun'altra parte. Sarebbe comunque buona prassi creare una trama simile per confermare che la statistica del test individua davvero le soglie previste come loci di imbrogli e che tutti gli altri punteggi non sono soggetti a tali cambiamenti. Qui vediamo che in tutti gli altri punteggi c'è una fluttuazione tra circa -2 e 2, ma raramente maggiore. Si noti inoltre che non è necessario calcolare effettivamente la deviazione standard dei valori in questo diagramma per calcolare , evitando così problemi associati agli effetti di imbroglione che gonfiano le fluttuazioni in più posizioni.)z
Quando si applica questo test a più soglie, sarebbe saggio un adeguamento di Bonferroni delle dimensioni del test. Un'ulteriore regolazione se applicata a più test contemporaneamente sarebbe anche una buona idea.
Valutazione
Questa procedura non può essere seriamente proposta per l'uso fino a quando non viene testata su dati reali. Un buon modo sarebbe quello di prendere i punteggi per un test e utilizzare un punteggio non critico per il test come soglia. Presumibilmente tale soglia non è stata soggetta a questa forma di frode. Simula il tradimento secondo questo modello concettuale e studia la distribuzione simulata di . Questo indicherà (a) se i valori p sono accurati e (b) la potenza del test per indicare la forma simulata di imbrogli. In effetti, si potrebbe impiegare uno studio di simulazione simile sui dati che si stanno valutando, fornendo un modo estremamente efficace di testare se il test è appropriato e quale sia la sua potenza effettiva. Perché la statistica testzzz è così semplice, le simulazioni saranno praticabili da eseguire e veloci da eseguire.