Come testare formalmente una "rottura" in una distribuzione normale (o altra)


10

Spesso nelle scienze sociali emerge che le variabili che dovrebbero essere distribuite in qualche modo, diciamo normalmente, finiscono per avere una discontinuità nella loro distribuzione attorno ad alcuni punti.

Ad esempio, se ci sono tagli specifici come "superamento / fallimento" e se queste misure sono soggette a distorsione, a quel punto potrebbe esserci una discontinuità.

Un esempio di spicco (citato di seguito) è che i punteggi dei test standardizzati degli studenti sono normalmente distribuiti praticamente ovunque tranne che al 60% dove c'è una massa molto ridotta dal 50-60% e una massa eccessiva intorno al 60-65%. Ciò si verifica nei casi in cui gli insegnanti valutano gli esami degli studenti. Gli autori indagano se gli insegnanti stanno davvero aiutando gli studenti a superare gli esami.

Le prove più convincenti provengono senza dubbio dalla rappresentazione dei grafici di una curva a campana con una grande discontinuità attorno a diversi valori di cutoff per diversi test. Tuttavia, come faresti per sviluppare un test statistico? Hanno provato l'interpolazione e poi confrontando la frazione sopra o sotto e anche un t-test sulla frazione 5 punti sopra e sotto il cutoff. Sebbene sensibili, sono ad-hoc. Qualcuno può pensare a qualcosa di meglio?

Link: Regole e discrezione nella valutazione di studenti e scuole: il caso degli esami sui reggenti di New York http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

La distribuzione dei punteggi dei test, quelli manipolabili in nero, nota il forte calo di densità sotto il cutoff e il corrispondente aumento sopra


Solo per chiarire: stai testando una mancanza generica, ad esempio, di Normalità o la presenza di una discontinuità in un punto prestabilito? Il tuo esempio è di quest'ultimo, ma ovviamente qualsiasi test di bontà di adattamento, ad esempio Anderson-Darling o Shapiro-Wilk per la normalità, servirà, sebbene con un'alternativa altamente specifica potresti costruire test più potenti. Inoltre, nel tuo grafico sopra hai evidentemente un campione di migliaia; anche questo sarebbe tipico?
jbowman,

Risposte:


6

È importante inquadrare correttamente la domanda e adottare un utile modello concettuale dei punteggi.

La domanda

Le potenziali soglie di frode, come 55, 65 e 85, sono note a priori indipendentemente dai dati: non devono essere determinate dai dati. (Pertanto non si tratta né di un problema di rilevamento anomalo né di un problema di adattamento della distribuzione.) Il test dovrebbe valutare l'evidenza che alcuni punteggi (non tutti) solo meno di queste soglie siano stati spostati su quelle soglie (o, forse, appena sopra quelle soglie).

Modello concettuale

Per il modello concettuale, è cruciale capire che è improbabile che i punteggi abbiano una distribuzione normale (né qualsiasi altra distribuzione facilmente parametrizzabile). Questo è abbondantemente chiaro nell'esempio pubblicato e in ogni altro esempio del rapporto originale. Questi punteggi rappresentano una miscela di scuole; anche se le distribuzioni all'interno di qualsiasi scuola erano normali (non lo sono), è improbabile che la miscela sia normale.

Un approccio semplice accetta l'esistenza di una vera distribuzione dei punteggi: quella che verrebbe segnalata ad eccezione di questa particolare forma di frode. È quindi un'impostazione non parametrica. Sembra troppo ampio, ma ci sono alcune caratteristiche della distribuzione del punteggio che possono essere anticipate o osservate nei dati reali:

  1. I conteggi dei punteggi , i e i + 1 saranno strettamente correlati, 1 i 99 .i1ii+11i99

  2. Ci saranno variazioni in questi conteggi attorno ad una versione liscia idealizzata della distribuzione dei punteggi. Queste variazioni avranno in genere dimensioni pari alla radice quadrata del conteggio.

  3. La frode relativa a una soglia non influirà sui conteggi di alcun punteggio i t . Il suo effetto è proporzionale al conteggio di ciascun punteggio (il numero di studenti "a rischio" per essere colpiti da imbrogli). Per i punteggi i al di sotto di questa soglia, il conteggio c ( i ) verrà ridotto di una frazione δ ( t - i ) c ( i ) e questo importo verrà aggiunto a t ( i ) .titic(i)δ(ti)c(i)t(i)

  4. La quantità di variazione diminuisce con la distanza tra un punteggio e la soglia: è una funzione decrescente di i = 1 , 2 , .δ(i)i=1,2,

Data una soglia , l'ipotesi nulla (nessun imbroglio) è che δ ( 1 ) = 0 , implicando δ è identicamente 0 . L'alternativa è che δ ( 1 ) > 0 .tδ(1)=0δ0δ(1)>0

Costruire un test

Quale statistica test usare? Secondo questi presupposti, (a) l'effetto è additivo nei conteggi e (b) l'effetto maggiore si verificherà proprio attorno alla soglia. Ciò indica che si osservano le prime differenze dei conteggi, . Ulteriore considerazione suggerisce andare oltre: sotto l'ipotesi alternativa, ci aspettiamo di vedere una sequenza di conteggi gradualmente depresse come il punteggio i avvicina alla soglia t dal basso, allora (i) una grande variazione positiva t seguita da (ii) grande cambiamento negativo ac(i)=c(i+1)c(i)itt . Per massimizzare la potenza del test, quindi, diamo un'occhiata alleseconde differenze,t+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

perché a questo combinerà un grande declino negativo con il negativo di un grande aumento positivo , aumentando in tal modo l'effetto barare .i=t1c ( t ) - c ( t - 1 )c(t+1)c(t)c(t)c(t1)

Ho intenzione di ipotizzare - e questo può essere verificato - che la correlazione seriale dei conteggi vicino alla soglia sia abbastanza piccola. (La correlazione seriale altrove è irrilevante.) Ciò implica che la varianza di è approssimativamentec(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

In precedenza avevo suggerito che per tutti (qualcosa che può anche essere verificato). da cuivar(c(i))c(i)i

z=c(t1)/c(t+1)+4c(t)+c(t1)

dovrebbe avere approssimativamente una varianza unitaria. Per popolazioni di punteggi elevati (quella pubblicata sembra essere di circa 20.000), possiamo anche aspettarci una distribuzione approssimativamente normale di . Poiché ci aspettiamo che un valore altamente negativo indichi un modello di frode, otteniamo facilmente un test di dimensione : writing per il cdf della distribuzione normale standard, respingiamo l'ipotesi di non barare alla soglia quando .c(t1)αΦtΦ(z)<α

Esempio

Ad esempio, considera questo insieme di punteggi di test reali , tratti da una combinazione di tre distribuzioni normali:

Istogramma dei punteggi reali

A questo ho applicato un programma di frode alla soglia definita da . Questo focalizza quasi tutti i trucchi su uno o due punteggi immediatamente inferiori a 65:t=65δ(i)=exp(2i)

Istogramma dei punteggi dopo aver imbrogliato

Per avere un'idea di cosa fa il test, ho calcolato per ogni punteggio, non solo , e lo ho tracciato rispetto al punteggio:zt

Trama di Z

(In realtà, per evitare problemi con piccoli conteggi, per prima cosa ho aggiunto 1 a ogni conteggio da 0 a 100 per calcolare il denominatore di .)z

La fluttuazione vicino a 65 è evidente, così come la tendenza per tutte le altre fluttuazioni ad avere una dimensione di circa 1, in linea con le ipotesi di questo test. La statistica del test è con un corrispondente valore p di , un risultato estremamente significativo. Il confronto visivo con la figura nella domanda stessa suggerisce che questo test restituirebbe un valore p almeno altrettanto piccolo.z=4.19Φ(z)=0.0000136

(Si noti, tuttavia, che il test stesso non utilizza questa trama, che viene mostrato per illustrare le idee. Il test esamina solo il valore tracciato sulla soglia, da nessun'altra parte. Sarebbe comunque buona prassi creare una trama simile per confermare che la statistica del test individua davvero le soglie previste come loci di imbrogli e che tutti gli altri punteggi non sono soggetti a tali cambiamenti. Qui vediamo che in tutti gli altri punteggi c'è una fluttuazione tra circa -2 e 2, ma raramente maggiore. Si noti inoltre che non è necessario calcolare effettivamente la deviazione standard dei valori in questo diagramma per calcolare , evitando così problemi associati agli effetti di imbroglione che gonfiano le fluttuazioni in più posizioni.)z

Quando si applica questo test a più soglie, sarebbe saggio un adeguamento di Bonferroni delle dimensioni del test. Un'ulteriore regolazione se applicata a più test contemporaneamente sarebbe anche una buona idea.

Valutazione

Questa procedura non può essere seriamente proposta per l'uso fino a quando non viene testata su dati reali. Un buon modo sarebbe quello di prendere i punteggi per un test e utilizzare un punteggio non critico per il test come soglia. Presumibilmente tale soglia non è stata soggetta a questa forma di frode. Simula il tradimento secondo questo modello concettuale e studia la distribuzione simulata di . Questo indicherà (a) se i valori p sono accurati e (b) la potenza del test per indicare la forma simulata di imbrogli. In effetti, si potrebbe impiegare uno studio di simulazione simile sui dati che si stanno valutando, fornendo un modo estremamente efficace di testare se il test è appropriato e quale sia la sua potenza effettiva. Perché la statistica testzzz è così semplice, le simulazioni saranno praticabili da eseguire e veloci da eseguire.


Questo test deve essere leggermente modificato perché l'aspettativa di è (approssimativamente) proporzionale alla seconda derivata della distribuzione. Nell'esempio, dove la soglia è vicina a una modalità, quella seconda derivata è vicina allo zero, quindi non c'è problema, ma per una soglia in un'area ad alta curvatura (circa 70 o 90 nei dati simulati) la regolazione potrebbe essere significativa. Se ne avrò la possibilità, modificherò di conseguenza questa risposta. z
whuber

1

Suggerisco di adattare un modello che prevede esplicitamente i cali e quindi di mostrare che si adatta significativamente meglio ai dati rispetto a uno ingenuo.

Sono necessari due componenti:

  • distribuzione iniziale dei punteggi,
  • procedura di ricontrollo (onesto o no) dei punteggi quando si rientra al di sotto di una soglia.

Un possibile modello per una singola soglia (di valore ) è il seguente: dovet

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
  • pfinal(s) - la distribuzione di probabilità del punteggio finale,
  • pinitial(s) - la distribuzione di probabilità se non c'erano soglie,
  • m(st) - la probabilità del punteggio di manipolazione nel passare il punteggio ,st
  • δ(s=t) è il delta di Kronecker, ovvero 1 se e 0 altrimenti.s=t

In genere non è possibile aumentare molto i punteggi. Sospetterei il decadimento esponenziale , dove è la proporzione di punteggi ricontrollati (manipolati).m(st)aqtsa

Come distribuzione iniziale puoi provare a usare la distribuzione di Poisson o Gaussiana. Naturalmente sarebbe idealmente avere lo stesso test, ma per un gruppo di insegnanti fornire soglie e per l'altro - nessuna soglia.

Se ci sono più soglie, allora si può applicare la stessa formula ma con correzioni per ogni . Forse anche sarebbe diverso (ad esempio, poiché la differenza tra fail-pass può essere più importante di quella tra due voti che superano).a itiai

Appunti:

  • A volte ci sono procedure di ricontrollo dei test se ci sono appena sotto il voto di passaggio. Quindi è più difficile dire quali esempi siano stati onesti e quali no.
  • sm(st) dipenderà sicuramente dal tipo di test. Ad esempio, se ci sono domande aperte, alcune risposte potrebbero essere ambigue e il numero di esse dipende da (quindi per un punteggio basso può essere più facile aumentare il punteggio). Considerando che per il test a scelta chiusa non ci dovrebbe essere poca o nessuna differenza sul numero di risposte corrette e non corrette.s
  • A volte i punteggi "corretti" possono essere al di sopra di - invece di idealizzati si possono inserire valori differenti.δ ( s = t )tδ(s=t)

Non sono sicuro che risponda alla mia domanda esatta. In questo caso, non abbiamo la possibilità di ricontrollare eventuali esami. Tutto ciò che si osserva è una distribuzione dei punteggi finali. La distribuzione è per lo più normale. Ad eccezione di un certo punto limite in cui sospettiamo una manipolazione, vi è un'interruzione nella curva normale. Se il valore nullo è che la curva sarebbe "liscia" a quel punto, come possiamo testarla contro un'ipotesi alternativa in cui è "irregolare"
d_a_c321

X2pfinalX2s=099|p(s+1)p(s)|2) può essere interessante, ma è importante verificare le ipotesi sottostanti e così via (ad es. per i test con molte domande per 2 punti potrebbe esserci un frastuono "iniziale" piuttosto elevato). Se si ha accesso ai dati grezzi (cioè tutte le risposte, non solo i punteggi totali), c'è ancora più spazio per i test ...
Piotr Migdal

1

Dividerei questo problema in due sottoproblemi:

  • Stimare i parametri di una distribuzione per adattarli ai dati
  • Eseguire il rilevamento anomalo utilizzando la distribuzione adattata

Esistono vari modi per affrontare entrambi i sottoproblemi.

Mi sembra che una distribuzione di Poisson si adatterebbe ai dati, se fossero distribuiti in modo indipendente e identico (iid) , cosa che ovviamente pensiamo non lo sia. Se proviamo ingenuamente a stimare i parametri della distribuzione saremo distorti dagli outlier. Due possibili modi per ovviare a questo sono utilizzare tecniche di regressione robusta o un metodo euristico come la convalida incrociata.

Per il rilevamento anomalo ci sono ancora numerosi approcci. Il più semplice è usare gli intervalli di confidenza dalla distribuzione che abbiamo inserito nella fase 1. Altri metodi includono metodi bootstrap e approcci Monte-Carlo.

Anche se questo non ti dirà che c'è un "salto" nella distribuzione, ti dirà se ci sono più valori anomali del previsto per la dimensione del campione.

Un approccio più complesso sarebbe quello di costruire vari modelli per i dati, come le distribuzioni composte, e utilizzare un qualche tipo di metodo di confronto dei modelli (AIC / BIC) per determinare quale dei modelli è più adatto ai dati. Tuttavia, se stai semplicemente cercando "deviazione da una distribuzione prevista", questo sembra eccessivo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.