In che modo la formula della profezia di Spearman-Brown è influenzata da domande di difficoltà diverse?


10

In che modo i risultati della formula della profezia di Spearman-Brown sono influenzati dall'avere domande di prova su difficoltà diverse o su coloro che valutano i voti in modo facile o difficile. Un testo rispettato afferma che l'OdV è interessato, ma non fornisce dettagli. (Vedi citazione sotto.)

Guion, R. M (2011). Valutazione, misurazione e previsione per le decisioni del personale, 2a edizione. Pg 477

"L'affidabilità può essere aumentata mettendo in comune i rater, usando l'equazione di Spearman-Brown. ... Se l'affidabilità di una valutazione singola è di .50, l'affidabilità di due, quattro o sei valutazioni parallele sarà di circa .67, .80 e .86, rispettivamente "(Houston, Raymond e Svec, 1991, p. 409). Mi piace questa citazione perché la parola riconosce approssimativamente che le stime statistiche sono dichiarazioni "in media" di ciò che ci si potrebbe aspettare se tutto va come previsto. Oltre a ciò, la parola chiave è parallela. Classificazioni medie (o utilizzo di Spearman-Brown) se un valutatore è, ad esempio, sistematicamente indulgente, semplicemente non si adatta al presupposto. Se i saggi sono classificati ciascuno da due valutatori, uno più indulgente dell'altro, il problema è simile a quello di utilizzare due test a scelta multipla di diseguaglianza (forme non parallele). I punteggi basati su moduli di test diversi (non equivalenti) non sono comparabili. Lo stesso vale per la miscelazione di rater indulgenti e difficili; l'affidabilità delle valutazioni aggregate è erroneamente stimata dall'equazione di Spearman-Brown della teoria dei test classici. Le cose peggiorano se ogni giudice definisce un costrutto in modo leggermente diverso. "


1
Penso che il problema con la ricerca di una fonte credibile sia che la risposta proviene dalla teoria dei test, ed è abbastanza ovvio se capisci la teoria di base, e in particolare i limiti della nostra capacità di valutare l'affidabilità. Ecco perché Guion non si preoccupa di spiegarlo. Ma buona fortuna nella tua ricerca comunque - forse qualcuno, da qualche parte conosce una spiegazione migliore.
Jeremy Miles,

Risposte:


10

Anche se mi sento un po 'imbarazzato a contraddire sia un "testo rispettato" che un altro utente CV, mi sembra che la formula di Spearman-Brown non sia influenzata da elementi di diversa difficoltà. A dire il vero, la formula di Spearman-Brown è di solito derivata dal presupposto che abbiamo oggetti paralleli , il che implica (tra le altre cose) che gli oggetti hanno pari difficoltà. Ma risulta che questo presupposto non è necessario; può essere rilassato per consentire disparità di difficoltà e la formula di Spearman-Brown rimarrà valida. Lo dimostrerò di seguito.


XTE

X=T+E,
TEXX
T=Tvar(E)=var(E).
T=T+cvar(E)=var(E).
c>0XXXX

kρ=σT2/(σT2+σE2)σT2σE2

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,

@JeremyMiles solleva alcuni punti interessanti e importanti su cosa può accadere quando aumentiamo la lunghezza del test "nel mondo reale", ma almeno secondo i presupposti idealizzati della teoria dei test classici, le variazioni nella difficoltà degli oggetti non contano per l'affidabilità di un modulo di prova (in netto contrasto con le ipotesi della moderna teoria della risposta agli oggetti!). Questa stessa linea di ragionamento di base è anche il motivo per cui di solito parliamo dell'equivalenza tau essenziale piuttosto che dell'equivalenza tau, poiché la maggior parte dei risultati importanti valgono per il caso più indulgente in cui le difficoltà dell'oggetto (cioè i mezzi) possono differire.


2
Sì, buon punto. Ciò che ho scritto non è necessariamente valido.
Jeremy Miles,

5

Non è facile da dire.

In primo luogo, lo Spearman-Brown presume che gli oggetti di test (o i rater) siano campionati casualmente da una popolazione di oggetti di test (o raters). Questo non è mai vero, in particolare per i test, perché creare più oggetti è difficile ed è probabile che utilizzerai gli articoli migliori per iniziare, quindi scoprirai che il test deve essere più lungo, quindi 'raschiare la canna' per gli oggetti.

In secondo luogo, gli articoli variano nella loro affidabilità e l'affidabilità non è necessariamente correlata alla difficoltà (se aiuta, pensa alla pendenza e all'intercetta della curva caratteristica dell'oggetto nella teoria della risposta dell'oggetto). Tuttavia, il calcolo dell'affidabilità (diciamo l'alfa di Cronbach, che è una forma di correlazione all'interno della classe) presuppone che le affidabilità siano tutte uguali (assumono un modello di misurazione essenziale equivalente a tau - cioè che le affidabilità non standardizzate di ogni articolo sono tutte pari). Questo è quasi certamente sbagliato. L'aggiunta di elementi potrebbe aumentare, potrebbe diminuire. Dipende dagli articoli.

Ecco un altro modo di pensarci. Seleziono casualmente un campione da una popolazione e calcolo la media e l'errore standard della media. Tale media sarà uno stimatore imparziale della media della popolazione. Quindi aumento la dimensione del mio campione - il valore atteso della media è lo stesso, ma è improbabile che sarà effettivamente lo stesso - quasi certamente salirà o scenderà. Proprio come mi aspetto che l'errore standard si riduca, ma la quantità che si restringe non sarà coerente (e non è impossibile che l'errore standard si ingrandisca).


La formula SB fornisce il valore minimo, massimo o intermedio per l'affidabilità prevista? Inoltre, poiché le affidabilità sono calcolate in termini di correlazioni, perché gli oggetti facili / duri o i raters hanno qualche effetto?
Joel W.

La formula SB offre l'affidabilità prevista. Potrebbe essere superiore o inferiore. Un problema è che esiste più di un modo per calcolare l'affidabilità e le ipotesi che fanno sono raramente soddisfatte. Il tutto è in qualche modo radicato nella teoria dei test classici: la teoria della risposta degli oggetti è un modo più moderno di pensare alla misurazione e ha più senso molto tempo, ad esempio l'affidabilità di un test non è la stessa per ogni persona in IRT.
Jeremy Miles

Se una domanda è molto difficile o molto semplice, potrebbe influire sulla correlazione. Ad esempio "7 * 11" potrebbe essere una domanda affidabile per il 3 ° grado, ma per gli studenti di matematica non lo è.
Jeremy Miles

1
<il test deve essere più lungo, quindi "rascherai la canna" per gli oggetti. Chiaramente hai avuto esperienza nel mondo reale mettendo insieme i test.
Joel W.,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.