In che modo i risultati della formula della profezia di Spearman-Brown sono influenzati dall'avere domande di prova su difficoltà diverse o su coloro che valutano i voti in modo facile o difficile. Un testo rispettato afferma che l'OdV è interessato, ma non fornisce dettagli. (Vedi citazione sotto.)
Guion, R. M (2011). Valutazione, misurazione e previsione per le decisioni del personale, 2a edizione. Pg 477
"L'affidabilità può essere aumentata mettendo in comune i rater, usando l'equazione di Spearman-Brown. ... Se l'affidabilità di una valutazione singola è di .50, l'affidabilità di due, quattro o sei valutazioni parallele sarà di circa .67, .80 e .86, rispettivamente "(Houston, Raymond e Svec, 1991, p. 409). Mi piace questa citazione perché la parola riconosce approssimativamente che le stime statistiche sono dichiarazioni "in media" di ciò che ci si potrebbe aspettare se tutto va come previsto. Oltre a ciò, la parola chiave è parallela. Classificazioni medie (o utilizzo di Spearman-Brown) se un valutatore è, ad esempio, sistematicamente indulgente, semplicemente non si adatta al presupposto. Se i saggi sono classificati ciascuno da due valutatori, uno più indulgente dell'altro, il problema è simile a quello di utilizzare due test a scelta multipla di diseguaglianza (forme non parallele). I punteggi basati su moduli di test diversi (non equivalenti) non sono comparabili. Lo stesso vale per la miscelazione di rater indulgenti e difficili; l'affidabilità delle valutazioni aggregate è erroneamente stimata dall'equazione di Spearman-Brown della teoria dei test classici. Le cose peggiorano se ogni giudice definisce un costrutto in modo leggermente diverso. "