Come determinare in modo equo i vincitori di una fiera scientifica regionale?

Ho bisogno di aiuto per capire il modo corretto di calcolare i vincitori alla nostra fiera della scienza. Non voglio che la mia ignoranza delle statistiche e della matematica ostacoli le possibilità di vittoria di un bambino. (un sacco di borse di studio e benefici di avanzamento in gioco). Grazie in anticipo per il vostro aiuto.

Prima di tutto un po 'di come abbiamo impostato le cose:

La nostra fiera ha in genere circa 600 progetti studenteschi. Questi progetti sono completati e presentati da singoli studenti o da un gruppo di studenti. Una squadra può essere composta da 2 o 3 bambini.

Gli studenti sono divisi in due divisioni: elementare (classi 6-8) e secondaria (classi 9-12). Ogni divisione ha categorie diverse: 9 categorie per i progetti elementari e 17 categorie per i progetti della divisione secondaria.

I premi vengono assegnati per il primo, secondo e terzo posto per ogni categoria in ogni divisione. I premi menzione d'onore vengono assegnati anche per posizionamenti oltre il terzo posto.

Per ogni progetto, assegniamo da 4 a 6 giudici. Facciamo i nostri incarichi in base alle qualifiche dei giudici, alle loro preferenze di categoria e alla loro esperienza di valutazione passata. (più esperti sono assegnati ai progetti della divisione senior).

Come i giudici valutano un progetto:

Per ogni progetto ci sono 5 criteri a cui sono assegnati punti. Ogni criterio può essere assegnato tra 1 e 20 punti. I criteri generali sono:

Obiettivo generale + ipotesi + uso delle risorse ( 1..20 )
Progettazione + procedure ( 1..20 )
Raccolta dati + risultati ( 1..20 )
Discussione + conclusione ( 1..20 )
Intervista ( 1..20 )

Per i progetti di squadra viene valutato un sesto criterio chiamato "detrazione di squadra", in cui un giudice può detrarre punti ( fino a 15 ) per i compagni di squadra che non hanno partecipato o non si sono presentati.

Detrazione di squadra ( 0 ..- 15 )

Quindi un giudice può segnare ogni progetto tra 5 e 100 punti. Se il progetto è un progetto di gruppo, il punteggio può essere ridotto di 15 punti.

Dati non elaborati:

Nel giro di poche ore raccogliamo fino a 3.600 punteggi dai giudici. Questi punteggi vengono inseriti in un database in cui posso eseguire tutti i tipi di ordinamento, calcolo della media, calcoli della deviazione standard, ecc. Non so esattamente cosa dovrei fare con questi punteggi grezzi. In questo momento, sto facendo una media semplice per ogni progetto, ma temo di non adeguarmi a parzialità dei giudici, detrazioni di squadra o qualsiasi altro numero di cose che non sto prendendo in considerazione.

Risultato desiderato:

Alla fine, vorrei elaborare i punteggi in modo da poter assegnare i progetti di primo, secondo e terzo posto per ogni categoria, e quindi i premi menzione d'onore per i posti successivi. Mi piacerebbe avere la certezza che le posizioni sono state calcolate correttamente e che i bambini che vincono meritano il riconoscimento (e i premi).

Grazie mille per aver letto la mia lunga domanda e per il vostro aiuto per capirlo. Sarò felice di rispondere a qualsiasi domanda di follow-up che potresti avere.

data-transformation standard-deviation rating

— Mike Davie
fonte

Domanda interessante e difficile e hai messo il dito su alcune delle questioni chiave. Quanti giudici in totale, quindi quanti progetti giudicherebbe ogni giudice? (un'idea della gamma e della media sarebbe buona). Inoltre, le 26 categorie si escludono a vicenda? Ho la sensazione che la risposta migliore potrebbe essere solo quella di fare la media per ogni progetto, ma potrebbe essere possibile adattarsi ai giudici. Leggerò le risposte con interesse!

— Peter Ellis,

Grazie per il tuo interesse iniziale. Ho aggiunto ulteriori informazioni alla risposta di seguito. Se hai qualche idea, apprezzerei il tuo aiuto.

— Mike Davie,

Penso che la "risposta" sia forse un'etichetta troppo generosa per i miei pensieri qui. Adoro l'analisi dei dati esplorativi e sono un grande fan di boxplot, quindi si rifletterà nei miei commenti ..

Ciao, sono molti i punteggi. :) Sembra che tu abbia almeno 78 progetti su 600 che entrano nella top 3 ( [9+17]x3) più le menzioni d'onore. Normalmente direi di campionare dall'alto e dal centro di ogni categoria per condurre un controllo del punteggio, ma sarebbe molto oneroso nel tuo caso a causa dei numeri che hai - ed è solo tu a finalizzare il punteggio. :)

Spero che tu possa avere un pacchetto di statistiche a tua disposizione, poiché ho alcuni suggerimenti che potresti utilizzare di seguito.

Hai esaminato la diffusione dei punteggi all'interno di ciascuna categoria? I primi 3, 5 o 8 progetti sono molto vicini per i punteggi? Ciò suggerirebbe che la qualità dei progetti è molto simile e indipendentemente da ciò che fai, probabilmente ci sarà almeno una percezione di arbitrarietà attorno ai punteggi finali.

Non sono sicuro del numero di progetti assegnati a ciascun giudice. Supponendo che ottengano un numero ragionevole (diciamo> 10, anche se maggiore è il migliore qui), per ogni giudice potresti calcolare l'intervallo mediano e interquartile per il punteggio totale assegnato a ciascun progetto che valutano (hai così tanti attributi, probabilmente non lo è vale la pena guardarli singolarmente). Qualche giudice sembra dare punteggi particolarmente alti o punteggi particolarmente bassi? I giudici sembrano segnare un punteggio coerente nel mezzo in modo che stiano dando forse 10s, questo può essere mostrato da un intervallo interquartile relativamente piccolo e da un punteggio totale mediano intorno al centro dell'intervallo di valori possibili.

Per i progetti del team, è possibile confrontare la loro posizione sulla base dei punteggi totali e la loro posizione una volta applicata la detrazione della squadra. Le detrazioni delle squadre riguardano le squadre che altrimenti sarebbero tra le prime 3?

Questi sono solo suggerimenti per iniziare. Penso che visualizzare i dati lungo queste linee ti darebbe dei buoni indicatori se i posizionamenti sembrano giusti.

Aggiornamento: questo è un problema interessante che hai. Sembra che ogni singolo giudice non valuti abbastanza progetti per noi per essere in grado di elaborare un fattore di ponderazione per ogni giudice (per tenere conto della parzialità del giudice), perché non abbiamo abbastanza dati per essere in grado di misurare -affidabilità dei giudici, non c'è abbastanza sovrapposizione per i giudici che valutano gli stessi progetti per farlo. Hai esaminato la gamma dei punteggi per i primi pochi progetti - c'erano chiare differenze tra loro e progetti con punteggio più basso (confini naturali?), Quanto erano vicini i punteggi dei progetti migliori?

Per curiosità, ai giudici sono stati dati criteri di punteggio, quindi avevano poca flessibilità su come assegnare punteggi su ciascun criterio (ad es. Dare 1 punto per fornire un'ipotesi nulla, dare 1 punto per fornire una o più ipotesi alternative ...) o sapevano solo il numero totale di punti che potevano assegnare e il resto era lasciato a loro? Se avessero una guida ai punteggi, sarei più sicuro che i punteggi fossero ragionevolmente precisi.

— Michelle
fonte

Anch'io sarei curioso di conoscere la diffusione dei punteggi - ci sono chiaramente alcuni "punteggi migliori", oppure c'è un gruppo e chi ne esce in cima è un po '... opaco in termini di processo. Come il processo di ammissione all'università, questi bambini vivranno più tardi :)

— Fomite

Grazie Michelle per i tuoi pensieri. Apprezzo molto il tuo tempo. Per rispondere alle tue domande, i giudici giudicano solo un numero limitato di progetti. Abbiamo un minimo per ogni divisione: 4 volte per elementare e 5 o 6 volte per secondario (5 volte per ragazzi delle superiori e 6 volte per anziani).

— Mike Davie,

Devo chiarire quanto sopra. I punteggi minimi sono per progetto, non quante volte i giudici segneranno i progetti durante la fiera. Un giudice tipico giudicherà ovunque tra 8 e 15 progetti durante la fiera. Tale numero dipende dalla disponibilità dei giudici, dalle loro qualifiche, dalla volontà di aiutare, ecc.

— Mike Davie,

Buona risposta Michelle. Alcune idee da me: 1) Dare sicuramente ai giudici una sorta di rubrica per cercare di incoraggiare standard comuni; 2) se possibile, cerca di avere lo stesso numero di giudici per progetto (altrimenti i progetti con meno giudici avranno una varianza più alta e quindi maggiori possibilità di arrivare in cima - o in fondo) e 3) penso che dovrai usa solo una media, ma se avessi l'esperienza e il software potresti adattare un modello di effetti misti con jud come effetto casuale e vedere se questo cambia il risultato. E se lo facesse? Probabilmente usa ancora la media ....

— Peter Ellis

Grazie ancora per il contributo di tutti. Dopo avermi lasciato andare per un po 'in testa, ho deciso di cercare di vedere come i progetti vengono assegnati a livello internazionale (un gradino sopra la nostra fiera). La fiera internazionale si chiama ISEF. Inviamo i nostri primi 5 studenti all'ISEF ogni anno.

— Mike Davie,