Equazioni nelle notizie: tradurre un modello multilivello in un pubblico generale


24

Il New York Times ha commentato a lungo il sistema di valutazione degli insegnanti "a valore aggiunto" utilizzato per fornire feedback agli educatori di New York City. Il lede è l'equazione usata per calcolare i punteggi - presentati senza contesto. La strategia retorica sembra essere l'intimidazione tramite la matematica:

testo alternativo

Il testo completo dell'articolo è disponibile all'indirizzo: http://www.nytimes.com/2011/03/07/education/07winerip.html

L'autore, Michael Winerip, sostiene che il significato dell'equazione è al di là della capacità di chiunque altro che non sia Matt Damon di capire, e tanto meno un insegnante medio:

"Il calcolo per il punteggio previsto di 3,69 della sig.ra Isaacson è ancora più scoraggiante. Si basa su 32 variabili, incluso se uno studente è stato" mantenuto in grado prima dell'anno pretest "e se uno studente è" nuovo in città in pretest o post-test anno."

Queste 32 variabili sono inserite in un modello statistico che assomiglia a una di quelle equazioni che in "Good Will Hunting" solo Matt Damon è stato in grado di risolvere.

Il processo appare trasparente, ma è chiaro come il fango, anche per i laici intelligenti come insegnanti, presidi e - esito a dirlo - giornalisti.

La signora Isaacson potrebbe avere due gradi di Ivy League, ma è persa. "Lo trovo impossibile da capire", ha detto.

In parole povere, la migliore ipotesi della sig.ra Isaacson su ciò che il dipartimento sta cercando di dirle è: anche se 65 dei suoi 66 studenti hanno ottenuto buoni risultati nel test di stato, più dei suoi 3 dovrebbero essere stati 4.

Ma questa è solo una supposizione ".

Come spiegheresti il ​​modello a un laico? Cordiali saluti, il rapporto tecnico completo è a:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

Aggiornamento: Andrew Gelman offre i suoi pensieri qui: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html


1
Vale la pena leggere i pensieri di Gelman e i commenti al suo post. Il sistema di punteggio è quasi sicuramente spazzatura: considera che l'IC 95% per questo insegnante è . [0%, 52%]
gung - Ripristina Monica

Risposte:


12

Ecco una possibilità.

La valutazione delle prestazioni degli insegnanti è stata tradizionalmente difficile. Una parte di questa difficoltà è che diversi studenti hanno diversi livelli di interesse per una determinata materia. Se un determinato studente ottiene una A, ciò non significa necessariamente che l'insegnamento sia stato eccellente - piuttosto, può significare che uno studente molto dotato e interessato ha fatto del suo meglio per avere successo nonostante la scarsa qualità dell'insegnamento. Viceversa, uno studente che ottiene una D non significa necessariamente che l'insegnamento fosse scarso - piuttosto, può significare che uno studente disinteressato ha perseguitato la costa nonostante i migliori sforzi dell'insegnante per educare e ispirare.

La difficoltà è aggravata dal fatto che la selezione degli studenti (e quindi il livello di interesse degli studenti) è tutt'altro che casuale. È comune per le scuole enfatizzare una materia (o un gruppo di materie) rispetto ad altre. Ad esempio, una scuola può enfatizzare le materie tecniche rispetto alle discipline umanistiche. Gli studenti in tali scuole sono probabilmente così interessati alle aree tecniche che riceveranno un voto di passaggio anche con l'insegnante peggiore possibile. Quindi la frazione di studenti che superano la matematica non è una buona misura dell'insegnamento - ci aspettiamo che i buoni insegnanti facciano molto meglio di quello con gli studenti che sono così desiderosi di imparare. Al contrario, quegli stessi studenti potrebbero non essere affatto interessati all'arte. Sarebbe difficile aspettarsi anche dal miglior insegnante di assicurarsi che tutti gli studenti ottengano A.

Un'altra difficoltà è che non tutto il successo in una determinata classe è attribuibile direttamente all'insegnante di quella classe. Piuttosto, il successo potrebbe essere dovuto alla scuola (o all'intero distretto) che crea motivazione e quadro per il raggiungimento.

Per tenere conto di tutte queste difficoltà, i ricercatori hanno creato un modello che valuta il "valore aggiunto" dell'insegnante. In sostanza, il modello tiene conto delle caratteristiche intrinseche di ogni studente (livello generale di interesse e successo nell'apprendimento), nonché dei contributi della scuola e del distretto al successo degli studenti e prevede i voti degli studenti che ci si aspetterebbe da un "medio" insegnamento in quell'ambiente. Il modello confronta quindi i voti effettivi con quelli previsti e in base a esso decide se l'insegnamento era adeguato alla luce di tutte le altre considerazioni, migliori che adeguate o peggiori. Sebbene il modello possa sembrare complesso a un non matematico, in realtà è piuttosto semplice e standard. I matematici hanno usato modelli simili (e persino più complessi) per decenni.

Per riassumere, l'ipotesi della signora Isaacson è corretta. Anche se 65 dei suoi 66 studenti hanno ottenuto buoni risultati nel test di stato, avrebbero ottenuto lo stesso punteggio anche se un cane fosse stato il loro insegnante. Un buon insegnante reale consentirebbe a questi studenti di ottenere punteggi non semplicemente "competenti", ma in realtà "buoni" nello stesso test.


A questo punto potrei citare alcune delle mie preoccupazioni con il modello. Ad esempio, gli sviluppatori del modello sostengono che affronta alcune delle difficoltà con la valutazione della qualità dell'insegnamento. Ho abbastanza motivi per crederci? I quartieri con popolazione a basso reddito avranno punteggi attesi "distrettuali" e "scolastici" inferiori. Supponiamo che un quartiere abbia un punteggio previsto di 2,5. Un insegnante che raggiungerà una media di 3 otterrà una buona valutazione. Ciò può indurre gli insegnanti a puntare sul punteggio di 3, piuttosto che su un punteggio di, diciamo, 4 o 5. In altre parole, gli insegnanti mireranno alla mediocrità piuttosto che alla perfezione. Vogliamo che questo accada? Infine, anche se il modello è matematicamente semplice, funziona in un modo molto diverso da come funziona l'intuizione umana. Di conseguenza, non abbiamo modo ovvio di convalidare o contestare il modello " decisione di s. Lo sfortunato esempio della sig.ra Isaacson illustra a cosa ciò può portare. Vogliamo dipendere ciecamente dal computer in qualcosa di così importante?


Nota che questa è una spiegazione per un laico. Ho evitato diverse questioni potenzialmente controverse qui. Ad esempio, non volevo dire che i distretti scolastici con dati demografici a basso reddito dovrebbero avere prestazioni più povere, perché questo non suona bene a un laico.

Inoltre, ho ipotizzato che l'obiettivo sia effettivamente quello di fornire una descrizione ragionevolmente corretta del modello. Ma sono abbastanza sicuro che questo non era l'obiettivo di New York qui. Quindi almeno una parte del motivo per cui la loro spiegazione è scarsa è FUD intenzionale, secondo me.


Forse cambierei la seconda frase dell'ultimo paragrafo per dire: "Anche se 65 dei suoi 66 studenti hanno ottenuto risultati" abili "nel test di stato, molto probabilmente avrebbero segnato lo stesso anche se avessero un insegnante inetto."
Wayne,

11

"Il tuo punteggio di insegnamento dipende da quanto bene hanno fatto i tuoi studenti rispetto a una previsione fatta sulla base

  • Quello che sapevano in anticipo, misurato da un pretest,

  • Quanto bene pensiamo che gli studenti possano imparare in base a ciò che sappiamo su di loro individualmente (le loro "caratteristiche"),

  • E quanto bene gli studenti fanno mediamente nel tuo distretto, scuola e classe (se ci sono altri insegnanti nella tua classe).

"In altre parole, ti stiamo valutando in base alla quantità di apprendimento che è stata misurata, dopo aver preso in considerazione la preparazione e le caratteristiche dei tuoi studenti e le prestazioni tipiche di tutti gli studenti in ambienti come il tuo con le risorse a tua disposizione.

"In questo modo il tuo punteggio riflette ciò che hai contribuito alle prestazioni degli studenti, nella misura in cui possiamo determinarlo. Naturalmente non possiamo sapere tutto: sappiamo che hai studenti unici e speciali e che la situazione che hai affrontato non potrebbe mai essere duplicata. Pertanto noi sappi che questo punteggio è solo una stima che riflette imperfettamente quanto bene hai insegnato, ma è una stima più giusta e più accurata di una basata esclusivamente sul post test o sui guadagni dei test grezzi realizzati dalla tua classe. "


2
NB Per favore non attribuirmi questi pensieri! Sto solo facendo del mio meglio per articolare e difendere il modello dichiarato, come richiesto. Se questo modello è appropriato, applicabile, adatto, ecc., È un problema separato del tutto.
whuber

(+1) L'ultimo paragrafo è molto ben messo.
chl

2

Non c'è proprio niente da capire qui.

Bene, ok, è solo un modello di regressione lineare standard. Presuppone che il punteggio di uno studente possa essere descritto come una funzione lineare di diversi fattori, inclusi i coefficienti di efficienza della scuola e dell'insegnante - quindi condivide tutti i problemi standard dei modelli lineari, principalmente il fatto che si tratta di una grande approssimazione di un non lineare mondo e può anche funzionare perfettamente o in modo imbarazzante a seconda di una situazione e di quanto lontano si cercherebbe di estrapolarlo. (Tuttavia, ci si dovrebbe aspettare che gli autori del rappresentante della tecnologia lo abbiano verificato e scoperto che va bene ;-)).

Ma il vero problema è che questo è uno strumento analitico e non dovrebbe essere usato per valutare i risultati delle persone - in questo modo (indipendentemente dal fatto che i voti siano giusti o meno) ogni valutatore cerca di capire il proprio / il suo segno (probabilmente nella speranza di ottimizzarlo) incontrerà solo confusione senza speranza, come in questo caso.


3
"Non c'è proprio niente da capire qui - è solo un modello di regressione lineare standard" - teehee .... come se fosse una consolazione per la matematica. Suppongo che tu non abbia mai avuto il piacere di insegnare corsi di laurea in statistica per, diciamo, sociologia o, dio aiutami, maggiori delle comunicazioni.
fabians

@fabians Questo dimostra solo il mio punto: confrontare le persone con la matematica più complessa del contare è il più grande difetto di questo approccio =] Ma proverò a riformularlo.

Questa è una critica valida - specialmente la parte relativa all'assunzione della linearità - ma non risponde realmente alla domanda originale (a meno che la tua intenzione non sia quella di offendere l'ipotetico "laico").
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.