Qual è la dimensione dell'effetto ... e perché è persino utile?


18

Ho un background statistico di livello introduttivo (suppongo di conoscere statistiche matematiche e probabilità a livello universitario (ad es. Wackerly et al., Probabilità di Ross) e avere una certa conoscenza della teoria delle misure).

Di recente ho iniziato un lavoro facendo progettazione sperimentale e rapporti statistici nelle statistiche sull'istruzione e sono stato inserito in un progetto in cui sto sostanzialmente valutando le metriche di responsabilità per le scuole e devo analizzare i dati, proporre modifiche, ecc. Nota che sono l'unico uno nel mio dipartimento con un background di statistiche matematiche.

Nella mia posizione, le persone hanno fortemente suggerito di utilizzare la dimensione dell'effetto per misurare l'efficacia dei programmi. L'unica volta che ho mai sentito parlare della dimensione dell'effetto è dal mio amico, che ha studiato psicologia. La mia impressione è che

Effect Size=Difference of MeansStandard Deviation.

Cosa c'è di così utile in questa metrica rispetto ai test di ipotesi tradizionali e perché dovrei preoccuparmene? A me sembra niente di più che una statistica di test per un test due campioni . Non lo vedo affatto utile a parte forse mettere tutto sulla stessa scala (motivo per cui qualcuno "normalizza" davvero qualcosa), ma ho pensato che le statistiche dei test (che è ciò che mi sembra la dimensione dell'effetto) fossero fuori moda e sono preferiti i valori .tp


Sono un po 'confuso dal "background statistico introduttivo a livello di laurea"; i primi due termini sembrano contraddirsi a vicenda. Puoi chiarire cosa include? È qualcosa come l'inizio delle statistiche di livello universitario o qualcos'altro?
Glen_b

2
@Glen_b Sì, stanno iniziando le statistiche a livello di laurea. Supponiamo di conoscere statistiche matematiche e probabilità a livello universitario (ad es. Wackerly et al., Probabilità di Ross) e di avere una certa conoscenza della teoria delle misure.
Clarinetto il

3
Posso simpatizzare, OP. Proveniente da un background matematico / statistico, è stato spesso sconcertante discutere di statistiche con coloro che hanno studiato dottorato in sociologia o psicologia, perché hanno termini diversi per tutto :) e talvolta hanno idee rigide su esattamente come fare le cose, indipendentemente dal fatto che sia la migliore pratica statistica, ad esempio cercando di convincere un revisore / editore testardo che la modellazione di equazioni strutturali non è la soluzione a tutti i problemi, o che la linearità non è sempre una buona ipotesi! Tuttavia, ho imparato a fondermi abbastanza bene con quella comunità, dopo diversi anni!
CrockGill

Risposte:


20

Questa è una misura della dimensione dell'effetto, ma ce ne sono molte altre. E 'certamente non è la statistica test. La tua misura della dimensione dell'effetto è spesso chiamata Cohen's d (a rigor di termini che è corretta solo se la SD è stimata tramite MLE, cioè senza la correzione di Bessel ); più genericamente, si chiama "differenza media standardizzata". Forse questo renderà più chiaro che t d : dtdtd
Cioè, il "/

d=x¯2x¯1SDt=x¯2x¯1SEt=x¯2x¯1SDN
"manca dalla formula per la differenza media standardizzata. /N

Più in generale, togliere le dimensioni del campione dal valore fornisce informazioni reali. Supponendo che il vero effetto non sia esattamente da a infiniti decimali, puoi raggiungere qualsiasi livello di significatività che ti potrebbe piacere con N sufficiente . Il valore p fornisce informazioni su quanto possiamo essere fiduciosi nel rifiutare l'ipotesi nulla, ma lo fa fondendo quanto è grande l'effetto con quanti dati hai. E 'certamente bello sapere se dobbiamo rifiutare l'ipotesi nulla, ma sarebbe anche bello sapere se l'effetto del suo intervento educativo produce grandi guadagni per gli scolari o è banale ed è stato solo significativa a causa di grande N . 0NpN


15

Mi aspetto che qualcuno con un background in un'area più pertinente (psicologia o educazione, diciamo) interverrà con una risposta migliore, ma ci proverò.

" Dimensione dell'effetto " è un termine con più di un significato - che molti anni fa ha portato alcune conversazioni confuse fino a quando non sono arrivato a quella realizzazione. Qui abbiamo chiaramente a che fare con la versione ridimensionata per deviazione standard ("di quante deviazioni standard è cambiata?")

Parte del motivo per guardare quel tipo di "dimensione dell'effetto" nelle aree tematiche in cui sono comuni è che spesso hanno variabili i cui valori particolari non sono intrinsecamente significativi ma sono costruiti per tentare di misurare qualcosa che è difficile da ottenere a.

Ad esempio, immagina di provare a misurare la soddisfazione sul lavoro (forse per un modello che lo mette in relazione con un insieme di variabili indipendenti, forse includendo un trattamento di interesse, per esempio). Non hai modo di affrontarlo direttamente, ma potresti (ad esempio) provare a costruire un questionario per approfondire diversi aspetti, magari usando qualcosa come una scala di Likert.

Un diverso ricercatore potrebbe avere un approccio diverso per misurare la soddisfazione sul lavoro, e quindi i tuoi due set di misurazioni "Soddisfazione" non sono direttamente comparabili - ma se hanno le varie forme di validità e così via che queste cose vengono verificate (in modo che possono ragionevolmente misurare la soddisfazione), quindi si può sperare di avere effetti molto simili; alla minima dimensione dell'effetto sarà quasi paragonabile.


3
fa un ottimo lavoro introducendo l'idea di un "costrutto" senza tecnicismi. Ma nel tuo lavoro, Clarinetist, dovrai comprendere questa idea in modo approfondito. Consiglio vivamente la fonte originale sulla "validità del costrutto", l'articolo del 1955 di Cronbach & Meehl nel Bollettino psicologico: psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
David C. Norris,

7

La formula di cui sopra è come si calcola di Cohen d per i campioni correlati (che è probabilmente quello che hai?), Se sono estranei si può usare la varianza pooled invece. Ci sono diverse statistiche che ti diranno sulla dimensione dell'effetto, ma Cohen è una misura standardizzata che può variare tra 0 e 3. Se hai molte variabili diverse, può essere bello avere una misura standardizzata quando stai pensando tutti insieme. D'altra parte, molte persone preferiscono comprendere la dimensione dell'effetto in termini di unità misurate. Perché calcolare d quando hai già valori p? Ecco un esempio da un set di dati con cui sto attualmente lavorando. Sto osservando un intervento comportamentale condotto nelle scuole, misurato usando questionari psicologici validati (producendo dati Likert). Quasi tutte le mie variabili mostrano un cambiamento statisticamente significativo, forse non sorprendente dato che ho un campione di grandi dimensioni (n = ~ 250). Tuttavia, per alcune delle variabili, il Cohen dè piuttosto minuscolo, diciamo 0.12, il che indica che sebbene ci sia certamente un cambiamento, potrebbe non essere un cambiamento clinicamente importante e quindi è importante per la discussione e l'interpretazione di ciò che sta accadendo nei dati. Questo concetto è ampiamente usato in psicologia e scienze della salute in cui i professionisti (o le scuole, nel tuo caso) devono considerare l'utilità clinica effettiva dei trattamenti (o qualunque cosa stiano sperimentando). Di Cohen d aiuta a rispondere a domande sul fatto che la sua davvero la pena di fare un intervento (indipendentemente dal valore di p). Nelle scienze mediche a loro piace anche considerare l' NNT e valutarlo in termini di gravità della condizione in questione. Dai un'occhiata a questa fantastica risorsa da @krstoffr http://rpsychologist.com/d3/cohend/



2

In effetti, anche i valori p sono finalmente "fuori moda": http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Il test di significatività dell'ipotesi nulla (NHST) produce poco più di una descrizione della dimensione del campione. (*) Qualsiasi intervento sperimentale avrà qualche effetto, vale a dire che la semplice ipotesi nulla di "nessun effetto" è sempre falsa in senso stretto . Pertanto, un test "non significativo" significa semplicemente che la dimensione del campione non era abbastanza grande; un test "significativo" significa che hai raccolto dati sufficienti per "trovare" qualcosa.

La "dimensione dell'effetto" rappresenta un tentativo di porre rimedio a questo, introducendo una misura sulla scala naturale del problema. In medicina, dove i trattamenti hanno sempre un certo effetto (anche se si tratta di un effetto placebo), viene introdotta la nozione di "effetto clinicamente significativo" per evitare la probabilità del 50% che un "trattamento" sia trovato "( statisticamente) significativo effetto positivo (comunque minuscolo) in uno studio arbitrariamente ampio.

Se capisco la natura del tuo lavoro, Clarinetist, alla fine della giornata, il suo scopo legittimo è quello di informare azioni / interventi che migliorano l'istruzione nelle scuole di tua competenza. Pertanto, l'impostazione è teorica della decisione e i metodi bayesiani sono l' approccio più appropriato (e unicamente coerente [1] ).

In effetti, il modo migliore per comprendere i metodi frequentisti è come approssimazioni ai metodi bayesiani . La dimensione stimata dell'effetto può essere intesa come mirante a una misura di centralità per la distribuzione posteriore bayesiana , mentre il valore p può essere inteso come mirato a misurare una coda di quella posteriore. Pertanto, insieme queste due quantità contengono un po 'di sostanza approssimativa del posteriore bayesiano che costituisce l'input naturale per una visione teorica-decisiva del tuo problema. (In alternativa, un intervallo di confidenza frequentista sulla dimensione dell'effetto può essere inteso allo stesso modo come un intervallo credibile aspirante .)

Nel campo della psicologia e dell'educazione, i metodi bayesiani sono in realtà piuttosto popolari. Uno dei motivi è che è facile installare "costrutti" nei modelli bayesiani, come variabili latenti. Potresti dare un'occhiata a "il libro dei cuccioli" di John K. Kruschke , uno psicologo. Nell'istruzione (in cui gli studenti sono nidificati nelle aule, nidificati nelle scuole, nidificati nei distretti, ...), la modellazione gerarchica è inevitabile. E i modelli bayesiani sono ottimi anche per la modellazione gerarchica. Su questo account, potresti dare un'occhiata a Gelman & Hill [2].

[1]: Robert, Christian P. La scelta bayesiana: dalle basi decisionale-teoriche all'implementazione computazionale. 2a ed. Testi Springer in Statistica. New York: Springer, 2007.

[2]: Gelman, Andrew e Jennifer Hill. Analisi dei dati mediante regressione e modelli multilivello / gerarchici. Metodi analitici per la ricerca sociale. Cambridge; New York: Cambridge University Press, 2007.


Per ulteriori informazioni sulla "coerenza" da una prospettiva non necessariamente pestata sulla testa con un mattone bayesiano , vedi [3].

[3]: Robins, James e Larry Wasserman. "Condizionamento, verosimiglianza e coerenza: una rassegna di alcuni concetti di base." Journal of American Statistical Association 95, n. 452 (1 dicembre 2000): 1340–46. DOI: 10,1080 / 01621459.2000.10474344.

(*) In [4], Meehl flagella NHST in modo molto più elegante, ma non meno abrasivo, di me:

Poiché l'ipotesi nulla è quasi sempre falsa, le tabelle che riassumono la ricerca in termini di modelli di "differenze significative" sono poco più che risultati complessi, causalmente non interpretabili delle funzioni di potere statistico.

[4]: Meehl, Paul E. "Rischi teorici e asterischi tabulari: Sir Karl, Sir Ronald e il lento progresso della psicologia dolce". Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


Ed ecco una citazione correlata da Tukey: /stats//a/728/41404


1
" Qualsiasi intervento sperimentale avrà qualche effetto" (la mia enfasi) è un'affermazione piuttosto forte, così come il successivo "sempre". In alcuni campi di studio è probabilmente un'ottima regola empirica, ma penso che ci siano pericoli nell'essere troppo ampi. Vorrei anche suggerire che "[NHST] produce poco più di una descrizione della vostra dimensione del campione" è discutibile: il p-value emerge da un'interazione tra entrambi la dimensione del campione e la dimensione dell'effetto.
Silverfish,

@Silverfish, grazie per la tua risposta. Vi invito a fornire un esempio in cui la mia prospettiva sui valori di p sarebbe "pericolosa". (A proposito, ne avevo messo un po ' in corsivo e ho usato la frase "in senso stretto" in previsione di un reclamo come il tuo. La mia affermazione è ancora valida.) Inoltre, sebbene il valore p effettivamente "emerge da un'interazione" di altri due fattori, uno di questi (dimensione del campione) è in gran parte un parametro di progettazione gratuito, scelto arbitrariamente. Questa scelta arbitraria è ciò che riflette quindi il valore p. Sono chiaramente necessari due numeri; perché non gli endpoint di un intervallo di confidenza?
David C. Norris,

2
Ad esempio: qualsiasi istanza in cui potremmo ragionevolmente aspettarci che l'ipotesi nulla sia vera, o almeno dove non potremmo affermare con certezza che siamo certi che sia falsa senza nemmeno preoccuparci di condurre un esperimento o guardare i dati. Non tutti i null sono falsi: considera la ricerca in parapsicologia, come gli esperimenti di telepatia e precognizione, ma molti null sono veri in campi che potresti considerare più "scientificamente validi" come la genomica.
Silverfish,

5
-1, ci sono molti problemi qui, IMO. Il fatto che 1 diario di psicologia minore abbia vietato i valori di p non significa che "i valori di p sono ora finalmente fuori moda". Il divieto è stato ampiamente criticato (inclusa una cortese dichiarazione dell'ASA e non è stato ripreso da nessun'altra rivista nei mesi successivi. Noto che la rivista non richiede un passaggio ai metodi bayesiani (che ritengo sia la vostra preferenza) , ma lo considererò solo caso per caso.
Gung - Ripristina Monica

3
Tuttavia, in un vero esperimento, il processo di randomizzazione delle unità interrompe i percorsi endogeni fornendo una prova di un percorso causale diretto da X a Y. È una strana affermazione metafisica affermare che tutte le variabili sono direttamente causalmente collegate in entrambe le direzioni, ma se si Non tenerlo, è incoerente affermare che "l'ipotesi nulla di 'nessun effetto' è sempre falsa".
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.