Dimensione dell'effetto come ipotesi per il test di significatività


37

Oggi, al Cross Validated Journal Club (perché non eri lì?), @Mbq ha chiesto:

Pensi che noi (moderni data scientist) sappiamo cosa significa significato? E come si collega alla nostra fiducia nei nostri risultati?

@Michelle ha risposto come alcuni (incluso me) di solito fanno:

Sto trovando il concetto di significato (basato su valori p) sempre meno utile mentre continuo nella mia carriera. Ad esempio, posso utilizzare set di dati estremamente grandi, quindi tutto è statisticamente significativo ( p<.01 )

Questa è probabilmente una domanda stupida, ma non è il problema l'ipotesi che viene testata? Se verifichi l'ipotesi nulla "A è uguale a B", allora sai che la risposta è "No". Set di dati più grandi ti avvicineranno solo a questa conclusione inevitabilmente vera. Credo che sia stato Deming a dare un esempio con l'ipotesi "il numero di peli sul lato destro di un agnello è uguale al numero di peli sul lato sinistro". Beh, certo che non lo è.

Un'ipotesi migliore sarebbe "A non differisce da B di più di così tanto". Oppure, nell'esempio dell'agnello, "il numero di peli ai lati di un agnello non differisce di oltre l'X%".

ha senso?


1) Il test dell'equivalenza media (supponendo che sia quello che vuoi) può in alcuni casi essere semplificato per un test di significatività della loro differenza media. Con un errore standard per questa stima della differenza, è possibile eseguire tutti i tipi di test del tipo "non differire da B per più ...". 2) Per quanto riguarda la dimensione del campione - sì, per i grandi s diminuisce l'importanza della significatività, ma è ancora cruciale per i campioni più piccoli, dove non è possibile generare solo valori aggiuntivi.
Ondrej,

11
Ri "Certo che non lo è." A un'ipotesi, un agnello ha nell'ordine di peli su ciascun lato. Se esiste un numero pari di tali peli e questi sono distribuiti in modo casuale con pari possibilità su entrambi i lati e i lati sono chiaramente delineati, allora la probabilità che entrambi i numeri siano esattamente uguali è dello 0,178%. In un grande stormo di diverse centinaia, dovresti aspettarti di vedere un agnello così perfettamente bilanciato nato almeno una volta ogni decennio (supponendo che un numero pari di peli si verifichi circa il 50% delle volte). Oppure: quasi ogni vecchio allevatore di pecore ha avuto un agnello del genere! 105
whuber

1
@whuber È determinato dallo scopo dell'analisi. Un'analogia migliore sarebbe qual è la dimensione minima dell'effetto che giustificherebbe ulteriori investimenti in un farmaco dopo un processo. La sola esistenza di un effetto statisticamente significativo non è sufficiente, in quanto lo sviluppo di un farmaco è costoso e possono essere presi in considerazione effetti collaterali. Non è una domanda statistica, ma pratica.
Dikran Marsupial,

2
@whuber Sospetto che nella maggior parte delle applicazioni in cui non vi siano informazioni pratiche per decidere la dimensione minima dell'effetto di interesse, quindi il test di ipotesi standard va bene, ad esempio test per la normalità. Come bayesiano sarei d'accordo con la vista come un problema di ottimizzazione piuttosto che un problema di verifica delle ipotesi. Parte del problema con i test di ipotesi deriva dall'approccio del libro di cucina delle statistiche, in cui i test vengono eseguiti come una tradizione senza considerare adeguatamente lo scopo dell'esercizio o il vero significato del risultato (ovviamente tutti gli IMHO).
Dikran Marsupial,

1
@DikranMarsupial non è la chiave lì a cui agli studenti vengono insegnati i test a memoria, come identificato dal gung di seguito, piuttosto che l'importanza di un buon disegno di studio? Un'enfasi maggiore sulla progettazione dello studio aiuterebbe a risolvere alcuni dei problemi, non necessariamente con insiemi di big data?
Michelle,

Risposte:


25

Per quanto riguarda i test di significatività (o qualsiasi altra cosa che faccia essenzialmente la stessa cosa del test di significatività), ho a lungo pensato che l'approccio migliore nella maggior parte delle situazioni è probabilmente quello di stimare una dimensione dell'effetto standardizzata, con un intervallo di confidenza del 95% a tale proposito dimensione dell'effetto. Non c'è nulla di veramente nuovo lì - matematicamente puoi spostarti avanti e indietro tra di loro - se il valore p per un valore 'zero' è <.05, allora 0 si troverà al di fuori di un IC al 95% e viceversa. Il vantaggio di questo, secondo me, è psicologico; cioè produce informazioni salienti che esistono ma che le persone non possono vedere quando sono riportati solo valori p. Ad esempio, è facile vedere che un effetto è selvaggiamente "significativo", ma ridicolmente piccolo; o "non significativo", ma solo perché le barre di errore sono enormi, mentre l'effetto stimato è più o meno quello che ti aspettavi. Questi possono essere associati a valori non elaborati e ai loro elementi della configurazione.

Ora, in molti campi i valori grezzi sono intrinsecamente significativi e riconosco che solleva la questione se valga ancora la pena calcolare le misure della dimensione dell'effetto dato che abbiamo già valori come medie e pendenze. Un esempio potrebbe essere la crescita stentata; sappiamo cosa significa per un maschio bianco di 20 anni essere più corto di 6 +/- 2 pollici (cioè 15 +/- 5 cm) di quanto non farebbe altrimenti, quindi perché menzionare ? Tendo a pensare che ci possa essere ancora valore nel riferire entrambi, e le funzioni possono essere scritte per calcolarle in modo che sia molto poco lavoro extra, ma riconosco che le opinioni varieranno. Ad ogni modo, sostengo che le stime puntuali con intervalli di confidenza sostituiscono i valori p come prima parte della mia risposta. d=1.6±.5

D'altra parte, penso che una domanda più grande sia "è la cosa che i test di significatività fanno ciò che vogliamo veramente?" Penso che il vero problema sia che per la maggior parte delle persone che analizzano i dati (cioè i professionisti non gli statistici), i test di significatività possono diventare la totalità dell'analisi dei dati. Mi sembra che la cosa più importante sia avere un modo di principio per pensare a ciò che sta succedendo con i nostri dati, e il test di significatività dell'ipotesi nulla è, nella migliore delle ipotesi, una parte molto piccola di ciò. Lasciatemi fare un esempio immaginario (riconosco che questa è una caricatura, ma purtroppo temo che sia in qualche modo plausibile):

Bob conduce uno studio, raccogliendo dati su qualcosa o altro. Si aspetta che i dati vengano normalmente distribuiti, raggruppandosi strettamente attorno a un valore e intende condurre un test t di un campione per vedere se i suoi dati sono "significativamente diversi" da un valore predefinito. Dopo aver raccolto il suo campione, verifica se i suoi dati sono normalmente distribuiti e scopre che non lo sono. Invece, non hanno un nodulo pronunciato al centro, ma sono relativamente alti in un dato intervallo e poi si allontanano con una lunga coda sinistra. Bob si preoccupa di cosa dovrebbe fare per assicurarsi che il suo test sia valido. Finisce per fare qualcosa (ad es. Una trasformazione, un test non parametrico, ecc.), Quindi riporta una statistica del test e un valore p.

Spero che questo non finisca per essere brutto. Non intendo deridere nessuno, ma penso che accada qualcosa di simile occasionalmente. Se dovesse verificarsi questo scenario, possiamo tutti concordare sul fatto che si tratta di una scarsa analisi dei dati. Tuttavia, il problema non è che la statistica del test o il valore p sono errati; possiamo affermare che i dati sono stati gestiti correttamente a tale riguardo. Direi che il problema è che Bob è impegnato in quella che Cleveland ha chiamato "analisi dei dati personali". Sembra credere che l'unico punto sia ottenere il giusto valore p, e pensa molto poco ai suoi dati al di fuori del perseguimento di tale obiettivo. Avrebbe anche potuto passare al mio suggerimento sopra e riportare una dimensione di effetto standardizzata con un intervallo di confidenza del 95%, e non avrebbe cambiato quello che vedo come il problema più grande (questo è ciò che intendevo facendo "essenzialmente la stessa cosa "con mezzi diversi). In questo caso specifico, il fatto che i dati non apparissero come previsto (ovvero non erano normali) sono informazioni reali, è interessante, e molto probabilmente importante, ma quell'informazione è essenzialmente buttata via. Bob non lo riconosce, a causa del focus sui test di significatività. Secondo me, questo è il vero problema con i test di significatività.

Consentitemi di affrontare alcune altre prospettive che sono state menzionate e voglio essere molto chiaro sul fatto che non sto criticando nessuno.

  1. Si dice spesso che molte persone non capiscono davvero i valori p (ad esempio, pensando che siano le probabilità che il nulla sia vero), ecc. Talvolta si sostiene che, se solo le persone usassero l'approccio bayesiano, questi problemi va via. Credo che le persone possano avvicinarsi all'analisi dei dati bayesiana in un modo altrettanto incurante e meccanico. Tuttavia, penso che fraintendere il significato dei valori di p sarebbe meno dannoso se nessuno pensasse che ottenere un valore di p fosse l'obiettivo.
  2. L'esistenza di "big data" non è generalmente correlata a questo problema. I big data rendono ovvio che organizzare l'analisi dei dati sulla "significatività" non è un approccio utile.
  3. Non credo che il problema sia con l'ipotesi in esame. Se le persone volessero solo vedere se il valore stimato è al di fuori di un intervallo, piuttosto che se è uguale a un valore in punti, potrebbero sorgere molti degli stessi problemi. (Ancora una volta, voglio essere chiaro, so che non sei "Bob" .)
  4. Per la cronaca, voglio menzionare che il mio suggerimento del primo paragrafo non affronta il problema, come ho cercato di sottolineare.

Per me, questo è il problema principale: quello che vogliamo davvero è un modo di principio per pensare a quello che è successo . Ciò che ciò significa in ogni data situazione non è tagliato e asciugato. Come impartire ciò agli studenti in una classe di metodi non è né chiaro né facile. I test di significatività hanno molta inerzia e tradizione alle spalle. In una classe di statistiche, è chiaro cosa deve essere insegnato e come. Per studenti e professionisti diventa possibile sviluppare uno schema concettuale per comprendere il materiale e una checklist / diagramma di flusso (ne ho visti alcuni!) Per condurre analisi. I test di significatività possono naturalmente evolversi in analisi dei dati personali senza che nessuno sia stupido, pigro o cattivo. Questo è il problema


Mi piacciono gli intervalli di confidenza :) Una domanda: intendevi implicare che il calcolo post hoc della dimensione dell'effetto va bene?
Michelle,

x¯1=10x¯2=14SD=6d=.67

Sì, penso che siamo d'accordo qui.
Michelle,


+1 Preferisco io stesso intervalli credibili. Per quanto riguarda il punto 1, direi che le alternative bayesiane hanno meno probabilità di comportare un'analisi dei dati reali, poiché la definizione di probabilità non è così controintuitiva, il che rende molto più semplice formulare la domanda che in realtà si desidera porre in modo statistico . Il vero problema sta nel fatto che l'esecuzione del test richiede intergral, che sono troppo difficili per essere ampiamente adottati. Si spera che il software si sviluppi al punto in cui l'utente può concentrarsi sulla formulazione della domanda e lasciare il resto al computer.
Dikran Marsupial,

18

Perché insistiamo su qualsiasi forma di test di ipotesi in statistica?

Nel meraviglioso libro Statistica come argomento di principio Robert Abelson sostiene che l'analisi statistica fa parte di un argomento di principio sull'argomento in questione. Dice che, piuttosto che essere valutati come ipotesi da rifiutare o non rifiutare (o persino accettare!?!) Dovremmo valutarle in base a quelli che lui chiama i criteri MAGIC:

Magnitudine - quanto è grande? Articolazione - È pieno di eccezioni? È chiaro? Generalità - Come si applica in generale? Interesse - Ci preoccupiamo per il risultato? Credibilità - Possiamo crederci?

La mia recensione del libro sul mio blog


4
Il problema è fomentato da alcuni professori. Il mio dottorato è in psicometria, che è nel dipartimento di psicologia. Ho sentito professori di altre parti del dipartimento dire cose come "riporta semplicemente il valore p, questo è ciò che conta". Il mio lavoro è di consulenza, principalmente con studenti laureati e ricercatori in campo sociale, comportamentale, educativo e medico. La quantità di disinformazione fornita dai comitati di dottorato è sorprendente.
Peter Flom - Ripristina Monica

1
+1 per "Why ...", questa è una grande parte di ciò che stavo cercando di ottenere nella mia risposta.
gung - Ripristina Monica

Un'altra parte di ciò che stavo cercando di ottenere nella mia risposta è che penso che ciò accada naturalmente. A proposito, non è giusto ottenere due voti ;-), potresti combinarli.
gung - Ripristina Monica

13

H0:{|μ1-μ2|>ε}εμ1μ2εμ1μ2Pr(|X1-X2|>ε)


(+1) E benvenuti a 1000 reputazione. Saluti.
cardinale il

6

I test di ipotesi tradizionali indicano se esistono prove statisticamente significative dell'esistenza di un effetto, mentre ciò che spesso vogliamo sapere è l'esistenza di prove di un effetto praticamente significativo.

È certamente possibile formare "test di ipotesi" bayesiani con una dimensione minima dell'effetto (IIRC ne è un esempio nel libro di David MacKay su "Teoria dell'informazione, inferenza e algoritmi di apprendimento", lo cercherò quando avrò un momento .

Il test della normalità è un altro buon esempio, di solito sappiamo che i dati non sono realmente distribuiti normalmente, stiamo solo testando per vedere se ci sono prove che questa non è un'approssimazione ragionevole. O test per il bias di una moneta, sappiamo che è improbabile che sia completamente distorto in quanto è asimmetrico.


6

Gran parte di questo si riduce a quale domanda ti stai effettivamente ponendo, come progetti il ​​tuo studio e persino cosa intendi per eguale.

Una volta ho pubblicato un interessante inserto nel British Medical Journal che parlava di ciò che la gente interpretava certe fasi. Si scopre che "sempre" può significare che qualcosa accade nel 91% dei casi (BMJ VOLUME 333 26 AGOSTO 2006 pagina 445). Quindi forse si potrebbe pensare che uguale ed equivalente (o entro X% per un certo valore di X) significhi la stessa cosa. E chiediamo al computer una semplice uguaglianza, usando R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

$$

Hun':μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμμ0μμ0μ0 μ

Gran parte di questo si riduce a porre la domanda giusta e progettare lo studio giusto per quella domanda. Se finisci con dati sufficienti per dimostrare che una differenza praticamente insignificante è statisticamente significativa, allora hai sprecato risorse per ottenere tanti dati. Sarebbe stato meglio decidere quale sarebbe stata una differenza significativa e progettato lo studio per darti abbastanza potenza per rilevare quella differenza ma non più piccola.

E se vogliamo davvero dividere i peli, come possiamo definire quali parti dell'agnello sono sulla destra e quali sono sulla sinistra? Se lo definiamo da una linea che per definizione ha lo stesso numero di peli su ciascun lato, la risposta alla domanda precedente diventa "Certo che lo è".


Sospetto che la risposta che ricevi da R sia semplicemente il risultato di qualche problema aritmetico in virgola mobile, non una decisione consapevole di ignorare le differenze irrilevanti. Considera l'esempio classico (.1 + .2) == .3 Un "matematico puro" ti direbbe che sono uguali, a qualsiasi livello di precisione, ma R restituisce FALSO.
Gala

@ GaëlLaurans, il mio punto è che, a causa dell'arrotondamento (sia cosciente dell'umano, sia del computer), i concetti di esattamente uguale e entro X% per una X sufficientemente piccola sono praticamente gli stessi.
Greg Snow

5

Dal punto di vista organizzativo, che si tratti di un governo con opzioni politiche o di una società che cerca di implementare un nuovo processo / prodotto, anche l'uso di una semplice analisi costi-benefici può aiutare. In passato ho sostenuto che (ignorando le ragioni politiche), dato il costo noto di una nuova iniziativa, qual è il punto di pareggio per il numero di persone che devono essere influenzate positivamente da quell'iniziativa? Ad esempio, se la nuova iniziativa mira a far lavorare più disoccupati e i costi dell'iniziativa $100,000, si ottiene una riduzione dei trasferimenti di disoccupazione di almeno$100,000 ? In caso contrario, l'effetto dell'iniziativa non è praticamente significativo.

Per i risultati sulla salute, il valore di una vita statistica assume importanza. Questo perché i benefici per la salute sono accumulati nel corso della vita (e quindi i benefici sono adeguati al ribasso in valore sulla base di un tasso di sconto ). Quindi, invece di significato statistico, si ottengono argomenti su come stimare il valore di una vita statistica e quale tasso di sconto dovrebbe essere applicato.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.