Perché "statisticamente significativo" non è abbastanza?


46

Ho completato la mia analisi dei dati e ottenuto "risultati statisticamente significativi", il che è coerente con la mia ipotesi. Tuttavia, uno studente di statistica mi ha detto che questa è una conclusione prematura. Perché? C'è qualcos'altro da includere nel mio rapporto?


4
Dipende molto da cosa intendi per "ottenuto risultati statisticamente significativi coerenti con l'ipotesi". Se la tua ipotesi è che il vento è prodotto dagli alberi e il tuo esperimento mostra che nel 100% delle osservazioni quando gli alberi muovevano i loro rami, c'era vento, lo trovi statisticamente significativo e voilà la tua conclusione è dimostrata. Il che è ovviamente sbagliato. Quindi, questo potrebbe essere uno di quei casi.
sashkello,

1
Avresti davvero bisogno di uno studio di follow-up per dichiarare in sicurezza una "scoperta significativa" con credenza, utilizzando una raccolta di dati ben progettata, lo stesso modello e lo stesso test di ipotesi. Inoltre, devi assicurarti che il tuo attuale set di dati rappresenti la "popolazione generale" di cui stai avanzando una richiesta con un risultato significativo (questo è un problema chiave per l'inferenza con i "big data")
Probislogic

1
Sicuramente la risposta è semplice come "la correlazione non è causalità"?
Frazionario

1
Ecco il mio preferito : le persone che mangiano più riso generano più bambini. Controllando l' intera popolazione mondiale, otterrai risultati statisticamente significativi ...
Karoly Horvath,

4
Ottime risposte, ma sono sorpreso che nessuno abbia suggerito la soluzione ovvia: chiediglielo. Ogni volta che qualcuno ti dice che hai torto sul tuo lavoro o qualcos'altro che ti interessa, basta chiedere. Dire a qualcuno che ha torto perché X, ye Z è bello - è un'opportunità di apprendimento. Ma solo dire a qualcuno che ha torto e scappare è una mossa pazzesca.
Sylverdrag,

Risposte:


53

Test di ipotesi rispetto alla stima dei parametri

Tipicamente, le ipotesi sono inquadrate in modo binario. Metterò da parte le ipotesi direzionali, poiché non cambiano molto il problema. È comune, almeno in psicologia, parlare di ipotesi come: la differenza tra i mezzi di gruppo è o non è zero; la correlazione è o non è zero; il coefficiente di regressione è o non è zero; il quadrato r è o non è zero. In tutti questi casi, esiste un'ipotesi nulla di nessun effetto e un'ipotesi alternativa di un effetto.

Questo pensiero binario non è generalmente ciò che ci interessa di più. Una volta che pensi alla tua domanda di ricerca, ti accorgerai quasi sempre di essere effettivamente interessato a stimare i parametri. Sei interessato alla differenza effettiva tra medie di gruppo, o la dimensione della correlazione, o la dimensione del coefficiente di regressione o la quantità di varianza spiegata.

Naturalmente, quando otteniamo un campione di dati, la stima del campione di un parametro non è la stessa del parametro di popolazione. Quindi abbiamo bisogno di un modo per quantificare la nostra incertezza su quale potrebbe essere il valore del parametro. Dal punto di vista del frequentista, gli intervalli di confidenza forniscono un mezzo per fare, anche se i puristi bayesiani potrebbero sostenere che non consentono rigorosamente l'inferenza che potresti voler fare. Dal punto di vista bayesiano, intervalli credibili sulle densità posteriori forniscono un mezzo più diretto per quantificare la tua incertezza sul valore di un parametro di popolazione.

Parametri / dimensioni dell'effetto

R2

C'è un'enorme letteratura in psicologia (e altri campi) che critica l'attenzione sui valori di p, i test di significatività dell'ipotesi nulla e così via (vedi questa ricerca di Google Scholar ). Questa letteratura raccomanda spesso di riportare le dimensioni degli effetti con intervalli di confidenza come una risoluzione (ad esempio, Task Force APA di Wilkinson, 1999).

Passaggi per allontanarsi dal test delle ipotesi binarie

Se stai pensando di adottare questo pensiero, penso che ci siano approcci progressivamente più sofisticati che puoi adottare:

  • Approccio 1a. Riporta la stima puntuale del tuo effetto campione (ad esempio, differenze medie di gruppo) sia in termini grezzi che standardizzati. Quando riferisci i tuoi risultati, discuti su cosa significherebbe tale grandezza per la teoria e la pratica.
  • Approccio 1b. Aggiungi a 1a, almeno a un livello molto elementare, un certo senso dell'incertezza attorno alla stima dei tuoi parametri in base alla dimensione del campione.
  • Approccio 2. Riporta anche gli intervalli di confidenza sulle dimensioni degli effetti e incorpora questa incertezza nel tuo pensiero sui valori plausibili del parametro di interesse.
  • Approccio 3. Riportare intervalli credibili bayesiani ed esaminare le implicazioni di varie ipotesi su quell'intervallo credibile, come la scelta del precedente, il processo di generazione dei dati implicito dal modello e così via.

Tra i molti riferimenti possibili, vedrai Andrew Gelman parlare molto di questi problemi sul suo blog e nelle sue ricerche.

Riferimenti

  • Nickerson, RS (2000). Test di significatività dell'ipotesi nulla: una revisione di una vecchia e continua controversia. Metodi psicologici, 5 (2), 241.
  • Wilkinson, L. (1999). Metodi statistici nelle riviste di psicologia: linee guida e spiegazioni. Psicologo americano, 54 (8), 594. PDF

12
Oltre al commento di Jeromy, potrei consigliarti di leggere un saggio di Ziliac e McCloskey sul culto del significato statistico. Non è la statistica più strabiliante, ma fornisce una discussione ponderata e divertente sul perché le dimensioni degli effetti, il significato pratico e le funzioni di perdita sono estremamente importanti. deirdremccloskey.com/docs/jsm.pdf
Jim

Penso che forse a volte p dovrebbe essere impostato su un valore inferiore a 0,05. Grazie a tutti: gung, Jeromy e Jim
Jim Von

1
Su Ziliak [NB] e McCloskey: se sei occupato, leggi prima phil.vt.edu/dmayo/personal_website/… . Se non sei occupato, leggi ancora prima.
Nick Cox,

Prego, @JimVon. FWIW, a volte penso che p dovrebbe essere impostato su un valore superiore a 0,05. Dipende solo.
gung - Ripristina Monica

1
Sono contento di aver visto il dottor Gelman rinominato qui. Apparentemente non gli piace nemmeno riportare valori p, figuriamoci usarli per una seria deduzione. È anche un buon caso per standardizzare tutte le variabili come una cosa ovvia.
Shadowtalker,

26

Solo per aggiungere alle risposte esistenti (che sono eccezionali, a proposito). È importante essere consapevoli che la significatività statistica è una funzione della dimensione del campione .

Quando ottieni sempre più dati, puoi trovare differenze statisticamente significative ovunque guardi. Quando la quantità di dati è enorme, anche i più piccoli effetti possono portare a significatività statistica. Ciò non implica che gli effetti siano significativi in ​​alcun modo pratico.

pp


Questo è il punto affrontato nella mia diapositiva 13 :)
Stéphane Laurent l'

6
+1 per questo. Le persone che non comprendono il significato sono una funzione della dimensione del campione che mi fa impazzire.
Fomite,

12

Se esistesse una base ragionevole per sospettare che la tua ipotesi potrebbe essere vera prima di iniziare lo studio; e hai condotto un buon studio (ad esempio, non hai indotto alcun disordine); e i tuoi risultati erano coerenti con le tue ipotesi e statisticamente significativi; allora penso che tu stia bene, per quanto va.

Tuttavia, non dovresti pensare che il significato sia tutto ciò che è importante nei tuoi risultati. Innanzitutto, dovresti anche guardare la dimensione dell'effetto (vedi la mia risposta qui: la dimensione dell'effetto come ipotesi per il test di significatività ). Potresti anche voler esplorare un po 'i tuoi dati e vedere se riesci a trovare sorprese potenzialmente interessanti che potrebbero valere la pena di seguire.


Vuoi dire che l'ipotesi dovrebbe essere ragionevole? E come giudicare se la mia ipotesi porterà a un'analisi dei dati insignificante? "Sorprese potenzialmente interessanti" dovrebbero essere rivelate da Post-hoc?
Jim Von,

Ciò che intendo è che, presumibilmente, c'era qualche motivo legittimo per condurre lo studio in primo luogo. Le attuali conoscenze teoriche e / o studi recenti hanno suggerito che la tua ipotesi potrebbe essere vera. È improbabile che la tua ipotesi "porti a un'analisi dei dati insignificante" a meno che non sia incoerente. Sorprese / caratteristiche potenzialmente interessanti dei tuoi dati potrebbero benissimo essere scoperte post-hoc; il fatto che siano sorprese implica che non sapevi che si sarebbero verificati quando hai pianificato lo studio. La questione relativa al "post-hoc" è se credere alle sorprese - devono essere confermate da ricerche future.
gung - Ripristina Monica

7

Prima di segnalare questo e questo e questo e questo, inizia formulando cosa vuoi imparare dai tuoi dati sperimentali. Il problema principale con i soliti test di ipotesi (questi test che impariamo a scuola ...) non è la binarietà: il problema principale è che si tratta di test per ipotesi che non sono ipotesi di interesse. Vedi la diapositiva 13 qui (scarica il pdf per apprezzare le animazioni). Per quanto riguarda le dimensioni dell'effetto, non esiste una definizione generale di questa nozione . Francamente non consiglierei di usarlo per statistici non esperti, si tratta di misure tecniche, non naturali, di "effetto". La tua ipotesi di interesse dovrebbe essere formulata in termini comprensibili dai laici.


1
Una piccola aggiunta: l'ipotesi nulla dovrebbe effettivamente significare qualcosa al di fuori del contesto dell'analisi dei dati corrente per l'applicazione dell'HT standard. Non dovrebbe essere "inventato" in modo da avere qualcosa da rifiutare a favore della tua teoria / scoperta.
Probislogic,

2

Sono tutt'altro che un esperto di statistica, ma una cosa che è stata enfatizzata nei corsi di statistica che ho fatto finora è la questione del "significato pratico". Credo che ciò alluda a ciò di cui Jeromy e Gung parlano quando si parla di "dimensione dell'effetto".

Abbiamo avuto un esempio in classe di una dieta di 12 settimane che ha avuto risultati statisticamente significativi di perdita di peso, ma l'intervallo di confidenza del 95% ha mostrato una perdita di peso media compresa tra 0,2 e 1,2 kg (OK, i dati sono stati probabilmente inventati ma illustra un punto) . Mentre "statisticamente significativamente" "diverso da zero, una perdita di peso di 200 grammi in 12 settimane è un risultato" praticamente significativo "per una persona in sovrappeso che cerca di rimanere in salute?


Questo è il punto che segue la mia diapositiva 13 :)
Stéphane Laurent,

2
Questo è anche un esempio di verifica dell'ipotesi nulla "sbagliata". Non è la conclusione che ti interessa. Un test di ipotesi migliore sarebbe che la perdita di peso è inferiore a 5 kg contro maggiore di 5 kg.
Probislogic,

1

È impossibile rispondere con precisione senza conoscere maggiori dettagli del tuo studio e delle critiche della persona. Ma ecco una possibilità: se hai eseguito più test e hai scelto di concentrarti su quello che è venuto fuori p<0.05e di ignorarne altri, allora quel "significato" è stato diluito dal fatto della tua attenzione selettiva ad esso. Come pompa di intuizione per questo, ricorda che p=0.05significa "questo risultato avverrebbe per caso (solo) il 5% delle volte, anche se l'ipotesi nulla è vera". Quindi, più test si eseguono, più è probabile che almeno uno di questi sia un risultato "significativo" solo per caso, anche se non vi è alcun effetto. Vedi http://en.wikipedia.org/wiki/Multiple_comparisons e http://en.wikipedia.org/wiki/Post-hoc_analysis


0

Ti suggerisco di leggere quanto segue:

Anderson, DR, Burnham, KP, Thompson, WL, 2000. Test di ipotesi nulla: problemi, prevalenza e un'alternativa. J. Wildl. Gestire. 64, 912-923. Gigerenzer, G., 2004. Statistiche senza cervello. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. The Insignificance of Statistical Significance Testing. The Journal of Wildlife Management 63, 763-772.

Le ipotesi nulla sono raramente interessanti nel senso che, da qualsiasi esperimento o serie di osservazioni, ci sono due risultati: rifiutare correttamente il nulla o commettere un errore di tipo II. La dimensione dell'effetto è ciò che probabilmente sei interessante nel determinare e, una volta fatto, dovresti produrre intervalli di confidenza per quella dimensione dell'effetto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.