Interpretazione dei risultati non significativi come "tendenze"


16

Di recente, due diversi collaboratori hanno utilizzato una sorta di argomento sulle differenze tra le condizioni che mi sembra errato. Entrambi questi collaboratori usano le statistiche, ma non sono statistici. Sono un novizio in statistica.

In entrambi i casi, ho sostenuto che, poiché non vi era alcuna differenza significativa tra due condizioni in un esperimento, non era corretto presentare un'affermazione generale su questi gruppi riguardo alla manipolazione. Si noti che "presentare un reclamo generale" significa qualcosa come scrivere: "Il gruppo A ha usato X più spesso del gruppo B".

I miei collaboratori hanno replicato con: "anche se non c'è differenza significativa, la tendenza è ancora lì" e "anche se non c'è differenza significativa, c'è ancora una differenza". Per me, entrambi questi sembrano un equivoco, cioè hanno cambiato il significato di "differenza" da: "una differenza che è probabilmente il risultato di qualcosa di diverso dal caso" (cioè significato statistico), in "qualsiasi non -zero differenza nella misurazione tra gruppi ".

La risposta dei miei collaboratori è stata corretta? Non l'ho preso con loro perché mi hanno superato.


Risposte:


26

Questa è un'ottima domanda; la risposta dipende molto dal contesto.

In generale direi che hai ragione : fare un'affermazione generale non qualificata come "il gruppo A ha usato X più spesso del gruppo B" è fuorviante. Sarebbe meglio dire qualcosa del genere

nel nostro gruppo di esperimenti A ha usato X più spesso del gruppo B, ma siamo molto incerti su come ciò si verificherà nella popolazione generale

o

sebbene il gruppo A abbia usato X 13% più spesso rispetto al gruppo B nel nostro esperimento, la nostra stima della differenza nella popolazione generale non è chiara : i valori plausibili vanno da A usando X 5% meno spesso rispetto al gruppo B ad A usando X 21% più spesso del gruppo B

o

il gruppo A ha usato X 13% più spesso rispetto al gruppo B, ma la differenza non era statisticamente significativa (IC al 95% da -5% a 21%; p = 0,75)

D'altra parte: i tuoi colleghi hanno ragione nel dire che in questo particolare esperimento , il gruppo A ha usato X più spesso del gruppo B. Tuttavia, le persone raramente si preoccupano dei partecipanti a un particolare esperimento; vogliono sapere come i tuoi risultati si generalizzeranno a una popolazione più ampia, e in questo caso la risposta generale è che non puoi dire con sicurezza se un gruppo A selezionato casualmente userà X più o meno spesso di un gruppo selezionato casualmente B.

Se oggi dovevi scegliere se utilizzare il trattamento A o il trattamento B per aumentare l'uso di X, in assenza di altre informazioni o differenze nei costi, ecc., Scegliere A sarebbe la soluzione migliore. Ma se volessi essere a tuo agio sul fatto che probabilmente stavi facendo la scelta giusta, avresti bisogno di maggiori informazioni.

Si noti che si dovrebbe non dice "non c'è differenza tra il gruppo A e il gruppo B nel loro utilizzo di X", o "uso di gruppo A e gruppo B X lo stesso importo". Questo non vale per nessuno dei partecipanti al tuo esperimento (dove A ha usato X 13% in più) o nella popolazione generale; nella maggior parte dei contesti del mondo reale, sai che ci deve essere davvero qualche effetto (non importa quanto leggero) di A vs. B; semplicemente non sai in che direzione va.


5
Bella risposta, Ben! Mi chiedo se la tua seconda frase di esempio possa essere modificata per chiarezza per riflettere l'essenza della prima frase di esempio: "sebbene il gruppo A abbia usato X 13% più spesso rispetto al gruppo B NEL NOSTRO ESPERIMENTO, la differenza NELL'UTILIZZO DI X TRA I GRUPPI NEL GENERALE La popolazione non era chiara : l'intervallo plausibile DI QUESTA DIFFERENZA è passato da A usando X 5% meno spesso rispetto al gruppo B ad A usando X 21% più spesso rispetto al gruppo B. "
Isabella Ghement,

3
grazie, parzialmente incorporato (cercando di bilanciare brevità / chiarezza e precisione ...)
Ben Bolker,

8
+1 Penso che molte persone non riescano a rendersi conto che in assenza di prove statistiche, le differenze osservate potrebbero benissimo essere l'opposto di ciò che sta accadendo con la popolazione!
Dave,

@Dave: anche se la presenza di "prove statistiche" (valore p statisticamente significativo?), "Le differenze osservate potrebbero benissimo essere il contrario di ciò che sta accadendo con la popolazione"
boscovich,

@boscovich Certo, stavo parlando in assoluto quando stiamo facendo statistiche, ma lo considero un insignificante valore p, il che significa che non hai davvero idea di cosa stia accadendo con la popolazione. Almeno con un significativo valore p hai raggiunto una certa soglia di evidenza per suggerire di sapere qualcosa. Ma sicuramente è possibile ottenere un valore p significativo quando si identifica erroneamente la direzione. Tale errore dovrebbe verificarsi di volta in volta.
Dave,

3

Questa è una domanda difficile!

5% p

H0ABXY H0ppH0 per essere vero (cioè, nessuna tendenza).

pH0H0pH0

p23%23%23%H0:=0.5% p

XβH0: β=0β0

β=0

4%

Spero che questa spiegazione troppo prolissa ti aiuti a ordinare le tue idee. Il riassunto è che hai assolutamente ragione! Non dovremmo riempire i nostri rapporti, che si tratti di ricerca, affari o altro, con affermazioni selvagge supportate da poche prove. Se pensi davvero che ci sia una tendenza, ma non hai raggiunto il significato statistico, ripeti l'esperimento con più dati!


1
+1 per indicare che qualsiasi soglia di significatività è arbitraria (e, di conseguenza, non è possibile dedurre affermazioni assolute sulla popolazione generale dai risultati in un campione - tutto ciò che ottieni sono migliori probabilità).
Peter - Ripristina Monica il

0

Un effetto significativo significa solo che hai misurato un'anomalia improbabile (improbabile se l'ipotesi nulla, l'assenza di effetto, fosse vera). E di conseguenza deve essere messo in dubbio con un'alta probabilità (sebbene questa probabilità non sia uguale al valore p e dipenda anche da credenze precedenti).

A seconda della qualità dell'esperimento potresti misurare la stessa dimensione dell'effetto , ma potrebbe non essere un'anomalia (non un risultato improbabile se l'ipotesi nulla fosse vera).

Quando osservi un effetto ma non è significativo, allora in effetti (l'effetto) può ancora essere lì, ma non è solo significativo (le misurazioni non indicano che l'ipotesi nulla dovrebbe essere messa in dubbio / respinta con alta probabilità). Significa che dovresti migliorare il tuo esperimento, raccogliere più dati, per essere più sicuro.

Quindi, invece dell'effetto dicotomia rispetto a nessun effetto, dovresti scegliere le seguenti quattro categorie:

quattro categorie

Immagine da https://en.wikipedia.org/wiki/Equivalence_test che spiega la procedura T-test a due facciate (TOST)

Sembra che tu sia nella categoria D, il test è inconcludente. I tuoi colleghi potrebbero sbagliare nel dire che c'è un effetto. Tuttavia, è ugualmente sbagliato dire che non c'è alcun effetto!


p

@David, concordo pienamente con te sul fatto che il valore p è più precisamente una misura per "la probabilità che si verifichi un errore a condizione che l'ipotesi nulla sia vera" (o la probabilità di vedere risultati così estremi), e non esprimere direttamente "la probabilità che l'ipotesi nulla sia errata". Tuttavia, ritengo che il valore p non debba essere utilizzato in questo senso "ufficiale". Il valore p viene utilizzato per esprimere il dubbio nell'ipotesi nulla, per esprimere che i risultati indicano un'anomalia e le anomalie dovrebbero farci dubitare del nulla ....
Sisto Empirico

.... nel tuo caso, quando mostri di sfidare l'effetto nullo (sfida l'idea che non si possa predire le monete) fornendo un caso raro (proprio come la signora che assaggia il tè), allora dovremmo davvero avere dubbi nel nulla ipotesi. In pratica avremmo bisogno di impostare un valore p adeguato per questo (dal momento che si potrebbe sfidare il nulla per pura casualità) e non userei il livello dell'1%. L'elevata probabilità di dubitare del nulla non dovrebbe essere equiparata, uno a uno, con il valore p (poiché quella probabilità è più un concetto bayesiano).
Sesto Empirico

Ho adattato il testo per eliminare questa interpretazione errata.
Sesto Empirico

0

Sembra che stiano discutendo di p-value rispetto alla definizione di "Trend".

Se traccia i dati su un diagramma di esecuzione, potresti vedere una tendenza ... una serie di punti della trama che mostrano una tendenza che sale o scende nel tempo.

Ma, quando fai le statistiche su di esso ... il valore p suggerisce che non è significativo.

Perché il valore p mostri poca rilevanza, ma per loro vedere una tendenza / corsa nella serie di dati ... questa dovrebbe essere una tendenza molto leggera.

Quindi, se fosse così, ricaderei sul valore p. IE: ok, sì, c'è una tendenza / corsa nei dati .. ma è così leggero e insignificante che le statistiche suggeriscono che non vale la pena proseguire analisi di.

Una tendenza insignificante è qualcosa che può essere attribuibile a una sorta di parzialità nella ricerca .. forse qualcosa di molto minore .. qualcosa che potrebbe essere solo una volta una volta avvenuta nell'esperimento che è accaduto per creare una leggera tendenza.

Se fossi il manager del gruppo, direi loro di smettere di sprecare tempo e denaro per scavare in tendenze insignificanti e di cercare quelle più significative.


0

Sembra che in questo caso abbiano poche giustificazioni per la loro affermazione e stanno solo abusando delle statistiche per giungere alla conclusione che avevano già. Ma ci sono momenti in cui è ok non essere così severi con i cut-off di p-val. Questo (come usare significatività statistica e cut-off pval) è un dibattito che ha imperversato da quando Fisher, Neyman e Pearson hanno posto le basi dei test statistici.

Diciamo che stai costruendo un modello e stai decidendo quali variabili includere. Raccogli un po 'di dati per fare qualche indagine preliminare su potenziali variabili. Ora c'è questa variabile a cui il team aziendale è veramente interessato, ma la tua indagine preliminare mostra che la variabile non è statisticamente significativa. Tuttavia, la "direzione" della variabile si confronta con ciò che il team aziendale si aspettava e, sebbene non raggiungesse la soglia di rilevanza, era vicino. Forse si sospettava di avere una correlazione positiva con il risultato e si otteneva un coefficiente beta positivo ma il pval era appena un po 'al di sopra del limite di 0,05.

In tal caso, potresti andare avanti e includerlo. È una specie di statistica bayesiana informale - c'era una forte convinzione precedente che fosse una variabile utile e l'indagine iniziale su di essa ha mostrato alcune prove in quella direzione (ma non prove statisticamente significative!) Quindi gli dai il beneficio del dubbio e tenerlo nel modello. Forse con più dati sarà più evidente quale relazione abbia con l'esito di interesse.

Un altro esempio potrebbe essere quello in cui stai costruendo un nuovo modello e guardi le variabili che sono state utilizzate nel modello precedente: potresti continuare a includere una variabile marginale (una che è sulla cuspide della significatività) per mantenere una certa continuità dal modello modellare.

Fondamentalmente, a seconda di ciò che stai facendo, ci sono ragioni per essere sempre più severi con questo tipo di cose.

D'altra parte, è anche importante tenere presente che il significato statistico non deve implicare un significato pratico! Ricorda che al centro di tutto ciò c'è la dimensione del campione. Raccogli abbastanza dati e l'errore standard della stima si ridurrà a 0. Ciò farà qualsiasi tipo di differenza, non importa quanto piccola, "statisticamente significativa" anche se quella differenza potrebbe non corrispondere a nulla nel mondo reale. Ad esempio, supponiamo che la probabilità di un atterraggio di una moneta particolare sulle teste sia stata di .500000000000001. Ciò significa che teoricamente potresti progettare un esperimento che conclude che la moneta non è giusta, ma a tutti gli effetti la moneta potrebbe essere trattata come una moneta giusta.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.