Se il valore p è esattamente 1 (1.0000000), quali dovrebbero essere i limiti dell'intervallo di confidenza per sostenere che l'ipotesi nulla sia vera? [chiuso]


12

Questa è puramente una domanda ipotetica. Un'affermazione molto comune è che non è mai vero, è solo una questione di dimensioni del campione.H0

Supponiamo che per davvero non vi sia alcuna differenza misurabile tra due mezzi ( ) tratti dalla popolazione normalmente distribuita (sia per che per stimati ). Assumiamo per gruppo e usiamo -test. Ciò significherebbe che -value è indicando che non vi è assolutamente alcuna discrepanza rispetto a . Ciò indicherebbe che la statistica del test è . La differenza media tra i gruppi sarebbe . Quali sarebbero i limiti dell'intervallo di confidenza al per la differenza media in questo caso? Lo sarebberoμ1=μ2μ=0σ=1N=16tp1.00000H00095%[0.0,0.0] ?

Il punto principale della mia domanda era che quando possiamo davvero dire che è vero, cioè in questo caso? O quando in un quadro frequentista possiamo veramente dire "nessuna differenza" quando si confrontano due mezzi?H0μ1=μ2


1
Direi che è già stata data una risposta qui stats.stackexchange.com/questions/275677/… , ma non insisto .
Tim

1
Ho problemi a trovare un modo per ottenere con variazioni di popolazione positive. p=1
Dave,


3
"Assumiamo N = 16 per gruppo e utilizziamo il test t. Ciò significherebbe che il valore p è 1.00000, indicando che non c'è assolutamente alcuna discrepanza da H0." Perché sostenete che qualcosa (a cosa si riferisce "questo"?) Significa che il valore p è 1. Più comunemente il valore p è distribuito uniformemente quando H_0 è vero e p = 1 accade quasi mai.
Sesto Empirico

2
@MartijnWeterings è assolutamente corretto - solo perché stai campionando due distribuzioni che sono in realtà identiche non significa che otterrai un valore p di 1 quando le confronti. Per definizione, il 5% delle volte otterrai un valore p inferiore a 0,05.
Nuclear Wang,

Risposte:


16

Un intervallo di confidenza per un test t è nel formato , dove e sono i mezzi di esempio, è il valore critico in corrispondenza del dato e è l'errore standard della differenza nelle medie. Se , quindi . Quindi la formula è solo e i limiti sono solo { ,x¯1x¯2±tcrit,αsx¯1x¯2x¯1x¯2tcrit,αtαsx¯1x¯2p=1.0x¯1x¯2=0±tcrit,αsx¯1x¯2tcrit,αsx¯1x¯2tcrit,αsx¯1x¯2 }.

Non sono sicuro del motivo per cui penseresti che i limiti sarebberoIl valore critico non è zero e l'errore standard della differenza media non è zero.{0,0}.t


10

Essere super-pigri, usando R per risolvere il problema numericamente anziché fare i calcoli a mano:

Definisci una funzione che fornirà valori normalmente distribuiti con una media di (quasi!) Esattamente zero e una SD esattamente di 1:

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

Esegui un test t:

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

I mezzi non sono esattamente zero a causa dell'imprecisione in virgola mobile.

Più direttamente, gli EC sono ; la varianza di ogni media è 1/16, quindi la varianza aggregata è 1/8.± sqrt(1/8)*qt(0.975,df=30)


8

L'elemento della configurazione può avere limiti, ma è centrato esattamente attorno allo zero

Per un test T a due campioni (test per una differenza nella media di due popolazioni), un valore p esattamente di uno corrisponde al caso in cui i mezzi campione osservati sono esattamente uguali. (le varianze di esempio possono assumere qualsiasi valore.) Per vedere questo, nota che la funzione p-value per il test è:

pp(x,y)=P(|X¯Y¯SY/nY+SY/nY||x¯y¯sY/nY+sY/nY|).

Pertanto, l'impostazione di produce:x¯=y¯

p(x,y)=P(|X¯Y¯SY/nY+SY/nY|0)=1.

Supponiamo ora di formare l'intervallo di confidenza standard (approssimativo) usando l'approssimazione Welch-Satterwaite. In questo caso, supponendo che (per dare un valore p esatto di uno) dia l'intervallo di confidenza:x¯=y¯

CI(1α)=[0±sXnX+tDF,α/2sYnY],

dove il grado di libertà è determinato dall'approssimazione di Welch-Satterwaite. A seconda delle varianze del campione osservate nel problema, l'intervallo di confidenza può essere qualsiasi intervallo finito centrato attorno allo zero. Cioè, l'intervallo di confidenza può avere dei limiti, purché sia ​​centrato esattamente attorno allo zero.DF


Naturalmente, se i dati sottostanti provengono effettivamente da una distribuzione continua, questo evento si verifica con probabilità zero, ma supponiamo che accada.


La domanda dice "σ stimata = 1".
Accumulo

Questa condizione non è necessaria per ottenere un valore p di uno, quindi l'ho lasciato cadere.
Ben - Ripristina Monica il

3

È difficile avere una discussione filosofica convincente su cose che hanno 0 probabilità di accadere. Quindi ti mostrerò alcuni esempi relativi alla tua domanda.

Se hai due enormi campioni indipendenti dalla stessa distribuzione, entrambi i campioni avranno comunque una certa variabilità, la statistica t a 2 campioni raggruppata sarà vicina, ma non esattamente 0, il valore P verrà distribuito come e l'intervallo di confidenza al 95% sarà molto breve e centrato molto vicino aUnif(0,1),0.

Un esempio di uno di questi set di dati e test t:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

Ecco i risultati riassunti di 10.000 di queste situazioni. Innanzitutto, la distribuzione dei valori P.

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

inserisci qui la descrizione dell'immagine

Successivamente la statistica del test:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

inserisci qui la descrizione dell'immagine

E così via per la larghezza dell'IC.

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

È quasi impossibile ottenere un valore P di unità facendo un test esatto con dati continui, in cui vengono soddisfatte le ipotesi. Tanto che uno statistico saggio mediterà su cosa potrebbe essere andato storto nel vedere un valore P di 1.

Ad esempio, è possibile fornire al software due campioni identici di grandi dimensioni. La programmazione proseguirà come se si trattasse di due campioni indipendenti e fornirà risultati strani. Ma anche in questo caso l'IC non avrà larghezza 0.

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 

Questo è abbastanza giusto, tuttavia, poiché la distribuzione normale è continua, la probabilità per qualsiasi esempio specifico è zero, non importa se u1 = u2 o u1-u2 = -0.977 o altro. Sono stato tentato di commentare sulla falsariga di "questo non accadrà mai e anche in quel caso è probabile che ci sia qualcosa di sbagliato", ma poi ho pensato, no, ha senso dire, supponiamo che sia successo, accettando che questo ha probabilità zero come qualsiasi esempio specifico .
Lewian,

1
Questa è la risposta giusta alla domanda sbagliata
David

1
@ David. Forse così. Se riesci a dichiarare ciò che ritieni sia la domanda giusta e suggerire una risposta, ciò potrebbe essere utile a tutti. Ho tentato solo di affrontare alcune di quelle che pensavo fossero diverse idee sbagliate.
BruceET,

Il PO ha dichiarato "Un'affermazione molto comune è che H0 non è mai vero." La risposta di @ BruceET dimostra PERCHÉ H0 non può mai essere accettato. Quanto più vicino H0 diventa vero, tanto più uniformemente P diventa casuale, il che significa che una P tra (0,98,0,99) è altrettanto probabile che una P tra (0,1, 0,2) quando H0 è vera.
Ron Jensen - Siamo tutti Monica il

1

La risposta semplice (da +1 a Noè) spiegherà che l'intervallo di confidenza per la differenza media può essere ancora di lunghezza diversa da zero perché dipende dalla variazione osservata nel campione in un modo diverso rispetto al valore p.

Tuttavia potresti ancora chiederti perché è così. Dal momento che non è così strano immaginare che un alto valore p significhi anche un piccolo intervallo di confidenza. Dopotutto entrambi corrispondono a qualcosa che è vicino a una conferma dell'ipotesi nulla. Quindi perché questo pensiero non è corretto?

Un valore p elevato non equivale a un piccolo intervallo di confidenza.

  • Il valore p è un indicatore di quanto estrema sia una particolare osservazione (estrema data un'ipotesi) esprimendo quanto sia probabile osservare una determinata deviazione. È un'espressione della dimensione dell'effetto osservato in relazione all'accuratezza dell'esperimento (una grande dimensione dell'effetto osservato potrebbe non significare molto quando l'esperimento è così 'inaccurato' che queste osservazioni non sono estreme dal punto di vista statistico / probabilistico ). Quando si osserva un valore p 1 allora questo (solo) significa che è osservato effetto zero perché la probabilità di osservare tale risultato zero o più grande è uguale a 1 (ma questa non è la stessa che ci sia effetto zero).

    Sidenote: Perché i valori p? Il valore p esprime la dimensione effettiva dell'effetto osservato in relazione alle dimensioni previste dell'effetto (probabilità). Ciò è rilevante perché, in base alla progettazione, gli esperimenti potrebbero generare osservazioni di alcune dimensioni di effetti rilevanti per puro caso a causa di fluttuazioni comuni di dati / prenotazioni. Richiedere che un'osservazione / esperimento abbia un basso valore p significa che l'esperimento ha un'alta precisione, ovvero: la dimensione dell'effetto osservato è meno frequente / probabile a causa di possibilità / fluttuazioni (e potrebbe essere probabilmente dovuta a un effetto reale) .

    Sidenote: per variabili continue questo valore p uguale a 1 non si verifica quasi mai perché è un evento che ha misura zero (es. Per una variabile distribuita normale hai ). Ma per una variabile discreta o una variabile continua discretizzata può essere il caso (almeno la probabilità è diversa da zero).XN(0,1)P(X=0)=0

  • L'intervallo di confidenza potrebbe essere visto come l'intervallo di valori per i quali un   test di ipotesi a livello avrebbe esito positivo (per cui il valore p è superiore a ).αα

    Si dovrebbe notare che un alto valore p non è (necessariamente) una prova / supporto / qualunque cosa per l'ipotesi nulla. L'alto valore p significa solo che l'osservazione non è notevole / estrema per una data ipotesi nulla, ma ciò potrebbe valere anche per l'ipotesi alternativa (cioè il risultato è conforme a entrambe le ipotesi effetto sì / no). Ciò si verifica in genere quando i dati non contengono molte informazioni (ad es. Rumore elevato o piccolo campione).

Esempio: immagina di avere un sacchetto di monete per il quale hai monete giuste e ingiuste e vuoi classificare una determinata moneta lanciandola 20 volte. (diciamo che la moneta è una variabile bernoulli con per le monete giuste e per le monete ingiuste. In questo caso, quando osservi 10 teste e 10 code, allora potresti dire la p- il valore è uguale a 1, ma suppongo che sia ovvio che una moneta ingiusta potrebbe anche creare questo risultato e non dovremmo escludere la possibilità che la moneta sia ingiusta.p0.5pU(0,1)


1

Il punto principale della mia domanda era che quando possiamo davvero dire che è vero, cioè in questo caso?H0μ1=μ2

No, perché "l'assenza di prove non è prova di assenza". La probabilità può essere pensata come un'estensione della logica , con ulteriori incertezze, quindi immagina per un momento che al posto dei numeri reali sull'intervallo di unità, il test di ipotesi restituirebbe solo i valori binari: 0 (falso) o 1 (vero). In tal caso, si applicano le regole di base della logica, come nell'esempio seguente :

  • Se pioveva all'esterno, è probabile che il terreno sia bagnato.
  • Il terreno è bagnato
  • Pertanto, ha piovuto fuori.

Il terreno potrebbe benissimo essere bagnato perché ha piovuto. Oppure potrebbe essere dovuto a uno spruzzatore, a qualcuno che pulisce le grondaie, a una rottura dell'acqua principale, ecc. Altri esempi estremi si possono trovare nel link sopra.

Per quanto riguarda l'intervallo di confidenza, se il campione è grande e , l'intervallo di confidenza per la differenza diventerebbe estremamente stretto, ma diverso da zero. Come notato da altri, potresti osservare cose come quelle esatte e zeri, ma piuttosto a causa dei limiti di precisione in virgola mobile.μ1μ20

Anche se hai osservato e l' intervallo di confidenza , devi comunque tenere presente che il test ti fornisce solo la risposta approssimativa. Quando facciamo test di ipotesi, non solo assumiamo che sia vero, ma facciamo anche una serie di altre ipotesi, come che i campioni siano indipendenti e provengano dalla normale distribuzione, cosa che non accade mai per i dati del mondo reale. Il test ti dà una risposta approssimativa a una domanda sbagliata, quindi non può "provare" l'ipotesi, può semplicemente dire "sotto quelle assurde assunzioni, ciò sarebbe improbabile" .p=1±0H0


0

Nulla ti impedisce di utilizzare le formule standard t o Gauss per calcolare l'intervallo di confidenza: tutte le informazioni necessarie sono fornite nella tua domanda. p = 1 non significa che ci sia qualcosa di sbagliato in questo. Nota che p = 1 non significa che puoi essere particolarmente sicuro che H0 sia vero. La variazione casuale è ancora presente e se u0 = u1 può accadere sotto H0, può anche accadere se il valore reale di u0 è leggermente diverso dal vero u1, quindi ci sarà più nell'intervallo di confidenza che solo l'uguaglianza.


Ho fatto un po 'di editing, spero che ora sia più definito.
Arkiaamu,

OK, ho rimosso i riferimenti a ciò che era stato definito male nella versione precedente. Nel frattempo la domanda ha ricevuto una risposta adeguata da parte di altri.
Lewian,

Si prega di utilizzare la notazione MathJax
David

0

Un'affermazione molto comune è che H0 non è mai vero, è solo una questione di dimensioni del campione.

Non tra le persone che sanno di cosa stanno parlando e parlano in modo preciso. Verifica di ipotesi tradizionale non conclude che il nulla sia vera, ma se l'ipotesi nulla è vero o non è separato dal fatto che l'null viene concluso per essere vero.

Ciò significherebbe che il valore p è 1.00000

Per un test a due code, sì.

indicando che non c'è assolutamente alcuna discrepanza da H0.

H0H00H0H0 prevede che sarebbe molto più legittimamente definito una "discrepanza" rispetto alla semplice visualizzazione di un singolo campione la cui media non corrisponde alla modalità.

Quali sarebbero i limiti dell'intervallo di confidenza al 95% per la differenza media in questo caso?

f(ϵ)ϵlimϵ0f(ϵ)

Il punto principale della mia domanda era che quando possiamo davvero dire che H0 è vero, cioè μ1 = μ2 in questo caso?

Possiamo dire quello che vogliamo. Tuttavia, dire che un test mostra che il valore nullo è vero non è coerente con il tradizionale test di ipotesi, indipendentemente dai risultati. E farlo non è fondato da un punto di vista evidente. L'ipotesi alternativa, secondo cui i mezzi non sono gli stessi, comprende tutte le possibili differenze nei mezzi. L'ipotesi alternativa è "La differenza nelle medie è , o , oppure , oppure o123.5.1, ... "Possiamo ipotizzare una differenza arbitrariamente piccola nei mezzi, e ciò sarà coerente con l'ipotesi alternativa. E con una differenza arbitrariamente piccola, la probabilità data quella media è arbitrariamente vicina alla probabilità data il nulla. Inoltre, il l'ipotesi alternativa comprende non solo la possibilità che i parametri delle distribuzioni, come la media, siano diversi, ma che ci sia una distribuzione completamente diversa. Ad esempio, l'ipotesi alternativa comprende "I due campioni avranno sempre una differenza nel fatto che questo è esattamente 1 o esattamente 0, con probabilità 0,5 per ciascuno ". I risultati sono più coerenti con quello di allora sono con il null.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.