I set di dati di grandi dimensioni sono inappropriati per il test delle ipotesi?


129

In un recente articolo di Amstat News , gli autori (Mark van der Laan e Sherri Rose) hanno dichiarato che "Sappiamo che per campioni sufficientemente grandi, ogni studio, compresi quelli in cui è vera l'ipotesi nulla di nessun effetto, dichiarerà un effetto statisticamente significativo ".

Beh, io per primo non lo sapevo. È vero? Significa che il test delle ipotesi è inutile per grandi serie di dati?


10
+1: questa domanda di solito espone alcuni punti di vista interessanti.
user603

7
Ulteriori discussioni su set di dati di grandi dimensioni vengono visualizzate su stats.stackexchange.com/q/7815/919 . (L'attenzione si concentra sul modello di regressione lì.)
whuber


8
Se un campione di grandi dimensioni ti fa pensare che il test delle ipotesi fosse lo strumento sbagliato, allora il test delle ipotesi non stava effettivamente rispondendo alla domanda giusta su campioni più piccoli - che era sbagliato è diventato più ovvio a campioni di grandi dimensioni, ma le stesse considerazioni sono rilevanti . Se un risultato significativo con una dimensione dell'effetto molto piccola ti fa dire "beh, non è quello che volevo, volevo che mi dicesse se era importante", quindi il test delle ipotesi era lo strumento sbagliato per cominciare. Esistono strumenti più adatti (ad es. Intervalli di confidenza, test di equivalenza, ecc.) Per quel tipo di problema.
Glen_b,

Risposte:


91

Non è vero. Se l'ipotesi nulla è vera, allora non verrà rifiutata più frequentemente a campioni di grandi dimensioni che piccoli. C'è un tasso di rifiuto errato che di solito è impostato su 0,05 (alfa) ma è indipendente dalla dimensione del campione. Pertanto, presa alla lettera l'affermazione è falsa. Tuttavia, è possibile che in alcune situazioni (anche interi campi) tutti i valori null siano falsi e quindi tutti saranno rifiutati se N è abbastanza alto. Ma è una brutta cosa?

Ciò che è vero è che effetti banalmente piccoli possono essere considerati "significativi" con campioni di dimensioni molto grandi. Ciò non suggerisce che non si debbano avere campioni di dimensioni così grandi. Ciò significa che il modo in cui interpreti la tua scoperta dipende dalla dimensione dell'effetto e dalla sensibilità del test. Se hai una dimensione dell'effetto molto piccola e un test altamente sensibile devi riconoscere che il risultato statisticamente significativo potrebbe non essere significativo o utile.

Dato che alcune persone non credono che un test dell'ipotesi nulla, quando il valore nullo è vero , abbia sempre un tasso di errore pari al punto di taglio selezionato per qualsiasi dimensione del campione, ecco una semplice simulazione per Rdimostrare il punto. Rendi N grande quanto desideri e il tasso di errori di tipo I rimarrà costante.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

8
+1: in effetti, tutte e tre le risposte qui sono logicamente coerenti tra loro.
user603

1
Finalmente ho trovato un debunking di qualcosa che un professore (non statistico) mi ha detto molto tempo fa.
Jase,

1
@Sympa, no. Solo perché SE scende mentre N sale non significa che troverai sempre un effetto con N grande (vedi simulazione). Tieni presente che mentre la SE sta diminuendo, la qualità della stima dell'effetto sta aumentando. Se non ci sono effetti sulla popolazione, è molto più probabile che sia vicino a 0 e non mostri alcuna differenza. In effetti, la distribuzione dei valori di p è piatta indipendentemente dalla dimensione del campione ogni volta che il valore nullo è vero (scrivi la tua simulazione per quello). Non c'è contraddizione nella risposta.
John,

4
Allora ti sbaglieresti. Potresti considerare di leggere anche le altre risposte qui. Dal momento che non è possibile seguire la relazione tra la simulazione e il test di ipotesi, immagino di poter solo indicare la tua affermazione principale che quando l'errore standard diminuisce, t sale e p scende. Questo è vero solo se l'effetto dovesse rimanere costante. Ma l'effetto è un campione casuale e quando l'effetto vero è 0 allora, quando N aumenta, l'effetto osservato tende a diminuire. Pertanto, anche se, quando N aumenta SE scende, non aumenterà i valori t poiché anche il numeratore nel valore t sarà più basso.
Giovanni,

1
Il fatto che rnorm non possa produrre un numero irrazionale è irrilevante nell'esempio. Anche se non trae esattamente normale da una media di 0 e sd di 1, è lo stesso non normale per entrambi i campioni. Il tasso di errore di tipo I potrebbe essere leggermente al di fuori di 0,05 ma dovrebbe rimanere costante indipendentemente da N. E non è vero per tutte le simulazioni poiché avrei potuto sceglierne uno discreto in cui questo non è un problema. (Se davvero volessi sollevare un problema esoterico, allora avresti dovuto affrontare la pseudo casualità.)
John

31

Concordo con le risposte che sono apparse, ma vorrei aggiungere che forse la domanda potrebbe essere reindirizzata. Se verificare un'ipotesi o meno è una domanda di ricerca che dovrebbe, almeno in generale, essere indipendente da quanti dati si hanno. Se hai davvero bisogno di testare un'ipotesi, fallo e non aver paura della tua capacità di rilevare piccoli effetti. Ma prima chiedi se fa parte dei tuoi obiettivi di ricerca.

Ora per alcuni cavilli:

  • Alcune ipotesi nulle sono assolutamente vere per costruzione. Quando stai testando un generatore di numeri pseudocasuali per equidistribuzione, per esempio, e quel PRG è veramente equidistribuito (che sarebbe un teorema matematico), allora vale il nullo. Probabilmente la maggior parte di voi può pensare a esempi più interessanti del mondo reale derivanti dalla randomizzazione in esperimenti in cui il trattamento non ha davvero alcun effetto. (Darei l'intera letteratura su esp come esempio. ;-)

  • In una situazione in cui un null "semplice" viene testato rispetto a un'alternativa "composta", come nei classici test t o test z, in genere si richiede una dimensione del campione proporzionale a per rilevare una dimensione dell'effetto di . C'è un limite pratico superiore a questo in qualsiasi studio, il che implica che esiste un limite inferiore pratico su una dimensione di effetto rilevabile. Quindi, in teoria, der Laan e Rose sono corretti, ma dovremmo occuparci di applicare le loro conclusioni. ϵ1/ϵ2ϵ


α

@fcop I tuoi commenti, sebbene corretti, sembrano indirizzati ad altre risposte. Mancano il punto di questo, che è quello di suggerire che non tutte le analisi statistiche devono essere test di ipotesi. Gli errori di tipo I e II hanno significato solo quando si conducono test formali di ipotesi.
whuber

H0:μ=1H1:μ1

@fcop Grazie per aver spiegato. Sono d'accordo con il tuo ragionamento: quando il nulla è vero, allora per costruzione anche studi di grandi dimensioni troveranno un effetto significativo con una possibilità al massimo uguale alla dimensione del loro test - cioè, è improbabile che trovino un effetto significativo.
whuber

19

I test di ipotesi tradizionalmente focalizzati sui valori di p per ricavare significatività statistica quando l'alfa è inferiore a 0,05 presentano una grave debolezza. E cioè che con una dimensione del campione abbastanza grande qualsiasi esperimento può eventualmente respingere l'ipotesi nulla e rilevare differenze banalmente piccole che risultano statisticamente significative.

Questo è il motivo per cui le case farmaceutiche strutturano studi clinici per ottenere l'approvazione della FDA con campioni molto grandi. Il grande campione ridurrà l'errore standard a quasi zero. Questo a sua volta aumenterà artificialmente la stat t e abbasserà commisuratamente il valore p per chiudere allo 0%.

Mi incontro all'interno di comunità scientifiche che non sono corrotte da incentivi economici e il relativo test di ipotesi sul conflitto di interessi si sta allontanando da qualsiasi misurazione del valore p verso misurazioni della dimensione dell'effetto. Questo perché l'unità di distanza statistica o di differenziazione nell'analisi Dimensione effetto è la deviazione standard anziché l'errore standard. Inoltre, la deviazione standard è completamente indipendente dalla dimensione del campione. D'altro canto, l'errore standard dipende totalmente dalla dimensione del campione.

Quindi, chiunque sia scettico nei test delle ipotesi che raggiungono risultati statisticamente significativi basati su campioni di grandi dimensioni e metodologie relative al valore p è giusto essere scettici. Dovrebbero ripetere l'analisi utilizzando gli stessi dati ma utilizzando invece i test statistici sulle dimensioni dell'effetto. E poi osserva se la dimensione dell'effetto è considerata materiale o no. In tal modo, è possibile osservare che un mucchio di differenze statisticamente significative sono associate a Dimensione effetto non rilevante. Questo è ciò che i ricercatori della sperimentazione clinica a volte intendono quando un risultato è statisticamente significativo ma non "clinicamente significativo". Significano che un trattamento può essere migliore del placebo, ma la differenza è così marginale che non farebbe alcuna differenza per il paziente in un contesto clinico.


1
Il grande campione di una persona è il piccolo campione di un'altra. :)
Iteratore

3
Allora non hai fatto la domanda sbagliata? Forse il processo di approvazione della FDA dovrebbe specificare un guadagno maggiore rispetto al placebo (forse correlato ai costi del farmaco, compresi i suoi effetti avversi) invece di richiedere solo un significato statistico? Perché può benissimo esserci una vera differenza, anche se molto piccola, e quella differenza si è dimostrata statisticamente significativa per quanto piccola sia.
Emil Vikström,

La FDA non richiede "solo significatività statistica". Sarebbe assurdo. Tutti nel settore comprendono cosa significa "clinicamente significativo". La FDA valuta l'evidenza statistica dell'efficacia del farmaco misurata da endpoint clinici, come la remissione, rispetto a problemi di salute e sicurezza. Si prega di leggere le linee guida della FDA prima di fare affermazioni prive di fondamento.
qwr

15

Un test di ipotesi (frequentista), precisamente, affronta la questione della probabilità dei dati osservati o qualcosa di più estremo sarebbe probabilmente presumendo che l'ipotesi nulla sia vera. Questa interpretazione è indifferente alla dimensione del campione. Tale interpretazione è valida se il campione è di dimensioni 5 o 1.000.000.

Un avvertimento importante è che il test è rilevante solo per errori di campionamento. Eventuali errori di misurazione, problemi di campionamento, copertura, errori di immissione dei dati, ecc. Non rientrano nell'ambito dell'errore di campionamento. All'aumentare della dimensione del campione, gli errori non di campionamento diventano più influenti in quanto piccole partenze possono produrre scostamenti significativi dal modello di campionamento casuale. Di conseguenza, i test di significato diventano meno utili.

Questo non è in alcun modo un'accusa di test di significatività. Tuttavia, dobbiamo stare attenti alle nostre attribuzioni. Un risultato può essere statisticamente significativo. Tuttavia, dobbiamo essere cauti su come facciamo le attribuzioni quando la dimensione del campione è grande. Tale differenza è dovuta al nostro processo di generazione ipotizzato rispetto a un errore di campionamento o è il risultato di una serie di possibili errori non di campionamento che potrebbero influenzare la statistica del test (che la statistica non tiene conto)?

Un'altra considerazione con campioni di grandi dimensioni è il significato pratico di un risultato. Un test significativo potrebbe suggerire (anche se possiamo escludere un errore non di campionamento) una differenza che è banale in senso pratico. Anche se tale risultato è improbabile dato il modello di campionamento, è significativo nel contesto del problema? Dato un campione abbastanza grande, una differenza di pochi dollari potrebbe essere sufficiente per produrre un risultato statisticamente significativo quando si confronta il reddito tra due gruppi. È importante in qualche senso significativo? Il significato statistico non sostituisce il buon senso e la conoscenza della materia.

A parte questo, il nulla non è né vero né falso. È un modello. È un presupposto. Partiamo dal presupposto che il valore nullo è vero e valutiamo il nostro campione in termini di tale presupposto. Se il nostro campione sarebbe improbabile dato questo presupposto, riponiamo maggiore fiducia nella nostra alternativa. Mettere in dubbio se un nulla sia mai vero nella pratica è un fraintendimento della logica del test di significatività.


3
Ciò supporta un argomento per una maggiore complessità del modello man mano che le dimensioni del campione diventano grandi: nel caso del grande campione l'errore di campionamento non è più la fonte dominante di incertezza. Naturalmente questo "ha senso" solo in un quadro bayesiano, che consente altre fonti di incertezza oltre all'errore di campionamento.
probabilityislogic

13

Un semplice punto non posto direttamente in un'altra risposta è che semplicemente non è vero che "tutte le ipotesi nulle sono false".

La semplice ipotesi che una moneta fisica abbia una probabilità di testa esattamente uguale a 0,5, ok, è falsa.

α

α


9

In un certo senso, [tutte] molte ipotesi nulle sono [sempre] false (il gruppo di persone che vivono in case con numeri dispari non guadagna esattamente esattamente lo stesso media del gruppo di persone che vivono in case con numeri pari).

Tαn0.5Tααn

Questo non è un difetto dei test statistici. Semplicemente una conseguenza del fatto che senza ulteriori informazioni (un precedente) abbiamo che un gran numero di piccole incongruenze con il nulla devono essere prese come prove contro il nulla. Non importa quanto siano insignificanti queste incongruenze.

P^(|μ¯1μ¯2|2>η|η,X)


È strano ... intuitivamente, questo sembra contraddire la Legge dei Grandi Numeri.
Carlos Accioly,

Carlos:> puoi essere più specifico?
user603

n

1
@Carlos - ma la convergenza non significa uguaglianza; questo è garantito solo per il limite irraggiungibile dell'infinito. Quindi non ci sono contraddizioni ;-)

5

La risposta breve è "no". La ricerca sui test di ipotesi nel regime asintotico di infinite osservazioni e ipotesi multiple è stata molto, molto attiva negli ultimi 15-20 anni, a causa dei dati di microarray e delle applicazioni di dati finanziari. La lunga risposta è nella pagina del corso di Stat 329, "Inferenza simultanea su larga scala", insegnata nel 2010 da Brad Efron. Un capitolo completo è dedicato alla verifica di ipotesi su larga scala.


7
Credo che il libro di Efron si concentri su un gran numero di variabili (e sui conseguenti problemi di test multipli che ne risultano), non sulla dimensione del campione.
Galit Shmueli,

4

I test di ipotesi per dati di grandi dimensioni dovrebbero tenere conto del livello di differenza desiderato, piuttosto che se vi sia o meno una differenza. Non ti interessa H0 che la stima sia esattamente 0. Un approccio generale sarebbe quello di verificare se la differenza tra l'ipotesi nulla e il valore osservato sia maggiore di un dato valore di cut-off.

X1¯>X2¯

T=X1¯X2¯δS2n+δS2nN(δS2n,1)
T=X1¯X2¯S2nN(δS2n,1)

H0:X1¯X2¯=δ

X1¯X2¯δS2nN(0,1)

HAX1¯X2¯>δ

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

Che dà :

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100 

non c'è un refuso copia / passato nella prima equazione?
user603

Non lo vedo?
Joris Meys,

4

"Significa che il test delle ipotesi è inutile per grandi serie di dati?"

No, non significa questo. Il messaggio generale è che le decisioni prese dopo aver condotto un test di ipotesi dovrebbero sempre tenere conto della dimensione stimata dell'effetto e non solo del valore p. In particolare, negli esperimenti con campioni di dimensioni molto grandi, questa necessità di considerare la dimensione dell'effetto diventa drammatica. Naturalmente, in generale, agli utenti non piace questo perché la procedura diventa meno "automatica".

Considera questo esempio di simulazione. Supponiamo di avere un campione casuale di 1 milione di osservazioni da una distribuzione normale standard,

n <- 10^6
x <- rnorm(n)

0.01

y <- rnorm(n, mean = 0.01)

95%2.5×1014

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

95%[0.013,0.008]

Una differenza tra le due popolazioni significa che questo ordine di grandezza è rilevante per il particolare problema che stiamo studiando o no?


Sono d'accordo con tutto nella tua risposta tranne quella prima frase, che cambierei in "Sì, di solito significa che", perché con grandi campioni di un milione o giù di lì le dimensioni dell'effetto sono così piccole.
ciclista

α

3

HST:d1=1.23,d2=1.11,di

Ma di solito non si è interessati a queste ipotesi certe cose. Se pensi a cosa vuoi effettivamente fare con il test di ipotesi, riconoscerai presto che dovresti rifiutare l'ipotesi nulla se hai qualcosa di meglio con cui sostituirla. Anche se il tuo null non spiega i dati, è inutile buttarli via, a meno che tu non abbia una sostituzione. Ora sostituiresti sempre il nulla con l'ipotesi "cosa certa"? Probabilmente no, perché non puoi usare queste ipotesi di "cosa certa" per generalizzare oltre il tuo set di dati. Non è molto più che stampare i tuoi dati.

Quindi, ciò che dovresti fare è specificare l'ipotesi su cui ti interesserebbe effettivamente agire se fossero vere. Quindi fai il test appropriato per confrontare quelle alternative tra loro - e non per qualche irrilevante classe di ipotesi che sai essere false o inutilizzabili.

H0:μ=0H1:μ{±1,±2,±3,±4,±5,±6}0.5100

La conclusione è fondamentalmente che devi specificare il tuo spazio di ipotesi - quelle ipotesi a cui sei realmente interessato. Sembra che con i big data, questo diventi una cosa molto importante da fare, semplicemente perché i tuoi dati hanno così tanto potere risolutivo. Sembra anche importante confrontare come ipotesi - punto con punto, composto con composto - per ottenere risultati ben educati.


3

No. È vero, tutti i test di ipotesi puntuali utili sono coerenti e quindi mostreranno un risultato significativo se solo la dimensione del campione è abbastanza grande e sussistono effetti irrilevanti. Per ovviare a questo inconveniente del test delle ipotesi statistiche (già menzionato nella risposta di Gaetan Lion sopra), esistono test di pertinenza. Questi sono simili ai test di equivalenza ma ancora meno comuni. Per un test di rilevanza, è prespecificata la dimensione di un effetto minimo rilevante. Un test di pertinenza può basarsi su un intervallo di confidenza per l'effetto: se l'intervallo di confidenza e la regione di pertinenza sono disgiunti, è possibile rifiutare il valore nullo.

Tuttavia, van der Laan e Rose assumono nella loro affermazione che persino vere ipotesi nulle sono state testate negli studi. Se un'ipotesi nulla è vera, la propensione a rifiutare non è maggiore di quella alfa, specialmente nel caso di campioni di grandi dimensioni e persino non specificati, posso solo vedere che la distribuzione del campione è sistematicamente diversa dalla distribuzione della popolazione,


3

L'articolo che hai citato ha un punto valido, per quanto riguarda i test frequentist standard. Ecco perché testare una data dimensione dell'effetto è molto importante. Per illustrare, ecco un'anova tra 3 gruppi, in cui il gruppo B è leggermente diverso dal gruppo A e C. provalo in r:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

Come previsto, con un numero maggiore di campioni per test, la significatività statistica del test aumenta: inserisci qui la descrizione dell'immagine


2

Penso che ciò significhi che si fa spesso un presupposto sulla densità di probabilità dell'ipotesi nulla che ha una forma "semplice" ma non corrisponde alla vera densità di probabilità.

Ora con piccoli set di dati, potresti non avere abbastanza sensibilità per vedere questo effetto ma con un set di dati abbastanza grande respingerai l'ipotesi nulla e concluderai che c'è un nuovo effetto invece di concludere che la tua ipotesi sull'ipotesi nulla è sbagliata.


1
Non so se Mark e Shern avevano in mente il tuo punto di vista, ma solo per riformulare il tuo punto - se il modello per i dati sotto il null è "sbagliato", allora respingerai l'ipotesi nulla per un dato abbastanza grande.

1

α

H0H1

La potenza aumenta con la dimensione del campione (tutte le altre cose uguali).

Ma l'affermazione che "Sappiamo che per campioni di dimensioni sufficientemente grandi, ogni studio, compresi quelli in cui è vera l'ipotesi nulla di nessun effetto, dichiarerà un effetto statisticamente significativo." non è corretto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.