ANOVA può essere significativo quando nessuno dei t-test a coppie è?


29

È possibile per ANOVA a senso unico (con gruppi o "livelli") segnalare una differenza significativa quando nessuno dei test T a coppie fa?N ( N - 1 ) / 2N>2N(N-1)/2

In questa risposta @whuber ha scritto:

È noto che un test ANOVA F globale può rilevare una differenza di mezzi anche nei casi in cui nessun test t individuale [non aggiustato a coppie] di una qualsiasi delle coppie di mezzi produrrà un risultato significativo.

così apparentemente è possibile, ma non capisco come. Quando succede e quale sarebbe l'intuizione dietro un caso del genere? Forse qualcuno può fornire un semplice esempio giocattolo di una situazione del genere?

Alcune ulteriori osservazioni:

  1. È chiaramente possibile il contrario: l'ANOVA complessivo può essere non significativo, mentre alcuni dei test t a coppie segnalano erroneamente differenze significative (cioè quelli sarebbero falsi positivi).

  2. La mia domanda riguarda lo standard, non aggiustato per test di confronto multipli. Se vengono utilizzati test adattati (come ad esempio la procedura HSD di Tukey), è possibile che nessuno di essi si riveli significativo anche se lo è l'ANOVA generale. Questo è trattato qui in diverse domande, ad es. Come posso ottenere un ANOVA complessivo significativo ma nessuna differenza significativa a livello di coppia con la procedura di Tukey? e significativa interazione ANOVA ma confronti non significativi a coppie .

  3. Aggiornare. La mia domanda originariamente si riferiva ai soliti test a T a due campioni . Tuttavia, come sottolineato da @whuber nei commenti, nel contesto ANOVA, i t-test sono generalmente intesi come contrasti post hoc utilizzando la stima ANOVA della varianza all'interno del gruppo, raggruppata tra tutti i gruppi (che non è ciò che accade in due -sample t-test). Quindi in realtà ci sono due diverse versioni della mia domanda e la risposta a entrambe risulta positiva. Vedi sotto.


3
La tua domanda è trattata in molti thread: prova a cercare nel nostro sito una regressione significativa . (ANOVA è un'applicazione di regressione dei minimi quadrati.) Ad esempio, stats.stackexchange.com/questions/14500/… fornisce un esempio esplicito e alcune intuizioni. Cerca queste e modifica la tua domanda, se possibile, per distinguerla dai thread precedenti.
whuber

Grazie, non l'ho mai visto prima. Tuttavia, ho davvero difficoltà a tradurre queste spiegazioni sulla regressione multipla nella lingua dei confronti ANOVA. Questo è ovviamente un mio problema, ma immagino di non essere solo, quindi forse una risposta alla mia domanda sarebbe comunque utile per la comunità. Ecco la mia confusione: qualcuno ha dato un esempio di regressione del peso alle misure di scarpe sinistra / destra (due IV fortemente correlate) => F signif, t no. Ottimo. Ora nella regressione ANOVA con 3 gruppi ci sono 2 IV fittizi ; sono fittizi => sempre perfettamente anticorrelati ... E allora?
ameba dice che ripristini Monica il

Temo di non seguire l'ultima osservazione. Innanzitutto, il problema non è necessariamente correlato a una forte correlazione nella matrice di progettazione. In secondo luogo, i manichini non sono "perfettamente anticorrelati": se lo fossero, il software dovrebbe comunque abbandonarne uno. Forse potresti riferirti a problemi più sottili in modelli ANOVA più complessi .
whuber

@amoeba: le variabili fittizie sono correlate negativamente.
Michael M,

3
Faccio eccezione alla tua "ulteriore osservazione" n. 1. Solo perché hai confronti a coppie altamente significativi e una F non significativa non implica che questi risultati significativi siano falsi positivi. Per sapere con certezza che qualcosa è un falso positivo, devi sapere che non c'è differenza nei mezzi reali, i mu. La statistica F non è sacra. In realtà, non è nemmeno obbligatorio. È molto utile per la selezione dei modelli, ma oltre a ciò è poco informativo su ciò che sta accadendo specificamente nei tuoi dati.
rvl,

Risposte:


18

Nota: c'era qualcosa di sbagliato nel mio esempio originale. Sono stato stupidamente preso dal riciclaggio silenzioso di argomenti di R. Il mio nuovo esempio è abbastanza simile al mio vecchio. Spero che sia tutto in questo momento.

Ecco un esempio che ho fatto che ha l'ANOVA significativo al livello del 5% ma nessuno dei 6 confronti a coppie sono significativi, anche a livello del 5% .

Ecco i dati:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

inserisci qui la descrizione dell'immagine

Ecco l'ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

Ecco i due valori p del test t di esempio (ipotesi di varianza uguale):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Con un po 'più di armeggiare con medie di gruppo o singoli punti, la differenza di significato potrebbe essere resa più evidente (in quanto potrei ridurre il primo valore p e il più basso dell'insieme di sei valori p per il test t più alto ).

-

Modifica: ecco un ulteriore esempio che è stato originariamente generato con il rumore di una tendenza, che mostra quanto meglio puoi fare se sposti un po 'i punti:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

La F ha un valore p inferiore al 3% e nessuna delle t ha un valore p inferiore all'8%. (Per un esempio di 3 gruppi - ma con un valore p un po 'più grande sulla F - ometti il ​​secondo gruppo)

Ed ecco un esempio davvero semplice, anche se più artificiale, con 3 gruppi:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(In questo caso, la varianza maggiore si trova nel gruppo centrale, ma a causa della dimensione del campione maggiore lì, l'errore standard della media del gruppo è ancora più piccolo)


T-test di confronti multipli

whuber mi ha suggerito di considerare il caso di confronti multipli. Si rivela abbastanza interessante.

Il caso di confronti multipli (tutti condotti al livello di significatività originale - cioè senza regolare l'alfa per confronti multipli) è un po 'più difficile da ottenere, poiché giocare con varianze sempre più piccole o più e meno df nei diversi gruppi non aiuta come fanno con i normali test a due campioni.

Tuttavia, abbiamo ancora gli strumenti per manipolare il numero di gruppi e il livello di significatività; se scegliamo più gruppi e livelli di significatività più piccoli, diventa di nuovo relativamente semplice identificare i casi. Eccone uno:

nio=2α=0.0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

Tuttavia, il più piccolo valore p sui confronti a coppie non è significativo che quel livello:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
Il test t a due campioni non è la stessa cosa dei test a coppie nella regressione. La distinzione sta nelle stime della varianza residua. Quindi i tuoi esempi non sono in realtà esempi del paradosso più forte, ovvero che all'interno della stessa analisi di regressione il test F può essere significativo mentre nessuno dei suoi confronti a coppie è significativo. Credo che questo paradosso non derivi necessariamente dall'eteroscedasticità: può apparire anche quando tutte le varianze di gruppo sono uguali.
whuber

4
Ancora più interessante potrebbe essere affrontare quando è possibile per il test F rifiutare il null ma nessuno dei test t a coppie lo rifiuta allo stesso livello di significatività (usando la stessa stima della varianza di errore del test F). Ad esempio per 3 gruppi con uguali dimensioni del campione l'unione della regione di rifiuto del 5% per i test t a coppie contiene la regione di rifiuto del 5% per il test F ANOVAR anche quando le dimensioni del campione diventano molto grandi.
Scortchi - Ripristina Monica

4
0.005F

4
Ameba, la confusione deriva dal fatto che "t-test a coppie" può significare due cose. Nel contesto ANOVA, di solito si intendono i contrasti post hoc utilizzando le stime ANOVA. Come altri hanno sottolineato, questo non equivale a condurre il solito test t su coppie di gruppi, poiché la versione ANOVA si basa su una stima della varianza all'interno del gruppo derivata da tutti i gruppi.
whuber

2
Penso che tu abbia fatto un buon riassunto. Ho definito il paradosso "più forte", nel senso che quando tutti i test sono condotti nell'ambito di una singola analisi ANOVA, ci si aspetterebbe (ingenuamente) che siano coerenti internamente. (Quando conduci due serie di test che non sono intrinsecamente correlati, non dovrebbe essere una grande sorpresa quando danno risultati contrastanti: questo accade spesso.) Dobbiamo accettare che è logicamente coerente e statisticamente valido per concludere quel gruppo significa variare in modo significativo senza trovare differenze tra coppie specifiche di gruppi.
whuber

4

Riepilogo: credo che ciò sia possibile, ma molto, molto improbabile. La differenza sarà piccola e, se succede, è perché un'ipotesi è stata violata (come l'omoscedasticità della varianza).

Ecco un po 'di codice che cerca tale possibilità. Si noti che incrementa il seme di 1 ogni volta che viene eseguito, in modo che il seme venga memorizzato (e la ricerca tra i semi è sistematica).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Cercando un R2 significativo e nessun test t non significativo non ho trovato nulla fino a un seme di 18.000. Cercando un valore p inferiore a R2 rispetto ai test t, ottengo un risultato a seed = 323, ma la differenza è molto, molto piccola. È possibile che possa essere utile modificare i parametri (aumentando il numero di gruppi?). La ragione per cui il valore p di R2 può essere minore è che quando l'errore standard viene calcolato per i parametri nella regressione, tutti i gruppi vengono combinati, quindi l'errore standard della differenza è potenzialmente più piccolo rispetto al test t.

Mi chiedevo se la violazione dell'eteroscedasticità potesse aiutare (per così dire). Lo fa. Se io uso

y <- (rnorm(600) + x * 0.01) * x * 5

Per generare y, allora trovo un risultato adatto a seed = 1889, in cui il valore p minimo dai test t è 0,061 e il valore p associato a R al quadrato è 0,046.

Se modifico le dimensioni del gruppo (che aumenta l'effetto della violazione dell'eteroscedasticità), sostituendo il campionamento x con:

x <- sample(c(0:5), 100, replace=TRUE)

Ottengo un risultato significativo con seed = 531, con il valore p minimo del test t a 0,063 e il valore p per R2 a 0,046.

Se smetto di correggere l'eteroscedasticità nel test t, usando:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

La mia conclusione è che è molto improbabile che ciò accada e che la differenza sarà probabilmente molto piccola, a meno che tu non abbia violato l'ipotesi di omoscedasticità nella regressione. Prova a eseguire la tua analisi con un robusto / sandwich / come vuoi chiamarlo correzione.


Sembra che tu abbia una frase incompiuta che inizia con "Se smetto di correggere l'eteroscedasticità nel test t". A parte questo, grazie mille! Si prega di consultare il mio aggiornamento alla domanda. Nota anche il primo commento di @ whuber quassù; se ho capito bene, insiste sul fatto che una tale situazione può facilmente (?) (e la chiama "ben nota"). Forse c'è qualche malinteso qui, ma che cos'è?
ameba dice di reintegrare Monica il

Penso che @whuber stia parlando di parametri non significativi nel modello, non di test t non significativi.
Jeremy Miles,

No non è. Se è ben noto, non lo so e ho provato a fare un esempio e non posso.
Jeremy Miles,

1
Sono lieto, quindi, che @Glen_b abbia prodotto un semplice esempio. L'intuizione è che il test globale valuta se vi sono prove che la diffusione nel gruppo non può ragionevolmente essere spiegata dalla sola varianza residua. I test a coppie, che coinvolgono solo due mezzi alla volta, devono essere considerevolmente più conservativi nel valutare la stessa prova. Pertanto, anche il confronto tra i due mezzi del gruppo estremo potrebbe non riuscire a scoprire una differenza significativa quando la distribuzione complessiva di tutti i mezzi è significativa. Questo a volte si verifica in pratica, soprattutto con un gran numero di gruppi.
whuber

3
A proposito, il motivo per cui ho chiamato questo "ben noto" deriva dal mio ricordo di essere stato avvertito al riguardo nel manuale del software Systat c. 1989. Era un manuale molto istruttivo (in gran parte scritto personalmente da Leland Wilkinson , lo sviluppatore) e probabilmente lo è ancora. Il manuale è online, ma è necessario registrarsi sul sito Systat per poterlo scaricare.
whuber

2

È del tutto possibile:

  • Uno o più test t a coppie sono significativi ma il test F complessivo no
  • Il test F complessivo è significativo ma nessuno del test t a coppie lo è

Il test F complessivo verifica tutti i contrasti contemporaneamente . Come tale, deve essere meno sensibile (meno potere statistico) ai singoli contrasti (ad esempio: un test a coppie). I due test sono strettamente correlati tra loro ma non riportano esattamente la stessa cosa.

Come puoi vedere, la raccomandazione del libro di testo di non fare confronti pianificati a meno che il F-test complessivo sia significativo non è sempre corretta. In effetti, la raccomandazione potrebbe impedirci di trovare differenze significative perché il test F complessivo ha una potenza inferiore rispetto ai confronti previsti per il test delle differenze specifiche.


Non sono sicuro di seguire la logica della tua risposta. Stai dicendo che il rifiuto di H0 da parte di un test F implica che esiste almeno un contrasto diverso da zero, ma questo contrasto potrebbe non corrispondere a nessuno dei confronti a coppie? In tal caso, ciò significa che se un test F rifiuta H0, almeno uno dei test a coppie su tutti i possibili contrasti porterà anche a un rifiuto?
ameba dice Reinstate Monica il

@amoeba Ho modificato la mia risposta.
SmallChess
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.