Quanto più piccoli possono essere i valori


13

Intro: Avendo notato l'attenzione ricevuta oggi da questa domanda, " ANOVA può essere significativo quando nessuno dei t-test a coppie è? ", Ho pensato che avrei potuto riformularlo in un modo interessante che meriterebbe il proprio set di risposte .

Una varietà di risultati incongrui (al valore nominale) può verificarsi quando la significatività statistica è intesa come una semplice dicotomia e giudicata sulla base della quale la sola è maggiore, la p o la α . La risposta di @ Glen_b alla domanda di cui sopra presenta un utile esempio di un caso in cui:

  • Un test ANOVA Fproduce un pF<.05 per una variabile indipendente (IV) con quattro livelli, ma
  • pt>.08 per tuttit test t a due campioniche confrontano le differenze nella stessa variabile dipendente (DV) tra le osservazioni corrispondenti a ciascuna coppia dei quattro livelli dell'IV.

Un caso simile si è verificato nonostante le correzioni di Bonferroni per i confronti a coppie post hoc tramite questa domanda: le misure ripetute Anova sono significative, ma tutti i confronti multipli con la correzione di Bonferroni non lo sono? Esistono anche casi precedentemente menzionati con un test leggermente diverso nella regressione multipla:

Scommetto che in casi come questi, alcuni (ma non tutti) i confronti pαp<α (o i test di significatività '' dei coefficienti di regressione) devono essere abbastanza vicini ad α se un corrispondente test omnibus può raggiungere un p < α . Vedo che questo è il caso del primo esempio di @ Glen_b, in cui F(3,20)=3.19 , pF=.046 e la più grande differenza a coppie dà la più piccola pt=.054 . Questo deve essere il caso in generale? Più specificamente :


Domanda: Se un test ANOVA Fproduce un pF=.05 per l'effetto di un IV politittico su un DV continuo, quanto può essere alto il valore più bassop tra tutti t test t a due campioni che confrontano ciascuna coppia dei livelli del IV? Il significato minimo a coppie potrebbe essere alto quantopt=.50 ?


Accolgo con favore le risposte che affrontano solo questa domanda specifica . Tuttavia, per motivare ulteriormente questa domanda, elaborerò e porterò alcune domande potenzialmente retoriche. Ti invitiamo a rispondere anche a queste preoccupazioni e anche a ignorare la domanda specifica, se lo desideri, soprattutto se la domanda specifica ottiene una risposta definitiva.

Significato: considera quanto meno importante sarebbe la differenza tra a e a p t = .06 se il significato statistico fosse giudicato in termini continui della forza dell'evidenza rispetto all'ipotesi nulla (l'approccio di Ron Fisher, penso? ), anziché in termini dicotomici come sopra o sotto un valore α = .05 secondo la pratica comune di dicotomizzare il significato negli equivalenti di "abbastanza buono" e "non abbastanza buono". Se uno dovesse smaltire questa pratica e concentrarsi invece sull'interpretazione ppF=.04pt=.06α=.05 soglia per una probabilità accettabile di errore nella scelta se rifiutare il commercio all'ingrosso nullo. " -hackingp " è un problema noto che deve in parte la sua notorietà a una vulnerabilità non necessaria introdotta dall'interpretazione di ppvalori come forza di prova rispetto al nulla su un intervallo continuo, il test dell'omnibus potrebbe essere un po 'meno importante quando ci si preoccupa davvero di più confronti a coppie? Non necessariamente inutile, poiché qualsiasi miglioramento ragionevolmente efficace nell'accuratezza statistica è ovviamente desiderabile, ma ... se, ad esempio, il confronto più basso a coppievalore pè necessariamente all'interno di .10 dell'ANOVA (o altro test omnibus) pp.10pvalore, questo non rende il test omnibus un po 'più banale, meno obbligatorio e persino più fuorviante (in combinazione con preesistenti equivoci), soprattutto se non si desidera controllare in modo particolare attraverso più test?α

Viceversa, se i dati possono esistere in modo tale che un omnibus , ma tutti p a coppie p > .50 , questo non dovrebbe motivare ulteriormente i test di omnibus e contrasto durante la pratica e la pedagogia? Mi sembra che questo problema dovrebbe anche informare i meriti relativi di giudicare il significato statistico secondo una dicotomia rispetto a un continuum, in quanto il sistema interpretativo dicotomico dovrebbe essere più sensibile ai piccoli aggiustamenti quando le differenze sono "marginalmente significative", mentre nessuno dei due sistemi è al sicuro dall'incapacità di eseguire un test omnibus o regolare per confronti multipli se questa differenza / regolazione può essere molto grande (ad es., pp=.05p>.50 in teoria.ptpF>.40)

Altre complessità opzionali da considerare o ignorare, qualunque cosa renda la risposta più semplice e utile :

  • Quanto potrebbe essere alto s per t s se, invece, per F , p < .05 (es. P = .01 , .001 , ... )ptFp<.05p=.01,.001,
  • Sensibilità al numero di livelli in un IV politittico
  • Sensibilità all'irregolarità nel significato delle differenze a coppie (mentre tutto )pt>pF
  • Differenze tra le varie correzioni dei test omnibus per confronti multipli
  • Casi limitati in cui i dati soddisfano in modo ottimale tutti i presupposti dei test parametrici classici
    • Questa restrizione può essere importante per evitare che questa domanda sia in qualche modo controversa.

1
Potresti voler chiarire se i t-test a coppie devono usare la stessa stima della varianza di errore del test F omnibus (nell'esempio di Glen non lo fanno).
Scortchi - Ripristina Monica

1
Intendevo un t-test ordinario per la differenza nei mezzi utilizzando , ma conσcalcolato come la radice quadrata dell'errore quadratico medio ANOVAR. È il solito t-test post-hoc a coppie enon siadatta per confronti multipli, a differenza dell'HSD di Tukey. Incorpora informazioni da tutti i gruppi, ma è indipendente dalle differenze nei mezzi di gruppo. t=(y¯1y¯2)/(σ^1n1+1n2)σ^
Scortchi - Ripristina Monica

1
Vedo (una specie di)! Sarei principalmente interessato a seguire l'esempio di @ Glen_b e non usare , ma utilizzando la prima formula che hai citato per evitare di incorporare informazioni da tutti i gruppi. Questo non vuol dire che ho una forte preferenza qui ... ma parte della mia intenzione originale era di presentare una variante del tema comune in queste domande: "Qual è il vero danno nell'ignorare le informazioni oltre i due gruppi particolari in questione per ogni dato test a due campioni tra molti? " Immagino che anche questo tema valga la pena di essere trattato in questa decisione. MSE
Nick Stauner,

1
@Scortchi Ho incluso un esempio nell'altra domanda che copre il tuo primo commento (ovvero dove i test vengono eseguiti utilizzando la varianza dell'errore comune e df), sebbene tutti i test (F e confronti multipli) vengano eseguiti a un livello di significatività piuttosto basso (0,0025, non 0,05). Rispetto ai singoli test t ordinari a due campioni come richiesto da Nick S. qui, mostra che è possibile una sostanziale differenza di significatività (in questo caso, per tutti i test t ordinari , ma p F < 0,002 ). Credo con molti gruppi, è possibile andare molto oltre. pt>.05pF<0.002
Glen_b

1
Ho abbozzato una risposta alla prima parte di questa domanda qualche minuto fa in un commento su stats.stackexchange.com/questions/83030/… .
whuber

Risposte:


8

Supponendo uguali [ma vedere la nota 2 di seguito] per ciascun trattamento in un layout unidirezionale e che la SD aggregata di tutti i gruppi viene utilizzata nei test t (come avviene nei consueti confronti post hoc), il massimo possibile il valore p per un test t è 2 Φ ( - ntpt(qui,ΦindicaN(0,1)cdf). Pertanto, nessunaptpuò arrivare a0,5. È interessante (e piuttosto bizzarro), illimite.1573vale non solo perpF=.05, ma per qualsiasi livello di significatività richiesto perF2Φ(2).1573ΦN(0,1)pt0.5.1573pF=.05F .

La giustificazione è la seguente: per un dato intervallo di medie campionarie, , la più grande statistica F possibile si ottiene quando metà ˉ y i è a un estremo e l'altra metà è all'altra. Questo rappresenta il caso in cui F sembra il più significativo dato che due medie differiscono al massimo di 2 amaxi,j|y¯iy¯j|=2aFy¯iF2a .

Quindi, senza perdita di generalità, supponiamo che modo che ˉ y i = ± a in questo caso limite. E ancora, senza perdita di generalità, supponiamo che M S E = 1 , poiché possiamo sempre riscalare i dati su questo valore. Ora considera k significa (dove k è anche per semplicità [ma vedi la nota 1 sotto]), abbiamo F = n ˉ y 2 / ( k - 1 )y¯.=0y¯i=±aMSE=1kk . ImpostandopF=α inmodo cheF=Fα=Fα,k-1,k(n-1), otteniamoun=F=ny¯2/(k1)MSE=kna2k1pF=αF=Fα=Fα,k1,k(n1) . Quando tutto ilˉyisono±una(e ancoraMSE=1), ogni nonzerotstatistica è quindit=2una=(k1)Fαkny¯i±aMSE=1t . Questo è ilvaloretmassimo più piccolopossibile quandoF=Fα.t=2a12/n=2(k1)FαktF=Fα

Così si può solo provare diversi casi di ed n , calcolare t , e la sua associata p t . Ma nota che per un dato k , F α sta diminuendo in n [ma vedi la nota 3 sotto]; inoltre, come n , ( k - 1 ) F α , k - 1 , k ( n - 1 )χ 2 α , k - 1 ; così t kntptkFαnn(k1)Fα,k1,k(n1)χα,k12ttmin=2χα,k12/kχ2/k=k1kχ2/(k1)k1kk1k2k1limktmin=2, regardless of α, and the result I stated in the first paragraph above is obtained from asymptotic normality.

It takes a long time to reach that limit, though. Here are the results (computed using R) for various values of k, using α=.05:

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

A few loose ends...

  1. When k is odd: The maximum F statistic still occurs when the y¯i are all ±a; however, we will have one more at one end of the range than the other, making the mean ±a/k, and you can show that the factor k in the F statistic is replaced by k1k. This also replaces the denominator of t, making it slightly larger and hence decreasing pt.
  2. Unequal ns: The maximum F is still achieved with the y¯i=±a, with the signs arranged to balance the sample sizes as nearly equally as possible. Then the F statistic for the same total sample size N=ni will be the same or smaller than it is for balanced data. Moreover, the maximum t statistic will be larger because it will be the one with the largest ni. So we can't obtain larger pt values by looking at unbalanced cases.
  3. A slight correction: I was so focused on trying to find the minimum t that I overlooked the fact that we are trying to maximize pt, and it is less obvious that a larger t with fewer df won't be less significant than a smaller one with more df. However, I verified that this is the case by computing the values for n=2,3,4, until the df are high enough to make little difference. For the case α=.05,k3 I did not see any cases where the pt values did not increase with n. Note that the df=k(n1) so the possible df are k,2k,3k, which get large fast when k is large. So I'm still on safe ground with the claim above. I also tested α=.25, and the only case I observed where the .1573 threshold was exceeded was k=3,n=2.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.