Intro: Avendo notato l'attenzione ricevuta oggi da questa domanda, " ANOVA può essere significativo quando nessuno dei t-test a coppie è? ", Ho pensato che avrei potuto riformularlo in un modo interessante che meriterebbe il proprio set di risposte .
Una varietà di risultati incongrui (al valore nominale) può verificarsi quando la significatività statistica è intesa come una semplice dicotomia e giudicata sulla base della quale la sola è maggiore, la o la . La risposta di @ Glen_b alla domanda di cui sopra presenta un utile esempio di un caso in cui:
- Un test ANOVA produce un per una variabile indipendente (IV) con quattro livelli, ma
- per tutti test t a due campioniche confrontano le differenze nella stessa variabile dipendente (DV) tra le osservazioni corrispondenti a ciascuna coppia dei quattro livelli dell'IV.
Un caso simile si è verificato nonostante le correzioni di Bonferroni per i confronti a coppie post hoc tramite questa domanda: le misure ripetute Anova sono significative, ma tutti i confronti multipli con la correzione di Bonferroni non lo sono? Esistono anche casi precedentemente menzionati con un test leggermente diverso nella regressione multipla:
- Perché è possibile ottenere statistiche F significative (p <.001) ma test t regressori non significativi? :
- In che modo una regressione può essere significativa ma tutti i predittori non sono significativi?
- Nella risposta di @ whuber ,
Scommetto che in casi come questi, alcuni (ma non tutti) i confronti (o i test di significatività '' dei coefficienti di regressione) devono essere abbastanza vicini ad α se un corrispondente test omnibus può raggiungere un p < α . Vedo che questo è il caso del primo esempio di @ Glen_b, in cui , e la più grande differenza a coppie dà la più piccola . Questo deve essere il caso in generale? Più specificamente :
Domanda: Se un test ANOVA produce un per l'effetto di un IV politittico su un DV continuo, quanto può essere alto il valore più basso tra tutti test t a due campioni che confrontano ciascuna coppia dei livelli del IV? Il significato minimo a coppie potrebbe essere alto quanto ?
Accolgo con favore le risposte che affrontano solo questa domanda specifica . Tuttavia, per motivare ulteriormente questa domanda, elaborerò e porterò alcune domande potenzialmente retoriche. Ti invitiamo a rispondere anche a queste preoccupazioni e anche a ignorare la domanda specifica, se lo desideri, soprattutto se la domanda specifica ottiene una risposta definitiva.
Significato: considera quanto meno importante sarebbe la differenza tra a e a p t = .06 se il significato statistico fosse giudicato in termini continui della forza dell'evidenza rispetto all'ipotesi nulla (l'approccio di Ron Fisher, penso? ), anziché in termini dicotomici come sopra o sotto un valore α = .05 secondo la pratica comune di dicotomizzare il significato negli equivalenti di "abbastanza buono" e "non abbastanza buono". Se uno dovesse smaltire questa pratica e concentrarsi invece sull'interpretazione p soglia per una probabilità accettabile di errore nella scelta se rifiutare il commercio all'ingrosso nullo. " -hacking " è un problema noto che deve in parte la sua notorietà a una vulnerabilità non necessaria introdotta dall'interpretazione di valori come forza di prova rispetto al nulla su un intervallo continuo, il test dell'omnibus potrebbe essere un po 'meno importante quando ci si preoccupa davvero di più confronti a coppie? Non necessariamente inutile, poiché qualsiasi miglioramento ragionevolmente efficace nell'accuratezza statistica è ovviamente desiderabile, ma ... se, ad esempio, il confronto più basso a coppievalore pè necessariamente all'interno di .10 dell'ANOVA (o altro test omnibus) pvalore, questo non rende il test omnibus un po 'più banale, meno obbligatorio e persino più fuorviante (in combinazione con preesistenti equivoci), soprattutto se non si desidera controllare in modo particolare attraverso più test?
Viceversa, se i dati possono esistere in modo tale che un omnibus , ma tutti p a coppie p > .50 , questo non dovrebbe motivare ulteriormente i test di omnibus e contrasto durante la pratica e la pedagogia? Mi sembra che questo problema dovrebbe anche informare i meriti relativi di giudicare il significato statistico secondo una dicotomia rispetto a un continuum, in quanto il sistema interpretativo dicotomico dovrebbe essere più sensibile ai piccoli aggiustamenti quando le differenze sono "marginalmente significative", mentre nessuno dei due sistemi è al sicuro dall'incapacità di eseguire un test omnibus o regolare per confronti multipli se questa differenza / regolazione può essere molto grande (ad es., p in teoria.
Altre complessità opzionali da considerare o ignorare, qualunque cosa renda la risposta più semplice e utile :
- Quanto potrebbe essere alto s per t s se, invece, per F , p < .05 (es. P = .01 , .001 , ... )
- Sensibilità al numero di livelli in un IV politittico
- Sensibilità all'irregolarità nel significato delle differenze a coppie (mentre tutto )
- la risposta di Whuber indica che l'inclusione di piccole differenze può mascherare grandi differenze.
- Differenze tra le varie correzioni dei test omnibus per confronti multipli
- Guarda anche: Correzione di confronti multipli in un soggetto / misure ripetute ANOVA; eccessivamente conservatore?
- Con più IV, sembra che la multicollinearità possa aggravare questo problema .
- Casi limitati in cui i dati soddisfano in modo ottimale tutti i presupposti dei test parametrici classici
- Questa restrizione può essere importante per evitare che questa domanda sia in qualche modo controversa.