Test a due code ... Non sono proprio convinto. Qual e il punto?


58

Il seguente estratto è dalla voce, Quali sono le differenze tra i test a una coda e due code? , sul sito di aiuto per le statistiche dell'UCLA.

... considera le conseguenze della mancanza di un effetto nell'altra direzione. Immagina di aver sviluppato un nuovo farmaco che ritieni sia un miglioramento rispetto a un farmaco esistente. Desiderate massimizzare la vostra capacità di rilevare il miglioramento, quindi optate per un test con una coda. In tal modo, non si verifica la possibilità che il nuovo farmaco sia meno efficace del farmaco esistente.

Dopo aver appreso le basi assolute del test di ipotesi e arrivare alla parte relativa a uno o due test di coda ... Capisco la matematica di base e la maggiore capacità di rilevamento di un test di coda, ecc ... Ma non riesco proprio a avvolgere la mia testa intorno a una cosa ... Qual è il punto? Non riesco davvero a capire perché dovresti dividere l'alfa tra i due estremi quando il risultato del tuo campione può essere solo nell'uno o nell'altro, o nessuno dei due.

Prendi lo scenario di esempio dal testo citato sopra. Come potresti "non riuscire a testare" per un risultato nella direzione opposta? Hai la tua media campionaria. Hai la tua popolazione media. L'aritmetica semplice ti dice quale è più alto. Cosa c'è da testare o non testare nella direzione opposta? Cosa ti impedisce di iniziare da zero con l'ipotesi opposta se vedi chiaramente che la media del campione è lontana dall'altra parte?

Un'altra citazione dalla stessa pagina:

Scegliere un test a una coda dopo aver eseguito un test a due code che non è riuscito a respingere l'ipotesi nulla non è appropriato, non importa quanto "vicino" a significativo fosse il test a due code.

Presumo che ciò valga anche per cambiare la polarità del test con una coda. Ma in che modo questo risultato "documentato" è meno valido che se tu avessi semplicemente scelto il corretto test con una coda in primo luogo?

Chiaramente mi manca una gran parte dell'immagine qui. Sembra tutto troppo arbitrario. Il che è, immagino, nel senso che ciò che denota "statisticamente significativo" - 95%, 99%, 99,9% ... È arbitrario per cominciare.


18
Questa mi sembra una domanda perfettamente valida, +1.
gung - Ripristina Monica

5
Mentre è assolutamente chiaro che dovresti progettare il tuo esperimento e i tuoi test prima di raccogliere dati, trovo il loro esempio sui farmaci piuttosto intrigante dato il fatto che i nuovi farmaci sono spesso testati con un test su un lato senza troppe proteste .
P-Gn,

3
@ user1735003 un articolo ironico da scoprire considerando che molti studi sull'umore / comportamento che regolano gli studi farmaceutici sono oggetto di un crescente controllo per la parzialità dell'osservatore. Un interessante Cochrane su Ritalin qui . "La pretesa superiorità del placebo" è ciò che ogni sperimentatore chiamerebbe "danno", quindi non lo trovo affatto inconcepibile. Ma in questi studi, se gli studi si fermano per danni, il segnale proviene da eventi avversi.
AdamO,

10
"Hai la tua media del campione. Hai la tua media della popolazione ... Cosa ti impedisce di iniziare da zero con l'ipotesi opposta se vedi chiaramente che la media del campione è molto lontana?" . No, il punto centrale del test di ipotesi è che non hai la media della popolazione e stai usando la media del campione per testare un'ipotesi sulla media della popolazione (l'ipotesi nulla). Quindi non c'è "vedere chiaramente che la media del campione è lontana" , perché è esattamente ciò che stai testando, non un dato.
Atti

1
il problema è che spesso non si conosce la polarità, quindi è necessario eseguire il test a due code. immagina di collegare il voltmetro all'alimentazione CC quando non sai quale spina è POSITIVA
Aksakal

Risposte:


45

Pensa ai dati come alla punta dell'iceberg: tutto ciò che puoi vedere sopra l'acqua è la punta dell'iceberg ma in realtà sei interessato a imparare qualcosa sull'intero iceberg.

Gli statistici, i data scientist e altri che lavorano con i dati stanno attenti a non lasciare che ciò che vedono al di sopra della linea di galleggiamento influenzi e distorca la loro valutazione di ciò che è nascosto al di sotto della linea di galleggiamento. Per questo motivo, in una situazione di verifica delle ipotesi, tendono a formulare le loro ipotesi nulle e alternative prima di vedere la punta dell'iceberg, in base alle loro aspettative (o mancanza di ciò) di ciò che potrebbe accadere se potessero vedere l'iceberg nella sua interezza .

Guardare i dati per formulare le tue ipotesi è una cattiva pratica e dovrebbe essere evitato - è come mettere il carrello davanti al cavallo. Ricordiamo che i dati provengono da un singolo campione selezionato (si spera che utilizzi un meccanismo di selezione casuale) dalla popolazione / universo di interesse di destinazione. Il campione ha le sue idiosincrasie, che possono o meno riflettere la popolazione sottostante. Perché vorresti che le tue ipotesi riflettessero una fetta ristretta della popolazione invece dell'intera popolazione?

Un altro modo di pensare a questo è che, ogni volta che selezioni un campione dalla tua popolazione target (usando un meccanismo di selezione casuale), il campione produrrà dati diversi. Se usi i dati (che non dovresti !!!) per guidare la tua specifica delle ipotesi nulle e alternative, le tue ipotesi saranno su tutta la mappa, essenzialmente guidate dalle caratteristiche idiosincratiche di ogni campione. Ovviamente, in pratica disegniamo solo un campione, ma sarebbe un pensiero molto inquietante sapere che se qualcun altro eseguisse lo stesso studio con un campione diverso della stessa dimensione, dovrebbero cambiare le loro ipotesi per riflettere le realtà di il loro campione.

Uno dei miei professori di scuola media aveva un saggio detto: "Non ci interessa il campione, tranne per il fatto che ci dice qualcosa sulla popolazione" . Vogliamo formulare le nostre ipotesi per apprendere qualcosa sulla popolazione target, non sull'unico campione che ci è capitato di selezionare da quella popolazione.


1
@ subhashc.davar: Solo perché non vedi la pertinenza della mia risposta, ciò non significa che qualcun altro non lo farà. Tieni presente che le risposte sono per l'intera comunità non solo per la persona che ha posto la domanda. Sarei felice di cancellare la mia risposta se ti senti fortemente al riguardo.
Isabella Ghement,

7
@ subhashc.davar Un esempio può essere d'aiuto: supponi di provare se uno spuntino influisce sulle prestazioni. Esegui l'esperimento e trovi un leggero guadagno di punteggio negli snackers. Grande! Esegui un test con una coda per vedere se gli snackers> non snackers. Problema: cosa avresti fatto se avessi disegnato un campione in cui gli snackers si sono comportati peggio? Avresti fatto un test con una coda per gli snackers <non snackers? In tal caso, stai commettendo un errore e consenti alle idiosincrasie di esempio di guidare i tuoi test.
RM

21
Un aneddoto del mio professore: "Abbiamo visitato la figlia di un amico in un reparto di maternità. 20 bambini e 18 dei 20 indossavano cappelli rosa. Così ho fatto quello che farebbe qualsiasi statistico: ho calcolato che un valore p per il genere era 50 / 50. Era statisticamente significativo. Quindi chi vuole scrivere questo documento con me? Nessuno? Perché? Non puoi usare i dati che hanno generato un'ipotesi per verificare un'ipotesi. "
AdamO,

4
@AdamO Ho trovato il tuo commento una spiegazione migliore della risposta stessa. Riformulerei l'ultima frase con "Non dovresti usare gli stessi dati con cui hai generato la tua ipotesi per verificare anche la tua ipotesi". Un'implicazione correlata, tuttavia, è che va bene cambiare la tua ipotesi in base al risultato di qualsiasi test che hai scelto in precedenza. Ma dovresti quindi verificare la tua nuova ipotesi con nuovi dati.
Kenny Evitt,

3
@KennyEvitt sì, esattamente. I risultati accidentali sono importanti e dovrebbero essere riportati, ma non dovrebbero essere venduti come ipotesi prespecificate.
AdamO,

18

Penso che, considerando la tua domanda, sia utile se cerchi di tenere a mente l'obiettivo / i punti di vendita del test di significatività a ipotesi nulla (NHST); è solo un paradigma (anche se molto popolare) per l'inferenza statistica, e anche gli altri hanno i loro punti di forza (ad esempio, vedi qui per una discussione del NHST relativa all'inferenza bayesiana). Qual è il grande vantaggio di NHST ?: Controllo degli errori a lungo termine . Se si seguono le regole di NHST (e, talvolta, che è una molto grande se), allora si dovrebbe avere un buon senso di come sarà la probabilità di essere sbagliato con le deduzioni si fanno, nel lungo periodo.

p-valori dopo l'aggiunta / rimozione di variabili nei loro modelli, ecc. Il problema è che i ricercatori sono raramente neutrali rispetto ai risultati di NHST; sono profondamente consapevoli che è più probabile che vengano pubblicati risultati significativi rispetto ai risultati non significativi (per motivi che sono sia fuorvianti che legittimi; Rosenthal, 1979). I ricercatori sono quindi spesso motivati ​​ad aggiungere dati / modificare modelli / selezionare valori anomali e testare ripetutamente fino a quando non "scoprono" un effetto significativo (si veda John et al., 2011, una buona introduzione).

α=.05β=.20H0

ααp

Infine (e per preferenza personale), avrei meno problemi se prima avessi condotto un test a due code, lo avessi trovato non significativo, quindi avessi eseguito il test a una coda nella direzione implicita dal primo test, e trovato significativo se (e solo se) hai eseguito una rigorosa replica di conferma di tale effetto in un altro campione e pubblicato la replica nello stesso documento. L'analisi dei dati esplorativi - con una pratica di analisi flessibile che gonfia il tasso di errore - va bene, purché tu sia in grado di replicare i tuoi effetti in un nuovo campione senza la stessa flessibilità analitica.

Riferimenti

Dienes, Z. (2008). Comprendere la psicologia come scienza: un'introduzione all'inferenza scientifica e statistica . Palgrave Macmillan.

John, LK, Loewenstein, G., & Prelec, D. (2012). Misurare la prevalenza di pratiche di ricerca discutibili con incentivi per dire la verità. Scienze psicologiche , 23 (5), 524-532.

Rosenthal, R. (1979). Il problema del cassetto file e la tolleranza per risultati nulli. Bollettino psicologico , 86 (3), 638.

Simmons, JP, Nelson, LD e Simonsohn, U. (2011). Psicologia dei falsi positivi: la flessibilità non divulgata nella raccolta e nell'analisi dei dati consente di presentare qualcosa di così significativo. Scienze psicologiche , 22 (11), 1359-1366.


Risposta molto bella. Mi ha aiutato a mettere insieme alcune preoccupazioni che avevo avuto durante la mia recente analisi dei documenti di ricerca (come profano), apparentemente confermando l'idea che i valori p a una coda possono essere "fidati" solo se si ha una ragione esistente per essere sicuri del "negativo correlazione "direzione falsa.
Venryx,

10

Sfortunatamente, l'esempio motivante dello sviluppo di farmaci non è buono in quanto non è quello che facciamo per sviluppare farmaci. Usiamo regole diverse e più rigorose per fermare lo studio se le tendenze sono dalla parte del danno. Questo è per la sicurezza dei pazienti e anche perché è improbabile che il farmaco oscilli magicamente nella direzione di un beneficio significativo.

Quindi perché eseguire due test di coda ? (quando nella maggior parte dei casi abbiamo un'idea a priori della possibile direzione dell'effetto che stiamo cercando di modellare)

L'ipotesi nulla deve sopportare qualche somiglianza con fede nel senso di essere plausibile, informato, e giustificato. Nella maggior parte dei casi, le persone concordano sul fatto che un "risultato non interessante" è quando c'è un effetto 0, mentre un effetto negativo o positivo è di uguale interesse. È molto difficile articolare un'ipotesi nulla composita, ad esempio il caso in cui sappiamo che la statistica potrebbe essere uguale omeno di un certo importo. Bisogna essere molto espliciti su un'ipotesi nulla per dare un senso ai loro risultati scientifici. Vale la pena sottolineare che il modo in cui si effettua un test di ipotesi composita è che la statistica sotto l'ipotesi nulla assume il valore più coerente all'interno dell'intervallo dei dati osservati. Quindi, se l'effetto è nella direzione positiva come previsto, il valore null è considerato comunque 0, e abbiamo fatto il mooting inutilmente.

Un test a due code equivale a condurre due test unilaterali con controllo per confronti multipli! Il test a due code è in realtà valutato parzialmente perché finisce per essere più conservativo nel lungo periodo. Quando abbiamo una buona convinzione sulla direzione dell'effetto, i test a due code produrranno falsi positivi la metà delle volte con un effetto generale molto ridotto sulla potenza.

Nel caso di valutazione di un trattamento in uno studio controllato randomizzato, se provassi a vendermi un test unilaterale, ti fermerei a chiedere: "Bene, aspetta, perché dovremmo credere che il trattamento sia effettivamente dannoso? Esistono prove per sostenere questo? Esiste persino l'equipaggiamento [una capacità di dimostrare un effetto benefico]? " L'incoerenza logica alla base del test unilaterale mette in discussione l'intera ricerca. Se davvero non si sa nulla, qualsiasi valore diverso da 0 è considerato interessante e il test a due code non è solo una buona idea, è necessario.


8

Un modo per affrontarlo è dimenticare temporaneamente il test delle ipotesi e pensare invece agli intervalli di confidenza. I test su un lato corrispondono agli intervalli di confidenza su un lato e i test su due lati corrispondono ad intervalli di confidenza su due lati.

Supponiamo di voler stimare la media di una popolazione. Naturalmente, prendi un campione e calcoli una media campionaria. Non c'è motivo di fare una stima puntuale al valore nominale, quindi esprimi la tua risposta in termini di un intervallo che ritieni abbastanza sicuro contenga la vera media. Che tipo di intervallo scegli? Un intervallo su due lati è di gran lunga la scelta più naturale. Un intervallo unilaterale ha senso solo quando semplicemente non ti interessa trovare un limite superiore o inferiore della stima (perché ritieni di conoscere già un limite utile in una direzione). Quanto spesso sei davvero così sicuro della situazione?

Forse passare la domanda a intervalli di confidenza non la risolve davvero, ma è metodologicamente incoerente preferire test a una coda ma intervalli di confidenza a due lati.


4

Dopo aver appreso le basi assolute del test di ipotesi e arrivare alla parte relativa a uno o due test di coda ... Capisco la matematica di base e la maggiore capacità di rilevamento di un test di coda, ecc ... Ma non riesco proprio a avvolgere la mia testa intorno a una cosa ... Qual è il punto? Non riesco davvero a capire perché dovresti dividere l'alfa tra i due estremi quando il risultato del tuo campione può essere solo nell'uno o nell'altro, o nessuno dei due.

Il problema è che non conosci la media della popolazione. Non ho mai incontrato uno scenario del mondo reale che conosco la vera popolazione.

Prendi lo scenario di esempio dal testo citato sopra. Come potresti "non riuscire a testare" per un risultato nella direzione opposta? Hai la tua media campionaria. Hai la tua popolazione media. L'aritmetica semplice ti dice quale è più alto. Cosa c'è da testare o non testare nella direzione opposta? Cosa ti impedisce di iniziare da zero con l'ipotesi opposta se vedi chiaramente che la media del campione è lontana dall'altra parte?

Ho letto il tuo paragrafo più volte, ma non sono ancora sicuro dei tuoi argomenti. Vuoi riformularlo? Non riesci a "testare" se i tuoi dati non ti portano nelle regioni critiche scelte.

Presumo che ciò valga anche per cambiare la polarità del test con una coda. Ma in che modo questo risultato "documentato" è meno valido che se tu avessi semplicemente scelto il corretto test con una coda in primo luogo?

La citazione è corretta perché l'hacking di un valore p è inappropriato. Quanto sappiamo di p-hacking "in the wild"? ha maggiori dettagli.

Chiaramente mi manca una gran parte dell'immagine qui. Sembra tutto troppo arbitrario. Il che è, immagino, nel senso che ciò che denota "statisticamente significativo" - 95%, 99%, 99,9% ... È arbitrario per cominciare. Aiuto?

È arbitrario. Ecco perché i data scientist generalmente riportano l'entità del valore p stesso (non solo significativo o insignificante) e anche la dimensione degli effetti.


Per essere chiari, non sto cercando di sfidare le basi stesse dell'inferenza statistica. Come ho affermato, ho appena appreso le basi e ho difficoltà a capire come si potrebbero perdere eventuali risultati non riuscendo a utilizzare il test corretto.
FromTheAshes,

Di 'che il tuo amico, Joe, inventa un nuovo prodotto che sostiene migliora notevolmente la crescita delle piante. Incuriosito, escogiti uno studio solido con un gruppo di controllo e un gruppo di trattamento. Il tuo null hyp. è che non ci sarà alcun cambiamento nella crescita, la tua alternativa alternativa. è che lo spray magico di Joe aumenta significativamente la crescita, quindi un test con una coda. 2 settimane dopo, fai le tue osservazioni finali e analizzi i risultati. La crescita media del gruppo di trattamento risulta essere superiore a 5 errori standard SOTTO quelli del controllo. In che modo questa scoperta molto significativa è meno ovvia o valida a causa della scelta del test?
FromTheAshes,

2
Se ti chiedo di chiamare testa o croce per un lancio di una moneta, la probabilità che tu preveda il risultato è 50/50 (supponendo una moneta bilanciata e una pinna onesta). Tuttavia, se lancio prima la moneta e ti lascio guardare e poi faccio la tua previsione, non sarà più 50/50. Se si sta eseguendo un test con una coda con un livello alfa di 0,01, ma poi capovolgere la direzione del test dopo aver visto i risultati perché p <.01 nell'altra direzione, il rischio di un errore di tipo I non è lungo .01 ma molto più in alto. Si noti che il valore p osservato e il tasso di errore di tipo I non sono la stessa cosa.
dbwilson,

@FromTheAshes non c'è niente di sbagliato nel cercare di sfidare le basi stesse. Il test delle ipotesi statistiche non è inutile, ma contiene enormi difetti logici ed è assolutamente ragionevole metterli alla prova!
Flounderer,

3

Bene, tutte le differenze si basano sulla domanda a cui vuoi rispondere. Se la domanda è: "Un gruppo di valori è più grande dell'altro?" puoi usare un test con una coda. Per rispondere alla domanda: "Questi gruppi di valori sono diversi?" usi il test a due code. Prendi in considerazione che un insieme di dati può essere statisticamente superiore a un altro, ma non statisticamente diverso ... e questo è statistico.


1
'Se la domanda è: "Un gruppo di valori è più grande dell'altro?" puoi usare un test con una coda. " Più precisamente, se la domanda è "È * questo particolare gruppo più grande degli altri", allora dovresti usare un test a due code.
Accumulo

Va notato che è un po 'implicito che se stai ponendo quella domanda che "E comunque se sembra che l' altro gruppo sia effettivamente più grande, allora non mi interessa". Se vedessi l'opposto di quello che ti aspetteresti e poi continui a invertire la direzione del test di ipotesi, allora stavi mentendo a te stesso e avresti dovuto fare un test a due code per cominciare.
Dason,

2

Ma in che modo questo risultato "documentato" è meno valido che se tu avessi semplicemente scelto il corretto test con una coda in primo luogo?

Il valore alfa è la probabilità che tu rifiuti il ​​null, dato che il null è vero. Supponiamo che il tuo null sia che la media del campione è normalmente distribuita con lo zero medio. Se P (media del campione> 1 | H0) = .05, la regola "Raccogli un campione e rifiuta il valore nullo se la media del campione è maggiore di 1" ha una probabilità, dato che il valore nullo è vero, del 5% di rifiutando il null. La regola "Raccogli un campione e se la media del campione è positiva, quindi rifiuta il valore nullo se la media del campione è maggiore di 1 e se la media del campione è negativa, rifiuta il valore nullo se la media del campione è inferiore a 1" ha un probabilità, dato che il valore nullo è vero, del 10% di rifiuto del valore nullo. Quindi la prima regola ha un alfa del 5% e la seconda regola ha un alfa del 10%. Se inizi con un test a due code, e poi cambiarlo in un test a una coda basato sui dati, quindi stai seguendo la seconda regola, quindi sarebbe inaccurato riportare il tuo alfa come 5%. Il valore alfa dipende non solo da quali siano i dati, ma anche da quali regole stai seguendo per analizzarli. Se ti stai chiedendo perché utilizzare una metrica con questa proprietà, piuttosto che qualcosa che dipende solo dai dati, questa è una domanda più complicata.


2

Per quanto riguarda il secondo punto

Scegliere un test a una coda dopo aver eseguito un test a due code che non è riuscito a respingere l'ipotesi nulla non è appropriato, non importa quanto "vicino" a significativo fosse il test a due code.

α

αα100%

P(two-sided rejects or one-sided does, but two sided doesn't)
P(two-sided rejects(one-sided doestwo sided doesn't))
P(two-sided rejects)+P(one-sided doestwo sided doesn't)
α/21α1α/2
P(one-sided doestwo sided doesn't)=α/2
α+α2>α
α/21α1α/21α/2

Ecco una piccola illustrazione numerica:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

1

p<α=0.05

α0.05α

α=0.05α=0.025

α=0.05


Quindi, naturalmente, esiste questa cosa chiamata grado di libertà dei ricercatori . Puoi trovare significato in qualsiasi tipo di dati, se disponi di dati sufficienti e sei libero di testarli in tutti i modi che desideri. Ecco perché devi decidere il test che conduci prima di esaminare i dati. Tutto il resto porta a risultati di test irreversibili. Consiglio di andare su YouTube e guardare il discorso di Andrew Gelmans "Crimini sui dati per saperne di più.


1
Hmm, l'ipotesi nulla non è che i risultati siano casuali. Ciò sarebbe fonte di confusione per i clinici e gli scienziati che vedono moltissimo i risultati del loro lavoro come un risultato fisso.
AdamO,

1
Il tuo punto "Una volta che inizi a fare test unilaterali con ..." è importante. Il motivo per cui è così comune è che l'esperienza pratica di RA Fisher a Rothamsted era che essere più di deviazioni standard dal valore atteso in genere meritasse ulteriori approfondimenti, e da questo ha scelto un test del a due code come regola generale , non viceversa. Quindi l'equivalente a una coda sarebbe del0,05 2 5 % 2,5 %α=0.050.0525%2.5%
Henry,

1

A prima vista, nessuna di queste affermazioni asserisce che un test su due lati sia "superiore" a uno studio unilaterale. Deve semplicemente esserci una connessione logica dall'ipotesi di ricerca in fase di test collegata all'inferenza statistica in fase di test.

Per esempio:

... considera le conseguenze della mancanza di un effetto nell'altra direzione. Immagina di aver sviluppato un nuovo farmaco che ritieni sia un miglioramento rispetto a un farmaco esistente. Desiderate massimizzare la capacità di rilevare il miglioramento, quindi optate per un test con una coda. In tal modo, non si verifica la possibilità che il nuovo farmaco sia meno efficace del farmaco esistente.

Prima di tutto questo è uno studio sulla droga. Quindi essere scorretti nella direzione opposta ha un significato sociale al di là del quadro statistico. Quindi, come molti hanno detto, la salute non è la migliore per fare generalizzazioni.

Nella citazione sopra, sembra che si tratti di testare un farmaco quando ne esiste già un altro. Quindi, per me, questo implica che il tuo farmaco sia considerato già efficace. L'affermazione riguarda il confronto tra due farmaci efficaci in seguito. Quando si confrontano queste distribuzioni se si trascura un lato della popolazione per migliorare i suoi risultati comparativi? Non è solo una conclusione parziale, ma il confronto non è più valido per giustificare: stai confrontando le mele con le arance.

Allo stesso modo, ci possono essere delle stime puntuali che per motivi di inferenza statistica non hanno fatto alcuna differenza per la conclusione, ma sono molto importanti per la società. Questo perché il nostro campione rappresenta la vita delle persone: qualcosa che non può "ripetersi" ed è inestimabile.

In alternativa, l'affermazione implica che il ricercatore ha un incentivo: "desideri massimizzare la tua capacità di rilevare il miglioramento ..." Questa nozione non è banale perché il caso viene isolato come un cattivo protocollo.

Scegliere un test a una coda dopo aver eseguito un test a due code che non è riuscito a respingere l'ipotesi nulla non è appropriato, non importa quanto "vicino" a significativo fosse il test a due code.

Ancora una volta qui implica che il ricercatore sta 'cambiando' il suo test: da un lato a un lato. Questo non è mai appropriato. È indispensabile avere uno scopo di ricerca prima del test. Inadempiendo sempre alla convenienza di un approccio bilaterale, i ricercatori non riescono a comprendere il fenomeno in modo più rigoroso.

Ecco un articolo proprio su questo argomento, in effetti, facendo valere che i test su due lati sono stati abusati.

Incolpa l'uso eccessivo di un test su due lati per la mancanza di un:

chiara distinzione e un legame logico tra l'ipotesi della ricerca e la sua ipotesi statistica

Prende la posizione e la posizione che i ricercatori:

potrebbe non essere consapevole della differenza tra le due modalità espressive o essere consapevole del flusso logico in cui l'ipotesi di ricerca dovrebbe essere tradotta nell'ipotesi statistica. Una combinazione orientata alla convenienza della ricerca e ipotesi statistiche può essere una causa dell'uso eccessivo di test a due code anche in situazioni in cui l'uso di test a due code è inappropriato.

è necessario cogliere le statistiche esatte nell'interpretazione dei risultati dei test statistici. Non è consigliabile essere inesatti sotto il nome di conservatori. In tal senso, gli autori ritengono che la semplice segnalazione di risultati dei test come "È stato trovato statisticamente significativo al livello di significatività 0,05 (cioè p <0,05)" non è abbastanza buona.

Sebbene il test a due code sia più conservativo in teoria, disaccoppia il legame tra l'ipotesi della ricerca direzionale e la sua ipotesi statistica, portando probabilmente a valori p doppiamente gonfiati.

Gli autori hanno anche dimostrato che l'argomento per trovare il risultato significativo nella direzione opposta ha significato solo nel contesto della scoperta piuttosto che nel contesto della
giustificazione . Nel caso di testare l'ipotesi della ricerca e la sua teoria di base, i ricercatori non dovrebbero contemporaneamente affrontare il contesto della scoperta e quello della giustificazione.

https://www.sciencedirect.com/science/article/pii/S0148296312000550


1

Spesso viene eseguito un test di significatività per l'ipotesi nulla contro un'ipotesi alternativa . Questo è quando una coda e due code fanno la differenza.


  • Per i valori p questo (due o un lato) non ha importanza! Il punto è che si seleziona un criterio che si verifica solo una frazione del momento in cui l'ipotesi nulla è vera. Si tratta di due piccoli pezzi di entrambe le code, o un grosso pezzo di una coda, o qualcos'altro.α

    Il tasso di errore di tipo I non è diverso per i test su uno o due lati.

  • D'altra parte, per il potere che conta .

    Se la tua ipotesi alternativa è asimmetrica, allora vorrai focalizzare il criterio per rifiutare l'ipotesi nulla solo su questa coda / fine; tale che quando l'ipotesi alternativa è vera allora è meno probabile che tu non rifiuti ("accetta") l'ipotesi nulla.

    Se la tua ipotesi alternativa è simmetrica (non ti interessa mettere più o meno potenza su un lato specifico) e la deflessione / effetto su entrambi i lati è ugualmente previsto (o semplicemente sconosciuto / non informato), allora è più potente usare un test a due lati (non stai perdendo il 50% di potenza per la coda che non stai testando e dove commetterai molti errori di tipo II).

    Il tasso di errore di tipo II è diverso per i test su una o due facciate e dipende anche dall'ipotesi alternativa.

Sta diventando un po 'più simile a un concetto bayesiano ora quando iniziamo a coinvolgere preconcetti sul fatto che ci aspettiamo o meno un effetto su un lato o su entrambi i lati e quando desideriamo usare un test (per vedere se possiamo falsificare un ipotesi nulla) per "confermare" o rendere più probabile qualcosa come un effetto.


0

Quindi un altro tentativo di risposta:

Immagino che prendere una o due code dipende completamente dall'ipotesi alternativa .

Considera il seguente esempio di media test in un test t:

H0:μ=0

Ha:μ0

Ora se osservi una media campionaria molto negativa o una media campionaria molto positiva, è improbabile che la tua ipotesi sia vera.

D'altra parte, sarai disposto ad accettare la tua ipotesi se la tua media del campione è vicina allo sia negativa che positiva . Ora devi scegliere l'intervallo in cui, se la tua media campionaria dovesse cadere, non respingeresti la tua ipotesi nulla. Ovviamente sceglieresti un intervallo che ha lati negativi e positivi attorno a . Quindi scegli il test su due lati.0 00

E se non volessi testare , ma piuttosto . Ora intuitivamente quello che vogliamo fare qui è che se il valore della media del campione diventa molto negativo, allora possiamo sicuramente rifiutare il nostro null. Quindi vorremmo rifiutare null solo per valori molto negativi della media del campione.μ=0μ0

Ma aspetta! Se questa è la mia ipotesi nulla, come impostare la mia distribuzione nulla. La distribuzione nulla della media campionaria è nota per alcuni valori assunti del parametro di popolazione (qui ). Ma con null corrente può richiedere molti valori.0

Diciamo che possiamo fare infinite ipotesi nulle. Ciascuno per assumere un valore positivo di . Ma pensa a questo: nella nostra prima ipotesi di , se rifiutassimo solo null osservando la media del campione molto lontana, allora anche ogni successiva ipotesi con respingerebbe. Perché per loro, la media del campione è ancora più lontana dal parametro di popolazione. Quindi in pratica tutto ciò che dobbiamo fare è solo fare un'ipotesi ma con una coda .μH0:μ=0H0:μ>0

Quindi la tua soluzione diventa:

H0:μ=0

Ha:μ<0

Il miglior esempio è il test Dickey-Fuller per la stazionarietà.

Spero che sia di aiuto. (Volevo includere diagrammi ma rispondendo dal cellulare).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.