L '"ibrido" tra l'approccio Fisher e Neyman-Pearson ai test statistici è davvero un "miscuglio incoerente"?


56

Esiste una certa scuola di pensiero secondo la quale l'approccio più diffuso ai test statistici è un "ibrido" tra due approcci: quello di Fisher e quello di Neyman-Pearson; questi due approcci, afferma la rivendicazione, sono "incompatibili" e quindi il "ibrido" risultante è un "miscuglio incoerente". Fornirò una bibliografia e alcune citazioni di seguito, ma per ora è sufficiente dire che sull'articolo di Wikipedia sul test delle ipotesi statistiche è scritto molto a riguardo . Qui su CV, questo punto è stato ripetutamente sottolineato da @Michael Lew (vedi qui e qui ).

La mia domanda è: perché gli approcci F e NP sono dichiarati incompatibili e perché l'ibrido è dichiarato incoerente? Nota che ho letto almeno sei articoli anti-ibridi (vedi sotto), ma non riesco ancora a capire il problema o l'argomento. Si noti inoltre che non sto suggerendo di discutere se F o NP siano un approccio migliore; né mi sto offrendo di discutere delle strutture frequentista e bayesiana. Invece, la domanda è: accettando che sia F che NP sono approcci validi e significativi, cosa c'è di male nel loro ibrido?


Ecco come capisco la situazione. L'approccio di Fisher è di calcolare il valore e prenderlo come prova contro l'ipotesi nulla. Più piccola è la p , più convincenti sono le prove. Il ricercatore dovrebbe combinare queste prove con le sue conoscenze di base, decidere se è abbastanza convincente e procedere di conseguenza. (Si noti che le opinioni di Fisher sono cambiate nel corso degli anni, ma questo è ciò a cui sembra che alla fine si sia convertito.) Al contrario, l'approccio di Neyman-Pearson è scegliere α in anticipo e quindi verificare se p αppαpα; in tal caso, chiamalo significativo e respingi l'ipotesi nulla (qui ometto gran parte della storia di NP che non ha rilevanza per la discussione attuale). Vedi anche un'eccellente risposta di @gung in Quando utilizzare il framework Fisher e Neyman-Pearson?

L'approccio ibrido consiste nel calcolare il valore , riportarlo (presupponendo implicitamente che minore è il migliore) e anche chiamare i risultati significativi se p α (solitamente α = 0,05 ) e non significativi in ​​caso contrario. Questo dovrebbe essere incoerente. Come può essere invalido fare due cose valide contemporaneamente, mi batte.ppαα=0.05

Particolarmente incoerenti anti-ibridologi visualizzare la pratica diffusa di segnalazione -Valori come p < 0.05 , p < 0,01 , o p < 0,001 (o anche p « 0,0001 ), dove viene scelto sempre la disuguaglianza forte. L'argomento sembra essere che (a) la forza dell'evidenza non può essere valutata correttamente in quanto non è riportata la p esatta , e (b) le persone tendono a interpretare il numero di destra nella disuguaglianza come α e vederlo come tasso di errore di tipo I e questo è sbagliato. Non riesco a vedere un grosso problema qui. Innanzitutto, riportando esattamente ppp<0.05p<0.01p<0.001p0.0001pαpè certamente una pratica migliore, ma a nessuno importa se è ad es. 0,02 o 0,03 , quindi arrotondarlo su una scala logaritmica non è poi così male (e andare sotto 0,0001 non ha comunque senso, vedi Come devono essere riportati piccoli valori p ? ). In secondo luogo, se il consenso è di chiamare tutto al di sotto di 0,05 significativo, allora il tasso di errore sarà α = 0,05 e p α , come spiega @gung in Interpretazione del valore p nel test di ipotesip0.020.030.00010.05α=0.05pα. Anche se questo è potenzialmente un problema confuso, non mi sembra più confuso rispetto ad altri problemi nei test statistici (al di fuori dell'ibrido). Inoltre, ogni lettore può avere in mente il suo preferito quando legge un documento ibrido e di conseguenza il suo tasso di errore. Quindi qual è il grosso problema?α

Uno dei motivi per cui voglio porre questa domanda è perché fa letteralmente male vedere quanto dell'articolo di wikipedia sul test delle ipotesi statistiche è dedicato all'ibrido di lambasting. Seguendo Halpin & Stam, afferma che la colpa è di un certo Lindquist (c'è anche una grande scansione del suo libro di testo con "errori" evidenziati in giallo), e ovviamente l'articolo wiki sullo stesso Lindquist inizia con la stessa accusa. Ma poi, forse mi manca qualcosa.


Riferimenti

Citazioni

Gigerenzer: Ciò che è diventato istituzionalizzato come statistica inferenziale in psicologia non è la statistica dei pescatori. È un miscuglio incoerente di alcune idee di Fisher da un lato, e alcune delle idee di Neyman e ES Pearson dall'altro. Mi riferisco a questa miscela come alla "logica ibrida" dell'inferenza statistica.

Goodman: l'approccio del test di ipotesi [Neyman-Pearson] ha offerto agli scienziati un affare faustiano - un modo apparentemente automatico per limitare il numero di conclusioni errate nel lungo periodo, ma solo abbandonando la capacità di misurare le prove [a la Fisher] e valutare verità da un singolo esperimento.

Hubbard & Bayarri: i test statistici classici sono un ibrido anonimo degli approcci concorrenti e spesso contraddittori [...]. In particolare, si riscontra un diffuso mancato apprezzamento dell'incompatibilità del valore probatorio di Fisher con il tasso di errore di tipo I, α , dell'ortodossia statistica di Neyman-Pearson. [...] Come primo esempio dello smarrimento derivante da [questa] miscelazione [...], considera il fatto ampiamente non riconosciuto che il valore p del primo è incompatibilepαpcon il test di ipotesi Neyman-Pearson in cui è stato incorporato. [...] Ad esempio, Gibbons e Pratt [...] hanno erroneamente dichiarato: "Segnalare un valore P, esatto o entro un intervallo, in effetti consente a ciascun individuo di scegliere il proprio livello di significatività come massima probabilità tollerabile di un errore di tipo I. "

Halpin & Stam: il testo di Lindquist del 1940 era una fonte originale dell'ibridazione degli approcci di Fisher e Neyman-Pearson. [...] piuttosto che aderire a una particolare interpretazione dei test statistici, gli psicologi sono rimasti ambivalenti e, in effetti, inconsapevoli delle difficoltà concettuali implicate nella controversia di Fisher e Neyman-Pearson.

Lew: Quello che abbiamo è un approccio ibrido che non controlla né i tassi di errore né consente la valutazione della forza delle prove.


+1 per questa domanda ben studiata (anche se lunga). Aiuterei a pensare che forse continuerò a specificare cosa è esattamente confuso. È sufficiente sapere che per Fisher non esiste affatto un'ipotesi alternativa mentre per NP il mondo delle possibilità è esaurito sia con null che con alternative? Mi sembra abbastanza incoerente, ma purtroppo faccio sempre la cosa ibrida perché non puoi evitare, così radicata è diventata.
Momo,

2
@Momo: a te la domanda su "cosa sia esattamente confuso" - beh, confondere è la frenesia della retorica anti-ibrida. "Incoherent mishmash" sono parole forti, quindi vorrei vedere una brutta incoerenza. Quello che hai detto sull'ipotesi alternativa non mi sembra tale (nel caso della varietà da giardino di l'alternativa è ovviamente H 1 : μ 0 , e non vedo molto spazio per l'incoerenza), ma se mi manca il tuo punto, forse ti piacerebbe fornirlo come risposta. H0:μ=0H1:μ0
ameba dice di reintegrare Monica il

2
Avendo appena letto Lew (e rendendomi conto di averlo letto prima, probabilmente intorno al 2006), l'ho trovato abbastanza buono, ma non credo che rappresenti il ​​modo in cui uso i valori p. I miei livelli di significatività - nelle rare occasioni in cui utilizzo il test di ipotesi * - sono sempre in primo piano e dove ho il controllo sulla dimensione del campione, dopo aver considerato la potenza, una certa considerazione del costo dei due tipi di errore e così via - essenzialmente Neyman-Pearson. Cito ancora valori p, ma non nel quadro dell'approccio di Fisher .... (ctd)
Glen_b

2
(ctd) ... * (spesso allontano le persone dai test delle ipotesi - così spesso le loro domande reali sono legate alla misurazione degli effetti e ottengono una risposta migliore costruendo intervalli). Il problema specifico sollevato da Lew per la procedura "ibrida" si applica a qualcosa che non faccio e tenderebbe a mettere in guardia le persone dal farlo. Se ci sono persone che stanno davvero facendo il mix di approcci che suggerisce, l'articolo sembra a posto. La precedente discussione sul significato dei valori di p e sulla storia degli approcci sembra eccellente.
Glen_b,

1
@Glen_b, la panoramica storica di Lew è molto bella e chiara, sono pienamente d'accordo. Il mio problema riguarda in particolare il problema ibrido (sezione "Quale approccio è maggiormente utilizzato?"). Certamente ci sono persone che fanno ciò che descrive lì, cioè riportando il più forte di p <.001, <.01 o <.05; Lo vedo sempre nelle neuroscienze. Prendi in considerazione uno dei casi in cui usi i test. Scegli ad es. Alpha = .05 e segui il framework NP. Quando ottieni p = .00011, la tua certezza su H1 e la tua scelta del testo saranno diverse da quando otterrai p = .049? Se è così, è ibrido! In caso contrario, come mai?
ameba dice di reintegrare Monica il

Risposte:


16

Credo che i documenti, gli articoli, i post, ecc. Raccolti diligentemente, contengano abbastanza informazioni e analisi su dove e perché i due approcci differiscono. Ma essere diversi non significa essere incompatibili .

Il problema con l '"ibrido" è che è un ibrido e non una sintesi , ed è per questo che viene trattato da molti come un ibrido , se si scusa il gioco di parole.
Non essendo una sintesi, non tenta di combinare le differenze dei due approcci, né di creare un approccio unificato e internamente coerente, né di mantenere entrambi gli approcci nell'arsenale scientifico come alternative complementari, al fine di affrontare in modo più efficace il molto complesso mondo che cerchiamo di analizzare attraverso le statistiche (per fortuna, quest'ultima cosa è ciò che sembra accadere con l'altra grande guerra civile del campo, quella frequentista-bayesiana).

L'insoddisfazione nei suoi confronti, a mio avviso, deriva dal fatto che ha effettivamente creato incomprensioni nell'applicazione degli strumenti statistici e nell'interpretazione dei risultati statistici , principalmente da parte di scienziati che non sono statistici , incomprensioni che possono avere effetti molto seri e dannosi (pensare al campo di medicina aiuta a dare alla questione il tono drammatico appropriato). Credo che questa errata applicazione sia ampiamente accettata come un fatto e, in tal senso, il punto di vista "anti-ibrido" può essere considerato diffuso (almeno a causa delle conseguenze che ha avuto, se non per i suoi problemi metodologici).

Vedo l'evoluzione della questione fino a un incidente storico (ma non ho un valore o una regione di rifiuto per la mia ipotesi), a causa della sfortunata battaglia tra i fondatori. Fisher e Neyman / Pearson hanno combattuto amaramente e pubblicamente per decenni sui loro approcci. Ciò ha creato l'impressione che qui sia una questione dicotomica: l'uno approccio deve essere "giusto" e l'altro deve essere "sbagliato".p

L'ibrido è emerso, credo, dalla consapevolezza che non esisteva una risposta così facile, e che c'erano fenomeni del mondo reale a cui l'uno approccio è più adatto dell'altro (vedi questo post per un tale esempio, secondo me a almeno, dove l'approccio dei pescatori sembra più adatto). Ma invece di mantenere i due "separati e pronti ad agire", sono stati piuttosto superflui insieme.

Offro una fonte che sintetizza questo approccio "alternativa complementare": Spanos, A. (1999). Teoria della probabilità e inferenza statistica: modellistica econometrica con dati osservativi. Cambridge University Press. , cap. 14 , in particolare la Sezione 14.5, dove dopo aver presentato formalmente e distintamente i due approcci, l'autore è in grado di evidenziare chiaramente le loro differenze, e sostiene anche che possono essere visti come alternative complementari.


6
pα

6
pα

6
CONTD Per me, questo è il problema "mangia la tua torta e mangia anche tu" dell'approccio ibrido. Ad esempio, un approccio NP senza calcoli del test di potenza dovrebbe essere impensabile, ma per tutto il tempo in cui vediamo il test posto nel quadro NP, ma nessuna menzione sui calcoli di potenza.
Alecos Papadopoulos,

Fuori tema, ma ... Dal momento che stai citando Aris Spanos, mi chiedo se potresti essere in grado di rispondere a questa domanda sulla sua metodologia? (Una volta ho posto direttamente la domanda ad Aris Spanos, e ha gentilmente messo un po 'di sforzo nel rispondere. Sfortunatamente, la sua risposta era nella stessa lingua dei suoi documenti, quindi non mi è stato di grande aiuto.)
Richard Hardy,

13

La mia opinione sulla mia domanda è che non vi è nulla di particolarmente incoerente nell'approccio ibrido (cioè accettato). Ma poiché non ero sicuro di non riuscire a comprendere la validità degli argomenti presentati negli articoli anti-ibridi, sono stato felice di trovare la discussione pubblicata insieme a questo documento:

Sfortunatamente, due risposte pubblicate come discussione non sono state formattate come articoli separati e quindi non possono essere correttamente citate. Tuttavia, vorrei citare da entrambi:

Berk: Il tema delle sezioni 2 e 3 sembra essere che a Fisher non piaceva quello che facevano Neyman e Pearson, e Neyman non piaceva quello che Fisher faceva, e quindi non dovremmo fare nulla che combini i due approcci. Non è possibile sfuggire alla premessa qui, ma il ragionamento mi sfugge.

Carlton:gli autori insistono fermamente sul fatto che la maggior parte della confusione deriva dal matrimonio delle idee di Fisher e Neyman-Pearsonian, che un tale matrimonio è un errore catastrofico da parte degli statistici moderni [...] [T] e sembrano intenzionati a stabilire che i valori P e Gli errori di tipo I non possono coesistere nello stesso universo. Non è chiaro se gli autori abbiano fornito ragioni sostanziali per cui non possiamo pronunciare "valore p" e "errore di tipo I" nella stessa frase. [...] Il "fatto" della loro incompatibilità [F e NP] è una notizia sorprendente per me, come sono sicuro che faccia alle migliaia di statistici qualificati che leggono l'articolo. Gli autori sembrano anche suggerire che tra i motivi per cui gli statistici dovrebbero ora divorziare da queste due idee è che Fisher e Neyman non si amavano terribilmente l'uno dell'altro s filosofie sui test). Ho sempre visto la nostra pratica attuale, che integra le filosofie di Fisher e Neyman e permette di discutere sia dei valori di P che degli errori di tipo I - sebbene certamente non in parallelo - come uno dei maggiori trionfi della nostra disciplina.

Vale la pena leggere entrambe le risposte. C'è anche una controreplica dagli autori originali, che non sembra convincere a me a tutti .


1
Una cosa è coesistere, un'altra è l'una da considerare come l'altra. Ma in effetti, questo filone di approccio anti-ibrido è nello spirito di "non può esserci alcuna sintesi", con cui non sono assolutamente d'accordo. Ma non vedo l'attuale ibrido come un matrimonio di successo .
Alecos Papadopoulos,

2
@ Vivace, grazie per i tuoi commenti, questo è interessante, ma vorrei astenermi da ulteriori discussioni qui. Preferirei incoraggiarti a pubblicare una nuova risposta, se lo desideri. Ma se decidi di farlo, prova a concentrarti sul problema principale, che è: cosa c'è di male in "ibrido", rispetto sia a Fisher che a NP. Sembra che odi l'intero approccio del test di significatività, "zero ipotesi nulla", ecc., Ma non è questo il problema!
ameba dice di reintegrare Monica il

1
@Livid: Hmmm, puoi davvero chiarire perché dici che è una caratteristica distintiva dell'ibrido? Quale sarebbe il nulla in Fisher puro o in NP puro? Supponiamo che tu abbia due gruppi e desideri verificare una differenza significativa ("zero zero"). Non si può affrontare questa situazione con tutti e tre gli approcci: Fisher puro, NP puro e ibrido?
ameba dice di reintegrare Monica il

2
@Livido, capisco le tue argomentazioni contro lo zero, penso solo che questo problema sia ortogonale al problema dell'ibrido. Devo aggiornare le carte anti-ibride in memoria, ma per quanto ricordo la loro critica dell'ibrido non è affatto centrata sullo zero. Invece, si tratta di combinare Fisher e NP. Ancora una volta, se non sei d'accordo, ti preghiamo di considerare di pubblicare una risposta; per il momento, lasciamolo.
ameba dice di reintegrare Monica il

2
Una nota a me stesso: dovrei incorporare in questa risposta alcune citazioni di questo articolo: Lehmann 1992, The Fisher, Neyman-Pearson Teorie del test delle ipotesi: una teoria o due?
ameba dice di reintegrare Monica il

8

Temo che una vera risposta a questa eccellente domanda richiederebbe un documento integrale. Tuttavia, qui ci sono un paio di punti che non sono presenti né nella domanda né nelle risposte correnti.

  1. Il tasso di errore "appartiene" alla procedura ma l'evidenza "appartiene" ai risultati sperimentali. Quindi è possibile con le procedure a più stadi con regole di arresto sequenziale di avere un risultato con prove molto forti contro l'ipotesi nulla ma un risultato del test di ipotesi non significativo. Questa può essere considerata una forte incompatibilità.

  2. Se sei interessato alle incompatibilità, dovresti essere interessato alle filosofie sottostanti. La difficoltà filosofica deriva dalla scelta tra il rispetto del principio di verosimiglianza e il rispetto del principio di campionamento ripetuto. Il LP afferma approssimativamente che, dato un modello statistico, l'evidenza in un set di dati relativo al parametro di interesse è completamente contenuta nella relativa funzione di probabilità. L'RSP afferma che si dovrebbero preferire i test che danno tassi di errore a lungo termine che eguagliano i loro valori nominali.


3
A mio avviso, la monografia di JO Berger e RL Wolpert "The Likelihood Principle" (2a ed. 1988) è una calma, equilibrata e buona esposizione del punto 2.
Alecos Papadopoulos,

5
Berger e Wolpert sono davvero una buona esposizione e anche autorevole. Tuttavia, preferisco il libro più pratico e meno matematico "Likelihood" di AWF Edwards. Ancora in stampa, penso. books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
Michael Lew,

2
@MichaelLew ha spiegato che un uso valido dei valori di p è un riepilogo delle dimensioni dell'effetto. Ha fatto una grande cosa scrivendo questo articolo: arxiv.org/abs/1311.0081
Livido

@Livid Il documento è molto interessante, ma per il nuovo lettore vale la pena notare quanto segue: l'idea principale, che i valori di p 'indice' (presumibilmente: sono in relazione uno a uno) con le funzioni di verosimiglianza, è generalmente intesa come falsa perché ci sono casi in cui la stessa probabilità corrisponde a valori p diversi a seconda dello schema di campionamento. Questo problema è discusso un po 'nel documento, ma l'indicizzazione è una posizione molto insolita (che non necessariamente lo rende sbagliato, ovviamente).
conjugateprior

8

Un'unione spesso vista (e presumibilmente accettata) (o meglio: "ibrida") tra i due approcci è la seguente:

  1. α
  2. Ho:μ=0H1:μ0
  3. α

    α

    • Ho
    • HoH1
    • 100%(1α)H1

    Se il valore p non è abbastanza piccolo, diresti

    • Ho
    • HoH1

Ecco alcuni aspetti di Neyman-Pearson:

  • Decidi tu qualcosa
  • Ho
  • Conosci il tasso di errore di tipo I.

Gli aspetti dei pescatori sono:

  • Si indica il valore p. Ogni lettore ha quindi la possibilità di utilizzare il proprio livello (ad es. Correzione rigorosa per test multipli) per la decisione
  • Fondamentalmente, è necessaria solo l'ipotesi nulla poiché l'alternativa è esattamente il contrario
  • μ0

AGGIUNGI SU

Mentre è bene essere consapevoli della discussione sui problemi filosofici di Fisher, NP o questo approccio ibrido (come insegnato da una frenesia quasi religiosa da alcuni), ci sono questioni molto più rilevanti nelle statistiche per combattere contro:

  • Porre domande non informative (come domande binarie sì / no invece di domande quantitative "quanto", cioè usando test invece di intervalli di confidenza)
  • Metodi di analisi basati sui dati che portano a risultati distorti (regressione graduale, ipotesi di test ecc.)
  • Scelta di test o metodi sbagliati
  • Risultati di interpretazione errata
  • Utilizzo delle statistiche classiche per campioni non casuali

1
(+1) Questa è una buona descrizione dell'ibrido (e perché esattamente è ibrido), ma non hai detto esplicitamente quale sia la tua valutazione. Sei d'accordo sul fatto che quello che hai descritto è un "miscuglio incoerente"? Se è così, perché? O pensi che sia una procedura ragionevole? In tal caso, le persone che affermano che è incoerente hanno un punto o hanno semplicemente torto?
ameba dice di reintegrare Monica il

1
α

4

accettando che sia F che NP sono approcci validi e significativi, cosa c'è di male nel loro ibrido?

Risposta breve: l'uso di un'ipotesi nulla (nessuna differenza, nessuna correlazione) nulla indipendentemente dal contesto. Tutto il resto è un "abuso" da parte di persone che hanno creato miti per se stessi su ciò che il processo può raggiungere. I miti derivano da persone che tentano di conciliare il loro (talvolta appropriato) uso della fiducia nell'autorità e l'euristica del consenso con l'inapplicabilità della procedura al loro problema.

Per quanto ne so Gerd Gigerenzer ha escogitato il termine "ibrido":

Ho chiesto all'autore [un illustre autore di libri di testo statistici, il cui libro ha attraversato molte edizioni e il cui nome non ha importanza] perché ha rimosso il capitolo su Bayes e la frase innocente da tutte le edizioni successive. “Cosa ti ha fatto presentare statistiche come se avesse un solo martello, piuttosto che una cassetta degli attrezzi? Perché hai mescolato le teorie di Fisher e Neyman-Pearson in un ibrido incoerente che ogni statistico decente respingerebbe? "

A suo merito, dovrei dire che l'autore non ha tentato di negare di aver prodotto l'illusione che esista un solo strumento. Ma mi ha fatto sapere di chi era la colpa. C'erano tre colpevoli: i suoi colleghi ricercatori, l'amministrazione universitaria e il suo editore. La maggior parte dei ricercatori, ha affermato, non sono molto interessati al pensiero statistico, ma solo a come pubblicare i loro articoli [...]

Il rituale nullo:

  1. Imposta un'ipotesi nulla statistica di "nessuna differenza media" o "correlazione zero". Non specificare le previsioni della tua ipotesi di ricerca o di eventuali ipotesi sostanziali alternative.

  2. p<0.05p<0.01p<0.001p

  3. Eseguire sempre questa procedura.

Gigerenzer, G (novembre 2004). " Statistiche insensate ". The Journal of Socio-Economics 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.

Modifica: E dovremmo sempre menzionare, perché "l'ibrido" è così scivoloso e mal definito, che usare il valore zero per ottenere un valore p va benissimo come un modo per confrontare le dimensioni dell'effetto date le diverse dimensioni del campione. È l'aspetto "test" che introduce il problema.

Modifica 2: @amoeba Un valore p può andare bene come statistica riassuntiva, in questo caso l'ipotesi nulla nulla è solo un punto di riferimento arbitrario: http://arxiv.org/abs/1311.0081 . Tuttavia, non appena si inizia a cercare di trarre una conclusione o prendere una decisione (cioè "testare" l'ipotesi nulla), smette di avere senso. Nell'esempio di confronto tra due gruppi, vogliamo sapere quanto sono diversi i due gruppi e le varie possibili spiegazioni che potrebbero esserci per differenze di tale entità e tipo.

Il valore p può essere usato come una statistica riassuntiva che ci dice l'entità della differenza. Tuttavia, usarlo per "confutare / rifiutare" la differenza zero non serve a nulla che io possa dire. Inoltre, penso che molti di questi progetti di studio che confrontano le misurazioni medie di esseri viventi in un singolo punto temporale siano sbagliati. Dovremmo osservare come le singole istanze del sistema cambiano nel tempo, quindi elaborare un processo che spieghi il modello osservato (comprese eventuali differenze di gruppo).


2
+1, grazie per la risposta e per il link. Sembra che non ho letto questo particolare documento, darò un'occhiata. Come ho detto prima, avevo l'impressione che "zero nulla" sia un problema ortogonale al problema di "ibrido", ma credo che dovrei rileggere gli scritti di Gigerenzer per verificarlo. Proverà a trovare il tempo nei giorni seguenti. A parte questo: potresti chiarire il tuo ultimo paragrafo ("modifica")? Ho capito bene che intendevi dire che avere un valore nullo zero quando si confrontano due dimensioni dell'effetto va bene, ma avere un valore zero nulla quando si confronta una dimensione dell'effetto con zero non va bene?
ameba dice di reintegrare Monica il

1

Vedo che quelli con più esperienza di me hanno fornito risposte, ma penso che la mia risposta abbia il potenziale per aggiungere qualcosa in più, quindi offrirò questo come la prospettiva di un altro profano.

L'approccio ibrido è incoerente?   Direi che dipende dal fatto che il ricercatore finisca per agire in modo incoerente con le regole con cui hanno iniziato: in particolare la regola sì / no che entra in gioco con l'impostazione di un valore alfa.

Incoerente

Inizia con Neyman-Pearson. Il ricercatore imposta alpha = 0,05, esegue l'esperimento, calcola p = 0,052. Il ricercatore osserva quel valore p e, usando l'inferenza dei pescatori (spesso implicitamente), considera il risultato sufficientemente incompatibile con l'ipotesi del test secondo cui continueranno a sostenere che "qualcosa" sta succedendo. Il risultato è in qualche modo "abbastanza buono" anche se il valore p era maggiore del valore alfa. Spesso questo è accoppiato a un linguaggio come "quasi significativo" o "tendenza al significato" o ad una formulazione simile.

Tuttavia, impostare un valore alfa prima di eseguire l'esperimento significa che si è scelto l'approccio del comportamento induttivo di Neyman-Pearson. Scegliere di ignorare quel valore alfa dopo aver calcolato il valore p, e quindi affermare che qualcosa è ancora in qualche modo interessante, mina l'intero approccio con cui si è iniziato. Se un ricercatore inizia il Percorso A (Neyman-Pearson), ma poi passa a un altro percorso (Fisher) quando non gli piace il percorso su cui si trovano, lo considero incoerente. Non sono coerenti con le regole (implicite) con cui hanno iniziato.

Coerente (possibilmente)

Inizia con NP. Il ricercatore imposta alpha = 0,05, esegue l'esperimento, calcola p = 0,0014. Il ricercatore osserva che p <alfa, e quindi rifiuta l'ipotesi del test (in genere nessun effetto nullo) e accetta l'ipotesi alternativa (l'effetto è reale). A questo punto il ricercatore, oltre a decidere di trattare il risultato come un effetto reale (NP), decide di dedurre (Fisher) che l'esperimento fornisce prove molto forti che l'effetto è reale. Hanno aggiunto sfumature all'approccio con cui hanno iniziato, ma non hanno contraddetto le regole stabilite scegliendo un valore alfa all'inizio.

Sommario

Se uno inizia scegliendo un valore alfa, allora ha deciso di prendere il percorso Neyman-Pearson e seguire le regole per quell'approccio. Se, a un certo punto, violano quelle regole usando l'inferenza dei pescatori come giustificazione, allora hanno agito in modo incoerente / incoerente.

Suppongo che si potrebbe fare un ulteriore passo avanti e dichiarare che, poiché è possibile utilizzare l'ibrido in modo incoerente, quindi l'approccio è intrinsecamente incoerente, ma sembra che si stia approfondendo gli aspetti filosofici, che non mi considero qualificato offrire un parere su.

Punta del cappello a Michael Lew. Il suo articolo del 2006 mi ha aiutato a capire questi problemi meglio di qualsiasi altra risorsa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.