Ho letto valori , tassi di errore di tipo 1, livelli di significatività, calcoli di potenza, dimensioni degli effetti e dibattito Fisher vs Neyman-Pearson. Questo mi ha lasciato un po 'sopraffatto. Mi scuso per il muro di testo, ma ho ritenuto necessario fornire una panoramica della mia attuale comprensione di questi concetti, prima di passare alle mie domande reali.
Da quello che ho raccolto, un valore è semplicemente una misura di sorpresa, la probabilità di ottenere un risultato almeno altrettanto estremo, dato che l'ipotesi nulla è vera. Fisher inizialmente intendeva che fosse una misura continua.
Nel framework Neyman-Pearson, si seleziona in anticipo un livello di significatività e lo si utilizza come punto di interruzione (arbitrario). Il livello di significatività è uguale al tasso di errore di tipo 1. È definito dalla frequenza di lungo periodo, ovvero se si ripetesse un esperimento 1000 volte e l'ipotesi nulla fosse vera, circa 50 di quegli esperimenti avrebbero un effetto significativo , a causa della variabilità del campionamento. Scegliendo un livello di significatività, ci stiamo proteggendo da questi falsi positivi con una certa probabilità. valori tradizionalmente non compaiono in questo framework.
Se troviamo un valore di 0,01, ciò non significa che il tasso di errore di tipo 1 sia 0,01, l'errore di tipo 1 viene dichiarato a priori. Credo che questo sia uno dei principali argomenti nel dibattito Fisher vs NP, perché i valori sono spesso riportati come 0,05 *, 0,01 **, 0,001 ***. Ciò potrebbe indurre in errore le persone a dire che l'effetto è significativo a un certo valore , anziché a un certo valore di significatività.
Mi rendo anche conto che il valore è una funzione della dimensione del campione. Pertanto, non può essere utilizzato come misura assoluta. Un piccolo valore potrebbe indicare un effetto piccolo e non rilevante in un esperimento di grande campione. Per contrastare questo, è importante eseguire un calcolo delle dimensioni di potenza / effetto quando si determina la dimensione del campione per l'esperimento. valori ci dicono se c'è un effetto, non quanto sia grande. Vedi Sullivan 2012 .
La mia domanda: come posso conciliare i fatti secondo cui il valore è una misura di sorpresa (più piccolo = più convincente) mentre allo stesso tempo non può essere visto come una misurazione assoluta?
Ciò di cui sono confuso è il seguente: possiamo essere più sicuri in un piccolo valore che in un grande? In senso pescatore, direi di sì, siamo più sorpresi. Nel quadro NP, la scelta di un livello di significatività inferiore implicherebbe una maggiore protezione da falsi positivi.
D'altra parte, i valori dipendono dalle dimensioni del campione. Non sono una misura assoluta. Quindi non possiamo semplicemente dire che 0,001593 è più significativo di 0,0439. Eppure questo sarebbe implicito nel quadro di Fisher: saremmo più sorpresi di un valore così estremo. C'è persino discussione sul fatto che il termine altamente significativo sia un termine improprio: è sbagliato fare riferimento ai risultati come "altamente significativi"?
Ho sentito che i valori in alcuni campi della scienza sono considerati importanti solo quando sono inferiori a 0,0001, mentre in altri campi i valori intorno allo 0,01 sono già considerati altamente significativi.
Domande correlate: