Negli ultimi anni, diversi studiosi hanno sollevato un problema dannoso nel test delle ipotesi scientifiche, soprannominato "grado di libertà dei ricercatori", il che significa che gli scienziati hanno numerose scelte da fare durante la loro analisi che tendono a trovare con un valore p <5%. Queste scelte ambigue sono, ad esempio, il caso da includere, il caso che è classificato come anomalo, eseguendo numerose specifiche del modello fino a quando qualcosa si presenta, non pubblicano risultati nulli, ecc. (Il documento che ha scatenato questo dibattito in psicologia è qui , vedere un popolare articolo Slate e il dibattito di follow-up di Andrew Gelman qui , e la rivista Time tocca anche questo argomento qui .)
Innanzitutto , una domanda di chiarimento:
La rivista Time ha scritto,
"Una potenza di 0,8 significa che su dieci vere ipotesi verificate, ne verranno escluse solo due perché i loro effetti non vengono rilevati nei dati;"
Non sono sicuro di come questo si adatti alla definizione della funzione di potenza che ho trovato nel libro di testo, che è la probabilità di rifiutare il valore nullo in funzione del parametro . Con diversi abbiamo un potere diverso, quindi non capisco bene la citazione sopra.
In secondo luogo , alcune implicazioni per la ricerca:
Nel mio campo di scienze politiche / economiche, gli studiosi utilizzano semplicemente tutti i dati disponibili per ogni anno. Quindi, non dovremmo preoccuparci di suonare il campione qui?
Il problema di eseguire più test ma di riportare un solo modello può essere risolto semplicemente dal fatto che qualcun altro nella disciplina testerà nuovamente il tuo documento e ti colpirà immediatamente per non avere risultati affidabili? Anticipando questo, gli studiosi nel mio campo hanno maggiori probabilità di includere una
robustness check
sezione, in cui mostrano che più specifiche del modello non cambiano il risultato. È sufficiente?Andrew Gelman e altri sottolineano il fatto che, indipendentemente dai dati, sarebbe sempre possibile trovare e pubblicare alcuni "schemi" che in realtà non esistono. Ma questo non dovrebbe essere un problema, dato il fatto che qualsiasi "modello" empirico deve essere supportato da una teoria e le teorie rivali all'interno di una disciplina si impegneranno semplicemente in un dibattito / gara per scoprire quale campo è in grado di trovare più "modelli" in vari luoghi. Se uno schema è veramente falso, allora la teoria alla base verrà rapidamente abbattuta quando non ci sono schemi simili in altri campioni / impostazioni. Non è così che la scienza progredisce?
Supponendo che l'attuale tendenza delle riviste per risultati nulli in realtà fiorirà, c'è un modo per noi di aggregare tutti i risultati nulli e positivi insieme e fare una deduzione sulla teoria che tutti provano a testare?