In L'insignificanza del test di significatività , Johnson (1999) ha osservato che i valori di p sono arbitrari, in quanto puoi renderli piccoli come desideri raccogliendo abbastanza dati, supponendo che l'ipotesi nulla sia falsa, come quasi sempre. Nel mondo reale, è improbabile che vi siano correlazioni semi-parziali che sono esattamente zero, che è l'ipotesi nulla nel testare il significato di un coefficiente di regressione. I cutoff di significatività del valore P sono ancora più arbitrari. Il valore di 0,05 come limite tra significatività e non significatività viene utilizzato per convenzione, non per principio. Quindi la risposta alla tua prima domanda è no, non esiste un modo di principio per decidere su una soglia di significatività appropriata.
Quindi cosa puoi fare, dato il tuo ampio set di dati? Dipende dalle ragioni per esplorare il significato statistico dei coefficienti di regressione. Stai cercando di modellare un complesso sistema multifattoriale e sviluppare una teoria utile che si adatta ragionevolmente o predice la realtà? Quindi forse potresti pensare di sviluppare un modello più elaborato e di prendere una prospettiva di modellazione su di esso, come descritto in Rodgers (2010), The Epistemology of Mathematical and Statistical Modeling . Un vantaggio di avere molti dati è la possibilità di esplorare modelli molto ricchi, quelli con più livelli e interazioni interessanti (supponendo che tu abbia le variabili per farlo).
Se, d'altra parte, vuoi dare un giudizio sul fatto se trattare un determinato coefficiente come statisticamente significativo o meno, potresti voler prendere il suggerimento di Good (1982) come riassunto in Woolley (2003) : Calcola il valore q come che standardizza i valori di p su una dimensione del campione di 100. Un valore di p esattamente di .001 converte in un valore di p di .045 - statisticamente significativo ancora.p⋅(n/100)−−−−−−√
Quindi, se è significativo usare una soglia arbitraria o un'altra, che ne pensi? Se questo è uno studio osservazionale hai molto più lavoro per giustificare che in realtà è significativo nel modo in cui pensi e non solo una relazione spuria che si manifesta perché hai specificato male il tuo modello. Si noti che un piccolo effetto non è così clinicamente interessante se rappresenta differenze preesistenti tra le persone che selezionano diversi livelli di trattamento piuttosto che un effetto di trattamento.
Devi considerare se la relazione che stai vedendo è praticamente significativa, come hanno notato i commentatori. Conversione figure con citazione da a r 2 per la varianza spiegata ( r è la correlazione, piazza esso per ottenere spiegato varianza) dà solo 3 e il 6% della varianza ha spiegato, rispettivamente, che non sembra molto.rr2r