Come scegliere il livello di significatività per un set di dati di grandi dimensioni?

Sto lavorando con un set di dati con N circa 200.000. Nelle regressioni, vedo valori di significatività molto piccoli << 0,001 associati a dimensioni di effetto molto piccole, ad es. R = 0,028. Quello che mi piacerebbe sapere è che esiste un modo di principio per decidere una soglia di significatività appropriata in relazione alla dimensione del campione? Ci sono altre importanti considerazioni sull'interpretazione della dimensione dell'effetto con un campione così ampio?

— ted.strauss
fonte

Questa è una questione di significato pratico vs. statistico. Se la pendenza è veramente diversa da 0, anche per una quantità minuscola, ad esempio .00000000000001), un campione abbastanza grande produrrà un valore

molto piccolo

p

$p$ , nonostante il risultato non abbia alcun significato pratico. Faresti meglio a interpretare la stima puntuale piuttosto che il valore

p

$p$ quando hai una dimensione del campione così grande.

— Macro

@Macro mi dispiace puoi chiarire cosa intendi per punto di stima qui?

— ted.strauss,

Aggiungendo al commento di Macro sopra, in questa situazione cerco un significato "pratico" o "clinico" nei risultati. Per quello che stai facendo, l'effetto è abbastanza grande per te?

— Michelle,

La stima puntuale è la stima della pendenza di regressione osservata.

— Macro

Quello che @Macro e io stiamo entrambi dicendo è che devi decidere se l'effetto clinico (stime puntuali, pendenze) è importante. La tua soglia è sulla base della decisione "sì, questo è un effetto clinico importante" piuttosto che "un valore p significativo" perché la maggior parte (tutti?) Dei tuoi valori p sono significativi.

— Michelle,

Risposte:

In L'insignificanza del test di significatività , Johnson (1999) ha osservato che i valori di p sono arbitrari, in quanto puoi renderli piccoli come desideri raccogliendo abbastanza dati, supponendo che l'ipotesi nulla sia falsa, come quasi sempre. Nel mondo reale, è improbabile che vi siano correlazioni semi-parziali che sono esattamente zero, che è l'ipotesi nulla nel testare il significato di un coefficiente di regressione. I cutoff di significatività del valore P sono ancora più arbitrari. Il valore di 0,05 come limite tra significatività e non significatività viene utilizzato per convenzione, non per principio. Quindi la risposta alla tua prima domanda è no, non esiste un modo di principio per decidere su una soglia di significatività appropriata.

Quindi cosa puoi fare, dato il tuo ampio set di dati? Dipende dalle ragioni per esplorare il significato statistico dei coefficienti di regressione. Stai cercando di modellare un complesso sistema multifattoriale e sviluppare una teoria utile che si adatta ragionevolmente o predice la realtà? Quindi forse potresti pensare di sviluppare un modello più elaborato e di prendere una prospettiva di modellazione su di esso, come descritto in Rodgers (2010), The Epistemology of Mathematical and Statistical Modeling . Un vantaggio di avere molti dati è la possibilità di esplorare modelli molto ricchi, quelli con più livelli e interazioni interessanti (supponendo che tu abbia le variabili per farlo).

Se, d'altra parte, vuoi dare un giudizio sul fatto se trattare un determinato coefficiente come statisticamente significativo o meno, potresti voler prendere il suggerimento di Good (1982) come riassunto in Woolley (2003) : Calcola il valore q come che standardizza i valori di p su una dimensione del campione di 100. Un valore di p esattamente di .001 converte in un valore di p di .045 - statisticamente significativo ancora. $p\cdot\sqrt{(n/100)}$

Quindi, se è significativo usare una soglia arbitraria o un'altra, che ne pensi? Se questo è uno studio osservazionale hai molto più lavoro per giustificare che in realtà è significativo nel modo in cui pensi e non solo una relazione spuria che si manifesta perché hai specificato male il tuo modello. Si noti che un piccolo effetto non è così clinicamente interessante se rappresenta differenze preesistenti tra le persone che selezionano diversi livelli di trattamento piuttosto che un effetto di trattamento.

Devi considerare se la relazione che stai vedendo è praticamente significativa, come hanno notato i commentatori. Conversione figure con citazione da a per la varianza spiegata ( è la correlazione, piazza esso per ottenere spiegato varianza) dà solo 3 e il 6% della varianza ha spiegato, rispettivamente, che non sembra molto. $r$ $r^2$ $r$

— Anne Z.
fonte

@ rolando2 grazie per la modifica, confondendoti sempre tra valori p grandi / piccoli! Penso che se è a destra della distribuzione è grande, ma il valore p è piccolo.

— Anne Z.

+1 quasi sempre lo è. "

— Macro

Grazie! I punti nel tuo penultimo paragrafo sono ben presi. Sto leggendo l'articolo di Woolley e ho notato che la tua formula con valore q è disattivata. Dovrebbe essere p * non p / - Ho provato a cambiarlo qui ma le modifiche devono essere> 6 caratteri.

— ted.strauss,

@ ted.strauss Sono contento che sia utile. A volte mi sento scoraggiato dai limiti degli strumenti come i valori p con cui dobbiamo lavorare. Grazie per aver notato l'errore nella formula, l'ho risolto.

— Anne Z.

Grazie per la meravigliosa risposta. Ma non sono in grado di accedere al documento Woolley 2003 utilizzando il link fornito sopra.

— Karthik

-3

Immagino che un modo semplice per verificare sarebbe campionare casualmente un numero altrettanto grande da quello che sai è una distribuzione due volte e confrontando i due risultati. Se lo fai più volte e osservi valori p simili, suggerirebbe che non c'è alcun effetto reale. Se invece non lo fai, probabilmente c'è.

— Lars Kotthoff
fonte

Penso che tu stia suggerendo di fare simulazioni sotto l'ipotesi nulla di nessuna vera differenza con una grande dimensione del campione e guardando i valori

. Posso dirti senza fare le simulazioni che

proporzione dei valori

risultanti sarà piccola come quella osservata dal poster originale. Questo vale per qualsiasi dimensione del campione. Questa è la definizione di un valore

p

$p$

< .001

$<.001$

p

$p$

p

$p$

— Macro

In effetti, i valori

che usciranno dal processo che hai descritto avranno una distribuzione

p

$p$

U n i f o r m (0, 1)

${\rm Uniform}(0,1)$

— Macro

In relazione all'ultimo commento di @Macro, ecco uno schizzo della dimostrazione che, sotto l'ipotesi nulla

, il valore

ha distribuzione

. Data una statistica di prova

, se osserviamo

, il valore

è definito come

. Supponiamo che sotto

H_{0}

$H_0$

p

$p$

U [0, 1]

$U[0,1]$

T = T (X)

$T=T(X)$

t = t (x)

$t=t(x)$

p

$p$

p (t) = P (T \geq t ∣ H_{0})

$p(t)=\mathbb{P}(T\geq t\mid H_0)$

H_{0}

$H_0$ la funzione di distribuzione di

, con

continuo e non decrescente, in modo che abbia

inverso . Poi, abbiamo

, e, per

T

$T$

G_{0}

$G_0$

G_{0}

$G_0$

G_{0}^{- 1}

$G_0^{-1}$

p (t) = 1 - G_{0} (t)

$p(t)=1-G_0(t)$

u \in [0, 1]

$u\in[0,1]$

— Zen

(seguito del commento di Zen):

Quindi, concludiamo che

P (p (T) \leq u) = P (1 - G_{0} (T) \leq u) = P (G_{0} (T) \geq 1 - u) = P (T \geq G_{0}^{- 1} (1 - u)) = 1 - G_{0} (G_{0}^{- 1} (1 - u)) = u .

$\mathbb{P}(p(T)\leq u) = \mathbb{P}(1-G_0(T)\leq u) = \mathbb{P}(G_0(T)\geq 1-u) = \mathbb{P}(T\geq G_0^{-1}(1-u)) = 1-G_0(G_0^{-1}(1-u))=u \, .$

p (T) ∣ H_{0} \sim U [0, 1]

$p(T)\mid H_0\sim U[0,1]$

— whuber