Cosa è successo al significato statistico nella regressione quando la dimensione dei dati è gigantesca?


13

Stavo leggendo questa domanda riguardo alla regressione su larga scala ( link ) in cui whuber ha sottolineato un punto interessante come segue:

"Quasi tutti i test statistici che esegui saranno così potenti che è quasi sicuro di identificare un effetto" significativo ". Devi concentrarti molto di più sull'importanza statistica, come la dimensione dell'effetto, piuttosto che sulla significatività."

--- whuber

Mi chiedevo se questo è qualcosa che può essere provato o semplicemente alcuni fenomeni comuni nella pratica?

Qualsiasi puntatore a una prova / discussione / simulazione sarebbe davvero utile.


1
Le dimensioni dell'effetto sono importanti. (+1 alla risposta di Glen_b). Per dare un esempio veloce: se fossimo obesi non avremmo cambiato la nostra dieta esistente a una nuova dieta più costoso se si è tradotto in perdita di peso di 0,05 kg dopo un mese, anche se avesse un -valore ,0000,000001 millions . Saremmo ancora obesi, solo più poveri. Per quanto ne sappiamo, una riduzione di peso così ridotta potrebbe essere dovuta solo alla clinica sanitaria che le registrazioni sono state spostate dal terreno di un edificio senza ascensore al quarto piano dello stesso edificio. (Bella domanda + 1)p,0000,000001 millions
usεr11852 dice Reinstate Monic il

Risposte:


10

È praticamente generale.

Immagina che ci sia un effetto piccolo, ma diverso da zero (cioè una deviazione dal nulla che il test è in grado di raccogliere).

A campioni di piccole dimensioni, la possibilità di rifiuto sarà molto vicina al tasso di errore di tipo I (il rumore domina l'effetto ridotto).

Man mano che le dimensioni del campione aumentano, l'effetto stimato dovrebbe convergere in quello della popolazione, mentre allo stesso tempo l'incertezza dell'effetto stimato si riduce (normalmente come ), fino a quando la possibilità che la situazione nulla sia abbastanza vicina all'effetto stimato che sia ancora plausibile in un campione selezionato casualmente dalla popolazione si riduce a zero.n

Vale a dire, con punti nulli, il rifiuto alla fine diventa certo, perché in quasi tutte le situazioni reali ci sarà sempre una certa deviazione dal nulla.


"... perché in quasi tutte le situazioni reali ci sarà sempre una certa deviazione dal nulla." Quindi è lì e si può persino vederlo. Sarebbe una proprietà piuttosto bella o no?
Trilarion,

"Null" qui si riferisce all'ipotesi nulla che il coefficiente sia uguale a zero?
Arash Howaida,

Penso che la risposta di Glen_b sia generale e applicabile a qualsiasi test di ipotesi con un punto null. Nel contesto della regressione, sì, il valore nullo è che il coefficiente è uguale a zero. La mia comprensione però ...
Bayesric,

4

Questa non è una prova, ma non è difficile mostrare in pratica l'influenza della dimensione del campione. Vorrei usare un semplice esempio di Wilcox (2009) con piccole modifiche:

H0:μ50α=.05

Possiamo usare t-test per questa analisi:

T=X¯μos/n

X¯s

T=455011/10=1.44.

tνv=101P(T1.83)=.05T=1.44

T=455011/100=4.55

v=1001P(T1.66)=.05s/nT=β^jβj(0)se(β^j)


Wilcox, RR, 2009. Statistiche di base: comprensione dei metodi convenzionali e approfondimenti moderni . Oxford University Press, Oxford.


1
Grazie per la risposta. La tua risposta fornisce una dimostrazione concreta della risposta di Glen_b: quando la dimensione del campione è molto grande, una piccola deviazione dal nulla (in pratica c'è sempre una piccola deviazione) verrà catturata come effetto significativo.
Bayesric,

2

In regressione, per il modello generale, il test è su F. Qui

F=RSS1RSS2p2p1RSS2np2
Where RSS is residual sum of squares and p is the number of parameters. But, for this question, the key is the N in the lower denominator. No matter how close RSS1 is to RSS2, when N gets bigger, F gets bigger. So, just increase N until F is significant.

1
Grazie per la risposta. Tuttavia, sono scettico su "quando N diventa più grande, F diventa più grande"; quando N aumenta, aumenta anche RSS2, non mi è chiaro perché F diventerà più grande.
Bayesric,

@Peter Flom questo non è realizzato ma puoi dare un'occhiata qui stats.stackexchange.com/questions/343518/…
user3022875
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.