@DikranMarsupial ha esattamente ragione, ovviamente, ma mi è venuto in mente che potrebbe essere bello illustrare il suo punto, soprattutto perché questa preoccupazione sembra emergere frequentemente. In particolare, i residui di un modello di regressione dovrebbero essere normalmente distribuiti affinché i valori p siano corretti. Tuttavia, anche se i residui sono normalmente distribuiti, ciò non garantisce che sarà (non che sia importante ...); essa dipende dalla distribuzione di . XYX
Facciamo un semplice esempio (che sto inventando). Diciamo che stiamo testando un farmaco per l' ipertensione sistolica isolata (ovvero, il numero massimo di pressione sanguigna è troppo alto). Supponiamo inoltre che la bp sistolica sia normalmente distribuita nella nostra popolazione di pazienti, con una media di 160 e DS di 3, e che per ogni mg di farmaco che i pazienti assumono ogni giorno, la bp sistolica diminuisce di 1 mmHg. In altre parole, il vero valore di è 160 e è -1 e la vera funzione di generazione dei dati è:
β 1 B P s y s = 160 - 1 × dosaggio giornaliero del farmaco + εβ0β1X
BPsys=160−1×daily drug dosage+εwhere ε∼N(0,9)
Nel nostro studio fittizio, 300 pazienti vengono assegnati in modo casuale a prendere 0 mg (un placebo), 20 mg o 40 mg di questo nuovo medicinale al giorno. (Si noti che non è normalmente distribuito.) Quindi, dopo un periodo di tempo adeguato affinché il farmaco abbia effetto, i nostri dati potrebbero apparire così:
X
(Ho agitato i dosaggi in modo che i punti non si sovrapponessero così tanto che erano difficili da distinguere.) Ora, controlliamo le distribuzioni di (cioè, è la distribuzione marginale / originale) e i residui: Y
I grafici qq ci mostrano che non è lontanamente normale, ma che i residui sono ragionevolmente normali. I grafici della densità del kernel ci danno un quadro più intuitivamente accessibile delle distribuzioni. È chiaro che è tri-modale , mentre i residui sembrano molto simili a una distribuzione normale. YYY
Ma per quanto riguarda il modello di regressione adattato, qual è l'effetto dei non normali e (ma dei residui normali)? Per rispondere a questa domanda, dobbiamo specificare di cosa potremmo essere preoccupati per quanto riguarda le prestazioni tipiche di un modello di regressione in situazioni come questa. Il primo problema è: i beta sono, in media, giusto? (Certo, rimbalzeranno intorno ad alcuni, ma a lungo termine, le distribuzioni campionarie dei beta sono centrate sui valori reali?) Questa è la questione del bias . Un altro problema è: possiamo fidarci dei valori p che otteniamo? Cioè, quando l'ipotesi nulla vera èX p < .05 β 1YXp<.05solo il 5% delle volte? Per determinare queste cose, possiamo simulare i dati dal processo di generazione dei dati sopra riportato e un caso parallelo in cui il farmaco non ha alcun effetto, un gran numero di volte. Quindi possiamo tracciare le distribuzioni di campionamento di e verificare se sono centrate sul valore reale, e anche verificare quanto spesso la relazione fosse "significativa" nel caso nullo: β1
set.seed(123456789) # this make the simulation repeatable
b0 = 160; b1 = -1; b1_null = 0 # these are the true beta values
x = rep(c(0, 20, 40), each=100) # the (non-normal) drug dosages patients get
estimated.b1s = vector(length=10000) # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values = vector(length=10000)
for(i in 1:10000){
residuals = rnorm(300, mean=0, sd=3)
y.works = b0 + b1*x + residuals
y.null = b0 + b1_null*x + residuals # everything is identical except b1
model.works = lm(y.works~x)
model.null = lm(y.null~x)
estimated.b1s[i] = coef(model.works)[2]
estimated.b1ns[i] = coef(model.null)[2]
null.p.values[i] = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s) # the sampling distributions are centered on the true values
[1] -1.000084
mean(estimated.b1ns)
[1] -8.43504e-05
mean(null.p.values<.05) # when the null is true, p<.05 5% of the time
[1] 0.0532
Questi risultati mostrano che tutto funziona bene.
Non passerò attraverso i movimenti, ma se fosse stato normalmente distribuito, con la stessa configurazione altrimenti, la distribuzione originale / marginale di sarebbe stata normalmente distribuita esattamente come i residui (anche se con una SD più grande). Inoltre non ho illustrato gli effetti di una distribuzione distorta di (che è stato l'impulso dietro questa domanda), ma il punto di @ DikranMarsupial è altrettanto valido in quel caso, e potrebbe essere illustrato in modo simile.Y XX YX