Cosa succede se i residui sono normalmente distribuiti, ma y non lo è?


110

Ho una domanda strana. Supponiamo di avere un piccolo campione in cui la variabile dipendente che si intende analizzare con un semplice modello lineare è fortemente distorta. Quindi supponi che non sia normalmente distribuito, perché ciò si tradurrebbe in normalmente distribuito . Ma quando si calcola il diagramma QQ-Normale ci sono prove che i residui sono normalmente distribuiti. Quindi chiunque può presumere che il termine di errore sia normalmente distribuito, anche se non lo è. Quindi, che cosa vuol dire, quando il termine di errore sembra essere distribuito normalmente, ma non lo fa?y y yuyyy

Risposte:


143

È ragionevole distribuire normalmente i residui in un problema di regressione, anche se la variabile di risposta non lo è. Considera un problema di regressione univariato in cui . in modo che il modello di regressione sia appropriato e supponiamo inoltre che il vero valore di . In questo caso, mentre i residui del modello di regressione reale sono normali, la distribuzione di dipende dalla distribuzione di , poiché la media condizionale di è una funzione di . Se il set di dati ha molti valori di vicini a zero e progressivamente minori è maggiore il valore di , quindi la distribuzione diyN(βx,σ2)β=1yxyxxxy sarà inclinato a sinistra. Se i valori di sono distribuiti simmetricamente, allora sarà distribuito simmetricamente e così via. Per un problema di regressione, supponiamo solo che la risposta sia normalmente condizionata dal valore di .xyx


9
(+1) Non penso che questo possa essere ripetuto abbastanza spesso! Vedi anche lo stesso problema discusso qui .
Wolfgang,

1
Capisco la tua risposta e sembra corretta. Almeno hai guadagnato molti voti positivi :) Ma non sono affatto contento. Quindi nel tuo esempio le ipotesi che hai fatto sono . Ma quando sto stimando la regressione sto stimando . Quindi dovrebbe essere dato nel momento in cui sto valutando la media. Da ciò dovrebbe seguire che x è un valore e non mi interessa come è stato distribuito prima di realizzarlo. Quindi è la distribuzione di . Non capisco dove la sta influenzando la . β=1yN(1x,σ2)E(y|x)xyN(value,σ2)yxy
MarkDollar,

4
Sono piuttosto (piacevolmente) sorpreso anche dal numero di voti; o) Per ottenere i dati usati per adattarsi al modello di regressione, hai preso un campione da una distribuzione congiunta , da cui vuoi stimare . Tuttavia, poiché è una funzione (rumorosa) di , la distribuzione dei campioni di deve dipendere dalla distribuzione dei campioni di , per quel particolare campione. Potresti non essere interessato alla distribuzione "vera" di , ma la distribuzione del campione di y dipende dal campione di x. E ( y | x ) y x y x xp(y,x)E(y|x)yxyxx
Dikran Marsupial,

2
Considera un esempio di stima della temperatura ( ) in funzione della lattitudine ( ). La distribuzione dei valori nel nostro campione dipenderà da dove scegliamo di localizzare le stazioni meteorologiche. Se li posizioniamo tutti o ai poli o all'equatore, avremo una distribuzione bimodale. Se li posizioniamo su una griglia di uguale area regolare, otterremo una distribuzione unimodale dei valori , anche se la fisica del clima è la stessa per entrambi i campioni. Naturalmente questo influenzerà il modello di regressione adattato e lo studio di questo genere di cose è noto come "spostamento della covariata". HTHx y yyxyy
Dikran Marsupial,

Sospetto anche che sia subordinato all'assunto implicito che i dati utilizzati fossero un campione iid della distribuzione operativa congiunta . p ( y , x )E(y|x)p(y,x)
Dikran Marsupial,

100

@DikranMarsupial ha esattamente ragione, ovviamente, ma mi è venuto in mente che potrebbe essere bello illustrare il suo punto, soprattutto perché questa preoccupazione sembra emergere frequentemente. In particolare, i residui di un modello di regressione dovrebbero essere normalmente distribuiti affinché i valori p siano corretti. Tuttavia, anche se i residui sono normalmente distribuiti, ciò non garantisce che sarà (non che sia importante ...); essa dipende dalla distribuzione di . XYX

Facciamo un semplice esempio (che sto inventando). Diciamo che stiamo testando un farmaco per l' ipertensione sistolica isolata (ovvero, il numero massimo di pressione sanguigna è troppo alto). Supponiamo inoltre che la bp sistolica sia normalmente distribuita nella nostra popolazione di pazienti, con una media di 160 e DS di 3, e che per ogni mg di farmaco che i pazienti assumono ogni giorno, la bp sistolica diminuisce di 1 mmHg. In altre parole, il vero valore di è 160 e è -1 e la vera funzione di generazione dei dati è: β 1 B P s y s = 160 - 1 × dosaggio giornaliero del farmaco + εβ0β1X

BPsys=1601×daily drug dosage+εwhere εN(0,9)
Nel nostro studio fittizio, 300 pazienti vengono assegnati in modo casuale a prendere 0 mg (un placebo), 20 mg o 40 mg di questo nuovo medicinale al giorno. (Si noti che non è normalmente distribuito.) Quindi, dopo un periodo di tempo adeguato affinché il farmaco abbia effetto, i nostri dati potrebbero apparire così: X

inserisci qui la descrizione dell'immagine

(Ho agitato i dosaggi in modo che i punti non si sovrapponessero così tanto che erano difficili da distinguere.) Ora, controlliamo le distribuzioni di (cioè, è la distribuzione marginale / originale) e i residui: Y

inserisci qui la descrizione dell'immagine

I grafici qq ci mostrano che non è lontanamente normale, ma che i residui sono ragionevolmente normali. I grafici della densità del kernel ci danno un quadro più intuitivamente accessibile delle distribuzioni. È chiaro che è tri-modale , mentre i residui sembrano molto simili a una distribuzione normale. YYY

Ma per quanto riguarda il modello di regressione adattato, qual è l'effetto dei non normali e (ma dei residui normali)? Per rispondere a questa domanda, dobbiamo specificare di cosa potremmo essere preoccupati per quanto riguarda le prestazioni tipiche di un modello di regressione in situazioni come questa. Il primo problema è: i beta sono, in media, giusto? (Certo, rimbalzeranno intorno ad alcuni, ma a lungo termine, le distribuzioni campionarie dei beta sono centrate sui valori reali?) Questa è la questione del bias . Un altro problema è: possiamo fidarci dei valori p che otteniamo? Cioè, quando l'ipotesi nulla vera èX p < .05 β 1YXp<.05solo il 5% delle volte? Per determinare queste cose, possiamo simulare i dati dal processo di generazione dei dati sopra riportato e un caso parallelo in cui il farmaco non ha alcun effetto, un gran numero di volte. Quindi possiamo tracciare le distribuzioni di campionamento di e verificare se sono centrate sul valore reale, e anche verificare quanto spesso la relazione fosse "significativa" nel caso nullo: β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

inserisci qui la descrizione dell'immagine

Questi risultati mostrano che tutto funziona bene.

Non passerò attraverso i movimenti, ma se fosse stato normalmente distribuito, con la stessa configurazione altrimenti, la distribuzione originale / marginale di sarebbe stata normalmente distribuita esattamente come i residui (anche se con una SD più grande). Inoltre non ho illustrato gli effetti di una distribuzione distorta di (che è stato l'impulso dietro questa domanda), ma il punto di @ DikranMarsupial è altrettanto valido in quel caso, e potrebbe essere illustrato in modo simile.Y XX YX


1
Quindi l'ipotesi che i residui vengano normalmente distribuiti è corretta solo per i valori p? Perché i valori p potrebbero andare storti se il residuo non è normale?
avocado,

3
@loganecolss, potrebbe essere migliore come nuova domanda. Ad ogni modo, , deve fare w / se i valori p sono corretti. Se i tuoi residui sono sufficientemente non normali e la tua N è bassa, la distribuzione del campionamento differirà da come è teorizzata. Poiché il valore p è la quantità di tale distribuzione di campionamento che va oltre la statistica del test, il valore p sarà errato.
gung

0

Nell'adattamento di un modello di regressione, dovremmo verificare la normalità della risposta ad ogni livello di , ma non collettivamente nel suo insieme poiché non ha senso per questo scopo . Se hai davvero bisogno di controllare la normalità di , allora controlla per ogni livelloXY XYX


3
La distribuzione marginale della risposta non è affatto "insignificante"; è la distribuzione marginale della risposta (e spesso dovrebbe suggerire modelli diversi dalla semplice regressione con errori normali). Hai ragione nel sottolineare che le distribuzioni condizionali sono importanti una volta che intratteniamo il modello in questione, ma ciò non aggiunge utili risposte eccellenti esistenti.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.