No. I residui sono i valori subordinati a (meno la media prevista di in ciascun punto in ). Puoi cambiare come preferisci ( , , ) e i valori che corrispondono ai valori in un dato punto in non cambieranno. Pertanto, la distribuzione condizionale di (cioè ) sarà la stessa. Cioè, sarà normale o no, proprio come prima. (Per comprendere meglio questo argomento, può aiutarti a leggere la mia risposta qui:X Y X X X + 10 X - 1 / 5 X / π Y X X Y Y | XYXYXXX+10X−1/5X/πYXXYY|XCosa succede se i residui sono normalmente distribuiti, ma Y non lo è? )
Ciò che cambia può fare (a seconda della natura della trasformazione dei dati si usa) è cambiare il rapporto funzionale tra e . Con una modifica non lineare in (ad es. Per rimuovere l'inclinazione), un modello che è stato correttamente specificato prima verrà erroneamente specificato. Le trasformazioni non lineari di vengono spesso utilizzate per linearizzare la relazione tra e , per rendere la relazione più interpretabile o per affrontare una diversa domanda teorica. X Y X X X YXXYXXXY
Per ulteriori informazioni su come le trasformazioni non lineari possono modificare il modello e le domande a cui il modello risponde (ponendo l'accento sulla trasformazione del registro), può essere utile leggere questi eccellenti thread CV:
Le trasformazioni lineari possono modificare i valori dei parametri, ma non influiscono sulla relazione funzionale. Ad esempio, se si sia che prima di eseguire la regressione, l'intercettazione, , diventerà . Allo stesso modo, se dividi per una costante (diciamo per cambiare da centimetri a metri) la pendenza verrà moltiplicata per quella costante (ad esempio, , ovvero aumenterà 100 volte di più di 1 metro rispetto a oltre 1 cm). Y p 0 0 X β 1 ( m ) = 100 × β 1 ( c m ) YXYβ^00Xβ^1 (m)=100×β^1 (cm)Y
D'altra parte, trasformazioni non lineari di potranno influenzare la distribuzione dei residui. In effetti, la trasformazione di è un suggerimento comune per la normalizzazione dei residui. Il fatto che una simile trasformazione possa renderli più o meno normali dipende dalla distribuzione iniziale dei residui ( non dalla distribuzione iniziale di ) e dalla trasformazione utilizzata. Una strategia comune è quella di ottimizzare il parametro della famiglia di distribuzioni Box-Cox. Una parola di cautela è appropriata qui: le trasformazioni non lineari di possono rendere il tuo modello erroneamente specificato come le trasformazioni non lineari di possono. Y Y λ Y XY YYλYX
Ora, cosa succede se sia che sono normali? In realtà, ciò non garantisce nemmeno che la distribuzione articolare sarà normale bivariata (vedi qui l'eccellente risposta di @ cardinale: è possibile avere una coppia di variabili casuali gaussiane per le quali la distribuzione articolare non è gaussiana ). YXY
Naturalmente, queste sembrano possibilità piuttosto strane, quindi cosa succede se le distribuzioni marginali appaiono normali e anche la distribuzione congiunta appare normale bivariata, ciò richiede che anche i residui siano normalmente distribuiti? Come ho cercato di mostrare nella mia risposta ho collegato sopra, se i residui sono distribuiti normalmente, la normalità di dipende dalla distribuzione di . Tuttavia non è vero che la normalità dei residui è guidata dalla normalità dei marginali. Considera questo semplice esempio (codificato con ): XYXR
set.seed(9959) # this makes the example exactly reproducible
x = rnorm(100) # x is drawn from a normal population
y = 7 + 0.6*x + runif(100) # the residuals are drawn from a uniform population
mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.4908 -0.2250 -0.0292 0.2539 0.5303
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 7.48327 0.02980 251.1 <2e-16 ***
# x 0.62081 0.02971 20.9 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared: 0.8167, Adjusted R-squared: 0.8148
# F-statistic: 436.7 on 1 and 98 DF, p-value: < 2.2e-16
Nei grafici, vediamo che entrambi i marginali appaiono ragionevolmente normali e la distribuzione congiunta sembra ragionevolmente bivariata. Tuttavia, l'uniformità dei residui si presenta nella loro trama qq; entrambe le code cadono troppo rapidamente rispetto a una distribuzione normale (come in effetti devono).