Perché la diagnostica si basa sui residui?


11

Nella regressione lineare semplice si vuole spesso verificare se alcune assunzioni sono soddisfatte per poter fare l'inferenza (ad esempio i residui sono normalmente distribuiti).

È ragionevole verificare le ipotesi verificando che i valori adattati siano normalmente distribuiti?

Risposte:


19

Perché la diagnostica si basa sui residui?

Perché molte delle ipotesi si riferiscono alla distribuzione condizionale di , non alla sua distribuzione incondizionata. Ciò equivale a un'ipotesi sugli errori, che stimiamo dai residui.Y

Nella regressione lineare semplice si vuole spesso verificare se alcune assunzioni sono soddisfatte per poter fare l'inferenza (ad esempio i residui sono normalmente distribuiti).

L'ipotesi di normalità effettiva non riguarda i residui ma il termine di errore. La cosa più vicina a quelle che hai sono i residui, motivo per cui li controlliamo.

È ragionevole verificare le ipotesi verificando che i valori adattati siano normalmente distribuiti?

No. La distribuzione dei valori adattati dipende dal modello delle . Non ti dice molto delle ipotesi.x

Ad esempio, ho appena eseguito una regressione su dati simulati, per i quali tutte le ipotesi sono state specificate correttamente. Ad esempio, la normalità degli errori è stata soddisfatta. Ecco cosa succede quando proviamo a verificare la normalità dei valori adattati:

diagnostica di normalità su apparecchi

x

yxxy

diagnostica della normalità su valori y grezzi

y

Yyyx


Quali sono i presupposti, come li controlliamo e quando dobbiamo farli?

  • x

  • E(Y)xx

  • Var(Y|x)xxx

  • Indipendenza / indipendenza condizionale degli errori. È possibile verificare forme particolari di dipendenza (ad es. Correlazione seriale). Se non riesci ad anticipare la forma della dipendenza, è un po 'difficile da controllare.

  • Y

(In realtà ci sono alcune altre ipotesi che non ho menzionato, come errori additivi, che gli errori hanno media zero e così via.)

Se sei interessato solo a stimare l'adattamento della linea dei minimi quadrati e non a dire errori standard, non è necessario formulare la maggior parte di questi presupposti. Ad esempio, la distribuzione degli errori influisce sull'inferenza (test e intervalli) e può influire sull'efficienza della stima, ma la linea LS è comunque la migliore imparziale lineare; quindi a meno che la distribuzione non sia così gravemente non normale che tutti gli stimatori lineari siano cattivi, non è necessariamente un grosso problema se le ipotesi sul termine di errore non valgono.


Ho aggiunto alcuni diagrammi alla mia risposta.
Glen_b -Restate Monica

2
Questa è un'ottima risposta Se vuoi di più, copro un territorio un po 'simile qui: cosa succede se i residui sono normalmente distribuiti ma Y non lo è?
gung - Ripristina Monica

@gung Mi sto prendendo a calci per non essermi collegato prima.
Glen_b -Restate Monica

1
@Glen: ottima disposizione. Ho avuto la stessa confusione per molto tempo grazie al trattamento non così buono dell'argomento nei libri di testo e quasi in molte risorse su Internet. D'altra parte, la distribuzione incondizionata di Y viene quasi sempre esaminata per dedurre un modello per la distribuzione condizionale, specialmente nel contesto delle serie temporali. C'è un ragionamento teorico dietro di esso? Ho provato a porlo
Cagdas Ozgenc

@CagdasOzgenc L'unico motivo per cui mi viene in mente di farlo è perché è facile farlo prima di avere un modello. La risposta che hai a quella domanda collegata mi è sembrata una buona risposta quando è stata pubblicata.
Glen_b
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.