Quanto è errato un modello di regressione quando le assunzioni non sono soddisfatte?

Quando si adatta un modello di regressione, cosa succede se le ipotesi degli output non sono soddisfatte, in particolare:

Cosa succede se i residui non sono omoscedastici? Se i residui mostrano uno schema crescente o decrescente nella trama Residui vs.
Cosa succede se i residui non sono normalmente distribuiti e non superano il test di Shapiro-Wilk? Il test di normalità di Shapiro-Wilk è un test molto rigoroso, e talvolta anche se il diagramma Q-Normale sembra in qualche modo ragionevole, i dati falliscono il test.
Cosa succede se uno o più predittori non vengono normalmente distribuiti, non appaiono correttamente sul diagramma Q-Normale o se i dati falliscono il test di Shapiro-Wilk?

Capisco che non esiste una dura divisione in bianco e nero, che 0.94 è giusto e 0.95 è sbagliato, e nella domanda, voglio sapere:

Che cosa significa fallire la normalità significa per un modello che si adatta bene in base al valore R-Squared. Diventa meno affidabile o completamente inutile?
In che misura la deviazione è accettabile o è accettabile?
Quando si applicano trasformazioni sui dati per soddisfare i criteri di normalità, il modello migliora se i dati sono più normali (valore P più alto nel test di Shapiro-Wilk, aspetto migliore sul normale diagramma QQ) o è inutile (ugualmente buono o male rispetto all'originale) fino a quando i dati non superano il test di normalità?

— SpeedBirdNine
fonte

Penso che la risposta al solo titolo sia "Sì".

— Thomas Cleberg,

@ThomasCleberg Risposta interessante. È quello che dici anche quando le persone ti chiedono "Come stai?" :)

— JohnK,

No, ma è se mi chiedono se sono vivo. :)

— Thomas Cleberg,

Una domanda di base da porsi: "Per cosa vuoi utilizzare il modello di regressione?"

— Floris,

Cosa succede se i residui non sono omoscedastici? Se i residui mostrano uno schema crescente o decrescente nella trama Residui vs.

Se il termine di errore non è omoscedastico (usiamo i residui come proxy per il termine di errore non osservabile), lo stimatore OLS è ancora coerente e imparziale ma non è più il più efficiente nella classe degli stimatori lineari. Ora è lo stimatore GLS che gode di questa proprietà.

Cosa succede se i residui non sono normalmente distribuiti e non superano il test di Shapiro-Wilk? Il test di normalità di Shapiro-Wilk è un test molto rigoroso, e talvolta anche se il diagramma Q-Normale sembra in qualche modo ragionevole, i dati falliscono il test.

La normalità non è richiesta dal teorema di Gauss-Markov. Lo stimatore OLS è ancora BLU ma senza normalità avrai difficoltà a fare inferenza, cioè test di ipotesi e intervalli di confidenza, almeno per le dimensioni del campione finito. C'è ancora il bootstrap, tuttavia.

Asintoticamente questo è meno un problema poiché lo stimatore OLS ha una distribuzione normale limitante in condizioni di regolarità lieve.

Cosa succede se uno o più predittori non vengono normalmente distribuiti, non appaiono correttamente sul diagramma Q-Normale o se i dati falliscono il test di Shapiro-Wilk?

Per quanto ne so, i predittori sono considerati fissi o la regressione è condizionata da essi. Ciò limita l'effetto della non normalità.

Che cosa significa fallire la normalità significa per un modello che si adatta bene in base al valore R-Squared. Diventa meno affidabile o completamente inutile?

L'R-quadrato è la proporzione della varianza spiegata dal modello. Non richiede il presupposto della normalità ed è una misura di bontà di adattamento a prescindere. Se vuoi usarlo per un F-test parziale, questa è un'altra storia.

In che misura la deviazione è accettabile o è accettabile?

Deviazione dalla normalità vuoi dire, vero? Dipende molto dai tuoi scopi perché, come ho detto, l'inferenza diventa dura in assenza di normalità ma non è impossibile (bootstrap!).

Quando si applicano trasformazioni sui dati per soddisfare i criteri di normalità, il modello migliora se i dati sono più normali (valore P più alto nel test di Shapiro-Wilk, aspetto migliore sul normale diagramma QQ) o è inutile (ugualmente buono o male rispetto all'originale) fino a quando i dati non superano il test di normalità?

In breve, se si hanno tutti i presupposti di Gauss-Markov più la normalità, allora lo stimatore OLS è il migliore non equilibrato (BUE), ovvero il più efficiente in tutte le classi di stimatori: si ottiene il limite inferiore di Cramer-Rao. Questo è desiderabile, ovviamente, ma non è la fine del mondo se non accade. Si applicano le osservazioni di cui sopra.

Per quanto riguarda le trasformazioni, tenere presente che mentre la distribuzione della risposta potrebbe essere avvicinata alla normalità, l'interpretazione potrebbe non essere semplice in seguito.

Queste sono solo alcune brevi risposte alle tue domande. Sembra che tu sia particolarmente interessato alle implicazioni della non normalità. Nel complesso, direi che non è catastrofico come le persone (sono state fatte per?) Credere e ci sono soluzioni alternative. I due riferimenti che ho incluso sono un buon punto di partenza per ulteriori letture, il primo è di natura teorica.

Riferimenti :

Hayashi, Fumio. : "Econometria", Princeton University Press, 2000

Kutner, Michael H., et al. "Modelli statistici lineari applicati.", McGraw-Hill Irwin, 2005.

— Jöhnk
fonte

Y

$Y$

X_{i}

$X_i$

β_{i}

$\beta_i$

y

$\mathbf{y}$

β_{i}

$\beta_i$

β_{i}

$\beta_i$

Y

$Y$

Y_{1}, \dots, Y_{n}

$Y_1,\ldots,Y_n$

@DeltaIV Cosa intendi per "modello ideale"? È il vero modello che è lineare nei parametri. Ciò non ci limita tuttavia a considerare come stimatori solo funzioni lineari della risposta. Il GM afferma che se limitiamo la nostra attenzione nelle funzioni lineari della risposta, allora l'OLS è BLU sotto alcune ipotesi aggiuntive. Ora, se assumiamo anche la normalità, non importa quale funzione della risposta stai prendendo in considerazione , semplicemente non puoi fare di meglio dell'OLS, a condizione che lo stimatore sia imparziale.

— JohnK,

Y_{i}

$Y_i$

β_{i}

$\beta_i$