Cosa succede se i residui non sono omoscedastici? Se i residui mostrano uno schema crescente o decrescente nella trama Residui vs.
Se il termine di errore non è omoscedastico (usiamo i residui come proxy per il termine di errore non osservabile), lo stimatore OLS è ancora coerente e imparziale ma non è più il più efficiente nella classe degli stimatori lineari. Ora è lo stimatore GLS che gode di questa proprietà.
Cosa succede se i residui non sono normalmente distribuiti e non superano il test di Shapiro-Wilk? Il test di normalità di Shapiro-Wilk è un test molto rigoroso, e talvolta anche se il diagramma Q-Normale sembra in qualche modo ragionevole, i dati falliscono il test.
La normalità non è richiesta dal teorema di Gauss-Markov. Lo stimatore OLS è ancora BLU ma senza normalità avrai difficoltà a fare inferenza, cioè test di ipotesi e intervalli di confidenza, almeno per le dimensioni del campione finito. C'è ancora il bootstrap, tuttavia.
Asintoticamente questo è meno un problema poiché lo stimatore OLS ha una distribuzione normale limitante in condizioni di regolarità lieve.
Cosa succede se uno o più predittori non vengono normalmente distribuiti, non appaiono correttamente sul diagramma Q-Normale o se i dati falliscono il test di Shapiro-Wilk?
Per quanto ne so, i predittori sono considerati fissi o la regressione è condizionata da essi. Ciò limita l'effetto della non normalità.
Che cosa significa fallire la normalità significa per un modello che si adatta bene in base al valore R-Squared. Diventa meno affidabile o completamente inutile?
L'R-quadrato è la proporzione della varianza spiegata dal modello. Non richiede il presupposto della normalità ed è una misura di bontà di adattamento a prescindere. Se vuoi usarlo per un F-test parziale, questa è un'altra storia.
In che misura la deviazione è accettabile o è accettabile?
Deviazione dalla normalità vuoi dire, vero? Dipende molto dai tuoi scopi perché, come ho detto, l'inferenza diventa dura in assenza di normalità ma non è impossibile (bootstrap!).
Quando si applicano trasformazioni sui dati per soddisfare i criteri di normalità, il modello migliora se i dati sono più normali (valore P più alto nel test di Shapiro-Wilk, aspetto migliore sul normale diagramma QQ) o è inutile (ugualmente buono o male rispetto all'originale) fino a quando i dati non superano il test di normalità?
In breve, se si hanno tutti i presupposti di Gauss-Markov più la normalità, allora lo stimatore OLS è il migliore non equilibrato (BUE), ovvero il più efficiente in tutte le classi di stimatori: si ottiene il limite inferiore di Cramer-Rao. Questo è desiderabile, ovviamente, ma non è la fine del mondo se non accade. Si applicano le osservazioni di cui sopra.
Per quanto riguarda le trasformazioni, tenere presente che mentre la distribuzione della risposta potrebbe essere avvicinata alla normalità, l'interpretazione potrebbe non essere semplice in seguito.
Queste sono solo alcune brevi risposte alle tue domande. Sembra che tu sia particolarmente interessato alle implicazioni della non normalità. Nel complesso, direi che non è catastrofico come le persone (sono state fatte per?) Credere e ci sono soluzioni alternative. I due riferimenti che ho incluso sono un buon punto di partenza per ulteriori letture, il primo è di natura teorica.
Riferimenti :
Hayashi, Fumio. : "Econometria", Princeton University Press, 2000
Kutner, Michael H., et al. "Modelli statistici lineari applicati.", McGraw-Hill Irwin, 2005.