Regressione: perché testare la normalità dei residui complessivi, invece dei residui condizionati da ?


10

Comprendo che nella regressione lineare si presume che gli errori siano distribuiti normalmente, in base al valore previsto di y. Quindi consideriamo i residui come una sorta di proxy per gli errori.

E 'spesso consigliato per generare output come questo: inserisci qui la descrizione dell'immagine. Tuttavia, non capisco quale sia lo scopo di ottenere il residuo per ciascun punto dati e di metterlo insieme in un singolo diagramma.

Comprendo che è improbabile disporre di punti dati sufficienti per valutare correttamente se abbiamo residui normali per ciascun valore previsto di y.

Tuttavia, la domanda se abbiamo complessivamente residui normali uno separato e uno che non si riferisce chiaramente all'assunzione modello di residui normali per ciascun valore previsto di y? Non potremmo avere residui normali ad ogni valore previsto di y, pur avendo residui complessivi che erano abbastanza non normali?


1
Ci può essere qualche merito al concetto - forse bootstrap potrebbe aiutare qui (per ottenere la replicazione dei residui)
probabilityislogic

2
Potresti fornire un riferimento per la regressione lineare degli errori che si presume siano normalmente distribuiti, in base al valore previsto di y (se ne hai)?
Richard Hardy,

Non avevo in mente alcuna fonte particolare quando ho pubblicato la domanda, ma che ne dici di "il presupposto della modellazione è che la variabile di risposta è normalmente distribuita attorno alla linea di regressione (che è una stima della media condizionale), con varianza costante" da qui . Gradirei ulteriori feedback se sbaglio su questo.
user1205901 - Ripristina Monica

Risposte:


17

Non potremmo avere residui normali ad ogni valore previsto di y, pur avendo residui complessivi che erano abbastanza non normali?

No - almeno, non nel presupposto standard che la varianza degli errori sia costante.

Puoi pensare alla distribuzione dei residui complessivi come una miscela di distribuzioni normali (una per ogni livello di ). Per ipotesi, tutte queste distribuzioni normali hanno la stessa media (0) e la stessa varianza. Pertanto, la distribuzione di questa miscela di normali è di per sé semplicemente una distribuzione normale.y^

Quindi da questo possiamo formare un piccolo sillogismo. Se le singole distribuzioni dati i valori del predittore X sono normali (e le loro varianze sono uguali), allora la distribuzione dei residui complessivi è normale. Quindi se osserviamo che la distribuzione dei residui complessivi non è apparentemente normale, ciò implica che le distribuzioni date X non sono normali con uguale varianza. Il che costituisce una violazione delle ipotesi standard.


1
@Jake_Westfall, non ne sono sicuro. Sappiamo che una combinazione lineare finita di variabili che hanno una distribuzione gaussiana comune ha una distribuzione gaussiana. Ma che dire di una combinazione infinita ? In altre parole, Dato che , perché dovrebbe essere necessariamente normale? Ciò dipenderà da . Si noti che poiché , il condizionamento su o realtà non cambia nulla. p ( ε | x ) p ( ε ) p ( x ) y = β 0 + β 1 X Y Xp(ϵ)=p(ϵ|x)p(x)dxp(ϵ|x)p(ϵ)p(x)y^=β0+β1Xy^X
DeltaIV,

È appropriato dire che i marginali non normali ci consentono di "rifiutare" i condizionali non normali, ma che i marginali normali non ci consentono di "accettare" i normali condizionali?
Shadowtalker,

6
@DeltaIV, la distribuzione normale ha solo 2 parametri, la media e la varianza. Se l'errore è 1) distribuito normale, 2) con zero medio e 3) con costante di varianza, non rimane altro da confondere. Nella tua notazione . Quindi, i fattori escono dall'integrale, l'integrale si integra con uno e scompare, e ti rimane solo il normale. La p-miscela di è . p ( ϵ ) N ( 0 , σ 2 ) N ( 0 , σ 2 )p(ϵ|x)=p(ϵ)p(ϵ)N(0,σ2)N(0,σ2)
Bill

1
@ Fattura che potrebbe in realtà essere il punto essenziale necessario qui: . È sepolto nel modo in cui la risposta è formulataε | XN(0,σ2)εN(0,σ2)
Shadowtalker

@ssdecontrol Dalla risposta: " Se le singole distribuzioni dati i valori del predittore X sono normali (e le loro varianze sono uguali), allora la distribuzione dei residui complessivi è normale. " Non sei sicuro di quanto potrei essere più chiaro?
Jake Westfall,

3

È stato dettoche i minimi quadrati ordinari in y (OLS) sono ottimali nella classe degli stimatori lineari imparziali quando gli errori sono omoscedastici e serialmente non correlati. Per quanto riguarda i residui omoscedastici, la varianza dei residui è la stessa indipendente da dove misureremmo la variazione della grandezza residua sull'asse x. Ad esempio, supponiamo che l'errore della nostra misurazione aumenti proporzionalmente per aumentare i valori y. Potremmo quindi prendere il logaritmo di quei valori y prima di eseguire la regressione. In tal caso, la qualità dell'adattamento aumenta rispetto all'adattamento di un modello di errore proporzionale senza ricorrere a un logaritmo. In generale per ottenere l'omoscedasticità, potremmo dover prendere il reciproco dei dati dell'asse y o x, il logaritmo (i), la radice quadrata o quadrata, o applicare un esponenziale. Un'alternativa a questa è usare una funzione di ponderazione, (y-model)2(ymodel)2y2 funziona meglio della minimizzazione .(ymodel)2

Detto questo, accade spesso che rendere i residui più omoscedastici li renda più normalmente distribuiti, ma spesso la proprietà omoscedastica è più importante. Quest'ultimo dipenderà dal motivo per cui stiamo eseguendo la regressione. Ad esempio, se la radice quadrata dei dati è distribuita più normalmente rispetto al logaritmo, ma l'errore è di tipo proporzionale, il test t del logaritmo sarà utile per rilevare una differenza tra popolazioni o misurazioni, ma per trovare l'atteso valore dovremmo usare la radice quadrata dei dati, perché solo la radice quadrata dei dati è una distribuzione simmetrica per la quale si prevede che la media, la modalità e la mediana siano uguali.

Inoltre, si verifica spesso che non desideriamo una risposta che ci dia un minimo predittore di errori dei valori dell'asse y e che tali regressioni possano essere fortemente distorte. Ad esempio, a volte potremmo voler regredire per il minimo errore in x. O a volte desideriamo scoprire la relazione tra y e x, che non è quindi un problema di regressione di routine. Potremmo quindi usare Theil, ovvero la pendenza mediana, la regressione, come un compromesso più semplice tra la regressione dell'errore xe y. O se sappiamo qual è la varianza delle misure ripetute per xey, potremmo usare la regressione Deming. La regressione è migliore quando abbiamo valori anomali lontani, che fanno cose orribili con i risultati della regressione ordinaria. E, per la regressione della pendenza mediana, poco importa se i residui sono normalmente distribuiti o meno.

A proposito, la normalità dei residui non ci fornisce necessariamente alcuna utile informazione di regressione lineare.Ad esempio, supponiamo di fare misurazioni ripetute di due misurazioni indipendenti. Poiché abbiamo indipendenza, la correlazione prevista è zero e la pendenza della linea di regressione può quindi essere qualsiasi numero casuale senza pendenza utile. Ripetiamo misurazioni per stabilire una stima della posizione, cioè la media (o mediana (distribuzione di Cauchy o Beta con un picco) o più in generale il valore atteso di una popolazione), e da quello per calcolare una varianza in xe una varianza in y, che può quindi essere utilizzato per la regressione di Deming o altro. Inoltre, l'ipotesi che la sovrapposizione sia quindi normale alla stessa media se la popolazione originale è normale non ci conduce a nessuna utile regressione lineare. Per portare avanti questo, supponiamo quindi di variare i parametri iniziali e di stabilire una nuova misura con diverse posizioni Monte Carlo per la generazione di valori x e y e di raccogliere tali dati con la prima corsa. Quindi i residui sono normali nella direzione y ad ogni valore x, ma, nella direzione x, l'istogramma avrà due picchi, che non concordano con le ipotesi OLS, e la nostra pendenza e intercettazione saranno distorte perché una non ha dati di intervallo uguale sull'asse x. Tuttavia, la regressione dei dati raccolti ora ha una pendenza e un'intercettazione definite, mentre in precedenza non lo era. Inoltre, poiché stiamo davvero testando solo due punti con il campionamento ripetuto, non possiamo verificare la linearità. In effetti, il coefficiente di correlazione non sarà una misurazione affidabile per lo stesso motivo,

Al contrario, a volte si suppone inoltre che gli errori abbiano una distribuzione normale subordinata ai regressori. Questa ipotesi non è necessaria per la validità del metodo OLS, sebbene alcune proprietà aggiuntive del campione finito possano essere stabilite nel caso in cui lo faccia (specialmente nell'area del test delle ipotesi), vedere qui. Quando allora OLS è nella tua regressione corretta? Se, ad esempio, prendiamo le misure dei prezzi delle azioni alla chiusura tutti i giorni esattamente alla stessa ora, allora non vi è alcuna variazione dell'asse t (pensa all'asse x). Tuttavia, il tempo dell'ultimo commercio (regolamento) sarebbe distribuito casualmente e la regressione per scoprire il RAPPORTO tra le variabili dovrebbe incorporare entrambe le varianze. In tale circostanza, OLS in y stimerebbe solo il minimo errore nel valore y, che sarebbe una cattiva scelta per estrapolare il prezzo di negoziazione per un insediamento, poiché anche il tempo stesso di tale insediamento deve essere previsto. Inoltre, l'errore normalmente distribuito può essere inferiore a un modello di prezzi gamma .

Che importa? Bene, alcune azioni vengono scambiate più volte al minuto e altre non vengono scambiate tutti i giorni o anche ogni settimana e può fare una differenza numerica piuttosto grande. Quindi dipende dalle informazioni che desideriamo. Se vogliamo chiederci come si comporterà il mercato domani alla chiusura, questa è una domanda "di tipo" OLS, ma la risposta può essere non lineare, residuo non normale e richiedere una funzione di adattamento con coefficienti di forma che concordano con l'adattamento dei derivati ​​(e / o momenti più alti) per stabilire la curvatura corretta per l'estrapolazione . (Si possono adattare derivati ​​e una funzione, ad esempio usando spline cubiche, quindi il concetto di accordo derivato non dovrebbe sorprendere, anche se raramente viene esplorato.) Se vogliamo sapere se faremo soldi o meno su uno stock particolare, quindi non utilizziamo OLS, poiché il problema è quindi bivariato.


1
Diresti che la normalità è sufficiente ma non necessaria per un'inferenza valida? Perché non testare specificamente l'eteroscedasticità? Sicuramente una distribuzione marginale (ad esempio) dei residui con la coda pesante non significa necessariamente che il presupposto della normalità condizionale sia sbagliato, vero? Tuttavia, i residui dalla coda pesante fallirebbero per progettazione un test di normalità per i residui.
Shadowtalker,

Per il t-test l'omoscedasticità è spesso più importante. I valori anomali rendono 1.359 SD >> IQR quindi riducono la potenza del test t. Quindi provare la riparameterizzazione o il test di Wilcoxon, che quest'ultimo funziona nella maggior parte dei casi (forse non quando r> 0.9999) indipendentemente dal tipo di distribuzione o dal grado di eteroscedasticità. In effetti, se si stanno testando diversi parametri simili, Wilcoxon o T-testing funzioneranno meglio per risolvere le probabilità basse e alte, quindi i dati stessi spesso dichiarano ciò che è più utile.
Carl,

Fai che 1.349 SD >> IQR. 1.349 è il numero di SD che una distribuzione normale ha per un intervallo interquartile (IQR). Alcune distribuzioni, come la distribuzione di Cauchy, o una t di Student con due gradi di libertà non hanno SD, gli outlier lo uccidono, ma hanno IQR e quindi uno usa Wilcoxon o altri test non parametrici come test di localizzazione.
Carl,

A ulteriore riflessione (vedi nuovo materiale in risposta) la normalità dei residui dell'asse y è piacevole da avere, ma insufficiente.
Carl,

Le distribuzioni dalla coda pesante fanno cose orribili per le equazioni di regressione. Ad esempio, se si esamina tutte le possibili piste in un insieme di dati, si ottiene più tipicamente una distribuzione di Cauchy di piste, AKA Student's- t con un grado di libertà. Per la distribuzione di Cauchy, non ci sono momenti. Cioè, si può calcolare una deviazione media e standard e più dati si hanno, più erratica sarà la media e la deviazione standard. Il valore atteso di una distribuzione di Cauchy è la mediana e per calcolare una media bisognerebbe censurare i valori estremi.
Carl,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.