Eteroscedasticità del modello lineare


10

Ho il seguente modello lineare:

Residui del modello lineare Distribuzione delle osservazioni

Per affrontare l'eteroscedasticità dei residui ho provato ad applicare una trasformazione del log sulla variabile dipendente come ma vedo ancora lo stesso effetto fan out sui residui. I valori DV sono relativamente piccoli, quindi l'aggiunta costante +1 prima di prendere il registro probabilmente non è appropriata in questo caso.log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

Come posso trasformare le variabili per migliorare l'errore di previsione e la varianza, in particolare per i valori adattati di estrema destra?

Risposte:


11

Qual è il tuo obiettivo? Sappiamo che l'eteroschedasticità non pregiudica le nostre stime dei coefficienti; rende solo i nostri errori standard errati. Quindi, se ti preoccupi solo della vestibilità del modello, l'eteroschedasticità non ha importanza.

È possibile ottenere un modello più efficiente ( ovvero uno con errori standard più piccoli) se si utilizzano minimi quadrati ponderati. In questo caso, è necessario stimare la varianza per ciascuna osservazione e ponderare ciascuna osservazione dall'inverso di quella varianza specifica dell'osservazione (nel caso weightsdell'argomento a lm). Questa procedura di stima modifica le tue stime.

In alternativa, per correggere gli errori standard per l'eteroschedasticità senza modificare le stime, è possibile utilizzare robusti errori standard. Per Run'applicazione, vedere il pacchetto sandwich.

L'uso della trasformazione del log può essere un buon approccio per correggere l'eteroschedasticità, ma solo se tutti i tuoi valori sono positivi e il nuovo modello fornisce un'interpretazione ragionevole rispetto alla domanda che stai ponendo.


Il mio obiettivo principale è ridurre gli errori. Dovrò esaminare i minimi quadrati ponderati, ma avevo l'impressione che una trasformazione DV fosse il passo giusto, dato quanto regolarmente aumenta la varianza residua per valori adattati più elevati.
Robert Kubrick,

Cosa intendi con "riduci gli errori"? L'errore medio è 0. Anche guardando nella tua trama, in qualsiasi finestra tu scelga, la media è 0.
Charlie,

Intendo migliorare la previsione del modello, ovvero ridurre l'errore assoluto complessivo e la varianza dell'errore, in particolare per i valori adattati più elevati.
Robert Kubrick,

1
Supponiamo che tu possa trasformare in modo tale da ridurre l'eteroschedasticità. Se vuoi prevedere , dovrai applicare l'inverso di quella trasformazione, riportando indietro il problema dell'eteroschedasticità. Le trasformazioni vanno bene se tutto ciò che ti interessa sono i coefficienti, ma non ti aiuteranno se stai cercando di prevedere . y yyyy
Charlie,

1
Immagino che non vuoi prevedere la trasformazione di , giusto? In effetti, la tua trasformazione dovrebbe ridurre la distanza tra sulla scala originale. Si creano intervalli di previsione sulla scala trasformata che hanno una larghezza simile su valori trasformati , ma quando si annulla la trasformazione, gli intervalli di previsione vengono allungati sulla scala originale . y y yyyyy
Charlie,

4

Vorresti provare la trasformazione Box-Cox . È una versione di una trasformazione di potenza:

˙y

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
dove è la media geometrica dei dati. Se utilizzato come trasformazione della variabile di risposta, il suo ruolo nominale è quello di avvicinare i dati alla distribuzione normale e l'asimmetria è il motivo principale per cui i dati possono apparire non normali. Il mio istinto con il tuo scatterplot è che deve essere applicato a (alcune) delle variabili esplicative e di risposta.y˙

Alcune discussioni precedenti includono quali altre trasformazioni normalizzanti vengono comunemente utilizzate oltre a quelle comuni come radice quadrata, log, ecc.? e come devo trasformare i dati non negativi inclusi gli zeri? . È possibile trovare il codice R seguendo Come cercare una procedura statistica in R?

Gli econometrici hanno smesso di preoccuparsi dell'eteroschedasticità dopo il lavoro fondamentale di Halbert White (1980) sulla creazione di procedure inferenziali robuste all'eteroschedasticità (che in realtà ha appena raccontato la storia precedente di uno statistico F. Eicker (1967)). Vedi la pagina Wikipedia che ho appena riscritto.


Grazie, a questo punto sto discutendo se applicare una trasformazione di potenza o utilizzare una regressione robusta per ridurre gli errori e migliorare gli intervalli di previsione. Mi chiedo come si possano confrontare le due tecniche. Inoltre, se utilizzo la trasformazione, avrei bisogno di trasformare nuovamente i valori previsti. Non sembra una formula ovvia, vero?
Robert Kubrick,

Se per regressione robusta, intendi errori standard robusti come descrive @StasK, ciò non modifica affatto i residui / errori. I coefficienti sono esattamente gli stessi di OLS, fornendo esattamente gli stessi residui. Gli errori standard dei coefficienti cambiano e sono generalmente più grandi degli OLS SE. Gli intervalli di previsione sono migliorati in quanto ora stai utilizzando gli errori standard corretti per i tuoi coefficienti (sebbene siano probabilmente più grandi rispetto a quelli di OLS). Se il tuo obiettivo è prevedere , dovresti davvero attenerti al modello lineare e utilizzare le tecniche che menziono nella mia risposta. y
Charlie,

@Charlie intendo en.wikipedia.org/wiki/Robust_regression . Sono nuovo a questo, ma capisco che la regressione robusta modifica la tecnica di stima, quindi i residui devono essere diversi.
Robert Kubrick,

Bene, questo è un metodo diverso e cambia le tue stime. Penso che la regressione robusta sia più adatta ai casi con valori anomali. A seconda della versione di regressione affidabile che decidi di utilizzare e del tuo set di dati specifico, puoi ottenere intervalli di confidenza più ampi rispetto a OLS.
Charlie,

1

Esiste una soluzione molto semplice al problema dell'eteroschedasticità associato alle variabili dipendenti all'interno dei dati delle serie temporali. Non so se questo è applicabile alla tua variabile dipendente. Supponendo che lo sia, invece di utilizzare Y nominale, cambiarlo in% variazione in Y rispetto al periodo corrente nel periodo precedente. Ad esempio, supponiamo che la tua Y nominale sia un PIL di $ 14 trilioni nel periodo più attuale. Invece, calcola la variazione del PIL nell'ultimo periodo (diciamo il 2,5%).

Una serie temporale nominale cresce sempre ed è sempre eteroschedastica (la varianza dell'errore cresce nel tempo perché i valori crescono). Una serie di variazioni% è in genere omoschedastica perché la variabile dipendente è praticamente stazionaria.


I valori che sto usando sono variazioni% delle serie temporali rispetto al periodo precedente. Y
Robert Kubrick,

Questo è sorprendente. Di solito, le variabili di variazione% non sono eteroschedastiche. Mi chiedo se i residui siano meno eteroschedastici di quanto pensiamo. E che il problema di fondo è uno dei valori anomali. Vedo 4 o 5 osservazioni nell'intervallo dello 0,15% che, se rimosso, renderebbe l'intero grafico meno eteroschedastico. Inoltre, come altri hanno menzionato l'eteroschedasticità non corromperà i coefficienti di regressione, ma solo i tuoi intervalli di confidenza e il relativo errore standard. Tuttavia, guardando il tuo grafico sembra che gli elementi della configurazione potrebbero non essere troppo interessati. E, potrebbe ancora essere utile.
Sympa,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.