In quale ordine è necessario eseguire la diagnostica della regressione lineare?


24

Nell'analisi di regressione lineare, analizziamo valori anomali, studiamo la multicollinearità, testiamo l'eteroscedasticità.

La domanda è: esiste un ordine per applicarli? Voglio dire, dobbiamo prima analizzare gli outlier e quindi esaminare la multicollinearità? O al contrario?

C'è qualche regola empirica al riguardo?


2
Alcune regole empiriche molto rigide: dovresti indagare sulla collinearità prima di eseguire qualsiasi adattamento. Se lo trovi presente, dovresti (a) utilizzare un metodo che gestisca la collinearità, (b) rimuovere le caratteristiche collineari o (c) trasformare le tue caratteristiche (ad es. Usando PCA). Dopo aver montato un modello, puoi cercare l'eteroscedasticità nei residui. In generale, se si sta creando un modello predittivo non è necessario rimuovere valori anomali. Utilizzare invece un metodo robusto per la presenza di valori anomali.
Chris Taylor,

1
Come si indaga meglio la collinearità? Guardando gli elementi off-diagonali della matrice di correlazione dei predittori?
miura,

1
Il modo migliore per indagare sulla collinearità sono gli indici di condizione e la percentuale di varianza spiegati da loro. Un'elevata correlazione non è né una condizione necessaria né sufficiente per la collinearità.
Peter Flom - Ripristina Monica

Risposte:


28

Il processo è iterativo, ma esiste un ordine naturale:

  1. Devi prima preoccuparti delle condizioni che causano veri e propri errori numerici . La multicollinearità è una di quelle, perché può produrre sistemi di equazioni instabili potenzialmente risultanti in risposte completamente errate (al 16 ° decimale ...) Qualsiasi problema qui di solito significa che non è possibile procedere fino a quando non viene risolto. La multicollinearità viene solitamente diagnosticata utilizzando i fattori di inflazione della varianza e un esame analogo della "matrice del cappello". Ulteriori controlli in questa fase possono includere la valutazione dell'influenza di eventuali valori mancanti nel set di dati e la verifica dell'identificabilità di parametri importanti. (Le combinazioni mancanti di variabili indipendenti discrete a volte possono causare problemi qui.)

  2. Successivamente devi preoccuparti se l'output riflette la maggior parte dei dati o è sensibile a un piccolo sottoinsieme. In quest'ultimo caso, tutto il resto che fai successivamente potrebbe essere fuorviante, quindi va evitato. Le procedure includono l'esame dei valori anomali e della leva finanziaria . (Un dato ad alta leva potrebbe non essere un valore anomalo, ma anche così potrebbe influenzare indebitamente tutti i risultati.) Se esiste una solida alternativa alla procedura di regressione, questo è un buon momento per applicarlo: verificare che stia producendo risultati simili e usalo per rilevare i valori periferici.

  3. Infine, dopo aver raggiunto una situazione numericamente stabile (in modo da poterti fidare dei calcoli) e che riflette l'intero set di dati, ti rivolgi a un esame delle ipotesi statistiche necessarie per una corretta interpretazione dell'output . Principalmente queste preoccupazioni si concentrano - in ordine approssimativo di importanza - sulle distribuzioni dei residui (compresa l'eteroscedasticità, ma si estendono anche alla simmetria, alla forma distributiva, alla possibile correlazione con i valori previsti o ad altre variabili e all'autocorrelazione), alla bontà di adattamento (incluso il possibile necessità di termini di interazione), se riesprimere la variabile dipendente e se riesprimere le variabili indipendenti.

In qualsiasi momento, se qualcosa deve essere corretto, è saggio tornare all'inizio. Ripeti tutte le volte che è necessario.


2
In realtà preferisco usare gli indici di condizione piuttosto che i VIF. Ho fatto la mia tesi su questi, qualche tempo fa.
Peter Flom - Ripristina Monica

1
@Peter Buono. Preferisco anche gli indici delle condizioni, ma mi sembra che i VIF siano molto popolari ora.
whuber

whuber, ho seguito qui dal tuo commento prima di oggi. Una volta ho consultato uno statistico durante il mio post dottorato su alcune preoccupazioni riguardanti la multicollinearità. Ha affermato che, a seconda della natura delle IV in una regressione, la collinearità potrebbe essere considerata strutturalmente parte dei fenomeni modellati. Probabilmente sto alterando il suo linguaggio preciso, e dovrei scavare per ritrovare il suo nome, ma conosci qualche testo che motiverà un ragionamento sfumato sulla multicollinearità in questo senso? Solo una domanda per caso. :)
Alexis

@Alexis Sembra che quello statistico abbia un concetto sfumato e sofisticato di multicollinearità. Non riesco a pensare a nessun libro di testo che lo esprima chiaramente.
whuber

Dovrò solo rintracciarlo e chiederglielo. :)
Alexis

3

Penso che dipenda dalla situazione. Se non ti aspetti particolari problemi, puoi probabilmente controllarli in qualsiasi ordine. Se ti aspetti valori anomali e potresti avere un motivo per rimuoverli dopo averli rilevati, controlla prima i valori anomali. Gli altri problemi con il modello potrebbero cambiare dopo la rimozione delle osservazioni. Successivamente, l'ordine tra multicollinaerità ed eteroscedasticità non ha importanza. Sono d'accordo con Chris che gli outlier non dovrebbero essere rimossi arbitrariamente. Devi avere un motivo per pensare che le osservazioni siano sbagliate.

Naturalmente se osservi la multicollinearità o l'eteroscedasticità potresti dover cambiare il tuo approccio. Il problema della multicollinearità si osserva nella matrice della covarianza ma ci sono test diagnostici specifici per rilevare la multicollinearità e altri problemi come i punti di leva guardano il libro di diagnostica di regressione di Belsley, Kuh e Welsch o uno dei libri di regressione di Dennis Cook .


9
Michael, in futuro, puoi usare le opzioni di formattazione? (la chiave corretta per inserire i collegamenti è ctrl-l, non ctrl-c).
user603
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.