Quando rimuovere le variabili correlate


Risposte:


8

Non si desidera rimuovere tutte le variabili correlate. È solo quando la correlazione è così forte che non trasmettono informazioni extra. Questa è sia una funzione della forza della correlazione, della quantità di dati che hai e se una piccola differenza tra le variabili correlate ti dice qualcosa sul risultato, dopo tutto.

I primi due che puoi dire prima di fare qualsiasi modello, l'ultimo no. Pertanto, potrebbe essere molto ragionevole rimuovere le variabili in base alla combinazione delle prime due considerazioni (vale a dire, anche se le variabili extra in linea di principio potrebbero contenere alcune informazioni utili, non si sarebbe in grado di dire data la forza della correlazione e la quantità di dati hai) prima di eseguire qualsiasi modellazione / ingegneria di funzionalità. Il punto finale può davvero essere valutato solo dopo aver fatto alcuni modelli.


2

Strano che nessun altro abbia menzionato l' interpretazione .

Se tutto ciò che ti interessa sono le prestazioni , non ha senso rimuovere due variabili correlate, a meno che la correlazione = 1 o -1, nel qual caso una delle variabili è ridondante.

Ma se ci si preoccupa dell'interpretazione, potrebbe essere sensato rimuovere una delle variabili, anche se la correlazione è lieve. Ciò è particolarmente vero per i modelli lineari. Uno dei presupposti della regressione lineare è la mancanza di perfetta multicollinearità nei predittori.

Se A è correlato a B, non è possibile interpretare i coefficienti né di A né di B. Per capire perché, immagina il caso estremo quando A = B (correlazione perfetta). Quindi, il modello y = 100 * A + 50 * B è uguale al modello y = 5 * A + 10 * B o y = -2000 * A + 4000 * B. Esistono più equilibri nelle possibili soluzioni al problema della minimizzazione minima quadrata, quindi non ci si può "fidare" neanche.

Cose simili possono accadere con altri modelli. Ad esempio, se A è molto correlato a B, quindi se l'albero decisionale sceglie A raddoppiando i tempi come B, allora non si può dire che A sia più importante di B. Se si riqualifica il modello, potrebbe accadere il contrario.



1

Non importa Ma per l'efficienza prima dell'ingegneria delle funzionalità.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.