Bisogna preoccuparsi della multi-collinearità quando si usano modelli non lineari?

13

Supponiamo che abbiamo un problema di classificazione binaria con caratteristiche per lo più categoriche. Usiamo alcuni modelli non lineari (ad esempio XGBoost o Random Forests) per impararlo.

Bisogna ancora preoccuparsi della multi-collinearità? Perché?
Se la risposta a quanto sopra è vera, come si dovrebbe combatterla considerando che si stanno usando questi tipi di modelli non lineari?

— Josh
fonte

7

La collinearità multipla non sarà un problema per alcuni modelli. Come foresta casuale o albero decisionale. Ad esempio, se abbiamo due colonne identiche, l'albero decisionale / foresta casuale "rilascerà" automaticamente una colonna per ogni divisione. E il modello funzionerà ancora bene.

Inoltre, la regolarizzazione è un modo per "risolvere" il problema della collinearità multipla. La mia risposta I metodi di regolarizzazione per la regressione logistica forniscono dettagli.

— Haitao Du
fonte

5

Penso che questo sarebbe migliorato se si elaborasse esattamente quale sia il problema "riparato" dalla regolarizzazione.

— Matthew Drury,

2

In ritardo alla festa, ma qui c'è comunque la mia risposta, ed è "Sì", bisogna sempre preoccuparsi della collinearità, indipendentemente dal fatto che il modello / metodo sia lineare o meno, o che il compito principale sia la previsione o la classificazione.

Supponiamo che un numero di covariate / funzioni linearmente correlate presenti nel set di dati e nella foresta casuale come metodo. Ovviamente, la selezione casuale per nodo può scegliere solo (o per lo più) caratteristiche collineari che possono / comporteranno una divisione scadente e ciò può avvenire ripetutamente, influenzando negativamente le prestazioni.

Ora, le caratteristiche collineari potrebbero essere meno informative del risultato rispetto alle altre caratteristiche (non collineari) e come tali dovrebbero essere comunque considerate per l'eliminazione dalla serie di funzioni. Tuttavia, supponiamo che le funzionalità siano classificate in alto nell'elenco "importanza delle funzionalità" prodotto da RF. Come tali verrebbero mantenuti nel set di dati aumentando inutilmente la dimensionalità. Quindi, in pratica, controllerei sempre, come passo esplorativo (su molti correlati) l'associazione a coppie delle caratteristiche, inclusa la correlazione lineare.

— dnqxt
fonte

Credo che ci siano casi in cui la multi-collinearità può essere tranquillamente ignorata, alcuni di questi sono discussi qui: statshorizons.com/multicollinearity

— Dr Nisha Arora,

0

Bisogna ancora preoccuparsi della multi-collinearità? Perché?

Se il modello non lineare è un modello basato su albero, non dovresti considerarlo serio. Diversi modelli di alberi avranno un metodo di offerta diverso, come la foresta casuale li manterrà entrambi (perché costruiscono l'albero in modo indipendente e selezionano casualmente la funzione per ogni albero), ma non ha alcun effetto sulle prestazioni di previsione, anche se rimuovi il ridondante. Ma per xgboost, sceglierà qualcuno di loro e lo userà fino all'ultima build dell'albero.

Se la risposta a quanto sopra è vera, come si dovrebbe combatterla considerando che si stanno usando questi tipi di modelli non lineari?

Si tratta solo del significato dell'interpretazione, quindi si consiglia di rimuovere la variabile altamente correlata.

— Wolfe
fonte

-3

La multi-collinearità è sempre un possibile problema. Le variabili che sono predittori nel modello influenzeranno la previsione quando sono linearmente correlate (cioè quando è presente la collinearità).

— Michael R. Chernick
fonte

1

Grazie, se (1) il focus è la prestazione di previsione (e non l'interpretazione) e (2) il modello non è lineare, ti dispiacerebbe approfondire il motivo per cui questo può ancora essere un problema? (e come si manifesterebbe esattamente?)

— Josh

Queste variabili che sono predittori nel modello influenzeranno la previsione quando sono linearmente correlate (cioè la collinearità è presente).

— Michael R. Chernick,

1

Influisce sulla previsione come, esattamente? A proposito, stats.stackexchange.com/a/138082/99274 , inserisci alcuni link nella tua risposta o affronta l'ira della folla "stato lì, fatto quel".

— Carl

7

Poiché la classificazione è così strettamente correlata alla previsione e la previsione tende a non soffrire di multicollinearità, è importante sostenere la tua tesi secondo cui è sempre un "possibile problema", in particolare per i modelli specifici citati nella domanda. Che tipo di problema sarebbe per la classificazione e perché?

— whuber

12

Sono abbastanza sicuro che stai chiedendo la domanda. Whuber ha chiesto perché la previsione soffre di multicollinearità e in pratica hai risposto "La previsione soffre di multicollinearità perché la previsione soffre di multicollinearità".

— Matthew Drury,