Considerare il multicollineariy è importante nell'analisi di regressione perché, in estrema misura , dipende direttamente dal fatto che i tuoi coefficienti siano identificati in modo univoco nei dati. Nei casi meno gravi, può comunque incasinare le stime dei coefficienti; piccole variazioni nei dati utilizzati per la stima possono causare oscillazioni selvagge dei coefficienti stimati. Questi possono essere problematici da un punto di vista inferenziale: se due variabili sono altamente correlate, gli aumenti in uno possono essere compensati da diminuzioni in un altro, quindi l'effetto combinato è quello di negarsi a vicenda. Con più di due variabili, l'effetto può essere ancora più sottile, ma se le previsioni sono stabili, ciò è spesso sufficiente per le applicazioni di apprendimento automatico.
Considera perché regolarizziamo in un contesto di regressione: dobbiamo costringere il modello ad essere troppo flessibile. L'applicazione della corretta quantità di regolarizzazione aumenterà leggermente la distorsione per una maggiore riduzione della varianza. L'esempio classico di ciò è l'aggiunta di termini polinomiali ed effetti di interazione a una regressione: nel caso degenerato, l'equazione di previsione interpolerà i punti dati, ma probabilmente sarà terribile quando si tenta di prevedere i valori dei punti dati non visti. Ridurre tali coefficienti probabilmente minimizzerà o eliminerà del tutto alcuni di quei coefficienti e migliorerà la generalizzazione.
Una foresta casuale, tuttavia, potrebbe avere un parametro di regolarizzazione attraverso il numero di variabili campionate ad ogni divisione: si ottiene una migliore suddivisione più grande è mtry
(più funzionalità tra cui scegliere; alcune sono migliori di altre), ma anche questo rende ogni albero più altamente correlato tra loro, mitigando in qualche modo l'effetto diversificante della stima di più alberi in primo luogo. Questo dilemma obbliga a trovare il giusto equilibrio, generalmente ottenuto usando la validazione incrociata. È importante sottolineare che, contrariamente a un'analisi di regressione, nessuna parte del modello di foresta casuale è danneggiata da variabili altamente collineari: anche se due delle variabili forniscono la stessa purezza del nodo figlio, è possibile sceglierne una senza ridurre la qualità del risultato.
Allo stesso modo, per qualcosa come un SVM, puoi includere più predittori che funzionalità perché il trucco del kernel ti consente di operare esclusivamente sul prodotto interno di quei vettori di funzionalità. Avere più funzioni che osservazioni sarebbe un problema nelle regressioni, ma il trucco del kernel significa che stimiamo solo un coefficiente per ogni esemplare, mentre il parametro di regolarizzazione riduce la flessibilità della soluzione, il che è decisamente una buona cosa, poiché stimare parametri perCNNle osservazioni in modo illimitato produrranno sempre un modello perfetto sui dati di test - e torniamo al punto di partenza, tornando allo scenario di regressione della cresta / LASSO / rete elastica dove abbiamo la flessibilità del modello vincolata come un controllo rispetto a un modello eccessivamente ottimista. Una revisione delle condizioni KKT del problema SVM rivela che la soluzione SVM è unica, quindi non dobbiamo preoccuparci dei problemi di identificazione sorti nel caso della regressione.
Infine, considera l' impatto reale della multicollinearità. Non cambia la potenza predittiva del modello (almeno, sui dati di addestramento) ma si rovina con le nostre stime dei coefficienti. Nella maggior parte delle applicazioni ML, non ci interessiamo dei coefficienti stessi, solo la perdita delle previsioni del nostro modello, quindi in questo senso, il controllo di VIF non risponde effettivamente a una domanda conseguente. (Ma se un leggero cambiamento nei dati provoca un'enorme fluttuazione dei coefficienti [un sintomo classico della multicollinearità], può anche cambiare le previsioni, nel qual caso ci preoccupiamo - ma tutto questo [speriamo!] È caratterizzato quando eseguire la convalida incrociata, che fa comunque parte del processo di modellazione). Una regressione viene interpretata più facilmente, ma l'interpretazione potrebbe non essere l'obiettivo più importante per alcune attività.