Perché un albero decisionale ha una propensione bassa e una varianza elevata?

15

Domande

Dipende se l'albero è poco profondo o profondo? O possiamo dire questo indipendentemente dalla profondità / livelli dell'albero?
Perché il bias è basso e la varianza è alta? Spiega in modo intuitivo e matematico

— GeorgeOfTheRF
fonte

4

Un po 'tardi alla festa, ma sento che questa domanda potrebbe usare la risposta con esempi concreti.

Scriverò un riassunto di questo eccellente articolo: bias-variance-trade-off , che mi ha aiutato a capire l'argomento.

L'errore di predizione per qualsiasi algoritmo di apprendimento automatico può essere suddiviso in tre parti:

Errore di polarizzazione
Errore di varianza
Errore irriducibile

Errore irriducibile

Come suggerisce il nome, è un componente di errore che non possiamo correggere, indipendentemente dall'algoritmo e dalla selezione dei parametri. Errore di Irriducibile è dovuto alla complessità che sono semplicemente non catturati nel training set. Questi potrebbero essere attributi che non abbiamo in un set di apprendimento, ma influenzano la mappatura del risultato indipendentemente.

Errore di polarizzazione

L'errore di polarizzazione è dovuto ai nostri presupposti sulla funzione target. Più ipotesi (restrizioni) facciamo sulle funzioni target, maggiore sarà il pregiudizio che introduciamo. I modelli con distorsioni elevate sono meno flessibili perché abbiamo imposto più regole sulle funzioni target.

Errore di varianza

L'errore di varianza è la variabilità della forma di una funzione target rispetto ai diversi set di allenamento. I modelli con errore di varianza ridotta non cambieranno molto se si sostituiscono un paio di campioni nel set di addestramento. I modelli con varianza elevata potrebbero essere interessati anche con piccole modifiche nel set di allenamento.

Considera la semplice regressione lineare:

Y=b0+b1x

Ovviamente, questa è una definizione abbastanza restrittiva di una funzione target e quindi questo modello ha un bias elevato.

D'altra parte, a causa della bassa varianza se si cambiano un paio di campioni di dati, è improbabile che ciò provochi importanti cambiamenti nella mappatura generale eseguita dalla funzione target. D'altra parte, algoritmo come k-next-neighbours ha un'alta varianza e una bassa propensione. È facile immaginare come diversi campioni potrebbero influenzare la superficie decisionale di KNN.

Generalmente, gli algoritmi parametrici hanno un bias elevato e una bassa varianza e viceversa.

Una delle sfide dell'apprendimento automatico è trovare il giusto equilibrio tra errore di bias ed errore di varianza.

Albero decisionale

Ora che abbiamo queste definizioni in atto, è anche semplice vedere che gli alberi delle decisioni sono un esempio di modello con bassa propensione e varianza elevata. L'albero non fa quasi ipotesi sulla funzione target ma è altamente suscettibile alla varianza dei dati.

Esistono algoritmi di ensemble, come l'aggregazione del bootstrap e la foresta casuale, che mirano a ridurre la varianza al piccolo costo della distorsione nell'albero decisionale.

— John
fonte

2

Se il numero di livelli è troppo elevato, ovvero un albero decisionale complicato, il modello tende a sovrautilizzare.

Intuitivamente, può essere compreso in questo modo. Quando ci sono troppi nodi decisionali da attraversare prima di arrivare al risultato, ovvero il numero di nodi da attraversare prima di raggiungere i nodi foglia è elevato, le condizioni che si stanno verificando diventano moltiplicative. Cioè, il calcolo diventa (condizione 1) && (condizione 2) && (condizione 3) && (condizione 4) && (condizione5) .

Solo se tutte le condizioni sono soddisfatte, viene presa una decisione. Come puoi vedere, questo funzionerà molto bene per il set di training poiché stai costantemente restringendo i dati. L'albero diventa altamente sintonizzato sui dati presenti nel set di addestramento.

Ma quando viene inserito un nuovo punto dati, anche se uno dei parametri si discosta leggermente, la condizione non verrà soddisfatta e prenderà il ramo sbagliato.

— Sujay S Kumar
fonte

1

Un albero decisionale complicato (ad es. In profondità) ha una propensione bassa e una varianza elevata. Il compromesso della variazione di polarizzazione dipende dalla profondità dell'albero.
L'albero decisionale è sensibile al punto in cui si divide e al modo in cui si divide. Pertanto, anche piccole modifiche nei valori delle variabili di input potrebbero comportare una struttura ad albero molto diversa.

— Ciao mondo
fonte

4

Non ricordo un singolo algoritmo ad albero ordinario che è influenzato dal ridimensionamento, non vedono i valori delle variabili, solo i gradi.

— Firebug

0

Perché un albero decisionale ha una propensione bassa e una varianza elevata? Dipende se l'albero è poco profondo o profondo? O possiamo dire questo indipendentemente dalla profondità / livelli dell'albero? Perché il bias è basso e la varianza è alta? Spiega in modo intuitivo e matematico.

Bias vs Variance

Più bias = errore dal modello più semplice (non si adatta molto bene ai dati)

Più varianza = errore dal modello più complesso (si adatta troppo bene ai dati e impara il rumore oltre ai modelli intrinseci nei dati)

Tutto è relativo

Voglio iniziare dicendo che tutto è relativo. L'albero decisionale in generale ha una propensione bassa e una varianza elevata che diciamo foreste casuali. Allo stesso modo, un albero più superficiale avrebbe un'inclinazione più elevata e una varianza inferiore rispetto allo stesso albero con una profondità maggiore.

Confronto della varianza tra alberi decisionali e foreste casuali

Ora, con quello appianato, pensiamo perché gli alberi delle decisioni sarebbero peggiori nella varianza (varianza più alta e inclinazione inferiore) rispetto alle foreste casuali. Il modo in cui funziona un algoritmo dell'albero decisionale è che i dati vengono suddivisi più e più volte man mano che scendiamo nell'albero, quindi le previsioni effettive verrebbero fatte da sempre meno punti dati. Rispetto a ciò, le foreste casuali aggregano le decisioni di più alberi, e anche quello, gli alberi meno correlati attraverso la randomizzazione, quindi il modello si generalizza meglio (=> si comporta in modo più affidabile attraverso diversi set di dati = varianza inferiore). Allo stesso modo, stiamo formulando ipotesi più semplificanti su foreste casuali per consultare solo un sottoinsieme di dati e funzionalità per adattarsi a un singolo albero, quindi una distorsione maggiore. A proposito, simile,

— Vaibhav
fonte