Gli stimatori degli alberi sono SEMPRE di parte?

9

Sto facendo i compiti sugli alberi decisionali e una delle domande a cui devo rispondere è "Perché gli stimatori sono costruiti su alberi distorti e in che modo l'insacco aiuta a ridurne la varianza?".

Ora, so che i modelli troppo equipaggiati tendono ad avere una propensione molto bassa, perché cercano di adattarsi a tutti i punti dati. E, in Python, avevo una sceneggiatura che inseriva un albero in un set di dati (con una singola funzione. Era solo una sinusoide, con alcuni punti off, foto sotto). Quindi, mi chiedevo "bene, se riesco a sovrautilizzare i dati, posso portare a zero la distorsione?". E si è scoperto che, anche con una profondità di 10000, ci sono ancora alcuni punti attraverso i quali la curva non passa.

Ho provato a cercare il perché, ma non sono riuscito a trovare una spiegazione. Immagino che potrebbero esserci degli alberi che attraverserebbero perfettamente tutti i punti e che quelli che ho ottenuto sono stati solo "sfortuna". O che forse un set di dati diverso avrebbe potuto darmi un risultato imparziale (forse una sinusoide perfetta?). O anche quello, forse i tagli effettuati all'inizio hanno reso impossibile per ulteriori tagli separare completamente tutti i punti.

Quindi, prendendo in considerazione questo set di dati (dal momento che potrebbe essere diverso per gli altri), la mia domanda è: è possibile adattare un albero al punto in cui il bias va a zero, o ci sarà sempre qualche bias, anche se davvero piccolo? E se c'è sempre almeno qualche pregiudizio, perché succede?

PS Non so se potrebbe essere rilevante, ma ho usato il DecisionTreeRegressorda sklearnper adattare il modello ai dati.

cart bias

— Berna
fonte

3

Benvenuti nel nostro sito! Nota che non c'è bisogno di aggiungere un "ringraziamento in anticipo" alla tua domanda, il modo migliore per esprimere il tuo ringraziamento è aspettare fino a quando non ricevi alcune risposte e accettare (segno di spunta verde) quello che ti ha aiutato di più! Se non l'hai ancora fatto, perché non dare un'occhiata al nostro tour per vedere come funziona questo sito?

— Silverfish

3

Considera una funzione y = 0 e stai cercando di adattare y = f (x), dove x assume alcuni valori casuali. Uno stimatore dell'albero decisionale è di parte in questo caso d'angolo?

— jbowman

10

Un modello di albero decisionale non è più sempre un pregiudizio rispetto a qualsiasi altro modello di apprendimento.

$X$ $[0, 1]$

$Y$ $X$

Y ∣ X \sim I_{< .5} (X) + N (0, 1)

$Y \mid X \sim I_{< .5}(X) + N(0, 1)$

$Y$ $X$ $X$

Y ∣ X \sim X + N (0, 1)

$Y \mid X \sim X + N(0, 1)$

Se adattiamo un albero decisionale in entrambe le situazioni, il modello è distorto nella prima situazione, ma è distorto nella seconda. Questo perché un albero binario a una divisione può recuperare il vero modello di dati sottostante nella prima situazione. Nel secondo, il meglio che un albero può fare è approssimare la funzione lineare agitando a intervalli sempre più sottili - un albero di profondità finita può avvicinarsi solo così.

Se adattiamo una regressione lineare in entrambe le situazioni, il modello è distorto nella prima situazione, ma non distorto nella seconda.

Quindi, per sapere se un modello è distorto, è necessario sapere qual è il vero meccanismo di dati sottostante. Nelle situazioni della vita reale, non lo sai mai, quindi non puoi mai davvero dire se un modello nella vita reale è di parte o no. A volte, pensiamo di avere totalmente ragione per molto tempo, ma poi il pregiudizio emerge con una comprensione più profonda (la gravità da Newton a Einstein La gravità è almeno un esempio apocrifo).

In un certo senso, ci aspettiamo che la maggior parte dei processi del mondo reale (con alcune eccezioni) siano così inconoscibili, che un'approssimazione abbastanza ragionevole della verità è che tutti i nostri modelli sono distorti. Alcuni dubitano che la domanda stia ponendo una profonda discussione filosofica sull'inutilità essenziale della modellizzazione di un complesso processo statistico, ma è divertente pensarci.

— Matthew Drury
fonte

0

Il fatto che alcuni punti nei tuoi dati non siano ancora previsti potrebbe essere dovuto a qualcosa chiamato errore irriducibile. La teoria è che nell'apprendimento automatico c'è un errore riducibile e irriducibile. L'idea dell'errore irriducibile è che non importa quanto sia buono il tuo modello, non sarà mai perfetto. Ciò è dovuto ad alcuni motivi. Uno, non importa quanto siano robuste le tue funzioni di allenamento, ci saranno sempre alcune funzioni nascoste che influenzano l'output che i tuoi dati di allenamento non includono. Un altro motivo è che in quasi tutti i dati ci sono alcuni valori anomali. Puoi sempre provare a rendere i tuoi modelli il più robusti possibile per gli outlier, ma non importa quanto duramente ci provi, gli outlier esisteranno sempre. (Questo non significa che non dovresti pensare agli outlier durante la creazione dei tuoi modelli). E un ultimo dettaglio è che non

— jweir136
fonte