Quando valutiamo la qualità di una foresta casuale, ad esempio utilizzando AUC, è più appropriato calcolare queste quantità sui campioni out of bag o sul set di validazione incrociata?

Ho sentito che il calcolo su campioni OOB fornisce una valutazione più pessimistica, ma non vedo perché.

cross-validation random-forest auc

— user695652
fonte

Nota: anche se ritengo che la mia risposta sia probabilmente corretta, mi sento anche dubbioso a causa del fatto che ho inventato tutto questo pensando a questo problema solo dopo aver letto questa domanda per circa 30-60 minuti. Quindi è meglio essere scettici e scrutare questo e non lasciarti ingannare dal mio stile di scrittura forse eccessivamente sicuro (usare parole grandi e fantasiosi simboli greci non significa che abbia ragione).

Sommario

Questo è solo un riassunto. Tutti i dettagli sono menzionati nelle sezioni $\S1$ e $\S2$ seguito.

Supponiamo il caso della classificazione (può essere esteso anche alla regressione, ma omettiamo per brevità). In sostanza, il nostro obiettivo è stimare l'errore di una foresta di alberi. Sia l'errore out-of-bag che la convalida incrociata k-fold provano a dirci la probabilità che:

La foresta fornisce la classificazione corretta (la validazione incrociata di k-fold la osserva in questo modo).

Che è identico alla probabilità che:

Il voto della maggioranza degli alberi della foresta è il voto corretto (OOBE la guarda in questo modo).

Ed entrambi sono identici. L'unica differenza è che la validazione incrociata di k-fold e OOBE assumono campioni di apprendimento di dimensioni diverse. Per esempio:

Nella convalida incrociata 10 volte, il set di apprendimento è del 90%, mentre il set di test è del 10%.
Tuttavia, in OOBE se ogni borsa ha campioni, in modo tale che numero totale di campioni nell'intero set di campioni, ciò implica che il set di apprendimento è praticamente del 66% circa (due terzi) e il set di test è di circa il 33% ( un terzo). $n$ $n =$

Pertanto, a mio avviso, l'unica ragione per cui OOBE è una stima pessimistica dell'errore della foresta è solo perché si allena di solito con un numero inferiore di campioni rispetto a quelli normalmente effettuati con la validazione incrociata di k-fold (dove 10 pieghe sono comuni).

A causa di ciò, penso anche che la convalida incrociata doppia sarà una stima più pessimistica dell'errore della foresta rispetto a OOBE e che la convalida incrociata tripla sarà approssimativamente ugualmente pessimistica rispetto a OOBE.

1. Comprensione dell'errore immediato

1.1 Vista comune sull'insaccamento

Ogni albero in RF è cresciuto da un elenco di campioni che sono estratti casualmente dal set di apprendimento con la sostituzione. In questo modo, i molti campioni possono avere duplicati, e se allora si può scoprire che circa un terzo dei campioni in probabilmente finirà per non essere nella lista di campioni usati per far crescere un determinato albero (questi sono i campioni out-of-bag di questo specifico albero. Questo processo viene ripetuto in modo indipendente per ogni albero, quindi ogni albero ha un diverso set di campioni out-of-bag. $n$ $\mathcal{X}$ $n$ $n = |\mathcal{X}|$ $\mathcal{X}$ $n$

1.2. Un'altra vista sull'insaccamento

Ora, descriviamo il bagging in modo leggermente diverso con la speranza di trovare una descrizione uguale che si spera sia più semplice da gestire.

Faccio questo affermando che l'albero è allenato da campioni insaccato nel set di . Tuttavia, questo non è esattamente vero poiché l'insieme non ha campioni duplicati (questo è il modo in cui funzionano gli insiemi), mentre - d'altra parte - l' elenco di campioni può avere duplicati. $t$ $\mathcal{X}_t \subseteq \mathcal{X}$ $\mathcal{X}_t$ $n$

Pertanto, possiamo dire che un albero viene cresciuto analizzando i campioni più un numero di duplicati scelti a caso estratti da , vale a dire , tale che: $t$ $\mathcal{X}_t$ $\mathcal{X}_t$ $\mathcal{X}_{t,1}, \mathcal{X}_{t,2}, \ldots, \mathcal{X}_{t,r} \subseteq \mathcal{X}_t$

| X_{t} | + \sum_{i = 1}^{r} | X_{t, i} | = n

$\begin{equation} |\mathcal{X}_t| + \sum_{i=1}^r|\mathcal{X}_{t,i}| = n \end{equation}$

È banale vedere che da questa raccolta di insiemi , possiamo definire un elenco di -molti campioni che contengono duplicati semplicemente aggiungendo gli elementi in ciascuno impostare su un array . In questo modo, per ogni , esiste almeno un valore di tale che $\mathcal{C} = \{\mathcal{X}_t, \mathcal{X}_{t,1}, \ldots, \mathcal{X}_{t,r}\}$ $n$ $\mathcal{C}_i \in \mathcal{C}$ $a$ $1 \le p \le n$ $i$ $a[p] \in \mathcal{C}_i$ .

Possiamo anche vedere che l'elenco di campioni nell'array è una generalizzazione del bagging come ho definito nella Sezione 1. È banale vedere che per una definizione specifica di $n$ $a$ che ho definito in questa sezione ( ) , l'elenco dei campioni nella matrice può essere esattamenteidenticoall'elenco dei campioni definito nella Sezione 1. $\mathcal{X}_t$ $\S2$ $a$

1.3. Semplificazione dell'insaccamento

Invece di crescere albero dai campioni nell'array , li faremo crescere dall'elenco di istanze privo di duplicazione che si trova solo in . $t$ $a$ $\mathcal{X}_t$

Credo che, se è abbastanza grande, un albero che viene cresciuto analizzando i campioni in $n$ $t$ è identico a un altro albero che viene cresciuto dai campioni nella matrice . $\mathcal{X}_t$ $t'$ $a$

La mia ragione è che la probabilità di duplicare campioni in è ugualmente probabile su altri campioni nello stesso set. Ciò significa che, quando misuriamo il guadagno di informazioni (IG) di una divisione, l'IG rimarrà identico poiché anche le entropie rimarranno identiche. $\mathcal{X}_t$

E la ragione per cui credo che le entropie non cambieranno sistematicamente per una data suddivisione è perché non cambierà neanche la probabilità misurata empiricamente di un campione con un'etichetta specifica in un sottoinsieme (dopo aver applicato una suddivisione decisionale).

E la ragione per cui le probabilità non dovrebbero cambiare secondo me è che tutti i campioni sono presenti hanno la stessa probabilità di essere duplicati incopie. $\mathcal{X}_t$ $d$

1.4 Misurazione di errori fuori borsa

Sia il campione out-of-bag dell'albero . Ie . Quindi l'errore di un singolo albero è: $\mathcal{O}_t$ $t$ $\mathcal{O}_t = \mathcal{X} \setminus \mathcal{X}_t$ $t$ E l'errore totale della foresta conmolti alberi è:

\frac{total x in O_{t} correctly classified by t}{| O_{t} |}

$\begin{equation} \frac{\text{total $\mathbf{x}$ in $\mathcal{O}_t$ correctly classified by $t$}}{|\mathcal{O}_t|} \end{equation}$

n_{t}

$n_t$

che può essere considerata laprobabilitàmisurata empiricamenteche il voto della maggioranza di tutti gli alberi in una foresta sia un voto corretto.

\frac{\sum_{t = 1}^{n_{t}} total x in O_{t} correctly classified by t}{\sum_{t = 1}^{n_{t}} | O_{t} |}

$\begin{equation} \frac{\sum_{t=1}^{n_t} \text{total $\mathbf{x}$ in $\mathcal{O}_t$ correctly classified by $t$}}{\sum_{t=1}^{n_t}|\mathcal{O}_t|} \end{equation}$

2. Comprensione della convalida incrociata di k-fold

$\mathcal{X}$ $n_k$ $\mathcal{K} = \{\mathcal{K}_1, \mathcal{K}_2, \ldots, \mathcal{K}_{n_k}\}$ $\mathcal{K}_1 \cup \mathcal{K}_2 \cup \ldots \cup \mathcal{K}_{n_k} = \mathcal{X}$ $\mathcal{K}_i, \mathcal{K}_j \in \mathcal{K}$ $\mathcal{K}_i \cap \mathcal{K}_j = \emptyset$

$\mathcal{K}_t$ $\mathcal{K} \setminus \{\mathcal{K}_t\}$

$f$ $\mathcal{K} \setminus \{\mathcal{K}_t\}$

$f$

\frac{\sum_{t = 1}^{n_{k}} total x in K_{t} correctly classified by f}{\sum_{t = 1}^{n_{k}} | K_{t} |}

$\begin{equation} \frac{\sum_{t=1}^{n_k} \text{total $\mathbf{x}$ in $\mathcal{K}_t$ correctly classified by $f$}}{\sum_{t=1}^{n_k} |\mathcal{K}_t|} \end{equation}$

$f$

— uomo delle caverne
fonte

Valuta foresta casuale: OOB vs CV