Random Forests (RFs) è un metodo di modellazione / mining di dati competitivo.
Un modello RF ha un'uscita: la variabile di uscita / previsione.
L'approccio ingenuo alla modellazione di più uscite con RF sarebbe quello di costruire una RF per ogni variabile di uscita. Quindi abbiamo N modelli indipendenti e dove esiste una correlazione tra le variabili di output avremo una struttura di modello ridondante / duplicata. Questo potrebbe essere molto dispendioso, anzi. Anche come regola generale più variabili di modello implicano un modello più adatto (meno generalizzazione). Non sono sicuro se questo si applica qui, ma probabilmente lo fa.
In linea di principio potremmo avere una RF con più uscite. La variabile di previsione è ora un vettore (n-tupla). I nodi decisionali in ciascun albero decisionale ora stanno dividendo l'insieme di vettori target / previsione in base a un vettore di soglia, immagino che questa soglia sia considerata un piano nello spazio n-dimensionale e che quindi possiamo determinare da quale lato della soglia vettore è attivo ciascuno dei vettori target.
Il valore di predizione ottimale per ciascun lato della divisione decisionale è la media (centroide) calcolata per i vettori su ciascun lato.
Trovare il punto di divisione ottimale quando si lavora con singole variabili è banale e computazionalmente veloce / efficiente. Per una n-tupla non riusciamo a trovare la divisione ottimale (o almeno diventa non computazionalmente computazionale all'aumentare di N), ma potremmo essere in grado di trovare una divisione quasi ottimale usando un metodo di tipo Monte Carlo (o un ibrido di Monte Carlo e locale attraversamento gradiente).
Funzionerebbe davvero? Cioè, sarebbe solo mappare le coppie di allenamento senza generalizzare? Questa tecnica esiste già con un nome diverso?
Potresti anche considerare come questo si collega alle reti neurali come Restricted Boltzmann Machines (RBMs) e Deep Belief Networks.