In realtà sto scrivendo un'implementazione di Random Forests ma credo che la domanda sia specifica per gli alberi delle decisioni (indipendentemente dalle RF).
Quindi il contesto è che sto creando un nodo in un albero decisionale e sia la previsione che le variabili target sono continue. Il nodo ha una soglia divisa per partizionare i dati in due set e creo una nuova previsione per ciascun sottoinsieme in base al valore target medio in ciascun set. È questo l'approccio corretto?
Il motivo per cui chiedo è che quando si prevedono variabili binarie, credo che l'approccio tipico (corretto?) Sia quello di dividere i dati in sottoinsiemi 0 e 1 senza prendere una media sulle righe di dati in ogni sottoinsieme. Le divisioni successive si dividono in sottoinsiemi a grana più fine e prendendo una media per ogni risultato di divisione divisioni successive (in basso l'albero delle decisioni) operando su quelle che ora sono variabili continue anziché variabili binarie (perché stiamo operando sui valori di errore residuo anziché sull'originale obiettivi).
Domanda a margine: la distinzione tra i due approcci (binario e continuo) è significativa o forniranno effettivamente risultati identici per un albero decisionale completo?