Come viene scelto un punto di divisione per variabili continue negli alberi delle decisioni?


14

Ho due domande relative agli alberi decisionali:

  1. Se abbiamo un attributo continuo, come possiamo scegliere il valore di divisione?

    Esempio: Età = (20,29,50,40 ....)

  2. Immaginiamo di avere un attributo continuo che hanno valori in R . Come posso scrivere un algoritmo che trova il punto di divisione v , in modo che quando dividiamo f per v , abbiamo un guadagno minimo per f > v ?fRvfvf>v

Risposte:


18

(20,29,40,50)(24.5,34.5,45)

È possibile risparmiare un po 'di tempo di calcolo controllando solo i punti di divisione che si trovano tra esempi di classi diverse, poiché solo queste divisioni possono essere ottimali per ottenere informazioni.


@timleathart l'OP si aspetta di essere "alimentato a cucchiaio" l'implementazione in R. Mi chiedo cosa l'OP abbia provato finora con riferimento all'implementazione di R? Che ne dici di "mostrare qualche sforzo", OP?
mnm,

@timleathart ma normalmente per un attributo f scegliamo la divisione v che fornisce il maggior guadagno di informazioni per f> v, ma qui guardiamo alla domanda che hanno posto per un guadagno minimo.
WALID BELRHALMIA,

@timleathart, puoi spiegarci di più? Ho bisogno di conoscere il modo migliore per identificare tali divisioni e verificare il guadagno di informazioni. Diciamo che una variabile ha molte variazioni e l'altra è quasi costante. Quante divisioni dovrebbero esserci?
Arpit Sisodia,

@timeleathart, estendendo la tua risposta, questa divisione non sarà ottimizzata quando i valori sono (20,21,22,23, 45,67,80). qui non è possibile utilizzare l'iterazione da min a max? Per favore, correggimi se sbaglio nel mio assunto :)
Arpit Sisodia,

Questo chiarisce le mie confusioni!
Jinhua Wang,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.