Quindi, ho una matrice di circa 60 x 1000. Lo sto guardando come 60 oggetti con 1000 caratteristiche; i 60 oggetti sono raggruppati in 3 classi (a, b, c). 20 oggetti in ogni classe e conosciamo la vera classificazione. Mi piacerebbe fare un apprendimento supervisionato su questo set di 60 esempi di training e sono interessato sia alla precisione del classificatore (e alle relative metriche) sia alla selezione delle funzionalità sulle 1000 funzionalità.
Innanzitutto, come va la mia nomenclatura?
Ora la vera domanda:
Potrei lanciare foreste casuali su di esso come indicato, o qualsiasi numero di altri classificatori. Ma c'è una sottigliezza: mi interessa davvero solo differenziare la classe c dalle classi aeb. Potrei raggruppare le classi aeb, ma c'è un buon modo per usare la conoscenza a priori che tutti gli oggetti non c probabilmente formano due distinti cluster? Preferirei usare foreste casuali o una sua variante, poiché si è dimostrato efficace su dati simili ai miei. Ma potrei essere convinto a provare altri approcci.