Sto cercando di formare un classificatore che discriminerà tra Type A
e Type B
oggetti con un set di addestramento ragionevolmente ampio di circa 10.000 oggetti, di cui circa la metà Type A
e metà Type B
. Il set di dati è composto da 100 funzioni continue che descrivono in dettaglio le proprietà fisiche delle celle (dimensioni, raggio medio, ecc.). La visualizzazione dei dati in grafici a dispersione e densità a coppie ci dice che vi è una significativa sovrapposizione nelle distribuzioni delle cellule cancerose e normali in molte delle caratteristiche.
Attualmente sto esplorando foreste casuali come metodo di classificazione per questo set di dati e ho riscontrato buoni risultati. Usando R, le foreste casuali sono in grado di classificare correttamente circa il 90% degli oggetti.
Una delle cose che vogliamo provare e fare è creare una sorta di "punteggio di certezza" che quantificherà la nostra fiducia nella classificazione degli oggetti. Sappiamo che il nostro classificatore non sarà mai preciso al 100% e anche se si ottiene un'elevata precisione nelle previsioni, desideriamo che i tecnici qualificati identificino quali oggetti sono realmente Type A
e Type B
. Quindi, invece di fornire previsioni senza compromessi su Type A
o Type B
, vogliamo presentare un punteggio per ogni oggetto che descriverà come A
o è B
un oggetto. Ad esempio, se immaginiamo un punteggio che varia da 0 a 10, un punteggio di 0 può indicare che un oggetto è molto simile agli Type A
oggetti, mentre un punteggio di 10 indica che un oggetto è molto simile Type B
.
Pensavo di poter usare i voti all'interno delle foreste casuali per escogitare un punteggio simile. Poiché la classificazione nelle foreste casuali viene effettuata mediante votazione a maggioranza all'interno della foresta di alberi generati, suppongo che gli oggetti votati dal 100% degli alberi siano Type A
diversi dagli oggetti votati, diciamo, dal 51% degli alberi a essere Type A
.
Attualmente, ho provato a impostare una soglia arbitraria per la percentuale di voti che un oggetto deve ricevere per essere classificato come Type A
o Type B
, e se la soglia non viene superata verrà classificata come Uncertain
. Ad esempio, se impongo la condizione che l'80% o più degli alberi debbano concordare una decisione per il passaggio di una classificazione, trovo che il 99% delle previsioni della classe siano corrette, ma circa il 40% degli oggetti sono raggruppati come Uncertain
.
Avrebbe senso, quindi, trarre vantaggio dalle informazioni di voto per valutare la certezza delle previsioni? O sto andando nella direzione sbagliata con i miei pensieri?