Sto cercando di formare un classificatore che discriminerà tra Type Ae Type Boggetti con un set di addestramento ragionevolmente ampio di circa 10.000 oggetti, di cui circa la metà Type Ae metà Type B. Il set di dati è composto da 100 funzioni continue che descrivono in dettaglio le proprietà fisiche delle celle (dimensioni, raggio medio, ecc.). La visualizzazione dei dati in grafici a dispersione e densità a coppie ci dice che vi è una significativa sovrapposizione nelle distribuzioni delle cellule cancerose e normali in molte delle caratteristiche.
Attualmente sto esplorando foreste casuali come metodo di classificazione per questo set di dati e ho riscontrato buoni risultati. Usando R, le foreste casuali sono in grado di classificare correttamente circa il 90% degli oggetti.
Una delle cose che vogliamo provare e fare è creare una sorta di "punteggio di certezza" che quantificherà la nostra fiducia nella classificazione degli oggetti. Sappiamo che il nostro classificatore non sarà mai preciso al 100% e anche se si ottiene un'elevata precisione nelle previsioni, desideriamo che i tecnici qualificati identificino quali oggetti sono realmente Type Ae Type B. Quindi, invece di fornire previsioni senza compromessi su Type Ao Type B, vogliamo presentare un punteggio per ogni oggetto che descriverà come Ao è Bun oggetto. Ad esempio, se immaginiamo un punteggio che varia da 0 a 10, un punteggio di 0 può indicare che un oggetto è molto simile agli Type Aoggetti, mentre un punteggio di 10 indica che un oggetto è molto simile Type B.
Pensavo di poter usare i voti all'interno delle foreste casuali per escogitare un punteggio simile. Poiché la classificazione nelle foreste casuali viene effettuata mediante votazione a maggioranza all'interno della foresta di alberi generati, suppongo che gli oggetti votati dal 100% degli alberi siano Type Adiversi dagli oggetti votati, diciamo, dal 51% degli alberi a essere Type A.
Attualmente, ho provato a impostare una soglia arbitraria per la percentuale di voti che un oggetto deve ricevere per essere classificato come Type Ao Type B, e se la soglia non viene superata verrà classificata come Uncertain. Ad esempio, se impongo la condizione che l'80% o più degli alberi debbano concordare una decisione per il passaggio di una classificazione, trovo che il 99% delle previsioni della classe siano corrette, ma circa il 40% degli oggetti sono raggruppati come Uncertain.
Avrebbe senso, quindi, trarre vantaggio dalle informazioni di voto per valutare la certezza delle previsioni? O sto andando nella direzione sbagliata con i miei pensieri?