Sto costruendo un classificatore di testo per frasi brevi. Oltre a dire all'utente "la categoria del testo che hai inserito è C", voglio essere in grado di spiegare perché ho preso questa decisione, in modo breve e comprensibile. Ad esempio, non voglio dire all'utente "Ho inserito la tua frase in una complessa rete neurale a 3 livelli e questa è la risposta che ha ottenuto il miglior punteggio"; Voglio spiegazioni come "La tua frase contiene le parole U, V e W, che sono caratteristiche di questa categoria, a causa di frasi come X, Y e Z che sono comparse nei dati di allenamento".
La mia domanda è: quali algoritmi di classificazione sono più adatti a tale applicazione?
k-più vicini di casa sembra un buon candidato, perché posso dire all'utente "La tua frase ha categoria C perché è simile alle frasi X, Y e Z che hanno la stessa categoria. Ma è noto che le sue prestazioni sui problemi di categorizzazione del testo sono essere povero. Sto cercando un classico che bilancia le prestazioni con la capacità di spiegazione.
EDIT: Dopo aver trascorso molto tempo alla ricerca di un simile classificatore, ho iniziato a costruire una libreria di apprendimento automatico chiamata limdu , che consente ai classificatori di spiegare le loro decisioni. È ancora in fase di sviluppo, ma mi ha già aiutato a spiegare a me stesso e ai miei colleghi perché i nostri classificatori falliscono così spesso ...