Ho analizzato molte volte un set di dati su cui non potevo davvero fare alcun tipo di classificazione. Per vedere se riesco a ottenere un classificatore, di solito ho usato i seguenti passi:
- Genera grafici a scatole di etichette rispetto a valori numerici.
- Riduci la dimensionalità a 2 o 3 per vedere se le classi sono separabili, a volte ho anche provato LDA.
- Prova con forza a adattarsi a SVM e foreste casuali e guarda l'importanza delle funzionalità per vedere se le funzionalità hanno un senso o meno.
- Prova a cambiare l'equilibrio di classi e tecniche come sottocampionamento e sovracampionamento per verificare se lo squilibrio di classe potrebbe essere un problema.
Ci sono molti altri approcci a cui riesco a pensare, ma non ho provato. A volte so che queste funzionalità non sono buone e non sono affatto correlate all'etichetta che stiamo cercando di prevedere. Quindi uso quell'intuizione aziendale per terminare l'esercizio, concludendo che abbiamo bisogno di funzionalità migliori o etichette totalmente diverse.
La mia domanda è come fa uno scienziato dei dati a riferire che la classificazione non può essere fatta con queste caratteristiche. Esiste un modo statistico per segnalare questo o inserire prima i dati in diversi algoritmi e guardare la metrica di validazione è l'opzione migliore?