Quando diciamo che il set di dati non è classificabile?


11

Ho analizzato molte volte un set di dati su cui non potevo davvero fare alcun tipo di classificazione. Per vedere se riesco a ottenere un classificatore, di solito ho usato i seguenti passi:

  1. Genera grafici a scatole di etichette rispetto a valori numerici.
  2. Riduci la dimensionalità a 2 o 3 per vedere se le classi sono separabili, a volte ho anche provato LDA.
  3. Prova con forza a adattarsi a SVM e foreste casuali e guarda l'importanza delle funzionalità per vedere se le funzionalità hanno un senso o meno.
  4. Prova a cambiare l'equilibrio di classi e tecniche come sottocampionamento e sovracampionamento per verificare se lo squilibrio di classe potrebbe essere un problema.

Ci sono molti altri approcci a cui riesco a pensare, ma non ho provato. A volte so che queste funzionalità non sono buone e non sono affatto correlate all'etichetta che stiamo cercando di prevedere. Quindi uso quell'intuizione aziendale per terminare l'esercizio, concludendo che abbiamo bisogno di funzionalità migliori o etichette totalmente diverse.

La mia domanda è come fa uno scienziato dei dati a riferire che la classificazione non può essere fatta con queste caratteristiche. Esiste un modo statistico per segnalare questo o inserire prima i dati in diversi algoritmi e guardare la metrica di validazione è l'opzione migliore?


Sento che se questa domanda ha una risposta chiara e obiettiva, allora tutte le attività scientifiche diventano insignificanti. La scienza è arte.
Mephy,

Ah ah sì vero. Sono solo interessato a conoscere più metodi per trovare la separabilità. Più come mostrare statisticamente ai clienti che dedicare più tempo ad alcuni esercizi potrebbe essere inutile.
vc_dim,

1
Suggerisco di eliminare gli ultimi due paragrafi, poiché rendono la domanda troppo aperta / ampia. La prima parte - come gestire e segnalare un risultato non professionale - dovrebbe essere responsabile, e personalmente penso che abbiamo bisogno di più di questo tipo di domanda sull'etichetta professionale di Data Science sul sito.
Neil Slater,

Ha senso Neil. Modificarlo per essere nitido.
vc_dim,

Risposte:


4

Dipende dai tuoi dati. C'è qualcosa chiamato errore a livello umano. Supponiamo che compiti come la lettura di libri stampati, gli umani non abbiano difficoltà a leggere e potrebbe non capitare di commettere un errore se non a causa della cattiva qualità di stampa. In casi come la lettura di manoscritti scritti a mano, può capitare molto di non capire tutte le parole se il carattere dello scrittore è strano per il lettore. Nella prima situazione l'errore a livello umano è troppo basso e gli algoritmi di apprendimento possono avere le stesse prestazioni, ma il secondo esempio illustra il fatto che in alcune situazioni l'errore a livello umano è molto elevato e in modo usuale (se si utilizza lo stesso caratteristiche come esseri umani) il tuo algoritmo di apprendimento avrà così tanto rapporto di errore.

Nell'apprendimento statistico, c'è qualcosa chiamato Bayes Error, ogni volta che la distribuzione delle classi si sovrappone, il rapporto di errore è grande. senza modificare le funzionalità, l'errore Bayes delle attuali distribuzioni è la migliore prestazione e non può essere affatto ridotto.

Ti consiglio anche di leggere qui . I problemi con una grande quantità di errore Bayes con funzionalità nominate non sono considerati classificabili nello spazio di tali funzionalità. Come altro esempio puoi supporre di voler classificare le auto con le luci accese. Se provi a farlo al mattino, tu stesso potresti avere molti errori e se usi le stesse immagini per allenare l'algoritmo di apprendimento, anche quello potrebbe avere.

Inoltre ti consiglio di non cambiare la distribuzione delle tue classi. In tali casi, il risultato del classificatore vicino al confine sarebbe completamente casuale. La distribuzione dei dati per l'addestramento dell'algoritmo di apprendimento automatico non dovrebbe essere modificata e dovrebbe essere come è nella condizione reale.


Questo è utile, non sapevo di Bayes Error. Ho riscontrato difficoltà nel migliorare la precisione dopo aver modificato la distribuzione delle classi. Sono d'accordo che non è una grande idea. Tuttavia, a volte ho provato a cambiare le gerarchie di classi sperando che questa caratteristica potesse rappresentare classi più granulari o astratte (ad esempio, cambiare scimmie, cani e altri in Mammiferi). Penso che se c'è un errore Bayes, anche cambiare la gerarchia di classi non sarà di aiuto.
vc_dim,

@SumitSinghChauhan In realtà in situazioni in cui l'errore Bayes è grande, provare a progettare le funzionalità è la soluzione migliore. Perché l'apprendimento profondo che trova le funzionalità stesse, non può essere utilizzato nei casi in cui il set di dati non è grande.
Media,

5

Prendi un elemento campione da una classe e un elemento campione dall'altra classe. È possibile che questi due elementi abbiano lo stesso vettore di funzione? Se ciò può mai accadere, le due classi non sono completamente separabili utilizzando i vettori di funzionalità correnti (poiché la decisione di classificazione si basa interamente nel vettore di funzionalità per un determinato elemento).

D'altra parte, se * ogni "elemento in una classe ha un elemento corrispondente nell'altra classe in modo tale che i due elementi abbiano gli stessi vettori di caratteristiche, allora le due classi sono indistinguibili usando i vettori di caratteristiche correnti.

Inoltre, se tale condizione vale solo per alcuni dei tuoi elementi e non per altri, allora ti trovi da qualche parte nel mezzo e puoi usarlo come base per misurare quanto bene puoi sperare che un classificatore si esibisca usando il tuo set di funzionalità corrente.

Tutte queste valutazioni possono essere utilizzate per sostenere in varia misura che è necessario estrarre più funzionalità.


1
Grazie Robert. Questo è familiare e sembra giusto. Ho fatto la stessa analisi per alcuni dei progetti. Ho avuto un set di dati con lo stesso vettore di funzionalità che è stato taggato in modo diverso e l'ho usato come base per quanto posso essere preciso. Alcune volte anche la trama della trama della scatola ha aiutato. Finora ho trovato l'approccio che hai appena menzionato il migliore per convincere i clienti.
vc_dim,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.