Quando Naive Bayes funziona meglio di SVM?


17

In un piccolo problema di classificazione del testo che stavo osservando, Naive Bayes ha esibito una prestazione simile o superiore a una SVM ed ero molto confuso.

Mi chiedevo quali fattori decidessero il trionfo di un algoritmo sull'altro. Ci sono situazioni in cui non ha senso usare Naive Bayes su SVM? Qualcuno può far luce su questo?


1
Segui questo link per un tutorial
q12

Risposte:


27

Non esiste una risposta unica su quale sia il miglior metodo di classificazione per un determinato set di dati . Diversi tipi di classificatori dovrebbero essere sempre considerati per uno studio comparativo su un determinato set di dati. Date le proprietà del set di dati, potresti avere alcuni indizi che potrebbero dare la preferenza ad alcuni metodi. Tuttavia, sarebbe comunque consigliabile sperimentare tutto, se possibile.

Naive Bayes Classifier (NBC) e Support Vector Machine (SVM) hanno diverse opzioni tra cui la scelta della funzione del kernel per ciascuna. Sono entrambi sensibili all'ottimizzazione dei parametri (ovvero la selezione di parametri diversi può modificare in modo significativo il loro output) . Quindi, se si ottiene un risultato che mostra che NBC sta funzionando meglio di SVM. Questo vale solo per i parametri selezionati. Tuttavia, per un'altra selezione di parametri, è possibile che SVM funzioni meglio.

In generale, se l'assunzione di indipendenza nella NBC è soddisfatta dalle variabili del set di dati e il grado di sovrapposizione della classe è piccolo (ovvero il potenziale confine di decisione lineare), la NBC dovrebbe ottenere buoni risultati. Per alcuni set di dati, con l'ottimizzazione mediante la selezione della funzione wrapper, ad esempio, NBC può annullare altri classificatori. Anche se raggiunge prestazioni comparabili, NBC sarà più desiderabile a causa della sua alta velocità.

In sintesi, non dovremmo preferire alcun metodo di classificazione se supera gli altri in un contesto poiché potrebbe fallire gravemente in un altro. ( QUESTO È NORMALE NEI PROBLEMI DI DATA MINING ).


7
(+1) Chiamato anche no teorema del pranzo gratuito . Non sono completamente d'accordo con il confronto della sensibilità dei parametri (Single Decision Tree è uno degli approcci più sensibili IMHO), ma non dovremmo discuterne qui :).
Steffen,

@steffen, grazie per il tuo prezioso commento. Esistono molti modi diversi per ottimizzare i modelli e sono d'accordo che non possiamo generalizzare quale modello sia più sensibile in tutti i casi. Per la selezione delle funzionalità, i DT sono, probabilmente, meno sensibili di NBC, ma potrebbe non essere il caso in generale. Modificherò la risposta per considerare il tuo commento e, se vuoi, puoi anche modificarlo. Grazie mille :).
soufanom,

3
+1 per il commento sulla sensibilità dei parametri. Vale anche la pena notare che gran parte della teoria alla base degli SVM si applica ai modelli con un kernel fisso, quindi non appena si tenta di ottimizzare gli iperparametri (che devono essere eseguiti e eseguiti con cura) gran parte delle basi teoriche non si applicano più.
Dikran Marsupial
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.