Scegli l'algoritmo di classificazione binaria

16

Ho un problema di classificazione binaria:

Circa 1000 campioni in set di allenamento
10 attributi, inclusi binari, numerici e categorici

Quale algoritmo è la scelta migliore per questo tipo di problema?

Per impostazione predefinita, inizierò con SVM (preliminare con valori di attributi nominali convertiti in funzioni binarie), poiché è considerato il migliore per dati relativamente puliti e non rumorosi.

— IharS
fonte

15

È difficile dire senza sapere un po 'di più sul set di dati e su come separabile il set di dati si basa sul vettore di funzionalità, ma probabilmente suggerirei di utilizzare foreste casuali estreme su foreste casuali standard a causa del set di campioni relativamente piccolo.

Le foreste casuali estreme sono abbastanza simili alle foreste casuali standard con l'unica eccezione che invece di ottimizzare le spaccature sugli alberi, le foreste casuali estreme fanno le spaccature a caso. Inizialmente questo sembrerebbe negativo, ma in genere significa che hai una generalizzazione e una velocità significativamente migliori, sebbene l'AUC sul tuo set di allenamento sia probabilmente un po 'peggio.

La regressione logistica è anche una scommessa abbastanza solida per questo tipo di attività, anche se con la tua dimensionalità relativamente bassa e le dimensioni ridotte del campione sarei preoccupato per il sovradimensionamento. Potresti voler provare usando K-Nearby Neighbours dal momento che esegue spesso molto volontà con dimensionalità basse, ma di solito non gestisce molto bene le variabili categoriali.

Se dovessi sceglierne uno senza sapere di più sul problema, piazzerei sicuramente le mie scommesse su una foresta casuale estrema, poiché è molto probabile che ti dia una buona generalizzazione su questo tipo di set di dati e gestisce meglio una combinazione di dati numerici e categorici rispetto alla maggior parte degli altri metodi.

— Indico
fonte

bene grazie! Anche se non sono ancora sicuro di poter usare il pacchetto R "randomForest" ( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) per generare ERF. Probabilmente no.

— IharS,

12

Per parametri bassi, dimensioni del campione piuttosto limitate e una regressione logistica del classificatore binario dovrebbe essere abbastanza potente. Puoi usare un algoritmo più avanzato ma probabilmente è eccessivo.

— neone4373
fonte

5

Quando le variabili categoriali sono nel mix, raggiungo le Foreste decisionali casuali, poiché gestisce direttamente le variabili categoriche senza la trasformazione della codifica 1-of-n. Questo perde meno informazioni.

— Sean Owen
fonte

5

SVM lineare dovrebbe essere un buon punto di partenza. Dai un'occhiata a questa guida per scegliere lo stimatore giusto.

— Stanpol
fonte

2

Non consiglierei l'uso di metodi complessi prima. Utilizza inizialmente approcci semplici più veloci (kNN, NBC, ecc.), Quindi avanza attraverso la regressione lineare, la regressione logistica, LDA, CART (RF), KREG e infine i minimi quadrati SVM, SVM con salita a gradiente, ANN e quindi metaheurustica arrampicata euristica in collina con GA, intelligenza di sciame, ottimizzazione delle formiche, ecc.)