Sto pensando di utilizzare le librerie Python per fare i miei esperimenti di Machine Learning. Finora mi ero affidato a WEKA, ma nel complesso sono rimasto piuttosto insoddisfatto. Questo principalmente perché ho trovato che WEKA non era così ben supportato (pochissimi esempi, la documentazione è scarsa e il supporto della comunità è meno desiderabile nella mia esperienza) e mi sono trovato in situazioni difficili senza alcun aiuto. Un altro motivo per cui sto contemplando questa mossa è perché mi piace davvero Python (sono nuovo di Python) e non voglio tornare alla programmazione in Java.
Quindi la mia domanda è: cosa sono di più
- globale
- scalabile (funzionalità 100k, esempi 10k) e
- librerie ben supportate per fare ML in Python là fuori?
Sono particolarmente interessato a fare la classificazione del testo, e quindi vorrei usare una libreria che ha una buona collezione di classificatori, metodi di selezione delle caratteristiche (guadagno di informazioni, Chi-Sqaured ecc.) E capacità di pre-elaborazione del testo (stemming, rimozione di stopword , tf-idf ecc.).
Sulla base dei precedenti thread di posta elettronica qui e altrove, finora ho esaminato PyML, scikits-learn e Orange. Come sono state le esperienze delle persone rispetto alle 3 metriche sopra menzionate?
Qualche altro suggerimento?