Usa liblinear su big data per analisi semantiche


17

Uso Libsvm per addestrare i dati e prevedere la classificazione sul problema dell'analisi semantica . Ma ha un problema di prestazioni su dati su larga scala, perché l'analisi semantica riguarda il problema della dimensione n .

L'anno scorso è stato rilasciato Liblinear e può risolvere il collo di bottiglia delle prestazioni. Ma costa troppo memoria . MapReduce è l'unico modo per risolvere il problema dell'analisi semantica sui big data? O ci sono altri metodi che possono migliorare il collo di bottiglia della memoria su Liblinear ?

Risposte:


11

Si noti che esiste una versione precedente di LIBLINEAR trasferita su Apache Spark . Vedi i commenti sulla mailing list per alcuni dettagli iniziali e il sito del progetto .


Grazie per la tua risposta. Sembra diverso da SVM. Lo esaminerò. :)
Puffin GDI

4
Ricordiamo solo che non incoraggiamo il collegamento fuori sede a una risposta perché è facile interrompere i collegamenti, facendo sì che una risorsa della comunità altrimenti utile si trasformi in un vicolo cieco. È sempre meglio inserire la risposta direttamente nel tuo post.
Ana,

1
Sono d'accordo con quello. A questo punto, non esiste quasi più di quel link. Aggiungerò un link al progetto sottostante.
Sean Owen,

10

Puoi controllare vowpal wabbit . È abbastanza popolare per l'apprendimento su larga scala e include disposizioni parallele.

Dal loro sito Web:

VW è l'essenza della velocità nell'apprendimento automatico, in grado di apprendere facilmente da set di dati terafeature. Tramite l'apprendimento parallelo, può superare il throughput di qualsiasi interfaccia di rete di una singola macchina quando si fa l'apprendimento lineare, una novità tra gli algoritmi di apprendimento.


1
Open source e alcuni wiki. Sembra buona. Grazie per il tuo suggerimento :)
Puffin GDI,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.