Un sondaggio sugli strumenti software di data mining


15

Sebbene sia stato addestrato come ingegnere, trovo che sto diventando più interessato al data mining. In questo momento sto cercando di indagare ulteriormente sul campo. In particolare, vorrei comprendere le diverse categorie di strumenti software esistenti e quali strumenti sono notevoli in ciascuna categoria e perché. (Nota che non ho detto gli strumenti "migliori", solo quelli notevoli per non iniziare una guerra di fiamma.) Soprattutto prendi nota degli strumenti che sono open source e disponibili gratuitamente - anche se non intendi questo per dire che Mi interessa solo open-source e gratuito.


1
Consiglio di essere un wiki della comunità.
Tal Galili,

sembra una domanda da fare a casa
Neil McGuigan,

@Tal Certamente, ora convertito.

@el capo - È una domanda molto ampia e generale ... ma temo non sia una domanda da fare a casa.
John Berryman,

Risposte:


7

Questo è probabilmente l'elenco più completo che troverai: mloss.org


Si concentra tuttavia sull'apprendimento automatico, che può essere visto come un campo correlato del data mining, proprio come l'IA. Anche se comunemente è anche sinonimo di utilizzo, in quanto la "previsione" è una delle principali sfide nel data mining. Ma c'è molto di più che "imparare" al data mining.
Ha QUIT - Anony-Mousse

7

Dai un'occhiata a

  • Weka (java, forte in classifica)
  • Orange (scripting in pitone, principalmente classificazione)
  • GNU R (linguaggio R, in qualche modo orientato verso la tabella vettoriale, vedere la taskview di Machine Learning e l' interfaccia utente Rattle )
  • ELKI (Java, forte sul clustering e rilevamento anomalo, supporto della struttura dell'indice per accelerazioni, elenco algoritmi )
  • Mahout (Java, appartiene a Hadoop, se si dispone di un cluster e enormi set di dati)

e il repository UCI Machine Learning per set di dati.


1
potresti aggiungere Red-R all'elenco (tipo di clone di Orange in R): red-r.org
Amro

Ho scaricato R e ci sto giocando ora.
John Berryman,

@Amro Grazie! Tuttavia, non è disponibile sulla piattaforma Mac, a meno che non mi sbagli?
chl

Non sono un utente Mac, ma penso che la build di Linux potrebbe funzionare per te (devi installare manualmente tutte le dipendenze di Python): red-r.org/forum/topic.php?id=22#post-76
Amro

@Amro ci proverò; in passato ho testato RAnalyticFlow ( j.mp/bYF8xs ) ma non mi sono convinto: sono fondamentalmente un utente CLI :-)
chl


3

Dai un'occhiata a KNIME .

Molto facile da imparare Con un sacco di spazio per ulteriori progressi. Si integra perfettamente con Weka e R.




2

C'è ELKI , un progetto universitario open source in qualche modo paragonabile a WEKA, ma molto più forte quando si tratta di clustering e rilevamento anomalo. WEKA in realtà non è in realtà un data mining, ma un software di apprendimento automatico.


1

C'è questo Red-R che ha una bella interfaccia grafica e un'interfaccia di programmazione visiva. Usa R per elaborare le varie analisi dei dati.



0

SQL Server Data Mining (SSDM) non è stato aggiornato da molto tempo, ma è ancora abbastanza competitivo se si esegue il mining di database e cubi relazionali di grandi dimensioni. Sto lentamente ma sistematicamente cercando i test di quanti più strumenti di mining possibile e l'interfaccia di SQL Server per Windows è la più produttiva e stabile che abbia mai trovato (soprattutto quando si tratta di database aziendali, alcuni dei quali hanno sorprendentemente interfacce sciatte) nonostante la sua età. Preferirei una moderna interfaccia Windows Presentation Foundation (WPF), ma questa è la cosa migliore in assoluto.

Ho scritto un'intera serie di tutorial amatoriali dettagliati intitolati A Rickety Stairway to SQL Server Data Mining , quando stavo cercando di acquisire alcune competenze di base nel mining. Nonostante la mia inesperienza, sono ancora utili per aiutare a identificare in anticipo alcuni "gotchas".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.