Buoni pacchetti di "mining sequenziale frequente" in Python?


12

Qualcuno ha usato (e apprezzato) qualche buon pacchetto di "mining di sequenze frequenti" in Python diverso dall'FPM in MLLib? Sto cercando un pacchetto stabile, preferibilmente fermo gestito da persone. Grazie!

Risposte:


6

L'unico che ho trovato è: https://github.com/bartdag/pymining

hanno un'implementazione di BIDElì ma non è un codice gestito.

PS Mi sto unendo alla tua domanda: - |


Giusto per chiarire, non ha implementato BIDE che estrae frequenti sequenze chiuse. In realtà ha implementato PrefixSpan che estrae tutte le sequenze frequenti. PrefixSpan e BIDE condividono lo stesso framework di enumerazione dei pattern, ed è per questo che gli autori hanno citato il documento BIDE.
Chuancong Gao,

Viene utilizzato ciò che ho fatto alla fine: philippe-fournier-viger.com/spmf - È una lib JAVA ma l'ho avvolta con Python per soddisfare le mie esigenze
Yossico,

6

Mantengo attivamente un'implementazione efficiente di PrefixSpan e BIDE in Python 3, supportando il mining sia di sequenze frequenti che top-k (chiuse).

https://github.com/chuanconggao/PrefixSpan-py


Mi piacerebbe implementarli in javascript, ma non capisco bene come funzionano questi algoritmi. Puoi spiegarlo in un inglese semplice?
inf3rno,

Ti suggerisco di controllare la mia implementazione minima originale di PrefixSpan. La sua parte centrale prende solo 15 linee. gist.github.com/chuanconggao/4df9c1b06fa7f3ed854d5d96e2ae499f
Chuancong Gao

Grazie! Proverò a tradurlo in js, ma non sarà facile. :-) Afaik PrefixSpan sta costruendo database proiettati in base alla corrispondenza del prefisso. Attualmente sto leggendo di BIDE, che la teoria è un algoritmo ancora migliore.
inf3rno,

Ci sono troppe differenze tra le raccolte js e python. Non sono riuscito a riprodurre il codice in js. Ci proverò più tardi.
inf3rno,

Non sono sicuro che possa aiutare, ma ho un'altra versione Scala di PrefixSpan. github.com/chuanconggao/PrefixSpan-scala Tuttavia, consiglio vivamente di comprendere appieno l'algoritmo prima di implementare.
Chuancong Gao,

1

Ho usato la funzione fpgrowth di fim in passato e ha funzionato bene. È un po 'una seccatura da installare su macchine Windows. Sembra essere un sito web accademico, quindi non sono sicuro che stiano facendo molti aggiornamenti al codice nel tempo ...


1

Hai pensato di scriverlo da solo? Perché al momento probabilmente non esiste una libreria aggiornata.

Dai un'occhiata, è la base: i modelli PrefixSpan e Closed / Maximal in realtà non sono così difficili da implementare:

http://sequenceanalysis.github.io/


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.