Algoritmo Apriori in inglese?


9

Ho letto l'articolo wiki su Apriori. Ho il problema di comprendere la prugna e il passaggio Partecipa. Qualcuno può spiegarmi come funziona l'algoritmo Apriori in termini semplici (in modo che Novice come me possa capire facilmente)?

Sarebbe utile se qualcuno spiegasse il processo graduale coinvolto in esso.


Potresti essere interessato alla mia implementazione in Python .
Martin Thoma,

Risposte:


11

L' articolo di Wikipedia non è particolarmente impressionante. Potresti trovare queste diapositive più utili: 1 , 2 , 3 .

Ad ogni livello , hai insiemi -item che sono frequenti (hanno un supporto sufficiente). kk

Al livello successivo, i set di elementi + che devi considerare devono avere la proprietà che ciascuno dei loro sottoinsiemi deve essere frequente (avere un supporto sufficiente). Questa è la proprietà apriori : qualsiasi sottoinsieme di articoli frequenti deve essere frequente.k1

Quindi, se sai al livello 2 che i set , , e sono gli unici set con supporto sufficiente, allora al livello 3 si uniscono tra loro per produrre , , e ma devi solo considerare ulteriormente: gli altri hanno sottoinsiemi con supporto insufficiente (come o ).{1,2}{1,3}{1,5}{3,5}{1,2,3}{1,2,5}{1,3,5}{2,3,5}{1,3,5}{2,3}{2,5}


2

L'algoritmo Apriori è un algoritmo di mining delle regole di associazione utilizzato nel data mining. Viene utilizzato per trovare il set di articoli frequenti tra il numero specificato di transazioni.

Si compone sostanzialmente di due passaggi

  1. Self-Join
  2. Potatura

Ripetendo questi passaggi k volte, dove k è il numero di elementi, nell'ultima iterazione si ottengono insiemi di oggetti frequenti contenenti k articoli.

Guarda qui una spiegazione molto semplice con un esempio dettagliato http://nikhilvithlani.blogspot.com/2012/03/apriori-algorithm-for-data-mining-made.html .

Ha una spiegazione semplice senza equazioni complicate.


2
Ho lasciato questo avviso perché di solito è meglio fornire un riepilogo dei punti principali che si desidera enfatizzare piuttosto che collegarsi a un blog senza ulteriori spiegazioni. Inoltre, lo scopo di questo sito è quello di costruire una raccolta di risposte consapevoli a domande specifiche con dipendenze minime da collegamenti sospesi o effimeri. Quindi, a meno che tu non possa garantire che il link sopra sarà ancora attivo tra 10 anni, diciamo, ti incoraggio vivamente a riassumere i suoi punti principali nella presente risposta.
chl

1

Apriori in un inglese semplice.

Apriori utilizza un approccio iterativo noto come ricerca saggia a livello, in cui k-itemset viene utilizzato per esplorare (k + 1) -itemset . Innanzitutto, il set di frequenti 1-itemset si trova scansionando il database per accumulare il conteggio per ogni articolo e raccogliendo quegli articoli che soddisfano il supporto minimo. Il set risultante è indicato come L1 . Successivamente, L1 viene utilizzato per trovare L2 , l'insieme di 2 set di articoli frequenti , che viene utilizzato per trovare L3 e così via, fino a quando non si trovano più K set di articoli . La ricerca di ogni Lk richiede una scansione completa del database.

All'iterazione finale finirai con molti k-itemset che in pratica si chiamano regole di associazione . Per selezionare regole interessanti dall'insieme di tutte le regole possibili vengono applicate varie misure di vincolo come supporto e sicurezza .

Termini e terminologie

  • 1-itemsets significa {a}, {b}, {c}
  • 2-itemsets significa {a, b}, {d, d}, {a, c}
  • K-itemsets significa {i1, i2, i3, ... ik}, {j1, j2, j3, .... jk}

Join step: significa che 1-itemset è fatto per auto-unirsi con se stesso per generare 2-itemset.

Elimina la fase: qui il set risultante dall'unione viene filtrato con la soglia minima di supporto.

set di cardinalità: set risultante dal passaggio di eliminazione.

Supporto = numero di transazioni contenenti 'a' e 'b' / numero totale della transazione.

Supporto => supp (a, b) => p (a U b)

Fiducioso = numero di transazioni contenenti 'a' e 'b' / no di transazione contenente 'a'.

Fiducioso => ​​con (a, b) ==> P (b | a) nient'altro che probabilità condizionata.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.