Massimo e chiuso frequente - Risposta inclusa


10

My  dataset:
1:A,B,C,E
2:A,C,D,E
3:     B,C,E
4:A,C,D,E
5:    C,D,E
6:    A,D,E

Voglio scoprire i set di oggetti frequenti massimi e i set di oggetti frequenti chiusi .

  • Il set di oggetti frequenti è massimo se non ha superset frequenti.XF
  • L'elemento frequente impostato X ∈ F è chiuso se non ha superset con la stessa frequenza

Quindi ho contato il verificarsi di ogni set di elementi.

{A} = 4 ;  {B} = 2  ; {C} = 5  ; {D} = 4  ; {E} = 6

{A,B} = 1; {A,C} = 3; {A,D} = 3; {A,E} = 4; {B,C} = 2; 
{B,D} = 0; {B,E} = 2; {C,D} = 3; {C,E} = 5; {D,E} = 3

{A,B,C} = 1; {A,B,D} = 0; {A,B,E} = 1; {A,C,D} = 2; {A,C,E} = 3; 
{A,D,E} = 3; {B,C,D} = 0; {B,C,E} = 2; {C,D,E} = 3

{A,B,C,D} = 0; {A,B,C,E} = 1; {B,C,D,E} = 0

Supporto minimo impostato su // Molto importante. Grazie Steffen per avermelo ricordato.50

Il massimo è = {A,B,C,E} ?

Non chiuso = {A,B,C,D} and {B,C,D,E} ?

Risposte:


5

Ho trovato una definizione leggermente estesa in questa fonte (che include una buona spiegazione). Ecco una fonte più affidabile (pubblicata): CHARM: un algoritmo efficiente per il mining di set di oggetti chiuso di Mohammed J. Zaki e Ching-jui Hsiao .

Secondo questa fonte:

  • Un set di oggetti viene chiuso se nessuno dei suoi superset immediati ha lo stesso supporto del set di elementi
  • Un set di elementi è al massimo frequente se nessuno dei suoi superset immediati è frequente


Alcune osservazioni:

  • È necessario impostare un min_support (support = il numero di set di articoli contenenti il ​​sottoinsieme di interessi diviso per il numero di tutti i set di articoli) che definisce quale set di articoli è frequente . Un set di elementi è frequente se il suo supporto> = min_support.
  • Per quanto riguarda l'algoritmo, vengono considerati solo i set di articoli con min_support quando si cerca di trovare i set di articoli massimi frequenti e chiusi.
  • L'aspetto importante nella definizione di chiuso è che non importa se esiste un superset immediato con più supporto, contano solo i superset immediati con esattamente lo stesso supporto.
  • massimo frequente => chiuso => ​​frequente, ma non viceversa.

Applicazione all'esempio dell'OP

Nota:

  • Non ho verificato i conteggi del supporto
  • Diciamo min_support = 0,5. Ciò è soddisfatto se min_support_count> = 3
{A} = 4; non chiuso a causa di {A, E}
{B} = 2; non frequente => ignora
{C} = 5; non chiuso a causa di {C, E}
{D} = 4; non chiuso a causa di {D, E}, ma non massimo a causa, ad esempio, {A, D}
{E} = 6; chiuso, ma non massimo a causa, ad esempio, {D, E}

{A, B} = 1; non frequente => ignora
{A, C} = 3; non chiuso a causa di {A, C, E}
{A, D} = 3; non chiuso a causa di {A, D, E}
{A, E} = 4; chiuso, ma non massimo a causa di {A, D, E}
{B, C} = 2; non frequente => ignora
{B, D} = 0; non frequente => ignora
{B, E} = 2; non frequente => ignora
{C, D} = 3; non chiuso a causa di {C, D, E}
{C, E} = 5; chiuso, ma non massimo a causa di {C, D, E}
{D, E} = 4; chiuso, ma non massimo a causa di {A, D, E}

{A, B, C} = 1; non frequente => ignora
{A, B, D} = 0; non frequente => ignora
{A, B, E} = 1; non frequente => ignora
{A, C, D} = 2; non frequente => ignora
{A, C, E} = 3; massimo frequente
{A, D, E} = 3; massimo frequente
{B, C, D} = 0; non frequente => ignora
{B, C, E} = 2; non frequente => ignora
{C, D, E} = 3; massimo frequente

{A, B, C, D} = 0; non frequente => ignora
{A, B, C, E} = 1; non frequente => ignora
{B, C, D, E} = 0; non frequente => ignora

Il collegamento alla fonte è interrotto, solo per farti sapere. E sì, min_support è molto importante, sto usando .50
Mike John,

1
Mi dispiace per quello, risolto.
steffen,

1
ha cambiato min_support = 0,5 <=> min_support_count = 3 e ha cambiato l'applicazione di conseguenza.
steffen,

Usa APRIORI e puoi salvare un sacco di conteggio e costruzione di set di oggetti ...
Ha QUIT - Anony-Mousse

@ Anony-Mousse Conosco APRIORI ... Ho esaminato manualmente i set di articoli per spiegare il concetto di set di articoli frequenti chiusi e massimi nel modo più dettagliato possibile, poiché questa era la fonte di confusione dell'OP (IMHO).
Steffen,

1

Potresti voler leggere sull'algoritmo APRIORI. Evita articoli inutili con potature intelligenti.

{A} = 4 ;  {B} = 2  ; {C} = 5  ; {D} = 4  ; {E} = 6

B non è frequente, rimuovere.

Costruisci e conta due set di oggetti (nessuna magia ancora, tranne che Bè già fuori)

{A,C} = 3; {A,D} = 3; {A,E} = 4; 
{C,D} = 3; {C,E} = 5; {D,E} = 3

Tutti questi sono frequenti (notare che tutto ciò che Bnon poteva essere frequente!)

Ora usa la regola del prefisso. Combina SOLO articoli che iniziano con gli stessi articoli n-1. Rimuovi tutto, dove qualsiasi sottoinsieme non è frequente. Conta gli articoli rimanenti.

{A,C,D} = 2; {A,C,E} = 3; {A,D,E} = 3; 
{C,D,E} = 3

Si noti che {A,C,D}non è frequente. Poiché non esiste un prefisso condiviso, non può esserci un set di elementi frequente più grande!

Nota quanto meno lavoro ho fatto!

Per i set di elementi massimi / chiusi, controllare i sottoinsiemi / superset.

Si noti che, ad esempio {E}=6, e {A,E}=4. {E}è un sottoinsieme, ma ha un supporto maggiore, ovvero è chiuso ma non massimo. {A}non è né, poiché non ha un supporto maggiore di {A,E}, ovvero è ridondante .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.