Qual è la differenza pratica tra regole di associazione e alberi decisionali nel data mining?


19

Esiste una descrizione davvero semplice delle differenze pratiche tra queste due tecniche?

  • Entrambi sembrano essere utilizzati per l'apprendimento supervisionato (anche se le regole di associazione possono anche gestire senza supervisione).

  • Entrambi possono essere utilizzati per la previsione

La più vicina che ho trovato ad una descrizione "buona" è dal libro di testo di Statoft . Dicono che le Regole dell'Associazione sono usate per:

... rileva relazioni o associazioni tra valori specifici di variabili categoriche in grandi set di dati.

Mentre i classificatori dell'albero delle decisioni sono descritti come utilizzati per:

... prevedere l'appartenenza di casi o oggetti nelle classi di una variabile dipendente categoriale dalle loro misurazioni su una o più variabili predittive.

Tuttavia, oltre a R Data Mining, forniscono un esempio delle regole di associazione utilizzate con un campo obiettivo .

Quindi, entrambi possono essere utilizzati per prevedere l'appartenenza al gruppo, è la differenza fondamentale che gli alberi decisionali possono gestire dati di input non categorici mentre le regole di associazione non possono? O c'è qualcosa di più fondamentale? Un sito ( sqlserverdatamining.com ) afferma che la differenza chiave è:

Le regole degli alberi decisionali si basano sull'acquisizione di informazioni mentre le regole di associazione si basano sulla popolarità e / o sulla fiducia.

Quindi (possibilmente rispondendo alla mia domanda) significa che le regole di associazione vengono valutate esclusivamente sulla frequenza con cui compaiono nel set di dati (e quanto spesso sono "vere") mentre gli alberi delle decisioni stanno effettivamente cercando di minimizzare la varianza?

Se qualcuno fosse a conoscenza di una buona descrizione, sarebbero disposti a indicarmi che sarebbe fantastico.

Risposte:


14

F=F1,...,FmCFCF

t1={io1,io2}t2={io1,io3,io4,io5}t3={io2,io3,io4,io5}tn={io2,io3,io4,io5}
{io3,io5}{io4}

Si scopre che è possibile utilizzare l'analisi delle associazioni per alcune attività di classificazione specifiche, ad esempio quando tutte le funzionalità sono categoriche. Devi solo vedere gli elementi come funzionalità, ma non è per questo che è nata l'analisi dell'associazione.


3
  • "Le regole di associazione mirano a trovare tutte le regole al di sopra delle soglie indicate che coinvolgono sottoinsiemi di record sovrapposti, mentre gli alberi decisionali trovano regioni nello spazio in cui la maggior parte dei record appartiene alla stessa classe. D'altra parte, gli alberi decisionali possono mancare molte regole predittive trovate dalle regole di associazione perché si suddividono successivamente in sottoinsiemi più piccoli. Quando una regola trovata da un albero decisionale non viene trovata dalle regole di associazione, è perché un vincolo ha eliminato lo spazio di ricerca o perché il supporto o la fiducia erano troppo alti. "

  • "Gli algoritmi delle regole di associazione possono essere lenti, nonostante molte ottimizzazioni proposte in letteratura perché lavorano su uno spazio combinatorio, mentre gli alberi delle decisioni possono essere comparativamente molto più veloci perché ogni divisione ottiene successivamente sottoinsiemi di record più piccoli".

  • Un altro problema è che gli alberi decisionali possono ripetere più volte lo stesso attributo per la stessa regola perché tale attributo è un buon discriminatore. Questo non è un grosso problema poiché le regole sono congiunzioni e quindi la regola può essere semplificata in un intervallo per l'attributo, ma tale intervallo sarà generalmente piccolo e la regola troppo specifica. "

Estratti da:

Ordonez, C., & Zhao, K. (2011). Valutazione delle regole di associazione e degli alberi decisionali per prevedere più attributi di destinazione. Intelligent Data Analysis, 15 (2), 173–192.

Un bell'articolo che tratta questo argomento, che vale sicuramente la pena leggere.


2

Potremmo sostenere che sia le regole di associazione che gli alberi delle decisioni suggeriscono un insieme di regole per l'utente e quindi entrambi sono simili, ma dobbiamo comprendere la differenza teorica tra gli alberi delle decisioni e le regole di associazione e inoltre come le regole suggerite da entrambi sono diverse nel significato o in uso.

Innanzitutto, l' albero delle decisioni è un approccio supervisionato in cui l'algoritmo tenta di prevedere un "risultato". Un tipico esempio di "risultato" nelle situazioni della vita reale potrebbe essere, ad esempio, abbandono, frode, risposta a una campagna, ecc. Quindi, le regole dell'albero decisionale vengono utilizzate per prevedere un risultato.

L'apprendimento delle regole di associazione è un approccio non supervisionato in cui l'algoritmo tenta di trovare associazioni tra elementi, spesso all'interno di grandi database commerciali. Un esempio tipico di un grande database commerciale è quello che contiene le transazioni dei rivenditori, come la cronologia degli acquisti dei clienti su un sito Web di e-commerce. Gli articoli potrebbero essere prodotti acquistati nei negozi o film guardati su una piattaforma di streaming online. L'apprendimento delle regole di associazione riguarda il modo in cui l'acquisto di un prodotto sta inducendo l'acquisto di un altro prodotto.

In secondo luogo, gli alberi decisionali sono costruiti sulla base di alcune metriche di impurità / incertezza, ad esempio il guadagno di informazioni, il coefficiente di Gini o l'entropia, mentre le regole di associazione sono derivate in base al supporto, alla fiducia e all'elevazione.

In terzo luogo, poiché l'albero delle decisioni è un approccio "supervisionato", la sua accuratezza è misurabile, mentre l'apprendimento delle regole di associazione è un approccio "non supervisionato", e quindi la sua accuratezza è soggettiva.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.