Differenza tra classificazione e clustering nel data mining? [chiuso]


195

Qualcuno può spiegare qual è la differenza tra classificazione e clustering nel data mining?

Se puoi, fornisci esempi di entrambi per comprendere l'idea principale.

Risposte:


242

In generale, nella classificazione hai una serie di classi predefinite e vuoi sapere a quale classe appartiene un nuovo oggetto.

Il clustering cerca di raggruppare un insieme di oggetti e di scoprire se esiste qualche relazione tra gli oggetti.

Nel contesto dell'apprendimento automatico, la classificazione è apprendimento controllato e il clustering è apprendimento non supervisionato .

Dai anche un'occhiata a Classificazione e clustering su Wikipedia.


3
Grazie per la risposta. Quindi, per quanto ho capito. Nella classificazione ho degli esempi e li raggruppo in una o un'altra classe. Ma nel cluster ho esempi ma non ho classi in cui raggruppare esempi. Quindi nel clustering basato su esempi ho bisogno di trovare clas? Ho ragione o c'è qualcosa di importante da tenere a mente? E per favore puoi fare un esempio? Cordiali saluti, Kristaps
Kristaps,

4
@Kristaps: Penso che tu abbia ragione finora. Ma non trovi necessariamente classi con il clustering. È più che vuoi vedere se un insieme di elementi forma un qualche tipo di relazione (essendo più vicini in qualche modello). Normalmente non trovi le classi (se pensi di usare il clustering per trovare le classi per la classificazione). Questo non è il caso. Invece, all'inizio hai un set di addestramento che consiste in oggetti etichettati (quindi sai a quale classe appartengono). Quindi si addestra un algoritmo di classificazione per assegnare gli articoli alle classi giuste e si verifica
Felix Kling

4
correttezza (cosa che puoi fare, poiché i dati sono etichettati). Un esempio quotidiano di classificazione sarebbe il filtro antispam. Il filtro antispam deve decidere se un messaggio è spam o meno. Puoi anche dire al filtro se una mail è stata classificata erroneamente. Per il clustering, non conosco davvero un esempio. Ma potresti ad esempio prendere 1000 messaggi di Twitter, provare a raggruppare e quindi esaminare quale (e se) relazione espongono i cluster.
Felix Kling,

Credo che sia di classificazione e clustering sono adesso metodo, giusto?
WoooHaaaa, il

@MrROY Se per Classificare intendi: "organizzare (un gruppo di persone o cose) in classi o categorie in base a qualità o caratteristiche condivise". , allora si.
Bitek,

76

Si prega di leggere le seguenti informazioni:

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine


Il clustering non richiede di conoscere il numero di classi.
D1X,

5
@ D1X True. Ecco cosa dice questa risposta ... (numero sconosciuto di classi)
Sayali Sonawane,

57

Se hai posto questa domanda a qualsiasi data mining o persone che imparano automaticamente, useranno il termine apprendimento supervisionato e apprendimento non supervisionato per spiegarti la differenza tra clustering e classificazione. Vorrei prima spiegarti la parola chiave supervisionata e non supervisionata.

Apprendimento supervisionato: supponete di avere un cestino pieno di frutta fresca e il vostro compito è quello di sistemare lo stesso tipo di frutta in un unico posto. supponiamo che i frutti siano mela, banana, ciliegia e uva. così dai tuoi lavori precedenti sai già che, la forma di ogni frutto è facile sistemare lo stesso tipo di frutta in un unico posto. qui il tuo lavoro precedente viene chiamato come dati addestrati nel data mining. così già impari le cose dai tuoi dati addestrati, questo è perché hai una variabile di risposta che ti dice che se un frutto ha così e così caratteristiche è l'uva, come quella per ogni frutto.

Questo tipo di dati otterrai dai dati addestrati. Questo tipo di apprendimento è chiamato apprendimento supervisionato. Questo problema di risoluzione dei tipi rientra nella classificazione. Quindi impari già le cose in modo da poter svolgere il tuo lavoro con sicurezza.

senza supervisione: supponete di avere un cestino pieno di frutta fresca e il vostro compito è quello di sistemare lo stesso tipo di frutta in un unico posto.

Questa volta non sai nulla di quei frutti, stai vedendo questi frutti per la prima volta, quindi come organizzerai lo stesso tipo di frutti.

Quello che farai per primo è assumere il frutto e selezionare qualsiasi carattere fisico di quel particolare frutto. supponiamo che tu abbia preso colore.

Quindi li sistemerai in base al colore, quindi i gruppi saranno qualcosa del genere. GRUPPO COLORE ROSSO: mele e frutti di ciliegia. GRUPPO COLORE VERDE: banane e uva. quindi ora prenderai un altro personaggio fisico come dimensione, quindi ora i gruppi saranno qualcosa del genere. COLORE ROSSO E GRANDE MISURA: mela. COLORE ROSSO E MISURA PICCOLA: frutti di ciliegia. COLORE VERDE E GRANDE FORMATO: banane. COLORE VERDE E PICCOLA MISURA : uva. lavoro fatto lieto fine.

qui non hai imparato nulla prima, significa che non ci sono dati sui treni e nessuna variabile di risposta. Questo tipo di apprendimento è noto come apprendimento senza supervisione. il clustering rientra nell'apprendimento non supervisionato.


18

+ Classificazione: ti vengono dati alcuni nuovi dati, devi impostare una nuova etichetta per loro.

Ad esempio, un'azienda vuole classificare i propri potenziali clienti. Quando arriva un nuovo cliente, devono determinare se si tratta di un cliente che acquisterà i propri prodotti o meno.

+ Clustering: ti viene fornita una serie di transazioni cronologiche che hanno registrato chi ha acquistato cosa.

Utilizzando tecniche di clustering, puoi dire la segmentazione dei tuoi clienti.


3
Direi che "Quando arriva un nuovo cliente, devono determinare se si tratta di un cliente che acquisterà i propri prodotti o meno". è un candidato migliore per la regressione logistica. Un esempio di classificazione sarebbe quello di prevedere se il cliente acquisterà il modello "premium", "standard" o "economico". Esempio di compagnia aerea: pullman, pullman con imbarco anticipato, pullman con spazio extra per le gambe.
GDB,

16

Sono sicuro che alcuni di voi hanno sentito parlare dell'apprendimento automatico. Una dozzina di voi potrebbe persino sapere di cosa si tratta. E un paio di voi potrebbero aver lavorato anche con algoritmi di machine learning. Vedi dove sta andando? Non molte persone hanno familiarità con la tecnologia che sarà assolutamente essenziale tra 5 anni. Siri è apprendimento automatico. Alexa di Amazon è l'apprendimento automatico. I sistemi di raccomandazione di annunci e articoli commerciali sono apprendimento automatico. Proviamo a capire l'apprendimento automatico con una semplice analogia con un bambino di 2 anni. Solo per divertimento, chiamiamolo Kylo Ren

Fonte: blog.printkeg.com

Supponiamo che Kylo Ren abbia visto un elefante. Cosa gli dirà il suo cervello? (Ricorda che ha una capacità di pensiero minima, anche se è il successore di Vader). Il suo cervello gli dirà che ha visto una grande creatura in movimento di colore grigio. Poi vede un gatto e il suo cervello gli dice che è una piccola creatura in movimento di colore dorato. Alla fine, vede una sciabola leggera accanto e il suo cervello gli dice che è un oggetto non vivente con cui può giocare!

Il suo cervello a questo punto sa che la sciabola è diversa dall'elefante e dal gatto, perché la sciabola è qualcosa con cui giocare e non si muove da sola. Il suo cervello può capire così tanto anche se Kylo non sa cosa significa mobile. Questo semplice fenomeno si chiama Clustering.

Fonte: jeffcarpenterblog.tumblr.com

L'apprendimento automatico non è altro che la versione matematica di questo processo. Molte persone che studiano le statistiche si sono rese conto che possono far funzionare alcune equazioni allo stesso modo di quelle cerebrali. Il cervello può raggruppare oggetti simili, il cervello può imparare dagli errori e il cervello può imparare a identificare le cose.

Tutto questo può essere rappresentato con statistiche e la simulazione basata su computer di questo processo è chiamata Machine Learning. Perché abbiamo bisogno della simulazione basata su computer? perché i computer possono fare matematica pesante più velocemente dei cervelli umani. Mi piacerebbe entrare nella parte matematica / statistica dell'apprendimento automatico, ma non vuoi approfondire questo argomento senza prima chiarire alcuni concetti.

Torniamo a Kylo Ren. Diciamo che Kylo raccoglie la sciabola e inizia a giocarci. Colpisce accidentalmente uno stormtrooper e lo stormtrooper viene ferito. Non capisce cosa sta succedendo e continua a giocare. Successivamente colpisce un gatto e il gatto viene ferito. Questa volta Kylo è sicuro di aver fatto qualcosa di brutto e cerca di stare un po 'attento. Ma date le sue cattive abilità con la sciabola, colpisce l'elefante ed è assolutamente sicuro di essere nei guai. Da quel momento in poi diventa estremamente attento e colpisce di proposito suo padre solo come abbiamo visto in Force Awakens !!

Fonte: joyreactor.com

L'intero processo di apprendimento dal tuo errore può essere imitato con equazioni, dove la sensazione di fare qualcosa di sbagliato è rappresentata da un errore o un costo. Questo processo di identificazione di cosa non fare di una sciabola si chiama Classificazione. Il clustering e la classificazione sono le basi assolute dell'apprendimento automatico. Diamo un'occhiata alla differenza tra loro.

Kylo si è differenziato tra animali e sciabola leggera perché il suo cervello ha deciso che le sciabole leggere non possono muoversi da sole e sono quindi diverse. La decisione si basava esclusivamente sugli oggetti presenti (dati) e non è stato fornito alcun aiuto o consiglio esterno. Al contrario, Kylo ha differenziato l'importanza di stare attenti con la sciabola leggera osservando prima cosa può fare colpire un oggetto. La decisione non è stata completamente basata sulla sciabola, ma su cosa potrebbe fare a diversi oggetti. In breve, c'è stato un aiuto qui.

Fonte: pintrest

A causa di questa differenza nell'apprendimento, il clustering è chiamato metodo di apprendimento non supervisionato e la classificazione è chiamata metodo di apprendimento supervisionato. Sono molto diversi nel mondo dell'apprendimento automatico e sono spesso dettati dal tipo di dati presenti. Ottenere dati etichettati (o cose che ci aiutano a imparare, come stormtrooper, elefante e gatto nel caso di Kylo) spesso non è facile e diventa molto complicato quando i dati da differenziare sono grandi. D'altra parte, l'apprendimento senza etichette può avere i suoi svantaggi, come non sapere quali sono i titoli delle etichette. Se Kylo dovesse imparare a stare attento con la sciabola senza alcun esempio o aiuto, non saprebbe cosa farebbe. Saprebbe solo che non si deve fare. È un po 'un'analogia scadente ma hai capito bene!

Stiamo appena iniziando con l'apprendimento automatico. La classificazione stessa può essere la classificazione di numeri continui o la classificazione di etichette. Ad esempio, se Kylo dovesse classificare l'altezza di ogni stormtrooper, ci sarebbero molte risposte perché le altezze possono essere 5.0, 5.01, 5.011, ecc. Ma una semplice classificazione come i tipi di sciabole leggere (rosso, blu verde) avrebbe risposte molto limitate. Infatti possono essere rappresentati con numeri semplici. Il rosso può essere 0, il blu può essere 1 e il verde può essere 2.

Se conosci la matematica di base, sai che 0,1,2 e 5,1,5,01,5,011 sono diversi e sono chiamati rispettivamente numeri discreti e continui. La classificazione dei numeri discreti si chiama Regressione logistica e la classificazione dei numeri continui si chiama Regressione. La regressione logistica è anche conosciuta come classificazione categoriale, quindi non essere confuso quando leggi questo termine altrove

Questa è stata un'introduzione molto basilare all'apprendimento automatico. Mi soffermerò sul lato statistico nel mio prossimo post. Per favore fatemi sapere se ho bisogno di correzioni :)

Seconda parte pubblicata qui . inserisci qui la descrizione dell'immagine


2
Ehi Amit, perché non aggiungi il tuo post sul blog alla risposta anziché solo un link. Link solo le risposte sono disapprovate perché i siti scendono e con esso la risposta.
Mathemats

3
Grazie. Lo farò :)
Amit Juneja

2
"La classificazione dei numeri discreti si chiama Regressione logistica" è un'enorme semplificazione; LR è solo una delle molte tecniche possibili che potrebbero essere utilizzate per la classificazione (altre essendo basate su alberi (RF, GBT / XGB), basate su NN, ecc. "La classificazione dei numeri continui si chiama Regressione" è semplicemente contraddittoria; intendi "La predizione dei numeri continui" .
smci,

7

Sono un nuovo arrivato nel Data Mining, ma come dice il mio libro di testo, si suppone che CLASSICIATION sia un apprendimento supervisionato e un CLUSTERING apprendimento non supervisionato. La differenza tra apprendimento supervisionato e apprendimento non supervisionato può essere trovata qui .


6

Classificazione

È l'assegnazione di classi predefinite a nuove osservazioni , basate sull'apprendimento da esempi.

È uno dei compiti chiave dell'apprendimento automatico.

Clustering (o Cluster Analysis)

Mentre è popolarmente respinto come "classificazione non supervisionata", è piuttosto diverso.

Contrariamente a quanto molti discenti dell'apprendimento automatico ti insegneranno, non si tratta di assegnare "classi" agli oggetti, ma senza averle predefinite. Questa è la visione molto limitata delle persone che hanno fatto troppa classificazione; un tipico esempio di se hai un martello (classificatore), tutto ti sembra un chiodo (problema di classificazione) . Ma è anche il motivo per cui le persone classificate non hanno il controllo del clustering.

Invece, consideralo come scoperta di strutture . Il compito del clustering è trovare una struttura (ad es. Gruppi) nei dati che non conoscevi prima . Il clustering ha avuto successo se hai imparato qualcosa di nuovo. Non è riuscito, se solo avessi la struttura che già conoscevi.

L'analisi dei cluster è un compito chiave del data mining (e del brutto anatroccolo nell'apprendimento automatico, quindi non ascoltare gli studenti che licenziano il clustering).

"L'apprendimento senza supervisione" è in qualche modo un ossimoro

Questo è stato ripetuto su e giù per la letteratura, ma l'apprendimento senza supervisione è perfetto . Non esiste, ma è un ossimoro come "l'intelligence militare".

O l'algoritmo impara dagli esempi (quindi è "apprendimento supervisionato") o non impara. Se tutti i metodi di clustering stanno "imparando", calcolare anche il minimo, il massimo e la media di un set di dati è "apprendimento senza supervisione". Quindi qualsiasi calcolo ha "imparato" il suo output. Quindi il termine "apprendimento senza supervisione" è totalmente privo di significato , significa tutto e niente.

Alcuni algoritmi di "apprendimento non supervisionato" rientrano tuttavia nella categoria di ottimizzazione . Ad esempio k-medie è un'ottimizzazione dei minimi quadrati. Tali metodi si basano su statistiche, quindi non credo che dovremmo etichettarli come "apprendimento non supervisionato", ma invece dovremmo continuare a chiamarli "problemi di ottimizzazione". È più preciso e più significativo. Esistono numerosi algoritmi di clustering che non implicano l'ottimizzazione e che non si adattano bene ai paradigmi di apprendimento automatico. Quindi smetti di spremerli lì sotto l'ombrello "apprendimento incustodito".

C'è un certo "apprendimento" associato al clustering, ma non è il programma che impara. È l'utente che dovrebbe imparare cose nuove sul suo set di dati.


Questa risposta mi ha fatto capire che ero una persona classificata. Mi ha davvero aiutato.
Kta,

Ogni algoritmo di clustering assume un meta modello generale. A proposito, lo stesso vale per l'apprendimento supervisionato, ad esempio le reti neurali (NN). In entrambi i casi (supervisionato e non supervisionato), ottimizziamo i parametri del metamodello generale per adattarli ai dati secondo una funzione di costo (a volte nascosta). (Questa parte è chiamata "apprendimento".) Questo vale sia per il clustering che per la classificazione. In entrambi i casi apprendiamo un modello specifico (basato su un presupposto meta modello generale) tramite ottimizzato in base ai dati presentati. Utilizzando lo specifico modello di clustering ottimizzato siamo in grado di raggruppare i dati in gruppi.
Make42

TL; DR: Hai ragione nel dire che il clustering non è una "classificazione senza supervisione", ma l'apprendimento supervisionato non è un ossimoro - l' apprendimento sta accadendo !
Make42

Dove si trova "l'apprendimento" in DBSCAN, ad esempio?
Ha QUIT - Anony-Mousse

4

Raggruppando, è possibile raggruppare i dati con le proprietà desiderate come il numero, la forma e altre proprietà dei cluster estratti. Mentre, in classificazione, il numero e la forma dei gruppi sono fissi. La maggior parte degli algoritmi di clustering fornisce il numero di cluster come parametro. Tuttavia, esistono alcuni approcci per scoprire il numero appropriato di cluster.


4

Prima di tutto, come affermano molte risposte qui: la classificazione è supervisionata l'apprendimento e il raggruppamento non è supervisionato. Questo significa:

  1. La classificazione ha bisogno di dati etichettati in modo che i classificatori possano essere addestrati su questi dati, e successivamente iniziare a classificare nuovi dati invisibili in base a ciò che conosce. L'apprendimento senza supervisione come il clustering non utilizza dati etichettati e ciò che effettivamente fa è scoprire strutture intrinseche nei dati come gruppi.

  2. Un'altra differenza tra entrambe le tecniche (correlate alla precedente) è il fatto che la classificazione è una forma di problema di regressione discreta in cui l'output è una variabile dipendente categoriale. Considerando che l'output del clustering produce un insieme di sottoinsiemi chiamati gruppi. Anche il modo di valutare questi due modelli è diverso per lo stesso motivo: in classifica devi spesso controllare la precisione e il richiamo, cose come il sovra-adattamento e il sotto-adattamento, ecc. Queste cose ti diranno quanto è buono il modello. Ma nel clustering di solito hai bisogno della visione di ed esperto per interpretare ciò che trovi, perché non sai quale tipo di struttura hai (tipo di gruppo o cluster). Ecco perché il clustering appartiene all'analisi dei dati esplorativi.

  3. Infine, direi che le applicazioni sono la principale differenza tra entrambi. La classificazione come dice la parola, viene utilizzata per discriminare casi che appartengono a una classe o a un'altra, ad esempio un uomo o una donna, un gatto o un cane, ecc. Il clustering viene spesso utilizzato nella diagnosi di malattie mediche, nella scoperta di schemi, eccetera.


3

Classificazione : prevedere risultati in un output discreto => mappare le variabili di input in categorie discrete

inserisci qui la descrizione dell'immagine

Casi d'uso popolari:

  1. Classificazione e-mail: spam o non spam

  2. Prestito di sanzione al cliente: Sì se è in grado di pagare l'IME per l'importo del prestito sanzionato. No se non può

  3. Identificazione delle cellule tumorali tumorali: è critica o non critica?

  4. Analisi dei sentimenti dei tweet: il tweet è positivo, negativo o neutro

  5. Classificazione delle notizie: classifica le notizie in una delle classi predefinite - Politica, Sport, Salute ecc

Clustering : è il compito di raggruppare un insieme di oggetti in modo tale che gli oggetti nello stesso gruppo (chiamato cluster) siano più simili (in un certo senso) tra loro rispetto a quelli di altri gruppi (cluster)

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

Casi d'uso popolari:

  1. Marketing: scopri i segmenti di clienti a fini di marketing

  2. Biologia: classificazione tra diverse specie di piante e animali

  3. Biblioteche: raggruppare libri diversi sulla base di argomenti e informazioni

  4. Assicurazione: riconoscere i clienti, le loro politiche e identificare le frodi

  5. Pianificazione urbana: creare gruppi di case e studiare i loro valori in base alla posizione geografica e ad altri fattori.

  6. Studi sui terremoti: identificare le zone pericolose

  7. Sistema di raccomandazione :

Riferimenti:

geeksforgeeks

dataaspirant

3leafnodes


2

Classificazione - Prevede etichette di classe categoriche - Classifica i dati (costruisce un modello) in base a un set di addestramento e i valori (etichette di classe) in un attributo di etichetta di classe - Utilizza il modello nella classificazione di nuovi dati

Cluster: una raccolta di oggetti dati - Simile l'uno all'altro all'interno dello stesso cluster - Diverso dagli oggetti in altri cluster


2

Il clustering mira a trovare gruppi nei dati. "Cluster" è un concetto intuitivo e non ha una definizione matematicamente rigorosa. I membri di un cluster dovrebbero essere simili tra loro e dissimili dai membri di altri cluster. Un algoritmo di clustering opera su un set di dati senza etichetta Z e produce una partizione su di esso.

Per le classi e le etichette di classe, la classe contiene oggetti simili, mentre gli oggetti di classi diverse sono diversi. Alcune classi hanno un significato ben definito e, nel caso più semplice, si escludono a vicenda. Ad esempio, nella verifica della firma, la firma è autentica o falsa. La vera classe è una delle due, indipendentemente dal fatto che potremmo non essere in grado di indovinare correttamente dall'osservazione di una particolare firma.


2

Il clustering è un metodo per raggruppare gli oggetti in modo tale che gli oggetti con caratteristiche simili si uniscono e gli oggetti con caratteristiche diverse vanno in pezzi. È una tecnica comune per l'analisi dei dati statistici utilizzata nell'apprendimento automatico e nel data mining.

La classificazione è un processo di categorizzazione in cui gli oggetti vengono riconosciuti, differenziati e compresi sulla base dell'insieme di dati di addestramento. La classificazione è una tecnica di apprendimento supervisionato in cui sono disponibili un set di formazione e osservazioni correttamente definite.


2

Dal libro Mahout in azione, e penso che spieghi molto bene la differenza:

Gli algoritmi di classificazione sono correlati, ma ancora abbastanza diversi, da algoritmi di clustering come l'algoritmo k-mean.

Gli algoritmi di classificazione sono una forma di apprendimento supervisionato, al contrario dell'apprendimento non supervisionato, che si verifica con gli algoritmi di clustering.

Un algoritmo di apprendimento supervisionato è uno che ha fornito esempi che contengono il valore desiderato di una variabile target. Gli algoritmi senza supervisione non ricevono la risposta desiderata, ma devono trovare qualcosa di plausibile da soli.


2

Una fodera per la classificazione:

Classificazione dei dati in categorie predefinite

Una fodera per il clustering:

Raggruppare i dati in un insieme di categorie

Differenza chiave:

La classificazione sta prendendo i dati e li inserisce in categorie predefinite e in Clustering l'insieme di categorie, in cui si desidera raggruppare i dati, non è noto in anticipo.

Conclusione:

  • La classificazione assegna la categoria a 1 nuovo elemento, in base agli elementi già etichettati mentre il clustering prende un gruppo di elementi senza etichetta e li divide in categorie
  • In Classificazione, le categorie \ gruppi da dividere sono note in anticipo mentre in Cluster, le categorie \ gruppi da dividere sono sconosciute in anticipo
  • In Classificazione, ci sono 2 fasi - Fase di allenamento e poi la fase di test mentre in Clustering, c'è solo 1 fase - divisione dei dati di allenamento in cluster
  • La classificazione è apprendimento supervisionato mentre il clustering è apprendimento non supervisionato

Ho scritto un lungo post sullo stesso argomento che puoi trovare qui:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/


1

Se stai cercando di archiviare un gran numero di fogli sul tuo scaffale (in base alla data o ad altre specifiche del file), stai CLASSIFICANDO.

Se dovessi creare gruppi dall'insieme di fogli, significherebbe che c'è qualcosa di simile tra i fogli.


1

Esistono due definizioni nel data mining "Supervisionato" e "Non supervisionato". Quando qualcuno dice al computer, all'algoritmo, al codice, ... che questa cosa è come una mela e quella cosa che è come un'arancia, questo è l'apprendimento supervisionato e l'uso dell'apprendimento supervisionato (come tag per ogni campione in un set di dati) per classificare il dati, otterrai la classificazione. D'altra parte, se si lascia che il computer scopra cosa è cosa e si differenzia tra le funzionalità del set di dati dato, in effetti l'apprendimento non supervisionato, per classificare il set di dati questo si chiamerebbe clustering. In questo caso i dati forniti all'algoritmo non hanno tag e l'algoritmo dovrebbe scoprire classi diverse.


1

L'apprendimento automatico o l'intelligenza artificiale sono in gran parte percepiti dal compito che svolge / realizza.

A mio avviso, pensando al Clustering e alla Classificazione in termini di attività che riescono a raggiungere, può davvero aiutare a capire la differenza tra i due.

Il clustering è raggruppare le cose e la classificazione è, in un certo senso, etichettare le cose.

Supponiamo che tu sia in una sala delle feste dove tutti gli uomini sono in giacca e cravatta e le donne sono in abiti.

Ora fai alcune domande al tuo amico:

Q1: Heyy, puoi aiutarmi a raggruppare le persone?

Le possibili risposte che il tuo amico può dare sono:

1: può raggruppare le persone in base al genere, al maschio o alla femmina

2: Può raggruppare le persone in base ai loro vestiti, 1 indossa abiti e altri abiti

3: può raggruppare le persone in base al colore dei loro capelli

4: Può raggruppare le persone in base alla loro età, ecc. Ecc. Ecc.

Sono numerosi i modi in cui il tuo amico può completare questo compito.

Naturalmente, puoi influenzare il suo processo decisionale fornendo input extra come:

Potete aiutarmi a raggruppare queste persone in base al sesso (o alla fascia di età, al colore dei capelli o al vestito ecc.)

Q2:

Prima del secondo trimestre, è necessario eseguire alcuni pre-lavori.

Devi insegnare o informare il tuo amico in modo che possa prendere una decisione informata. Quindi, supponiamo che tu abbia detto al tuo amico che:

  • Le persone con i capelli lunghi sono donne.

  • Le persone con i capelli corti sono uomini.

Q2. Ora, fai notare a una persona con i capelli lunghi e chiedi al tuo amico: è un uomo o una donna?

L'unica risposta che puoi aspettarti è: la donna.

Naturalmente, ci possono essere uomini con i capelli lunghi e donne con i capelli corti durante la festa. Ma la risposta è corretta in base all'apprendimento che hai fornito al tuo amico. Puoi migliorare ulteriormente il processo insegnando di più al tuo amico su come distinguere tra i due.

Nell'esempio sopra,

Q1 rappresenta il compito raggiunto dal Clustering.

In Cluster fornisci i dati (persone) all'algoritmo (il tuo amico) e chiedi di raggruppare i dati.

Ora tocca all'algoritmo decidere qual è il modo migliore per raggruppare? (Genere, colore o fascia d'età).

Ancora una volta, puoi sicuramente influenzare la decisione presa dall'algoritmo fornendo input extra.

Q2 rappresenta l'attività raggiunta dalla classificazione.

Lì, dai al tuo algoritmo (il tuo amico) alcuni dati (Persone), chiamati come dati di Allenamento, e gli fai conoscere quali dati corrispondono a quale etichetta (Maschio o Femmina). Quindi si punta l'algoritmo su determinati dati, chiamati come dati di test, e gli si chiede di determinare se è maschio o femmina. Migliore è il tuo insegnamento, migliore è la previsione.

E il pre-lavoro in Q2 o Classificazione non è altro che l'addestramento del modello in modo che possa imparare a differenziare. In Clustering o Q1 questa pre-opera è la parte del raggruppamento.

Spero che questo aiuti qualcuno.

Grazie


1

inserisci qui la descrizione dell'immagine

Classificazione : un set di dati può avere diversi gruppi / classi. rosso, verde e nero. La classificazione proverà a trovare regole che le dividano in diverse classi.

Custering- se un set di dati non ha alcuna classe e si desidera inserirle in una classe / raggruppamento, si esegue il clustering. I cerchi viola sopra.

Se le regole di classificazione non sono buone, si avrà una classificazione errata nei test o le regole di ur non sono abbastanza corrette.
se il clustering non è buono, avrai molti valori anomali, ad es. i punti dati non possono rientrare in nessun cluster.


1

Le principali differenze tra classificazione e clustering sono: la classificazione è il processo di classificazione dei dati con l'aiuto delle etichette di classe. D'altra parte, il clustering è simile alla classificazione ma non ci sono etichette di classe predefinite. La classificazione è orientata all'apprendimento supervisionato. Al contrario, il clustering è anche noto come apprendimento non supervisionato. Il campione di addestramento viene fornito nel metodo di classificazione, mentre nel caso di clustering non vengono forniti i dati di addestramento.

Spero che questo possa aiutare!


-1

Credo che la classificazione stia classificando i record in un set di dati in classi predefinite o persino definendo le classi in movimento. Lo guardo come prerequisito per qualsiasi prezioso data mining, mi piace pensarlo ad un apprendimento non supervisionato, cioè non si sa cosa sta cercando mentre si estrae i dati e la classificazione serve come un buon punto di partenza

Il clustering dall'altra parte rientra nell'apprendimento supervisionato, cioè si sa quali parametri cercare, la correlazione tra loro insieme a livelli critici. Credo che richieda una certa comprensione delle statistiche e della matematica


3
In realtà è il contrario. La classificazione è di solito controllata e il clustering è di solito senza supervisione.
AlexK,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.