Risposte:
In generale, nella classificazione hai una serie di classi predefinite e vuoi sapere a quale classe appartiene un nuovo oggetto.
Il clustering cerca di raggruppare un insieme di oggetti e di scoprire se esiste qualche relazione tra gli oggetti.
Nel contesto dell'apprendimento automatico, la classificazione è apprendimento controllato e il clustering è apprendimento non supervisionato .
Dai anche un'occhiata a Classificazione e clustering su Wikipedia.
Se hai posto questa domanda a qualsiasi data mining o persone che imparano automaticamente, useranno il termine apprendimento supervisionato e apprendimento non supervisionato per spiegarti la differenza tra clustering e classificazione. Vorrei prima spiegarti la parola chiave supervisionata e non supervisionata.
Apprendimento supervisionato: supponete di avere un cestino pieno di frutta fresca e il vostro compito è quello di sistemare lo stesso tipo di frutta in un unico posto. supponiamo che i frutti siano mela, banana, ciliegia e uva. così dai tuoi lavori precedenti sai già che, la forma di ogni frutto è facile sistemare lo stesso tipo di frutta in un unico posto. qui il tuo lavoro precedente viene chiamato come dati addestrati nel data mining. così già impari le cose dai tuoi dati addestrati, questo è perché hai una variabile di risposta che ti dice che se un frutto ha così e così caratteristiche è l'uva, come quella per ogni frutto.
Questo tipo di dati otterrai dai dati addestrati. Questo tipo di apprendimento è chiamato apprendimento supervisionato. Questo problema di risoluzione dei tipi rientra nella classificazione. Quindi impari già le cose in modo da poter svolgere il tuo lavoro con sicurezza.
senza supervisione: supponete di avere un cestino pieno di frutta fresca e il vostro compito è quello di sistemare lo stesso tipo di frutta in un unico posto.
Questa volta non sai nulla di quei frutti, stai vedendo questi frutti per la prima volta, quindi come organizzerai lo stesso tipo di frutti.
Quello che farai per primo è assumere il frutto e selezionare qualsiasi carattere fisico di quel particolare frutto. supponiamo che tu abbia preso colore.
Quindi li sistemerai in base al colore, quindi i gruppi saranno qualcosa del genere. GRUPPO COLORE ROSSO: mele e frutti di ciliegia. GRUPPO COLORE VERDE: banane e uva. quindi ora prenderai un altro personaggio fisico come dimensione, quindi ora i gruppi saranno qualcosa del genere. COLORE ROSSO E GRANDE MISURA: mela. COLORE ROSSO E MISURA PICCOLA: frutti di ciliegia. COLORE VERDE E GRANDE FORMATO: banane. COLORE VERDE E PICCOLA MISURA : uva. lavoro fatto lieto fine.
qui non hai imparato nulla prima, significa che non ci sono dati sui treni e nessuna variabile di risposta. Questo tipo di apprendimento è noto come apprendimento senza supervisione. il clustering rientra nell'apprendimento non supervisionato.
+ Classificazione: ti vengono dati alcuni nuovi dati, devi impostare una nuova etichetta per loro.
Ad esempio, un'azienda vuole classificare i propri potenziali clienti. Quando arriva un nuovo cliente, devono determinare se si tratta di un cliente che acquisterà i propri prodotti o meno.
+ Clustering: ti viene fornita una serie di transazioni cronologiche che hanno registrato chi ha acquistato cosa.
Utilizzando tecniche di clustering, puoi dire la segmentazione dei tuoi clienti.
Sono sicuro che alcuni di voi hanno sentito parlare dell'apprendimento automatico. Una dozzina di voi potrebbe persino sapere di cosa si tratta. E un paio di voi potrebbero aver lavorato anche con algoritmi di machine learning. Vedi dove sta andando? Non molte persone hanno familiarità con la tecnologia che sarà assolutamente essenziale tra 5 anni. Siri è apprendimento automatico. Alexa di Amazon è l'apprendimento automatico. I sistemi di raccomandazione di annunci e articoli commerciali sono apprendimento automatico. Proviamo a capire l'apprendimento automatico con una semplice analogia con un bambino di 2 anni. Solo per divertimento, chiamiamolo Kylo Ren
Supponiamo che Kylo Ren abbia visto un elefante. Cosa gli dirà il suo cervello? (Ricorda che ha una capacità di pensiero minima, anche se è il successore di Vader). Il suo cervello gli dirà che ha visto una grande creatura in movimento di colore grigio. Poi vede un gatto e il suo cervello gli dice che è una piccola creatura in movimento di colore dorato. Alla fine, vede una sciabola leggera accanto e il suo cervello gli dice che è un oggetto non vivente con cui può giocare!
Il suo cervello a questo punto sa che la sciabola è diversa dall'elefante e dal gatto, perché la sciabola è qualcosa con cui giocare e non si muove da sola. Il suo cervello può capire così tanto anche se Kylo non sa cosa significa mobile. Questo semplice fenomeno si chiama Clustering.
L'apprendimento automatico non è altro che la versione matematica di questo processo. Molte persone che studiano le statistiche si sono rese conto che possono far funzionare alcune equazioni allo stesso modo di quelle cerebrali. Il cervello può raggruppare oggetti simili, il cervello può imparare dagli errori e il cervello può imparare a identificare le cose.
Tutto questo può essere rappresentato con statistiche e la simulazione basata su computer di questo processo è chiamata Machine Learning. Perché abbiamo bisogno della simulazione basata su computer? perché i computer possono fare matematica pesante più velocemente dei cervelli umani. Mi piacerebbe entrare nella parte matematica / statistica dell'apprendimento automatico, ma non vuoi approfondire questo argomento senza prima chiarire alcuni concetti.
Torniamo a Kylo Ren. Diciamo che Kylo raccoglie la sciabola e inizia a giocarci. Colpisce accidentalmente uno stormtrooper e lo stormtrooper viene ferito. Non capisce cosa sta succedendo e continua a giocare. Successivamente colpisce un gatto e il gatto viene ferito. Questa volta Kylo è sicuro di aver fatto qualcosa di brutto e cerca di stare un po 'attento. Ma date le sue cattive abilità con la sciabola, colpisce l'elefante ed è assolutamente sicuro di essere nei guai. Da quel momento in poi diventa estremamente attento e colpisce di proposito suo padre solo come abbiamo visto in Force Awakens !!
L'intero processo di apprendimento dal tuo errore può essere imitato con equazioni, dove la sensazione di fare qualcosa di sbagliato è rappresentata da un errore o un costo. Questo processo di identificazione di cosa non fare di una sciabola si chiama Classificazione. Il clustering e la classificazione sono le basi assolute dell'apprendimento automatico. Diamo un'occhiata alla differenza tra loro.
Kylo si è differenziato tra animali e sciabola leggera perché il suo cervello ha deciso che le sciabole leggere non possono muoversi da sole e sono quindi diverse. La decisione si basava esclusivamente sugli oggetti presenti (dati) e non è stato fornito alcun aiuto o consiglio esterno. Al contrario, Kylo ha differenziato l'importanza di stare attenti con la sciabola leggera osservando prima cosa può fare colpire un oggetto. La decisione non è stata completamente basata sulla sciabola, ma su cosa potrebbe fare a diversi oggetti. In breve, c'è stato un aiuto qui.
A causa di questa differenza nell'apprendimento, il clustering è chiamato metodo di apprendimento non supervisionato e la classificazione è chiamata metodo di apprendimento supervisionato. Sono molto diversi nel mondo dell'apprendimento automatico e sono spesso dettati dal tipo di dati presenti. Ottenere dati etichettati (o cose che ci aiutano a imparare, come stormtrooper, elefante e gatto nel caso di Kylo) spesso non è facile e diventa molto complicato quando i dati da differenziare sono grandi. D'altra parte, l'apprendimento senza etichette può avere i suoi svantaggi, come non sapere quali sono i titoli delle etichette. Se Kylo dovesse imparare a stare attento con la sciabola senza alcun esempio o aiuto, non saprebbe cosa farebbe. Saprebbe solo che non si deve fare. È un po 'un'analogia scadente ma hai capito bene!
Stiamo appena iniziando con l'apprendimento automatico. La classificazione stessa può essere la classificazione di numeri continui o la classificazione di etichette. Ad esempio, se Kylo dovesse classificare l'altezza di ogni stormtrooper, ci sarebbero molte risposte perché le altezze possono essere 5.0, 5.01, 5.011, ecc. Ma una semplice classificazione come i tipi di sciabole leggere (rosso, blu verde) avrebbe risposte molto limitate. Infatti possono essere rappresentati con numeri semplici. Il rosso può essere 0, il blu può essere 1 e il verde può essere 2.
Se conosci la matematica di base, sai che 0,1,2 e 5,1,5,01,5,011 sono diversi e sono chiamati rispettivamente numeri discreti e continui. La classificazione dei numeri discreti si chiama Regressione logistica e la classificazione dei numeri continui si chiama Regressione. La regressione logistica è anche conosciuta come classificazione categoriale, quindi non essere confuso quando leggi questo termine altrove
Questa è stata un'introduzione molto basilare all'apprendimento automatico. Mi soffermerò sul lato statistico nel mio prossimo post. Per favore fatemi sapere se ho bisogno di correzioni :)
Seconda parte pubblicata qui .
Sono un nuovo arrivato nel Data Mining, ma come dice il mio libro di testo, si suppone che CLASSICIATION sia un apprendimento supervisionato e un CLUSTERING apprendimento non supervisionato. La differenza tra apprendimento supervisionato e apprendimento non supervisionato può essere trovata qui .
È l'assegnazione di classi predefinite a nuove osservazioni , basate sull'apprendimento da esempi.
È uno dei compiti chiave dell'apprendimento automatico.
Mentre è popolarmente respinto come "classificazione non supervisionata", è piuttosto diverso.
Contrariamente a quanto molti discenti dell'apprendimento automatico ti insegneranno, non si tratta di assegnare "classi" agli oggetti, ma senza averle predefinite. Questa è la visione molto limitata delle persone che hanno fatto troppa classificazione; un tipico esempio di se hai un martello (classificatore), tutto ti sembra un chiodo (problema di classificazione) . Ma è anche il motivo per cui le persone classificate non hanno il controllo del clustering.
Invece, consideralo come scoperta di strutture . Il compito del clustering è trovare una struttura (ad es. Gruppi) nei dati che non conoscevi prima . Il clustering ha avuto successo se hai imparato qualcosa di nuovo. Non è riuscito, se solo avessi la struttura che già conoscevi.
L'analisi dei cluster è un compito chiave del data mining (e del brutto anatroccolo nell'apprendimento automatico, quindi non ascoltare gli studenti che licenziano il clustering).
Questo è stato ripetuto su e giù per la letteratura, ma l'apprendimento senza supervisione è perfetto . Non esiste, ma è un ossimoro come "l'intelligence militare".
O l'algoritmo impara dagli esempi (quindi è "apprendimento supervisionato") o non impara. Se tutti i metodi di clustering stanno "imparando", calcolare anche il minimo, il massimo e la media di un set di dati è "apprendimento senza supervisione". Quindi qualsiasi calcolo ha "imparato" il suo output. Quindi il termine "apprendimento senza supervisione" è totalmente privo di significato , significa tutto e niente.
Alcuni algoritmi di "apprendimento non supervisionato" rientrano tuttavia nella categoria di ottimizzazione . Ad esempio k-medie è un'ottimizzazione dei minimi quadrati. Tali metodi si basano su statistiche, quindi non credo che dovremmo etichettarli come "apprendimento non supervisionato", ma invece dovremmo continuare a chiamarli "problemi di ottimizzazione". È più preciso e più significativo. Esistono numerosi algoritmi di clustering che non implicano l'ottimizzazione e che non si adattano bene ai paradigmi di apprendimento automatico. Quindi smetti di spremerli lì sotto l'ombrello "apprendimento incustodito".
C'è un certo "apprendimento" associato al clustering, ma non è il programma che impara. È l'utente che dovrebbe imparare cose nuove sul suo set di dati.
Raggruppando, è possibile raggruppare i dati con le proprietà desiderate come il numero, la forma e altre proprietà dei cluster estratti. Mentre, in classificazione, il numero e la forma dei gruppi sono fissi. La maggior parte degli algoritmi di clustering fornisce il numero di cluster come parametro. Tuttavia, esistono alcuni approcci per scoprire il numero appropriato di cluster.
Prima di tutto, come affermano molte risposte qui: la classificazione è supervisionata l'apprendimento e il raggruppamento non è supervisionato. Questo significa:
La classificazione ha bisogno di dati etichettati in modo che i classificatori possano essere addestrati su questi dati, e successivamente iniziare a classificare nuovi dati invisibili in base a ciò che conosce. L'apprendimento senza supervisione come il clustering non utilizza dati etichettati e ciò che effettivamente fa è scoprire strutture intrinseche nei dati come gruppi.
Un'altra differenza tra entrambe le tecniche (correlate alla precedente) è il fatto che la classificazione è una forma di problema di regressione discreta in cui l'output è una variabile dipendente categoriale. Considerando che l'output del clustering produce un insieme di sottoinsiemi chiamati gruppi. Anche il modo di valutare questi due modelli è diverso per lo stesso motivo: in classifica devi spesso controllare la precisione e il richiamo, cose come il sovra-adattamento e il sotto-adattamento, ecc. Queste cose ti diranno quanto è buono il modello. Ma nel clustering di solito hai bisogno della visione di ed esperto per interpretare ciò che trovi, perché non sai quale tipo di struttura hai (tipo di gruppo o cluster). Ecco perché il clustering appartiene all'analisi dei dati esplorativi.
Infine, direi che le applicazioni sono la principale differenza tra entrambi. La classificazione come dice la parola, viene utilizzata per discriminare casi che appartengono a una classe o a un'altra, ad esempio un uomo o una donna, un gatto o un cane, ecc. Il clustering viene spesso utilizzato nella diagnosi di malattie mediche, nella scoperta di schemi, eccetera.
Classificazione : prevedere risultati in un output discreto => mappare le variabili di input in categorie discrete
Casi d'uso popolari:
Classificazione e-mail: spam o non spam
Prestito di sanzione al cliente: Sì se è in grado di pagare l'IME per l'importo del prestito sanzionato. No se non può
Identificazione delle cellule tumorali tumorali: è critica o non critica?
Analisi dei sentimenti dei tweet: il tweet è positivo, negativo o neutro
Classificazione delle notizie: classifica le notizie in una delle classi predefinite - Politica, Sport, Salute ecc
Clustering : è il compito di raggruppare un insieme di oggetti in modo tale che gli oggetti nello stesso gruppo (chiamato cluster) siano più simili (in un certo senso) tra loro rispetto a quelli di altri gruppi (cluster)
Casi d'uso popolari:
Marketing: scopri i segmenti di clienti a fini di marketing
Biologia: classificazione tra diverse specie di piante e animali
Biblioteche: raggruppare libri diversi sulla base di argomenti e informazioni
Assicurazione: riconoscere i clienti, le loro politiche e identificare le frodi
Pianificazione urbana: creare gruppi di case e studiare i loro valori in base alla posizione geografica e ad altri fattori.
Studi sui terremoti: identificare le zone pericolose
Riferimenti:
Classificazione - Prevede etichette di classe categoriche - Classifica i dati (costruisce un modello) in base a un set di addestramento e i valori (etichette di classe) in un attributo di etichetta di classe - Utilizza il modello nella classificazione di nuovi dati
Cluster: una raccolta di oggetti dati - Simile l'uno all'altro all'interno dello stesso cluster - Diverso dagli oggetti in altri cluster
Il clustering mira a trovare gruppi nei dati. "Cluster" è un concetto intuitivo e non ha una definizione matematicamente rigorosa. I membri di un cluster dovrebbero essere simili tra loro e dissimili dai membri di altri cluster. Un algoritmo di clustering opera su un set di dati senza etichetta Z e produce una partizione su di esso.
Per le classi e le etichette di classe, la classe contiene oggetti simili, mentre gli oggetti di classi diverse sono diversi. Alcune classi hanno un significato ben definito e, nel caso più semplice, si escludono a vicenda. Ad esempio, nella verifica della firma, la firma è autentica o falsa. La vera classe è una delle due, indipendentemente dal fatto che potremmo non essere in grado di indovinare correttamente dall'osservazione di una particolare firma.
Il clustering è un metodo per raggruppare gli oggetti in modo tale che gli oggetti con caratteristiche simili si uniscono e gli oggetti con caratteristiche diverse vanno in pezzi. È una tecnica comune per l'analisi dei dati statistici utilizzata nell'apprendimento automatico e nel data mining.
La classificazione è un processo di categorizzazione in cui gli oggetti vengono riconosciuti, differenziati e compresi sulla base dell'insieme di dati di addestramento. La classificazione è una tecnica di apprendimento supervisionato in cui sono disponibili un set di formazione e osservazioni correttamente definite.
Dal libro Mahout in azione, e penso che spieghi molto bene la differenza:
Gli algoritmi di classificazione sono correlati, ma ancora abbastanza diversi, da algoritmi di clustering come l'algoritmo k-mean.
Gli algoritmi di classificazione sono una forma di apprendimento supervisionato, al contrario dell'apprendimento non supervisionato, che si verifica con gli algoritmi di clustering.
Un algoritmo di apprendimento supervisionato è uno che ha fornito esempi che contengono il valore desiderato di una variabile target. Gli algoritmi senza supervisione non ricevono la risposta desiderata, ma devono trovare qualcosa di plausibile da soli.
Una fodera per la classificazione:
Classificazione dei dati in categorie predefinite
Una fodera per il clustering:
Raggruppare i dati in un insieme di categorie
Differenza chiave:
La classificazione sta prendendo i dati e li inserisce in categorie predefinite e in Clustering l'insieme di categorie, in cui si desidera raggruppare i dati, non è noto in anticipo.
Conclusione:
Ho scritto un lungo post sullo stesso argomento che puoi trovare qui:
Esistono due definizioni nel data mining "Supervisionato" e "Non supervisionato". Quando qualcuno dice al computer, all'algoritmo, al codice, ... che questa cosa è come una mela e quella cosa che è come un'arancia, questo è l'apprendimento supervisionato e l'uso dell'apprendimento supervisionato (come tag per ogni campione in un set di dati) per classificare il dati, otterrai la classificazione. D'altra parte, se si lascia che il computer scopra cosa è cosa e si differenzia tra le funzionalità del set di dati dato, in effetti l'apprendimento non supervisionato, per classificare il set di dati questo si chiamerebbe clustering. In questo caso i dati forniti all'algoritmo non hanno tag e l'algoritmo dovrebbe scoprire classi diverse.
L'apprendimento automatico o l'intelligenza artificiale sono in gran parte percepiti dal compito che svolge / realizza.
A mio avviso, pensando al Clustering e alla Classificazione in termini di attività che riescono a raggiungere, può davvero aiutare a capire la differenza tra i due.
Il clustering è raggruppare le cose e la classificazione è, in un certo senso, etichettare le cose.
Supponiamo che tu sia in una sala delle feste dove tutti gli uomini sono in giacca e cravatta e le donne sono in abiti.
Ora fai alcune domande al tuo amico:
Q1: Heyy, puoi aiutarmi a raggruppare le persone?
Le possibili risposte che il tuo amico può dare sono:
1: può raggruppare le persone in base al genere, al maschio o alla femmina
2: Può raggruppare le persone in base ai loro vestiti, 1 indossa abiti e altri abiti
3: può raggruppare le persone in base al colore dei loro capelli
4: Può raggruppare le persone in base alla loro età, ecc. Ecc. Ecc.
Sono numerosi i modi in cui il tuo amico può completare questo compito.
Naturalmente, puoi influenzare il suo processo decisionale fornendo input extra come:
Potete aiutarmi a raggruppare queste persone in base al sesso (o alla fascia di età, al colore dei capelli o al vestito ecc.)
Q2:
Prima del secondo trimestre, è necessario eseguire alcuni pre-lavori.
Devi insegnare o informare il tuo amico in modo che possa prendere una decisione informata. Quindi, supponiamo che tu abbia detto al tuo amico che:
Le persone con i capelli lunghi sono donne.
Le persone con i capelli corti sono uomini.
Q2. Ora, fai notare a una persona con i capelli lunghi e chiedi al tuo amico: è un uomo o una donna?
L'unica risposta che puoi aspettarti è: la donna.
Naturalmente, ci possono essere uomini con i capelli lunghi e donne con i capelli corti durante la festa. Ma la risposta è corretta in base all'apprendimento che hai fornito al tuo amico. Puoi migliorare ulteriormente il processo insegnando di più al tuo amico su come distinguere tra i due.
Nell'esempio sopra,
Q1 rappresenta il compito raggiunto dal Clustering.
In Cluster fornisci i dati (persone) all'algoritmo (il tuo amico) e chiedi di raggruppare i dati.
Ora tocca all'algoritmo decidere qual è il modo migliore per raggruppare? (Genere, colore o fascia d'età).
Ancora una volta, puoi sicuramente influenzare la decisione presa dall'algoritmo fornendo input extra.
Q2 rappresenta l'attività raggiunta dalla classificazione.
Lì, dai al tuo algoritmo (il tuo amico) alcuni dati (Persone), chiamati come dati di Allenamento, e gli fai conoscere quali dati corrispondono a quale etichetta (Maschio o Femmina). Quindi si punta l'algoritmo su determinati dati, chiamati come dati di test, e gli si chiede di determinare se è maschio o femmina. Migliore è il tuo insegnamento, migliore è la previsione.
E il pre-lavoro in Q2 o Classificazione non è altro che l'addestramento del modello in modo che possa imparare a differenziare. In Clustering o Q1 questa pre-opera è la parte del raggruppamento.
Spero che questo aiuti qualcuno.
Grazie
Classificazione : un set di dati può avere diversi gruppi / classi. rosso, verde e nero. La classificazione proverà a trovare regole che le dividano in diverse classi.
Custering- se un set di dati non ha alcuna classe e si desidera inserirle in una classe / raggruppamento, si esegue il clustering. I cerchi viola sopra.
Se le regole di classificazione non sono buone, si avrà una classificazione errata nei test o le regole di ur non sono abbastanza corrette.
se il clustering non è buono, avrai molti valori anomali, ad es. i punti dati non possono rientrare in nessun cluster.
Le principali differenze tra classificazione e clustering sono: la classificazione è il processo di classificazione dei dati con l'aiuto delle etichette di classe. D'altra parte, il clustering è simile alla classificazione ma non ci sono etichette di classe predefinite. La classificazione è orientata all'apprendimento supervisionato. Al contrario, il clustering è anche noto come apprendimento non supervisionato. Il campione di addestramento viene fornito nel metodo di classificazione, mentre nel caso di clustering non vengono forniti i dati di addestramento.
Spero che questo possa aiutare!
Credo che la classificazione stia classificando i record in un set di dati in classi predefinite o persino definendo le classi in movimento. Lo guardo come prerequisito per qualsiasi prezioso data mining, mi piace pensarlo ad un apprendimento non supervisionato, cioè non si sa cosa sta cercando mentre si estrae i dati e la classificazione serve come un buon punto di partenza
Il clustering dall'altra parte rientra nell'apprendimento supervisionato, cioè si sa quali parametri cercare, la correlazione tra loro insieme a livelli critici. Credo che richieda una certa comprensione delle statistiche e della matematica