Cluster o classificazione supervisionati?


22

La seconda domanda è che ho trovato in una discussione da qualche parte sul web parlare di "clustering supervisionato", per quanto ne so, il clustering non è supervisionato, quindi qual è esattamente il significato dietro "clustering supervisionato"? Qual è la differenza rispetto alla "classificazione"?

Ci sono molti link che ne parlano:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

eccetera ...


si prega di dare il link di "discussione da qualche parte sul web"
Atilla Ozgur


1
"Clustering" è sinonimo di "classificazione senza supervisione", pertanto "clustering supervisionato" è un ossimoro. Si potrebbe sostenere, tuttavia, che le mappe auto-organizzate sono una tecnica supervisionata utilizzata per la classificazione non supervisionata, che sarebbe la cosa più vicina al "clustering supervisionato".
Digio,

Per quanto ho capito ancora è "Utilizziamo il clustering per organizzare i dati per renderli pronti per un'ulteriore elaborazione o almeno per renderli pronti per un'ulteriore analisi", quindi ciò che facciamo nel clustering è dividere i dati in classe A, B, C e così via ... Quindi ora questi dati sono controllati in qualche modo. Ora dipende dal requisito che cosa vuoi fare con questi dati o che cosa possono esserti utili per le operazioni di classificazione o di regressione. Correggimi se sbaglio.
SAK

Risposte:


2

La mia ingenua comprensione è che la classificazione viene eseguita laddove hai un set specificato di classi e desideri classificare una nuova cosa / serie di dati in una di quelle classi specificate.

In alternativa, il clustering non ha nulla da cui iniziare e si utilizzano tutti i dati (incluso quello nuovo) per separarli in cluster.

Entrambi utilizzano le metriche della distanza per decidere come raggruppare / classificare. La differenza è che la classificazione si basa su un insieme di classi precedentemente definito, mentre il clustering decide i cluster in base all'intero dato.

Ancora una volta la mia ingenua comprensione è che il clustering supervisionato è ancora cluster sulla base di tutti i dati e quindi sarebbe il clustering piuttosto che la classificazione.

In realtà sono sicuro che la teoria alla base sia del raggruppamento che della classificazione è interconnessa.


Umilmente non sono d'accordo. Stai suggerendo che la "classificazione" è per definizione e per impostazione predefinita un processo supervisionato, il che non è vero. La classificazione è suddivisa in casi supervisionati e non supervisionati, quest'ultimo sinonimo di clustering.
Digio,

15

Non credo di sapere più di te, ma i link che hai pubblicato suggeriscono risposte. Prenderò http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf come esempio. Fondamentalmente affermano: 1) il clustering dipende da una distanza. 2) l'uso corretto di k-medie richiede una distanza scelta con cura. 3) Dati i dati di addestramento sotto forma di insiemi di elementi con il loro partizionamento desiderato, forniamo un metodo SVM strutturale che apprende una misura della distanza in modo che k-medie produca i cluster desiderati.In questo caso esiste una fase supervisionata del clustering, con sia i dati di formazione che l'apprendimento. Lo scopo di questa fase è apprendere una funzione di distanza in modo che l'applicazione del clustering di k-media con questa distanza sia, si spera, ottimale, a seconda di quanto i dati di allenamento assomiglino al dominio dell'applicazione. Si applicano ancora tutti i consueti avvertimenti appropriati per l'apprendimento automatico e il raggruppamento.

Ulteriori citazioni dall'articolo: Il clustering supervisionato è il compito di adattare automaticamente un algoritmo di clustering con l'aiuto di un set di addestramento composto da set di oggetti e partizioni complete di questi set di oggetti. . Sembra una definizione ragionevole.


Il problema è semplicemente: perché vuoi imparare una misura della distanza da una serie di dati di allenamento etichettati e quindi applicare questa misura della distanza con un metodo di raggruppamento; perché non dovresti semplicemente usare un metodo supervisionato. In altre parole, si desidera eseguire il clustering (ovvero il partizionamento del set di dati in cluster), ma si presuppone che si disponga già del partizionamento desiderato completo e che lo si utilizzerà per apprendere una misura della distanza, quindi applicare il clustering su questo set di dati usando questo appreso distanza. Nel migliore dei casi, otterrai le stesse partizioni che hai usato per imparare la misura della distanza! Hai già
shn,

Dove scrivi "quindi applica il clustering su questo datase" sostituisci "quindi applica il clustering su set di dati simili". È questo scenario: nell'esperimento X abbiamo i dati A e B. A è per il raggruppamento, B aiuta nell'apprendimento della distanza. B stabilisce un gold standard ed è presumibilmente costoso da ottenere. Negli esperimenti successivi X2, X3 .. otteniamo A ma non possiamo permetterci di ottenere B.
micans

Ok, ora quando dici "imparare una distanza" da un set di dati B: intendi "apprendere un valore di soglia di distanza" o "apprendere una funzione metrica di distanza" (una sorta di misura di dissomiglianza parametrizzata)?
shn,

1
Intendo il secondo, "imparare una funzione metrica a distanza". Dopo ulteriori letture, la mia semplice formulazione A e B sopra può essere trovata nel manoscritto citato: "Dati esempi di addestramento di insiemi di oggetti con i loro raggruppamenti corretti, l'obiettivo è imparare una misura di somiglianza in modo che i futuri insiemi di oggetti siano raggruppati in modo simile ".
Micans,

1
Bene, allora sembra che il "clustering supervisionato" sia molto simile a quello che viene chiamato "cluster semi-supervisionato". Fino ad ora, non vedo davvero alcuna differenza. A proposito, in alcuni altri documenti, il "clustering (semi) supervisionato" non si riferisce alla "creazione di una funzione di distanza modificata" da utilizzare per raggruppare insiemi di dati futuri in modo simile; si tratta piuttosto di "modificare l'algoritmo di clustering stesso" senza cambiare la funzione di distanza!
shn,

3

Alcune definizioni: il

clustering supervisionato viene applicato su esempi classificati con l'obiettivo di identificare cluster che hanno un'alta densità di probabilità in una singola classe.

Il clustering senza supervisione è un framework di apprendimento che utilizza una specifica funzione oggetto, ad esempio una funzione che minimizza le distanze all'interno di un cluster per mantenerlo stretto.

Il clustering semi-supervisionato serve a migliorare un algoritmo di clustering utilizzando le informazioni laterali nel processo di clustering.

Progressi nelle reti neurali - ISNN 2010

Senza usare troppo gergo poiché sono un novizio in quest'area, il modo in cui capisco il clustering supervisionato è più o meno così:

nel cluster supervisionato si parte dall'alto verso il bassocon alcune classi predefinite e quindi usando un approccio dal basso verso l' alto , scopri quali oggetti si adattano meglio alle tue classi.

Ad esempio, hai eseguito uno studio sul tipo preferito di arance in una popolazione.
Dai molti tipi di arance hai scoperto che un particolare "tipo" di arance è quello preferito.
Tuttavia, quel tipo di arancia è molto delicato e labile a infezioni, cambiamenti climatici e altri agenti ambientali.
Quindi vuoi incrociarlo con altre specie che sono molto resistenti a quegli insulti.
Quindi vai in laboratorio e hai trovato alcuni geni responsabili del gusto succoso e dolce di un tipo e delle capacità resistenti dell'altro tipo.
Esegui diversi esperimenti e finisci con diciamo cento diversi sottotipi di arance.
Ora sei interessato solo a quei sottotipi che si adattano perfettamente alle proprietà descritte.
Non vuoi eseguire di nuovo lo stesso studio nella tua popolazione ...
Conosci le proprietà che stai cercando nella tua arancia perfetta.
Quindi esegui l'analisi dei cluster e selezioni quelli più adatti alle tue aspettative.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.