Come trovare pesi per una misura di dissomiglianza


9

Voglio imparare (dedurre) i pesi degli attributi per la mia misura di dissimilarità che posso usare per il clustering.

Ho alcuni esempi di coppie di oggetti che sono "simili" (dovrebbero essere nello stesso cluster), nonché alcuni esempi di coppie di oggetti "non simili" (non dovrebbero essere nello stesso cluster). Ogni oggetto ha un numero di attributi: se vuoi, possiamo pensare a ciascun oggetto come un vettore d- dimensionale di caratteristiche, dove ogni caratteristica è un numero intero non negativo. Esistono tecniche per utilizzare tali esempi di oggetti simili / dissimili per stimare da essi pesi ottimali delle caratteristiche per una misura di dissomiglianza?(ai,bi)d(cio,dio)d

Se aiuta, nella mia applicazione, sarebbe probabilmente ragionevole concentrarsi sull'apprendimento di una misura di dissomiglianza che è una norma L2 ponderata:

d(X,y)=Σjαj(X[j]-y[j])2.

dove i pesi αj non sono noti e dovrebbero essere appresi. (Oppure, un certo tipo di misura della somiglianza del coseno ponderata potrebbe anche essere ragionevole.) Esistono buoni algoritmi per apprendere i pesi αj per tale misura, dati gli esempi? Oppure ci sono altri metodi per apprendere una misura di somiglianza / dissimilarità che dovrei considerare?

Il numero di dimensioni è purtroppo molto grande (migliaia o superiore; deriva da funzioni bag-of-word). Tuttavia, ho molte decine di migliaia di esempi. Ho quindi centinaia di migliaia di oggetti che voglio raggruppare, quindi è importante generalizzare dagli esempi per apprendere una buona metrica di dissomiglianza.

Ritengo che questo rientri nella rubrica del clustering semi-supervisionato e sembra che potrebbe essere della vena "adattamento alla somiglianza", ma non sono stato in grado di trovare chiare descrizioni degli algoritmi da utilizzare a questo scopo.


Problema molto interessante. Se risolvo il tuo problema, ti viene data una matrice principalmente vuota con i suoi elementi che codificano la somiglianza o la dissomiglianza a coppie. Alcuni elementi sono compilati ma la maggior parte manca. Vorrei prima provare a riempire quella matrice (ad esempio usando un'ipotesi di basso rango).
Vladislavs Dovgalecs,

@xeon, sarebbe un approccio, ma ignora le funzionalità. La mia ipotesi è che alcune funzionalità siano altamente pertinenti e alcune funzionalità non pertinenti e che osservando la differenza tra le funzionalità rilevanti si ottenga una ragionevole metrica di dissomiglianza, ma come possiamo trovarla? Il solo tentativo di completare la matrice come suggerisci ignora questa struttura e quindi non sfrutta appieno i dati che abbiamo.
DW

Qual è il tuo obiettivo finale? Non è solo per imparare la metrica della distanza, giusto? Vuoi classificare i punti dati, vero?
Vladislavs Dovgalecs,

1
Ci sono cose che penso tu non abbia chiarito molto chiaramente. L'intero insieme di coppie di esempio forma una matrice binaria completa (1 = simile; 0 = dissimile) o mancano alcune informazioni sulle celle? La matrice è "non contraddittoria", ovvero gli oggetti di esempio si suddividono in classi non sovrapposte? Inoltre, nota che nessun metodo di apprendimento può (o dovrebbe essere usato per) consigliarti il ​​tipo di misura (come ad esempio la norma L2 o L1, perché tale scelta è teorica (dipende dal tipo di attributi, dalla concettualizzazione della caratteristica) spazio, metodo di raggruppamento che userete quindi).
ttnphns,

Questo è troppo ampio per essere ragionevolmente risolto qui. Vi è una grande quantità di letteratura dedicata sia alla ponderazione, alla selezione che all'apprendimento delle funzioni a distanza. Penso di aver visto persino una conferenza sull'apprendimento della somiglianza o giù di lì!
Ha QUIT - Anony-Mousse il

Risposte:


6

Questo è un grosso problema in alcune aree dell'apprendimento automatico. Non ne ho la familiarità come vorrei, ma penso che questi dovrebbero iniziare.

Dato che i tuoi dati sono così tridimensionali (e probabilmente scarsi?), Potresti non aver bisogno di qualcosa di troppo non lineare. Forse l'analisi dei componenti di quartiere è il posto migliore per iniziare? È più vicino all'idea di una norma ponderata , come hai suggerito nella tua domanda.L2


Sì, i dati sono scarsi. Sembra estremamente utile, grazie. Esiste una variante dell'analisi dei componenti di vicinato in cui la matrice è limitata alla diagonale (equivalentemente è diagonale)? (Sembra che questo potrebbe corrispondere alla classe di misure di dissomiglianza menzionata nella mia domanda sopra.)AQUN
DW

Non vedo perché non potresti includere questa restrizione. Non sono sicuro però che il modello risultante abbia un nome.
David J. Harris,

1

aio1/wio

In altre parole, stai chiedendo informazioni sulla preelaborazione e il ridimensionamento dei dati. È troppo ampio per rispondere bene in una sola domanda. Cercare:

  • selezione delle caratteristiche
  • ponderazione delle caratteristiche
  • normalizzazione
  • riduzione della dimensionalità
  • altre tecniche di proiezione
  • altre funzioni di distanza
  • "imparare a classificare"

C'è un'enorme quantità di letteratura e persino tracce della conferenza dedicate a questo. Alcuni metodi per iniziare:

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.