Voglio imparare (dedurre) i pesi degli attributi per la mia misura di dissimilarità che posso usare per il clustering.
Ho alcuni esempi di coppie di oggetti che sono "simili" (dovrebbero essere nello stesso cluster), nonché alcuni esempi di coppie di oggetti "non simili" (non dovrebbero essere nello stesso cluster). Ogni oggetto ha un numero di attributi: se vuoi, possiamo pensare a ciascun oggetto come un vettore d- dimensionale di caratteristiche, dove ogni caratteristica è un numero intero non negativo. Esistono tecniche per utilizzare tali esempi di oggetti simili / dissimili per stimare da essi pesi ottimali delle caratteristiche per una misura di dissomiglianza?d
Se aiuta, nella mia applicazione, sarebbe probabilmente ragionevole concentrarsi sull'apprendimento di una misura di dissomiglianza che è una norma L2 ponderata:
dove i pesi non sono noti e dovrebbero essere appresi. (Oppure, un certo tipo di misura della somiglianza del coseno ponderata potrebbe anche essere ragionevole.) Esistono buoni algoritmi per apprendere i pesi per tale misura, dati gli esempi? Oppure ci sono altri metodi per apprendere una misura di somiglianza / dissimilarità che dovrei considerare?
Il numero di dimensioni è purtroppo molto grande (migliaia o superiore; deriva da funzioni bag-of-word). Tuttavia, ho molte decine di migliaia di esempi. Ho quindi centinaia di migliaia di oggetti che voglio raggruppare, quindi è importante generalizzare dagli esempi per apprendere una buona metrica di dissomiglianza.
Ritengo che questo rientri nella rubrica del clustering semi-supervisionato e sembra che potrebbe essere della vena "adattamento alla somiglianza", ma non sono stato in grado di trovare chiare descrizioni degli algoritmi da utilizzare a questo scopo.