La maggior parte degli algoritmi classici di riduzione del clustering e della dimensionalità (clustering gerarchico, analisi dei componenti principali, k-media, mappe autoorganizzanti ...) sono progettati specificamente per i dati numerici e i loro dati di input sono visti come punti in uno spazio euclideo.
Questo è ovviamente un problema, dato che molte domande del mondo reale riguardano dati misti: ad esempio se studiamo bus, l'altezza e la lunghezza e le dimensioni del motore saranno numeri, ma potremmo anche essere interessati al colore (variabile categorica: blu / rosso / verde ...) e classi di capacità (variabile ordinata: piccola / media / grande capacità). In particolare, potremmo voler studiare contemporaneamente questi diversi tipi di variabili.
Esistono diversi metodi per estendere gli algoritmi di clustering classico a dati misti, ad esempio utilizzando una dissomiglianza di Gower per collegare il clustering gerarchico o il ridimensionamento multidimensionale o altri metodi che prendono come input una matrice di distanza. O ad esempio questo metodo, un'estensione di SOM a dati misti.
La mia domanda è: perché non possiamo semplicemente usare la distanza euclidea su variabili miste? o perché è male farlo? Perché non possiamo semplicemente codificare fittizi le variabili categoriali, normalizzare tutte le variabili in modo che abbiano un peso simile nella distanza tra le osservazioni ed eseguire i soliti algos su queste matrici?
È davvero facile e mai fatto, quindi suppongo che sia molto sbagliato, ma qualcuno può dirmi perché? E / o mi dai qualche riferimento? Grazie