Ho un set di dati X che ha 10 dimensioni, 4 delle quali sono valori discreti. In effetti, quelle 4 variabili discrete sono ordinali, ovvero un valore più alto implica un semantico più alto / migliore.
2 di queste variabili discrete sono categoriche nel senso che per ciascuna di queste variabili, la distanza, ad esempio da 11 a 12, non è uguale alla distanza da 5 a 6. Mentre un valore di variabile superiore implica un valore più elevato nella realtà, la scala è non necessariamente lineare (in realtà, non è veramente definito).
La mia domanda è:
- È una buona idea applicare un algoritmo di clustering comune (ad es. K-Means e Gaussian Mixture (GMM)) a questo set di dati che contiene variabili sia discrete che continue?
Altrimenti:
- Devo rimuovere le variabili discrete e concentrarmi solo su quelle continue?
- Dovrei discretizzare meglio quelli continui e utilizzare un algoritmo di clustering per dati discreti?