Vorrei sapere qual è il modo migliore per classificare un set di dati composto da tipi misti di attributi, ad esempio testuale e numerico. So di poter convertire testuale in booleano, ma il vocabolario è vario e i dati diventano troppo scarsi. Ho anche cercato di classificare i tipi di attributi separatamente e combinare i risultati attraverso tecniche di meta-apprendimento, ma non ha funzionato bene.
Principal Component Analysis
oNon-Negative Matrix Factorization
ridurrà il numero di variabili, arricchirà i dati sparsi e trasformerà tutte le variabili in quantitative. Inoltre, valutando la qualità del modello di riduzione della dimensionalità, l'autore della domanda può stimare l'utilità delle variabili testuali.