Quali sono le fasi di pre-elaborazione migliori (consigliate) prima di eseguire k-medie?
Quali sono le fasi di pre-elaborazione migliori (consigliate) prima di eseguire k-medie?
Risposte:
Se le tue variabili sono unità incomparabili (ad es. Altezza in cm e peso in kg), ovviamente, dovresti standardizzare le variabili. Anche se le variabili sono delle stesse unità ma mostrano varianze piuttosto diverse, è comunque una buona idea standardizzare prima dei K-significati. Vedi, K-significa che il clustering è "isotropico" in tutte le direzioni dello spazio e quindi tende a produrre cluster più o meno rotondi (piuttosto che allungati). In questa situazione, lasciare le varianze disuguali equivale a dare più peso alle variabili con varianza minore, quindi i cluster tenderanno a essere separati lungo le variabili con maggiore varianza.
Ecco alcuni ragionamenti generali sul problema della standardizzazione delle funzionalità nell'analisi di cluster o altre analisi multivariate.
Dipende dai tuoi dati immagino. Se desideri che le tendenze nei tuoi dati si raggruppino insieme indipendentemente dall'entità, dovresti centrare. per esempio. supponiamo che tu abbia un profilo di espressione genica e desideri vedere le tendenze nell'espressione genica, quindi senza centratura media, i tuoi geni a bassa espressione si raggrupperanno insieme e lontano dai geni ad alta espressione, indipendentemente dalle tendenze. Il centraggio fa sì che i geni (sia alti che bassi espressi) con schemi di espressione simili si raggruppino insieme.