La normalizzazione media e il ridimensionamento delle funzionalità sono necessari per il clustering di k-mean?


Risposte:


63

Se le tue variabili sono unità incomparabili (ad es. Altezza in cm e peso in kg), ovviamente, dovresti standardizzare le variabili. Anche se le variabili sono delle stesse unità ma mostrano varianze piuttosto diverse, è comunque una buona idea standardizzare prima dei K-significati. Vedi, K-significa che il clustering è "isotropico" in tutte le direzioni dello spazio e quindi tende a produrre cluster più o meno rotondi (piuttosto che allungati). In questa situazione, lasciare le varianze disuguali equivale a dare più peso alle variabili con varianza minore, quindi i cluster tenderanno a essere separati lungo le variabili con maggiore varianza.

inserisci qui la descrizione dell'immagine

1

Ecco alcuni ragionamenti generali sul problema della standardizzazione delle funzionalità nell'analisi di cluster o altre analisi multivariate.


1


2
La randomizzazione, la riesecuzione, la media e la corsa finale sono un ottimo consiglio. Grazie
pedrosaurio il

1
In che modo k-mean sarebbe sensibile all'ordine?
SmallChess,

1
@StudentT, ho aggiunto una nota a piè di pagina. Grazie.
ttnphns,

1
@ttnphns come determinare quantitativamente che le variabili hanno "varianze abbastanza diverse"?
Herman Toothrot,

1
@camillejr, per favore inizia controllando questo Q: stats.stackexchange.com/q/418427/3277 .
ttnphns

4

Dipende dai tuoi dati immagino. Se desideri che le tendenze nei tuoi dati si raggruppino insieme indipendentemente dall'entità, dovresti centrare. per esempio. supponiamo che tu abbia un profilo di espressione genica e desideri vedere le tendenze nell'espressione genica, quindi senza centratura media, i tuoi geni a bassa espressione si raggrupperanno insieme e lontano dai geni ad alta espressione, indipendentemente dalle tendenze. Il centraggio fa sì che i geni (sia alti che bassi espressi) con schemi di espressione simili si raggruppino insieme.


In realtà sto confrontando diverse funzionalità che hanno una propria scala. Ad esempio, sto confrontando il contenuto di GC che ha un intervallo da circa 0,3 a 0,5, che può sembrare piccolo ma la differenza è abbastanza importante; alcune altre funzionalità hanno intervalli più ampi, altre altre su scale molto piccole.
pedrosaurio,

Quindi, stai raggruppando diversi fattori? Potrebbe forse usare un po 'di peso o trasformazione dei valori.
Nightwriter,

No, sto confrontando tutte le variabili continue
pedrosaurio
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.