Nel mio set di dati abbiamo variabili sia continue che naturalmente discrete. Voglio sapere se possiamo fare un cluster gerarchico usando entrambi i tipi di variabili. E se sì, quale misura di distanza è appropriata?
Nel mio set di dati abbiamo variabili sia continue che naturalmente discrete. Voglio sapere se possiamo fare un cluster gerarchico usando entrambi i tipi di variabili. E se sì, quale misura di distanza è appropriata?
Risposte:
Un modo è usare il coefficiente di somiglianza di Gower che è una misura composita ; prende variabili quantitative (come scala di valutazione), binarie (come presenti / assenti) e nominali (come lavoratore / insegnante / impiegato). Successivamente Podani aggiunto un'opzione per prendere anche le variabili ordinali.
Il coefficiente è facilmente comprensibile anche senza una formula; si calcola il valore di somiglianza tra gli individui per ciascuna variabile, tenendo conto del tipo di variabile e quindi si esegue la media di tutte le variabili. Di solito, un programma che calcola Gower ti permetterà di ponderare le variabili, cioè il loro contributo, alla formula composita. Tuttavia, la corretta ponderazione di variabili di diverso tipo è un problema , non esistono linee guida chiare, che fanno affrontare Gower o altri indici "compositi" di prossimità.
Le sfaccettature della somiglianza di Gower ( ):
(È facile estendere l'elenco dei tipi. Ad esempio, si potrebbe aggiungere un summand per le variabili di conteggio, usando la distanza chi-quadrato normalizzata convertita in somiglianza.)
Il coefficiente varia tra 0 e 1.
" Distanza di Gower ". Senza le variabili ordinali presenti (ovvero senza usare l'opzione di Podani) si comporta come distanza euclidea, supporta pienamente lo spazio euclideo. Ma è solo metrico (supporta la disuguaglianza triangolare), non euclideo. Con variabili ordinali presenti (usando l'opzione di Podani) è solo metrico, non euclideo; e non è affatto metrico. Vedi anche .
Con le distanze euclidee (distanze che sostengono lo spazio euclideo), virtualmente qualsiasi tecnica classica di raggruppamento farà. Compresi i mezzi K (se il tuo programma dei mezzi K può elaborare matrici a distanza, ovviamente) e includendo i metodi di Ward, centroide, mediani del raggruppamento gerarchico . L'uso di K-medie o altri metodi basati sulla distanza euclidea con una distanza metrica ancora non euclidea è forse euristicamente ammissibile. Con distanze non metriche, non è possibile utilizzare tali metodi.
Il paragrafo precedente parla se K-significa o Ward o tale raggruppamento è legale o meno con la distanza di Gower matematicamente (geometricamente). Dal punto di vista della scala di misurazione ("psicometrica") non si dovrebbe calcolare la deviazione della distanza media o euclidea da essa in alcun dato categoriale (nominale, binario, nonché ordinale); quindi da questa posizione non è possibile elaborare il coefficiente di Gower con mezzi K, Ward, ecc. Questo punto di vista avverte che anche se è presente uno spazio euclideo, può essere granulato, non liscio ( vedi correlato ).
Gower JC Un coefficiente generale di somiglianza e alcune delle sue proprietà // Biometria, 1971, 27, 857-872
Podani, J. Estensione del coefficiente generale di somiglianza di Gower ai caratteri ordinali // Taxon, 1999, 48, 331-340
Se ti sei imbattuto in questa domanda e ti stai chiedendo quale pacchetto scaricare per utilizzare la metrica Gower in R , il cluster
pacchetto ha una funzione chiamata daisy () , che per impostazione predefinita utilizza la metrica di Gower ogni volta che vengono utilizzati tipi misti di variabili. Oppure puoi impostarlo manualmente per utilizzare la metrica di Gower.
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
.