Tecnicamente per calcolare una misura dis (somiglianza) tra individui su attributi nominali, la maggior parte dei programmi ricodifica prima ciascuna variabile nominale in un insieme di variabili binarie fittizie e quindi calcola alcune misure per variabili binarie. Ecco le formule di alcune misure di somiglianza binaria e di dissomiglianza frequentemente utilizzate .
Che cosa sono le variabili fittizie (chiamate anche one-hot)? Di seguito sono 5 individui, due variabili nominali (A con 3 categorie, B con 2 categorie). 3 manichini creati al posto di A, 2 manichini creati al posto di B.
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(Non è necessario eliminare una variabile fittizia come "ridondante" come in genere la faremmo in regressione con i manichini. Non è praticata nel raggruppamento, anche se in situazioni speciali potresti considerare quell'opzione.)
Esistono molte misure per le variabili binarie, tuttavia, non tutte sono logicamente adatte a variabili binarie fittizie , vale a dire quelle nominali precedenti. Vedete, per una variabile nominale, il fatto che "i 2 individui corrispondono" e il fatto che "i 2 individui non corrispondono" sono della stessa importanza. Ma considera la popolare misura Jaccard , doveaa+b+c
- a - numero di manichini 1 per entrambi gli individui
- b - numero di manichini 1 per questo e 0 per quello
- c - numero di manichini 0 per questo e 1 per quello
- d - numero di manichini 0 per entrambi
Qui disadattamento consiste di due varianti, e ; ma per noi, come già detto, ognuno di essi ha la stessa importanza della partita . Quindi dovremmo pesare due volte e ottenere la formula , nota come Dice (dopo Lee Dice) o misura di Czekanovsky-Sorensen . È più appropriato per variabili fittizie. In effetti, il famoso coefficiente composito di Gower (che è raccomandato per te con i tuoi attributi nominali) è esattamente uguale a Dadi quando tutti gli attributi sono nominali. Nota anche che per le variabili fittizie Dice misura (tra individui) = Ochiai misura (che è semplicemente ac a a 2 abcaa2a2a+b+ccoseno ) = misura di Kulczynsky 2 . E altro per tua informazione, 1-Dice = distanza binaria di Lance-Williams nota anche come distanza di Bray-Curtis . Guarda quanti sinonimi: troverai sicuramente qualcosa del genere nel tuo software!
La validità intuitiva del coefficiente di somiglianza dei dadi deriva dal fatto che è semplicemente la proporzione di coincidenza (o accordo relativo ). Per lo snippet di dati sopra, prendi la colonna nominale A
e calcola la 5x5
matrice quadrata simmetrica con 1
(entrambi gli individui rientrano nella stessa categoria) o 0
(non nella stessa categoria). Calcola anche la matrice per B
.
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
Somma le voci corrispondenti delle due matrici e dividi per 2 (numero di variabili nominali) - eccoti con la matrice dei coefficienti Dadi. (Quindi, in realtà non devi creare manichini per calcolare i dadi, con le operazioni con le matrici potresti probabilmente farlo più velocemente nel modo appena descritto.) Vedi un argomento correlato sui dadi per l'associazione delle attribuzioni nominali .
Sebbene i dadi siano la misura più evidente da usare quando si desidera una funzione di (dis) somiglianza tra i casi in cui gli attributi sono categorici, si potrebbero usare altre misure binarie - se si trova la loro formula soddisfa le considerazioni sui dati nominali.
Misure come Simple Matching (SM o Rand) che contengono nel numeratore non ti soddisfano perché trattano 0-0 (entrambe le persone lo fanno non hanno uno specifico attributo / categoria comune) come corrispondenza, che è ovviamente senza senso con caratteristiche qualitative originariamente nominali. Quindi controlla la formula della somiglianza o della dissomiglianza che prevedi di usare con gli insiemi di variabili fittizie: se ha o implica come motivi di identità, non usare quella misura per i dati nominali. Ad esempio, la distanza euclidea quadrata , quale formula diventa con i dati binari appena ddb+cdd2=p(1-SM)pa+da+b+c+dddb+c(ed è sinonimo in questo caso di distanza di Manhattan o distanza di Hamming) considera come la base dell'identità. In realtà, , dove è il numero di attributi binari; pertanto la distanza euclidea ha un valore informativo uguale a quello di SM e non dovrebbe essere applicata ai dati nominali originari.dd2=p(1−SM)p
Ma ...
Dopo aver letto il precedente paragrafo "teorico" Ho capito che - nonostante quello che ho scritto - la maggior parte dei coefficienti binari (anche quelli che utilizzano ) praticamente farà la maggior parte del tempo. Ho stabilito verificando che con variabili fittizie ottenute da un numero di valori nominali il coefficiente di dadi è strettamente funzionalmente correlato con un numero di altre misure binarie (acronimo è la parola chiave della misura in SPSS):d
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
Poiché in molte applicazioni di una matrice di prossimità, come in molti metodi di analisi dei cluster, i risultati non cambieranno o cambieranno uniformemente in trasformazioni lineari (e talvolta anche in monotoniche) di prossimità, sembra che uno possa essere giustificato per un vasto numero di misure binarie oltre a Dadi per ottenere risultati uguali o simili. Ma dovresti prima considerare / esplorare come il metodo specifico (ad esempio un collegamento nel clustering gerarchico) reagisce a una determinata trasformazione di prossimità.
Se il clustering pianificato o l'analisi MDS è sensibile alle trasformazioni monotoniche di distanze, è meglio astenersi dall'utilizzare le misure indicate come "monotoniche" nella tabella sopra (e quindi sì, non è una buona idea usare la somiglianza di Jaccard o la distanza euclidea non quadrata con il manichino , ovvero attributi nominali precedenti).