Assegnare pesi alle variabili nell'analisi dei cluster


12

Voglio assegnare pesi diversi alle variabili nell'analisi del mio cluster, ma il mio programma (Stata) non sembra avere un'opzione per questo, quindi devo farlo manualmente.

Immagina 4 variabili A, B, C, D. I pesi per quelle variabili dovrebbero essere

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Mi chiedo se uno dei due seguenti approcci farebbe davvero il trucco:

  1. Innanzitutto standardizzo tutte le variabili (ad es. In base al loro intervallo). Quindi moltiplico ogni variabile standardizzata per il loro peso. Quindi eseguire l'analisi del cluster.
  2. Moltiplico tutte le variabili per il loro peso e le standardizzo successivamente. Quindi eseguire l'analisi del cluster.

O entrambe le idee sono completamente senza senso?

[EDIT] Gli algoritmi di clustering (provo 3 diversi) che desidero utilizzare sono k-mean, media ponderata del legame e media del legame. Ho intenzione di utilizzare un collegamento medio ponderato per determinare un buon numero di cluster che in seguito inserirò in k-mean.


1
Entrambi i modi non sono generalmente corretti. Moltiplicare i valori delle variabili non equivale a ponderare l'importanza delle variabili per il clustering. Se il programma non ha l'opzione di ponderazione, a volte potresti farlo con i dati come desideri, ma questo dipende dalla natura esatta del clustering. Quindi, descrivi (nella tua domanda) i dettagli del tuo clustering: quale algoritmo e metodo utilizzerai.
ttnphns,

2
Si noti che il modo più semplice e universale per ponderare le variabili (ei pesi sono numeri interi o possono essere composti come numeri interi) sarebbe semplicemente quello di propagare le variabili per quei pesi. Nel tuo esempio, puoi prendere 50 As, 25 Bs, 10 C, 15 D nel tuo cluster.
ttnphns,

8
Oppure, l'alternativa: se usi il clustering basato sulla misura euclidea o usi k-medie, moltiplica ogni variabile per la radice quadrata del suo peso. Questa moltiplicazione dovrebbe essere, ovviamente, eseguita dopo qualsiasi pre-elaborazione (come la standardizzazione) che potresti voler fare prima del clustering.
ttnphns,

Risposte:


7

Un modo per assegnare un peso a una variabile è cambiando la sua scala. Il trucco funziona con gli algoritmi di clustering che menzioni, vale a dire. k-significa, collegamento medio ponderato e collegamento medio.

Kaufman, Leonard e Peter J. Rousseeuw. " Trovare gruppi nei dati: un'introduzione all'analisi dei cluster ". (2005) - pagina 11:

La scelta delle unità di misura genera pesi relativi delle variabili. Esprimere una variabile in unità più piccole porterà a un intervallo più ampio per quella variabile, che avrà quindi un grande effetto sulla struttura risultante. D'altra parte, standardizzando si tenta di dare a tutte le variabili un peso uguale, nella speranza di raggiungere l'obiettività. Come tale, può essere utilizzato da un professionista che non possiede alcuna conoscenza precedente. Tuttavia, può darsi che alcune variabili siano intrinsecamente più importanti di altre in una particolare applicazione, e quindi l'assegnazione dei pesi dovrebbe essere basata sulla conoscenza della materia (vedi, ad esempio, Abrahamowicz, 1985).

D'altra parte, ci sono stati tentativi di escogitare tecniche di clustering che sono indipendenti dalla scala delle variabili (Friedman e Rubin, 1967). La proposta di Hardy e Rasson (1982) è quella di cercare una partizione che minimizzi il volume totale degli scafi convessi dei cluster. In linea di principio, tale metodo è invariante rispetto alle trasformazioni lineari dei dati, ma sfortunatamente non esiste alcun algoritmo per la sua implementazione (tranne un'approssimazione limitata a due dimensioni). Pertanto, il dilemma della standardizzazione appare attualmente inevitabile e i programmi descritti in questo libro lasciano la scelta all'utente

Abrahamowicz, M. (1985), L'uso di informazioni non numeriche a pnon per misurare le differenze, articolo presentato al quarto incontro europeo della Società psicometrica e delle società di classificazione, 2-5 luglio, Cambridge (Regno Unito).

Friedman, HP e Rubin, J. (1967), su alcuni criteri invarianti per il raggruppamento dei dati. J. Amer. Statist. ASSOC6., 2, 1159-1178.

Hardy, A. e Rasson, JP (1982), Une nouvelle approche of problemes de class automatique, Statist. Anale. Donnies, 7, 41-56.


1
Il tuo primo riferimento è in qualche modo mutilato: Leonard Kaufman e Peter J. Rousseeuw sono gli autori del libro a cui ti colleghi.
Nick Cox,

Oh, grazie per averlo sottolineato ... Sono stato fregato da Lavoisier, che ha fatto un errore nella loro pagina "Auteurs: SEWELL Grandville, ROUSSEEUW Peter J.", che a sua volta ha fregato Gscholar che stavo usando per ottenere il riferimento.
Franck Dernoncourt,

Grazie @FranckDernoncourt! Se la scala (e quindi l'intervallo) della variabile ne determina il peso, non si avvicinerebbe a 1.) nella mia domanda iniziale sarebbe una soluzione in qualche modo corretta?
SPi,

2
Sì, l'approccio 1 è quello giusto e corrisponde a ciò che Kaufman, Leonard e Peter J. Rousseeuw stanno dicendo nei paragrafi che ho citato nella risposta. L'approccio 2 sarebbe inutile poiché la standardizzazione rimuove i pesi :)
Franck Dernoncourt,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.