Sto usando il clustering gerarchico per analizzare i dati delle serie temporali. Il mio codice è implementato usando la funzione MathematicaDirectAgglomerate[...]
, che genera cluster gerarchici dati i seguenti input:
una matrice di distanza D
il nome del metodo utilizzato per determinare il collegamento tra cluster.
Ho calcolato la matrice di distanza D usando la distanza di Manhattan:
dove e è il numero di punti dati nelle mie serie temporali.
La mia domanda è: va bene usare il collegamento tra cluster di Ward con una matrice di distanza di Manhattan? Alcune fonti suggeriscono che il collegamento di Ward dovrebbe essere usato solo a distanza euclidea.
Nota che DirectAgglomerate[...]
calcola il legame di Ward usando solo la matrice della distanza, non le osservazioni originali. Sfortunatamente, non sono sicuro di come Mathematica modifichi l'algoritmo originale di Ward, che (dalla mia comprensione) ha funzionato minimizzando la somma degli errori dei quadrati delle osservazioni, calcolata rispetto alla media del cluster. Ad esempio, per un cluster costituito da un vettore di osservazioni univariate, Ward ha formulato la somma degli errori dei quadrati come:
(Altri strumenti software come Matlab e R implementano anche il clustering di Ward usando solo una matrice di distanza, quindi la domanda non è specifica per Mathematica.)