Sono nuovo all'analisi delle sequenze e mi chiedevo come reagire se le larghezze medie della sagoma (ASW) dalle analisi dei cluster delle matrici di dissimilarità basate sulla corrispondenza ottimale sono basse (circa 25). Sembrerebbe appropriato concludere che esiste una piccola struttura sottostante che consentirebbe di raggruppare le sequenze? Potresti ignorare il basso ASW basato su altre misure di qualità del cluster (ne ho incollate alcune di seguito)? O è probabile che le scelte fatte durante l'analisi della sequenza o le successive analisi dei cluster possano essere responsabili dei bassi numeri ASW?
Tutti i suggerimenti sarebbero apprezzati. Grazie.
Nel caso sia necessario più contesto:
Sto esaminando 624 sequenze di disallineamenti di ore di lavoro (ovvero, disallineamenti tra il numero di ore che una persona preferisce lavorare in una settimana e il numero di ore in cui effettivamente lavorano) tra le persone sui 20 anni. Tutte le sequenze che sto esaminando hanno una lunghezza di 10. Il mio oggetto sequenza ha cinque stati (M = vuole più ore, S = vuole le stesse ore, F = vuole meno ore, O = fuori dalla forza lavoro e U = disoccupato ).
Non ho fatto una contabilità sistematica di come i risultati ASW variano con diverse combinazioni di approcci. Tuttavia, ho provato i costi indel bassi e medi (.1 e .6 del costo massimo di sostituzione - mi preoccupo più dell'ordine degli eventi che della loro tempistica) e diverse procedure di raggruppamento (reparto, media e pam). La mia impressione generale è che i numeri ASW rimangano bassi.
Forse i risultati ASW bassi hanno senso. Mi aspetto che questi stati arrivino in una varietà di ordini diversi, e gli stati possono essere ripetuti. La rimozione di osservazioni duplicate abbassa solo la N da 624 a 536. Lo studio dei dati rivela che esiste davvero una buona varietà di sequenze e sequenze che considererei molto diverse, ad esempio persone che desideravano le stesse ore per tutto il tempo, hanno sviluppato una discrepanza, si sono risolte una discrepanza, e oscillato avanti e indietro tra avere e non avere una discrepanza. Forse la mancanza di cluster chiaramente differenziati non è la stessa cosa di una mancanza di variazioni interessanti. Tuttavia, i risultati deboli del cluster sembrano lasciarmi senza un bel modo di riassumere le sequenze.
I risultati del metodo di Ward con indel impostato a .1 del costo di sostituzione di 2 Queste statistiche sembrano suggerire che una soluzione a 6 cluster potrebbe essere buona. L'ASW, tuttavia, è basso, almeno per le soluzioni che hanno un numero ragionevole di cluster (2 o 3 sono troppo pochi).
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08