Le larghezze ridotte della sagoma indicano che i dati hanno una struttura sottostante bassa?


10

Sono nuovo all'analisi delle sequenze e mi chiedevo come reagire se le larghezze medie della sagoma (ASW) dalle analisi dei cluster delle matrici di dissimilarità basate sulla corrispondenza ottimale sono basse (circa 25). Sembrerebbe appropriato concludere che esiste una piccola struttura sottostante che consentirebbe di raggruppare le sequenze? Potresti ignorare il basso ASW basato su altre misure di qualità del cluster (ne ho incollate alcune di seguito)? O è probabile che le scelte fatte durante l'analisi della sequenza o le successive analisi dei cluster possano essere responsabili dei bassi numeri ASW?

Tutti i suggerimenti sarebbero apprezzati. Grazie.

Nel caso sia necessario più contesto:

Sto esaminando 624 sequenze di disallineamenti di ore di lavoro (ovvero, disallineamenti tra il numero di ore che una persona preferisce lavorare in una settimana e il numero di ore in cui effettivamente lavorano) tra le persone sui 20 anni. Tutte le sequenze che sto esaminando hanno una lunghezza di 10. Il mio oggetto sequenza ha cinque stati (M = vuole più ore, S = vuole le stesse ore, F = vuole meno ore, O = fuori dalla forza lavoro e U = disoccupato ).

Non ho fatto una contabilità sistematica di come i risultati ASW variano con diverse combinazioni di approcci. Tuttavia, ho provato i costi indel bassi e medi (.1 e .6 del costo massimo di sostituzione - mi preoccupo più dell'ordine degli eventi che della loro tempistica) e diverse procedure di raggruppamento (reparto, media e pam). La mia impressione generale è che i numeri ASW rimangano bassi.

Forse i risultati ASW bassi hanno senso. Mi aspetto che questi stati arrivino in una varietà di ordini diversi, e gli stati possono essere ripetuti. La rimozione di osservazioni duplicate abbassa solo la N da 624 a 536. Lo studio dei dati rivela che esiste davvero una buona varietà di sequenze e sequenze che considererei molto diverse, ad esempio persone che desideravano le stesse ore per tutto il tempo, hanno sviluppato una discrepanza, si sono risolte una discrepanza, e oscillato avanti e indietro tra avere e non avere una discrepanza. Forse la mancanza di cluster chiaramente differenziati non è la stessa cosa di una mancanza di variazioni interessanti. Tuttavia, i risultati deboli del cluster sembrano lasciarmi senza un bel modo di riassumere le sequenze.

I risultati del metodo di Ward con indel impostato a .1 del costo di sostituzione di 2 Queste statistiche sembrano suggerire che una soluzione a 6 cluster potrebbe essere buona. L'ASW, tuttavia, è basso, almeno per le soluzioni che hanno un numero ragionevole di cluster (2 o 3 sono troppo pochi).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

Risposte:


11

ASW è una misura della coerenza di una soluzione di clustering. Un valore ASW elevato indica che i cluster sono omogenei (tutte le osservazioni sono vicine al centro del cluster) e che sono ben separate. Secondo Kaufmann e Rousseuw (1990), un valore inferiore a 0,25 significa che i dati non sono strutturati. Tra 0,25 e 0,5, i dati potrebbero essere strutturati, ma potrebbe anche essere un artificio. Tieni presente che questi valori sono indicativi e non devono essere utilizzati come soglia di decisione. Questi valori non sono teoricamente definiti (non si basano su alcuni p-value) ma si basano sull'esperienza degli autori. Quindi, in base a questi bassi valori ASW, i tuoi dati sembrano non essere strutturati. Se lo scopo dell'analisi del cluster è solo descrittivo, allora puoi sostenere che rivela alcuni (ma solo alcuni) dei modelli più salienti. Però,

Puoi anche provare a dare un'occhiata ai valori ASW "per cluster" (questo è dato dalla funzione wcClusterQuality). Forse alcuni dei tuoi cluster sono ben definiti e alcuni possono essere "spuri" (ASW <0), risultando in un valore ASW complessivo basso.

Puoi provare a usare le strategie bootstrap, che dovrebbero darti un suggerimento migliore. In R, la funzione clusterbootnel pacchetto fpcpuò essere utilizzata per questo scopo (consultare la pagina di aiuto). Tuttavia, non funziona con dati ponderati. Se i tuoi dati non sono ponderati, penso che valga la pena provarli.

Infine, potresti voler dare un'occhiata più da vicino ai tuoi dati e alla tua categorizzazione. Forse, le tue categorie sono troppo instabili o non ben definite. Tuttavia, non sembra essere il caso qui.

Come hai detto, "la mancanza di cluster chiaramente differenziati non è la stessa cosa di una mancanza di variazioni interessanti". Esistono altri metodi per analizzare la variabilità delle sequenze come l'analisi della discrepanza. Questi metodi consentono di studiare i collegamenti tra sequenze e fattori esplicativi. Ad esempio, è possibile provare a creare alberi di regressione di sequenza (funzione "seqtree" nel pacchetto TraMineR).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.