Analisi cluster seguita da analisi discriminante


10

Qual è la logica, se esiste, per usare Discriminant Analysis (DA) sui risultati di un algoritmo di clustering come k-medie, come lo vedo di volta in volta in letteratura (essenzialmente sul sottotipo clinico dei disturbi mentali)?

Non è generalmente consigliabile verificare le differenze di gruppo sulle variabili utilizzate durante la costruzione del cluster poiché supportano la massimizzazione (risp. Minimizzazione) dell'inerzia tra le classi (resp. All'interno della classe). Quindi, non sono sicuro di apprezzare appieno il valore aggiunto della DA predittiva, a meno che non cerchiamo di incorporare gli individui in uno spazio fattoriale di dimensione inferiore e avere un'idea della "generalizzabilità" di una tale partizione. Ma anche in questo caso, l'analisi dei cluster rimane fondamentalmente uno strumento esplorativo, quindi l'utilizzo dell'appartenenza alla classe calcolata in questo modo per derivare ulteriormente una regola di punteggio sembra strano a prima vista.

Qualche consiglio, idea o puntatore a documenti pertinenti?


Ecco una spiegazione ed un esempio usando R: cran.r-project.org/web/packages/adegenet/vignettes/…
Ben

Risposte:


5

Non conosco alcun documento su questo. Ho usato questo approccio, per scopi descrittivi. DFA offre un modo efficace per sintetizzare le differenze e la dimensionalità del gruppo rispetto alle variabili originali. Si potrebbe più facilmente profilare i gruppi sulle variabili originali, tuttavia, ciò perde la natura intrinsecamente multivariata del problema del clustering. DFA ti consente di descrivere i gruppi mantenendo intatto il carattere multivariato del problema. Quindi, può aiutare con l'interpretazione dei cluster, dove questo è un obiettivo. Ciò è particolarmente ideale quando esiste una stretta relazione tra il metodo di clustering e il metodo di classificazione, ad esempio DFA e il metodo di Ward.

Hai ragione sul problema del test. Ho pubblicato un documento utilizzando Cluster Analysis con follow-up DFA per descrivere la soluzione di clustering. Ho presentato i risultati di DFA senza statistiche di test. Un revisore ha contestato questo. Ho concesso e inserito le statistiche dei test e i valori p, con la dichiarazione di non responsabilità che questi valori p non dovrebbero essere interpretati in modo tradizionale.


Quali sarebbero le fasi procedurali di DA dopo il clustering? Riesci a pensare ad altre tecniche per scoprire quali variabili originali rendono alcuni cluster diversi dagli altri?
danas.zuokas,

Ti interessa condividere la citazione su quel giornale, Brett?
Roman Luštrik,

Weissman & Magill. 2008. "Sviluppo di una tipologia di studenti per esaminare l'efficacia dei seminari del primo anno" Diario di The First-Year Experience & Students in Transition 20 (2). Contattami offline se vuoi una copia cartacea.
Brett,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.