Analisi della classe latente vs. analisi del cluster - differenze nelle inferenze?


30

Quali sono le differenze nelle inferenze che possono essere fatte da un'analisi di classe latente (LCA) rispetto a un'analisi di cluster? È corretto che un LCA assuma una variabile latente sottostante che dà origine alle classi, mentre l'analisi del cluster è una descrizione empirica di attributi correlati da un algoritmo di clustering? Sembra che nelle scienze sociali l'LCA abbia guadagnato popolarità ed è considerato metodologicamente superiore dato che ha un test formale di significatività chi-quadro, cosa che l'analisi cluster non ha.

Sarebbe bello se gli esempi potessero essere offerti sotto forma di "LCA sarebbe appropriato per questo (ma non l'analisi dei cluster), e l'analisi dei cluster sarebbe appropriata per questo (ma non l'analisi di classe latente).

Grazie! Brian


1
Come si chiama inferencesin questo contesto e perché interessano solo le differenze di inferenza?
ttnphns,

1
@ttnphns Per inferenze intendo l'interpretazione sostanziale dei risultati. Non sono sicuro dell'ultima parte della tua domanda sul mio interesse per "solo differenze nelle inferenze?" Non sono interessato all'esecuzione dei rispettivi algoritmi o della matematica sottostante. Sono interessato a come i risultati sarebbero interpretati.
Brian P

Risposte:


27

L'analisi della classe latente è in realtà un modello di miscela finita (vedi qui ). La principale differenza tra FMM e altri algoritmi di clustering è che FMM offre un approccio di "clustering basato su modelli" che ricava i cluster utilizzando un modello probabilistico che descrive la distribuzione dei dati. Quindi, invece di trovare cluster con qualche misura di distanza scelta arbitrariamente, usi un modello che descrive la distribuzione dei tuoi dati e in base a questo modello valuta le probabilità che alcuni casi siano membri di determinate classi latenti. Quindi potresti dire che si tratta di un approccio top-down (inizi con la descrizione della distribuzione dei tuoi dati) mentre altri algoritmi di clustering sono piuttosto approcci bottom-up (trovi somiglianze tra i casi).

Perché si utilizza un modello statistico per la selezione del modello di dati e la valutazione della bontà di adattamento sono possibili, contrariamente al clustering. Inoltre, se supponi che ci sia un processo o una "struttura latente" che sta alla base della struttura dei tuoi dati, FMM sembra essere una scelta appropriata poiché ti consente di modellare la struttura latente dietro i tuoi dati (piuttosto che cercare solo delle somiglianze).

Un'altra differenza è che gli FMM sono più flessibili del clustering. Gli algoritmi di clustering fanno semplicemente il clustering, mentre ci sono modelli basati su FMM e LCA

  • consentirti di effettuare analisi confermative tra i gruppi,
  • combina i modelli di teoria degli oggetti (e altri) con LCA,
  • includere covariate per prevedere l'appartenenza alla classe latente degli individui,
  • e / o persino modelli di regressione all'interno del cluster nella regressione di classe latente ,
  • consentirti di modellare le modifiche nel tempo nella struttura dei tuoi dati ecc.

Per altri esempi vedi:

Hagenaars JA & McCutcheon, AL (2009). Analisi di classe latente applicata. Cambridge University Press.

e la documentazione dei pacchetti flexmix e poLCA in R, inclusi i seguenti documenti:

Linzer, DA e Lewis, JB (2011). poLCA: un pacchetto R per l'analisi delle classi latenti variabili politomiche. Journal of Statistical Software, 42 (10), 1-29.

Leisch, F. (2004). Flexmix: un quadro generale per modelli di miscele finite e regressione del vetro latente in R. Journal of Statistical Software, 11 (8), 1-18.

Grün, B., & Leisch, F. (2008). FlexMix versione 2: miscele finite con variabili concomitanti e parametri variabili e costanti . Journal of Statistical Software, 28 (4), 1-35.


3

Un modello di classe latente (o profilo latente, o più in generale, un modello di miscela finita) può essere pensato come un modello probabilistico per il clustering (o classificazione non supervisionata). L'obiettivo è generalmente lo stesso: identificare gruppi omogenei all'interno di una popolazione più ampia. Penso che le principali differenze tra i modelli di classe latenti e gli approcci algoritmici al clustering siano che il primo ovviamente si presta a speculazioni più teoriche sulla natura del clustering; e poiché il modello di classe latente è probabilistico, offre ulteriori alternative per valutare l'adattamento del modello tramite statistiche di verosimiglianza e cattura / mantiene meglio l'incertezza nella classificazione.

Potresti trovare alcuni bocconcini utili in questo thread , oltre a questo risposta su un post correlato di chl.

Ci sono anche parallelismi (a livello concettuale) con questa domanda sull'analisi PCA vs analisi fattoriale, e anche questa .


2

La differenza è che l'analisi della classe latente userebbe i dati nascosti (che di solito sono modelli di associazione nelle funzionalità) per determinare le probabilità per le funzionalità della classe. Quindi si possono fare inferenze usando la massima probabilità di separare gli elementi in classi in base alle loro caratteristiche.

L'analisi del cluster traccia le funzionalità e utilizza algoritmi come vicini vicini, densità o gerarchia per determinare a quali classi appartiene un elemento.

Fondamentalmente l'inferenza LCA può essere pensata come "qual è il modello più simile usando la probabilità" e l'analisi del Cluster sarebbe "qual è la cosa più vicina usando la distanza".


Puoi chiarire a quale "cosa" fa riferimento la dichiarazione sull'analisi dei cluster? È la 'caratteristica' più vicina in base a una misura della distanza?
Brian P,

cosa sarebbe oggetto un oggetto o qualunque dato tu abbia inserito con i parametri della funzione.
ccsv,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.