La modellistica di classe latente sarebbe un approccio di apprendimento supervisionato per trovare partizioni o raggruppamenti sottostanti "nascosti" di droghe e tossicodipendenti. LC è un metodo molto flessibile con due approcci generali: repliche basate su misure ripetute per un singolo soggetto vs repliche basate sulla classificazione incrociata di un insieme di variabili categoriali. I tuoi dati si adatterebbero al secondo tipo.
La flessibilità dei LC è una funzione della sua capacità di assorbire "miscele" di variabili con ridimensionamenti diversi (ad esempio, categorici o continui). Poiché l'approccio trova partizioni, segmenti o cluster nascosti nei dati, può anche essere considerata una tecnica di riduzione delle dimensioni.
Tutti i modelli LC hanno 2 fasi: nella fase 1 viene identificata una variabile dipendente o target e viene costruito un modello di regressione. Nella fase 2, viene analizzato il residuo (un singolo vettore "latente") dal modello della fase 1 e vengono create le partizioni catturando la variabilità (o eterogeneità) - le "classi latenti" - in quel vettore.
Il freeware è disponibile per il download e probabilmente funzionerebbe abbastanza bene per te. Uno di questi è un modulo R chiamato polCA disponibile qui:
http://www.jstatsoft.org/article/view/v042i10
Se hai circa $ 1.000 da spendere per un prodotto commerciale, Latent Gold è disponibile su www.statisticalinnovations.com Avendo usato Latent Gold per anni, sono un grande fan di quel prodotto per la sua potenza analitica e la sua gamma di soluzioni. Ad esempio, polCA è utile solo per i modelli LC con informazioni categoriche mentre LG funziona su tutta la linea ... inoltre, i loro sviluppatori aggiungono sempre nuovi moduli. L'aggiunta più recente crea modelli LC usando catene di Markov nascoste. Ma tieni presente che LG non è una piattaforma di dati "end-to-end", vale a dire, non è buona per la manipolazione o il sollevamento di dati pesanti.
Altrimenti, ci sono tonnellate di altri approcci per l'analisi delle informazioni categoriche ampiamente supportate da software statistico come R, SPSS, SAS, Python, ecc. Questi includono analisi della tabella di contingenza, modelli log-lineari, modelli di miscele finite, regressione del tensore bayesiano, e così via. La letteratura in quest'area è ampia e iniziata con Bishop, et al., Discrete Multivariate Analysis nel 1975, si estende attraverso i modelli RC di Leo Goodman basati sul suo lavoro svolto dagli anni '80, Analisi categorica dei dati di Agresti , libri di Stephen Fienberg e include Thomas Wickens 'eccellente libro Analisi delle tabelle di contingenza a più vie per le scienze sociali pubblicato nel 1989. Regressione del tensore bayesiano è il titolo di un articolo di David Dunson alla Duke ed è una specie di "stato dell'arte" per essere un metodo molto recente per la modellazione di tabelle di contingenza a più vie di massa.