Possiamo usare una variabile indipendente categoriale nell'analisi discriminante?

15

Nell'analisi discriminante, la variabile dipendente è categorica, ma posso usare una variabile categoriale (ad es. Stato residenziale: rurale, urbano) insieme ad altre variabili continue come variabile indipendente nell'analisi discriminante lineare?

— kuwoli
fonte

Domanda simile

— ttnphns,

14

L'analisi discriminante presuppone una distribuzione normale multivariata perché quelli che normalmente consideriamo predittori sono in realtà una variabile dipendente multivariata e la variabile di raggruppamento è considerata un predittore. Ciò significa che le variabili categoriali che devono essere trattate come predittori nel senso che desideri non sono gestite bene. Questo è uno dei motivi per cui molti, incluso me stesso, considerano l'analisi discriminante resa obsoleta dalla regressione logistica. La regressione logistica non fa ipotesi distributive di alcun tipo, né sul lato sinistro né sul lato destro del modello. La regressione logistica è un modello di probabilità diretto e non richiede che si usi la regola di Bayes per convertire i risultati in probabilità, così come l'analisi discriminante.

— Frank Harrell
fonte

Grazie signor Frank Harrell per la sua risposta. In realtà, voglio confrontare i risultati dell'analisi discriminante e della regressione logistica (modello logit) utilizzando lo stesso insieme di variabili. Quindi, a tale scopo, se devo usare le variabili categoriali nell'analisi discriminante come variabile indipendente, allora c'è un modo?

— Kuwoli,

6

La risposta breve è piuttosto no che sì.

Una nota preliminare È difficile dire se le variabili che producono funzioni discriminanti da sole debbano essere chiamate "indipendenti" o "dipendenti". L'ADL è fondamentalmente un caso specifico di analisi di correlazione canonica e quindi è ambidirezionale. Può essere visto come MANOVA (con la variabile di classe come fattore indipendente) o, quando la classe è dicotomica, come una regressione lineare della classe come variabile dipendente. Pertanto non è del tutto legale opporsi sempre alla LDA con regressioni unidirezionali come quella logistica.

LDA presuppone che le variabili (quelle che hai chiamato "indipendenti") provengano da una distribuzione normale multivariata, quindi - tutte continue. Questa ipotesi è importante per (1) la fase di classificazione di LDA e (2) verificare l'importanza dei discriminanti prodotti nella fase di estrazione. L'estrazione dei discriminanti in sé non ha bisogno dell'ipotesi.

Tuttavia LDA è abbastanza robusto per la violazione del presupposto che a volte viene visto come una garanzia per farlo su dati binari . In effetti, alcune persone lo fanno. Correlazioni canoniche (di cui LDA è un caso specifico) possono essere fatte in cui entrambi gli insiemi sono costituiti da variabili binarie binarie o addirittura fittizie. Ancora una volta, non vi è alcun problema con l'estrazione delle funzioni latenti; i problemi con tale applicazione sorgono potenzialmente quando vengono invocati valori p o oggetti di classificazione.

Dalle variabili binarie / ordinali si potrebbero calcolare le correlazioni tetrachoriche / polichoriche e sottoporle a LDA (se il programma consente di inserire matrici di correlazione al posto dei dati); ma poi il calcolo dei punteggi discriminatori a livello di caso sarà problematico.

Un approccio più flessibile sarebbe quello di trasformare le variabili categoriche (ordinali, nominali) in continue mediante ridimensionamento / quantificazione ottimali . Analisi di correlazione canonica non lineare (OVERALS). Lo farà sotto il compito di massimizzare le correlazioni canoniche tra le due parti (la variabile di classe e i "predittori" categorici). È quindi possibile provare LDA con le variabili trasformate.

La regressione logistica (multinomiale o binaria) può essere un'altra alternativa a LDA.

— ttnphns
fonte

Ciò è molto più complicato del semplice utilizzo di un modello destinato alla situazione (regressione logistica). L'analisi discriminante non è così solida come alcuni pensano. È facile mostrare con un singolo predittore categorico che è binario che le probabilità posteriori da da non sono molto precise (ad esempio, prevedere la probabilità di un evento dato il sesso di un soggetto).

— Frank Harrell,