Regressione log-lineare vs. regressione logistica

21

Qualcuno può fornire un chiaro elenco di differenze tra regressione log-lineare e regressione logistica? Capisco che il primo sia un semplice modello di regressione lineare, ma non sono chiaro quando ciascuno dovrebbe essere usato.

— user38133
fonte

19

Il nome è un po 'improprio. I modelli log-lineari venivano tradizionalmente utilizzati per l'analisi dei dati in un formato di tabella di contingenza. Sebbene i "dati di conteggio" non debbano necessariamente seguire una distribuzione di Poisson, il modello log-lineare è in realtà solo un modello di regressione di Poisson. Da qui il nome "log" (i modelli di regressione di Poisson contengono una funzione di collegamento "log").

Una "variabile di risultato trasformata in log" in un modello di regressione lineare non è un modello log-lineare (né una variabile di risultato esponenziata, come suggerirebbe "log-linear"). Sia i modelli log-linear che le regressioni logistiche sono esempi di modelli lineari generalizzati , in cui la relazione tra un predittore lineare (come odds-log o rate-log) è lineare nelle variabili del modello. Non sono "modelli di regressione lineare semplice" (o modelli che utilizzano il solito formato ). $E[Y|X] = a + bX$

Nonostante tutto, è possibile ottenere un'inferenza equivalente sulle associazioni tra variabili categoriali usando la regressione logistica e la regressione di Poisson. È solo che nel modello di Poisson, le variabili di risultato sono trattate come covariate. È interessante notare che è possibile impostare alcuni modelli che prendono in prestito informazioni tra i gruppi in un modo molto simile a un modello di probabilità proporzionale, ma questo non è ben compreso e raramente utilizzato.

Esempi di ottenere inferenza equivalente nei modelli di regressione logistica e di poisson usando R illustrato di seguito:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

$y$ $x$

— ADAMO
fonte

Ancora una volta, questo probabilmente mostra la mia inesperienza, ma saresti in grado di fornire una definizione per le tabelle di contingenza? Può anche aiutare gli altri che incontrano questa domanda.

— user38133,

Le tabelle di contingenza sono (solitamente) tabelle bidimensionali che elencano tutte le possibili risposte di due variabili e mostrano la frequenza delle osservazioni nelle celle. Ad esempio, potresti avere una tabella di contingenza 2 per 2 che mostra lo stato di fumo (mai vs corrente) e il cancro (polmone ca vs nessun cancro) che utilizzeresti per stimare l'associazione tra fumo e rischio di cancro.

— AdamO,

15

Non credo che definirei nessuno dei due un "semplice modello di regressione lineare". Sebbene sia possibile utilizzare il log o le trasformazioni logit come funzione di collegamento per un numero di modelli diversi, questi sono generalmente intesi come riferimenti a modelli specifici. Ad esempio, "regressione logistica" è inteso come un modello lineare generalizzato (GLiM) per situazioni in cui la variabile di risposta è distribuita come binomiale . Inoltre, la "regressione log-lineare" è generalmente intesa come GLiM Poisson applicata alle tabelle di contingenza a più vie. In altre parole, oltre al fatto che sono entrambi modelli di regressione / GLiM, non li vedo necessariamente come molto simili (ci sono alcune connessioni tra loro, come sottolinea @AdamO, ma gli usi tipici sono abbastanza distinti). La differenza più grande sarebbe che la regressione logistica presuppone che la risposta sia distribuita come binomiale e che la regressione log-lineare presupponga che la risposta sia distribuita come Poisson . In effetti, la regressione log-lineare è piuttosto diversa dalla maggior parte dei modelli di regressione in quanto la variabile di risposta non è in realtà una delle tue variabili (nel senso comune), ma piuttosto l'insieme dei conteggi di frequenza associati alle combinazioni delle tue variabili nella tabella di contingenza multidirezionale.

— gung - Ripristina Monica
fonte

Grazie! Immagino quindi che la mia naturale domanda di follow-up, che probabilmente mostra la mia mancanza di esperienza, riguarda come determinare quale sia la giusta distribuzione per modellare un determinato problema. Penso che dovrò fare un po 'più di lettura per assicurarmi di poter sempre scegliere correttamente.

— user38133,

2

Il modello log-lineare è un modello di regressione di Poisson che viene applicato a una tabella di contingenza a più vie. Ad esempio, se avessi una tabella di contingenza a 2 vie e ti chiedessi se le righe e le colonne sono indipendenti, eseguiresti un test chi-quadrato; se avessi una tabella di contingenza a 2 vie, potresti usare il modello log-linear. La regressione logistica è per le situazioni in cui hai una variabile di risposta e lo è

{0, 1}

$\{0,\ 1\}$

0

Per chiarire, una regressione logistica "binaria" ha una variabile dipendente con due risultati. La mia comprensione è che esiste anche la possibilità di utilizzare una regressione logistica "multinomiale" se la variabile di risultato dipendente ha più di 2 categorie. Vedi qui .

— M. Phipps
fonte