I coefficienti di regressione logistica hanno un significato?


14

Ho un problema di classificazione binaria da diverse funzionalità. I coefficienti di una regressione logistica (regolarizzata) hanno un significato interpretabile?

Ho pensato che potessero indicare la dimensione dell'influenza, dato che le caratteristiche sono state normalizzate in anticipo. Tuttavia, nel mio problema i coefficienti sembrano dipendere in modo sensibile dalle caratteristiche che seleziono. Anche il segno dei coefficienti cambia con diversi set di caratteristiche scelti come input.

Ha senso esaminare il valore dei coefficienti e qual è il modo corretto per trovare i coefficienti più significativi e dichiarare il loro significato a parole ? Alcuni modelli montati e il loro segno dei coefficienti sono sbagliati, anche se quando si adattano ai dati?

(La massima correlazione che ho tra le funzionalità è solo 0,25, ma sicuramente gioca un ruolo?)


Potresti chiarire cosa intendi con regolarizzato? Hai un termine di penalità L2 e, in tal caso, hai cercato il fattore ottimale, ad es. Per convalida incrociata?
seanv507,

Sì, consento termini di penalità L2 sui coefficienti. Ho cercato il fattore di regolarizzazione ottimale, ma non ho ancora usato la selezione delle caratteristiche (come la selezione diretta). Tuttavia, mi fa sentire incerto al riguardo, poiché i coefficienti dipendono in modo così sensibile dalla scelta delle caratteristiche che includo. Supponendo che ogni caratteristica abbia un effetto positivo o negativo della classe positiva, come posso determinare la loro forza e direzione?
Gerenuk,

Risposte:


14

I coefficienti dell'output hanno un significato, anche se non è molto intuitivo per la maggior parte delle persone e certamente non per me. Ecco perché le persone li cambiano in rapporti di probabilità. Tuttavia, il log del odds ratio è il coefficiente; equivalentemente, i coefficienti esponenziali sono gli odds ratio.

I coefficienti sono più utili per collegare formule che danno probabilità previste di trovarsi in ciascun livello della variabile dipendente.

ad es R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

La stima dei parametri per l'età è 1,64. Cosa significa questo? Bene, se lo si combina con la stima dei parametri per l'intercettazione (-21.24) è possibile ottenere una formula che prevede la probabilità del menarca:

P(M)=11+e21.24-1.64*un'ge

ma quella formula (anche con una sola variabile!) non dà molto senso di come l'età è legata al menarca. Se usiamo il rapporto di probabilità (che èe1.64=5.16 ciò significa che, per ogni ulteriore anno di età, le probabilità del menarca sono 5,16 volte più grandi (non esattamente 5,16 volte il più probabile, ma tale interpretazione viene spesso utilizzata).


4

L'interpretazione diretta dei coefficienti è difficile e può essere fuorviante. Non hai garanzie su come i pesi sono assegnati tra le variabili.

Esempio rapido, simile alla situazione che descrivi: ho lavorato su un modello di interazione degli utenti con un sito Web. Quel modello includeva due variabili che rappresentano il numero di "clic" durante la prima ora e durante la seconda ora di una sessione utente. Queste variabili sono altamente correlate tra loro. Se entrambi i coefficienti per quella variabile fossero positivi, allora potremmo facilmente indurre in errore noi stessi e credere che forse un coefficiente più alto indica un'importanza "maggiore". Tuttavia, aggiungendo / rimuovendo altrovariabili potremmo facilmente finire con un modello in cui la prima variabile aveva segno positivo e l'altra negativa. Il ragionamento a cui siamo giunti è stato che, dato che c'erano alcune correlazioni significative (sebbene basse) tra la maggior parte delle coppie delle variabili disponibili, non potevamo avere alcuna conclusione sicura sull'importanza delle variabili usando i coefficienti (felici di imparare dalla comunità se questa interpretazione è corretta).

Se si desidera ottenere un modello in cui è più semplice interpretare un'idea, sarebbe usare Lasso (minimizzazione della norma L1). Ciò porta a soluzioni sparse dove le variabili sono meno correlate tra loro. Tuttavia, quell'approccio non sceglierebbe facilmente entrambe le variabili dell'esempio precedente: uno sarebbe a zero zero.

Se vuoi solo valutare l'importanza di variabili specifiche o insiemi di variabili, ti consiglio di utilizzare direttamente un approccio di selezione delle funzionalità. Tali approcci portano a intuizioni molto più significative e persino a classifiche globali dell'importanza delle variabili basate su alcuni criteri.


0

I coefficienti hanno sicuramente un significato. In alcuni pacchetti software il modello può essere diretto in due modi per produrre uno dei due tipi di coefficienti. Ad esempio, in Stata, è possibile utilizzare il comando Logistic o il comando logit; usando uno, il modello fornisce coefficienti tradizionali, mentre usando l'altro, il modello fornisce rapporti di probabilità.

Potresti scoprire che uno è molto più significativo per te dell'altro.

A proposito della tua domanda che "... i coefficienti sembrano dipendere dalla sensibilità ...".

Stai dicendo che i risultati dipendono da quali variabili hai inserito nel modello?

Se è così, sì, questo è un dato di fatto quando si esegue l'analisi di regressione. La ragione di ciò è che l'analisi di regressione sta osservando un mucchio di numeri e li scricchiola in modo automatizzato.

I risultati dipendono da come le variabili sono correlate tra loro e da quali variabili non vengono misurate. È tanto un'arte quanto una scienza.

Inoltre, se il modello ha troppi predittori rispetto alla dimensione del campione, i segni possono capovolgersi in modo folle - penso che questo stia dicendo che il modello sta usando variabili che hanno un piccolo effetto per "aggiustare" le sue stime di quelle che hanno un grande effetto (come una piccola manopola del volume per effettuare piccole calibrazioni). Quando ciò accade, tendo a non fidarmi delle variabili con piccoli effetti.

D'altro canto, è possibile che inizialmente i segni cambino, quando si aggiungono nuovi predittori, perché ci si sta avvicinando alla verità causale.

Ad esempio, immaginiamo che il Brandy della Groenlandia potrebbe essere dannoso per la salute, ma il reddito fa bene alla salute. Se il reddito viene omesso e le persone più ricche bevono Brandy, il modello potrebbe "captare" l'influenza del reddito omesso e "dire" che l'alcol fa bene alla salute.

Non ci sono dubbi, è un dato di fatto che i coefficienti dipendono dalle altre variabili incluse. Per saperne di più, cerca "bias variabile variabile" e "relazione spuria". Se non hai mai incontrato queste idee prima, prova a trovare un'introduzione ai corsi di statistica che soddisfino le tue esigenze: questo può fare una grande differenza nel fare i modelli.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.