Quando rimuovere le variabili insignificanti?


9

Sto lavorando al modello di regressione logistica. Ho controllato il riassunto del modello che si basa su 5 variabili indipendenti, di cui una non significativa con un valore P di 0,74. Vorrei sapere che rimuoviamo direttamente la variabile o esiste un altro modo per verificarne il significato ?

Un mio anziano mi ha suggerito di fare una trasformazione logaritmica della variabile insignificante e di cercare quindi una correlazione. Sarà quello che conta per verificarne il significato.

model <- glm(Buy ~ a_score + b_score+ c_score+lb+p, data = history, family = binomial)

Tutte le variabili risultano significative con 2 o 3 stelle a parte a_score che viene mostrato insignificante.


Qual è l'obiettivo del tuo esercizio di modellismo? Sei interessato a statistiche inferenziali, ad esempio, per un articolo accademico o in previsione?
Stephan Kolassa,

Risposte:


42

Consentitemi innanzitutto di chiedere: qual è l'obiettivo del modello? Se sei interessato solo a prevedere se un cliente acquisterà, i test di ipotesi statistici non sono davvero la tua principale preoccupazione. Invece, dovresti convalidare esternamente il tuo modello tramite una procedura di validazione / test su dati invisibili.

Se, invece, sei interessato a esaminare quali fattori contribuiscono alla probabilità di acquisto da parte di un cliente, non è necessario rimuovere le variabili che non riescono a respingere il valore nullo (soprattutto in un modo graduale). Presumibilmente, hai incluso una variabile nel tuo modello perché pensavi (per esperienza passata o opinione di esperti) che avesse un ruolo importante nel decidere se un cliente acquistasse. Il fatto che la variabile non abbia rifiutato il valore nullo non rende il modello un cattivo, significa solo che il tuo campione non ha rilevato un effetto di quella variabile. Va perfettamente bene.


3
Votato per eccellenza della risposta.
James Phillips,

8
+1 Rimuovere i predittori potenzialmente correlati ai risultati (anche se "insignificanti") è difficile nella regressione logistica, data la sua intrinseca distorsione da variabile omessa . La rimozione di un predittore correlato al risultato può causare distorsioni nelle stime dei coefficienti dei predittori mantenuti, anche se i predittori mantenuti non sono correlati con il predittore rimosso.
EdM,

3
Questa è davvero una risposta molto chiara.
gented

2

Dai un'occhiata alle pagine del manuale per step(), drop1()e add1(). Questi ti aiuteranno ad aggiungere / rimuovere variabili basate su AIC. Tuttavia, tutti questi metodi sono in qualche modo imperfetti nella dipendenza dal loro percorso. Un modo migliore sarebbe usare le funzioni nel pacchetto penalizzato o glmnet per eseguire una regressione del lazo.


-1

Quali sono le correlazioni tra le variabili indipendenti? Questo è meno importante per la pura previsione, ma se si desidera ottenere alcune informazioni inferenziali è importante che le variabili indipendenti siano abbastanza non correlate. In genere, quando si utilizza la regressione logistica in un contesto aziendale, entrambe le informazioni inferenziali sulle variabili utilizzate insieme a una buona previsione sono ciò che le parti interessate stanno cercando.

Inoltre, un altro buon motivo per rimuovere le variabili è la parsimonia del modello. Alcuni motivi sono a fini di revisione interna, regolamentazione legale e facilità di attuazione. Ciò porta ad essere altamente desiderabile trovare il più piccolo insieme di variabili che forniscano buone informazioni commerciali e buone previsioni. Ad esempio, se si sta sviluppando un modello di credito, ogni variabile è soggetta a revisione legale, ogni variabile deve essere disponibile e restituire immediatamente i valori quando viene chiamata per valutare il prestito e gli stakeholder (che di solito non sono esperti nella costruzione di modelli) tendono per non voler guardare a modelli complicati carichi di variabili.

Può anche essere utile provare una foresta casuale per avere un'idea di importanza variabile e anche per controllare il potere predittivo con e senza tutte le variabili.

Infine, dovresti avere una buona ragione per trasformare una variabile. Lanciare ogni trasformazione contro una variabile fino a quando non ne trovi una che ti dia il risultato desiderato è un buon modo per ottenere un modello di overfit che funziona male su nuovi dati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.