Posso ignorare i coefficienti per livelli non significativi di fattori in un modello lineare?


15

Dopo aver cercato chiarimenti sui coefficienti del modello lineare qui, ho una domanda di follow-up riguardante i non significativi (alto valore p) per i coefficienti dei livelli dei fattori.

Esempio: se il mio modello lineare include un fattore con 10 livelli e solo 3 di quei livelli hanno valori p significativi associati ad essi, quando si usa il modello per prevedere Y, posso scegliere di non includere il termine del coefficiente se il soggetto rientra in uno di il livello non significativo?

Più drasticamente, sarebbe sbagliato raggruppare i 7 livelli non significativi in ​​un livello e riesaminarli?


2
Bene, potresti ottenere un'inferenza parziale facendo questo - per esempio, se stai formando intervalli di previsione, le probabilità di copertura sarebbero probabilmente sbagliate per gli individui in uno dei 7 livelli insignificanti.
Macro

1
Hai ottenuto delle buone risposte qui, ma potresti anche essere interessato al motivo per cui è inappropriato eliminare fattori con valori p elevati. Vale la pena sottolineare che questo è logicamente equivalente a una procedura di selezione automatica del modello, anche se lo stai facendo tu stesso, invece che il computer lo fa per te. Leggere questa domanda e le risposte offerte può aiutare a capire perché queste cose sono vere.
gung - Ripristina Monica

1
Questa Q ha un duplicato esatto di novembre 2012: stats.stackexchange.com/questions/18745/… . Ci sono anche alcune informazioni stimolanti.
rolando2

2
Questa è una domanda così importante, eppure non esiste una risposta a sostegno dell'argomento con la teoria. Allo stato attuale, sono solo opinioni. Nemmeno il libro collegato in una delle risposte (la cui conclusione differisce dalle altre risposte) fornisce riferimenti. Allo stato attuale, non mi fido di nessuno di essi, e quindi preferirei non fare nulla (cioè mantenere tutte le categorie / i fattori in).
luchonacho,

Risposte:


13

Se si inserisce una variabile predittore con più livelli, si inserisce la variabile oppure no, non è possibile selezionare i livelli. Potresti voler ristrutturare i livelli della tua variabile predittore per ridurre il numero di livelli (se ciò ha senso nel contesto della tua analisi.) Tuttavia, non sono sicuro che ciò provocherebbe un tipo di invalidazione statistica se sei livelli di collasso perché vedi che non sono significativi.

Inoltre, solo una nota, dici che i piccoli valori sono insignificanti. Suppongo che tu abbia inteso che il piccolo valore p è significativo, cioè: un valore p di .0001 è significativo e quindi rifiuti il ​​valore nullo (assumendo un livello α di > .0001 ?). pppα>.0001


(Corretto il mio errore di battitura del valore p.) Buoni punti qui. Quindi crollare i livelli, a condizione che si basi su qualche ragione reale e logica giustificabile nel contesto dello studio (che potrebbe anche capitare di analizzarli lungo l'interruzione della significatività) è ragionevole, ma non solo rimpicciolirli arbitrariamente in base al loro significato . Fatto.
Trees4theForest

15

La risposta di Ellie è buona.

Se si inserisce una variabile con un numero di livelli, è necessario conservare tutti quei livelli nell'analisi. Scegliere e scegliere in base al livello di significatività pregiudicherà i risultati e farà cose molto strane sulla tua deduzione, anche se per qualche miracolo le tue stime riescono a rimanere invariate, poiché avrai buchi spalancati nei tuoi effetti stimati su diversi livelli del variabile.

Considererei graficamente le tue stime per ogni livello del predittore. Vedi una tendenza mentre sali di livello o è irregolare?

In generale, sono anche contrario a ricodificare le variabili sulla base di test statistici o basati esclusivamente su momenti statistici. Le divisioni nella variabile dovrebbero essere basate su qualcosa di più solido: punti di interruzione logicamente significativi, interesse sul campo in un particolare punto di transizione, ecc.


8

Espandendo le due buone risposte che hai già ottenuto, diamo un'occhiata a questo in modo sostanziale. Supponiamo che la vostra variabile dipendente sia (diciamo) reddito e che la vostra variabile indipendente sia (diciamo) etnia, con livelli, per definizioni di censimento (Bianco, Nero / Afr.Am., Am. Indiano / Alaska nativo, Asiatico, Nativo Hawaii / Pac Islander, altro e multirazziale). Diciamo che il codice fittizio con White è la categoria di riferimento e ottieni

Income=b0+b1BAA+b2AIAN+b3AS+b4NHPI+b5O+b6MR

Se stai facendo questo studio a New York City, probabilmente avrai pochissimi nativi hawaiani / isole del Pacifico. Potresti decidere di includerli (se ce ne sono) con gli altri. Tuttavia, non è possibile utilizzare l'equazione completa e semplicemente non includere quel coefficiente. Quindi l'intercettazione sarà errata, così come qualsiasi valore previsto per il reddito.

Ma come dovresti combinare le categorie?

Come hanno detto gli altri, deve avere un senso .


4

Per dare un'opinione diversa: perché non includerlo come effetto casuale? Ciò dovrebbe penalizzare quei livelli con un supporto debole e assicurarsi che la loro dimensione dell'effetto sia minima. In questo modo puoi tenerli tutti dentro senza preoccuparti di ottenere previsioni sciocche.

E sì, questo è più motivato da una visione bayesiana degli effetti casuali rispetto all'intera vista "campione di tutti i livelli possibili" degli effetti casuali.


0

Mi chiedevo anche se avrei potuto combinare categorie non significative con la categoria di riferimento. Le seguenti dichiarazioni nel libro "Data mining per Business Intelligence: concetti, tecniche e applicazioni in Microsoft Office Excel® con XLMiner®, 2a edizione di Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (Dimensione Sezione di riduzione) ( Risultato della ricerca di Google ) sembra supportare la seconda frase della risposta di @ Ellie:

  • "I modelli di regressione adattati possono anche essere utilizzati per combinare ulteriormente categorie simili: le categorie che hanno coefficienti non statisticamente significativi (cioè hanno un valore p elevato) possono essere combinate con la categoria di riferimento perché la loro distinzione dalla categoria di riferimento sembra non avere effetto significativo sulla variabile di output "
  • "Le categorie che hanno valori di coefficiente simili (e lo stesso segno) possono spesso essere combinate perché il loro effetto sulla variabile di output è simile"

Tuttavia, ho intenzione di verificare con gli esperti in materia se la combinazione delle categorie ha un senso logico (come implicito nelle precedenti risposte / commenti, ad esempio @Fomite, @gung).


Questa risposta è contraddetta dalle altre risposte qui.
kjetil b halvorsen,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.