Una variabile è significativa in un modello di regressione lineare?


9

Ho un modello di regressione lineare con il campione e le osservazioni variabili e voglio sapere:

  1. Se una variabile specifica è abbastanza significativa da rimanere inclusa nel modello.
  2. Se un'altra variabile (con osservazioni) dovrebbe essere inclusa nel modello.

Quali statistiche possono aiutarmi? Come ottenerli nel modo più efficiente?

Risposte:


26

Il significato statistico non è generalmente una buona base per determinare se una variabile debba essere inclusa in un modello. I test statistici sono stati progettati per verificare le ipotesi, non per selezionare le variabili. So che molti libri di testo trattano la selezione delle variabili usando test statistici, ma questo è generalmente un approccio negativo. Vedi il libro di Harrell Regressione Modeling Strategies per alcuni dei motivi per cui. In questi giorni, la selezione variabile basata sull'AIC (o qualcosa di simile) è generalmente preferita.


In realtà, al meglio della mia memoria, Harrell scoraggia fortemente l'uso dell'AIC. Immagino che la validazione incrociata sarebbe probabilmente il metodo più sicuro in circolazione.
Tal Galili,

1
L'AIC è asintoticamente equivalente al CV. Vedi le risposte a stats.stackexchange.com/questions/577/… . Ho controllato Harrell prima di scrivere quella risposta e non ho visto alcuno scoraggiamento dell'AIC. Avvisa dei test di significatività dopo la selezione delle variabili, con l'AIC o qualsiasi altro metodo.
Rob Hyndman,

@Tal: forse da uno dei suoi articoli piuttosto che dal libro RMS, ricordo che Harrell si oppose all'uso di AIC per aver semplicemente scelto tra un pool di molti modelli. Penso che il punto sia che devi aggiungere una variabile alla volta e confrontare metodicamente due modelli o usare una strategia simile. (Per essere chiari, questo è in linea con la risposta di Rob.)
ars

Facendo una ricerca veloce, ho trovato Harrell che scriveva il seguente "Attenzione a fare la selezione del modello sulla base di valori di P, quadrato di R, quadrato di R parziale, AIC, BIC, coefficienti di regressione o Cp di Mallow". Ha scritto che il 14/12/08, su una mailing list intitolata [R] Ottenere valori p per coefficienti dalla funzione LRM (design del pacchetto) - testo in chiaro. Immagino di aver frainteso il suo significato.
Tal Galili,

2
@Tal, @Rob: in quel thread, dice "Assicurati di usare il principio della gerarchia". Forse interessante, questa discussione di medstats (scorri verso il basso per la risposta di Harrell): groups.google.com/group/medstats/browse_thread/thread/…
ars

4

Secondo il commento di Rob. Un'alternativa sempre più preferita è quella di includere tutte le variabili e ridurle verso 0. Vedi Tibshirani, R. (1996). restringimento di regressione e la selezione tramite il lazo.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf


1
Esiste un modo per quantificare ciò che è "sempre più preferito" in questi giorni?
Tal Galili,

Penso che sia riconosciuto scientificamente più corretto in molti campi, nel senso che l'approccio del restringimento è usato più nei recenti documenti statistici applicati rispetto all'approccio * .IC. Ciò dimostra un certo consenso, almeno tacito, teorico.
user603

1
2p

3

Da parte 1, si sta cercando il test F . Calcola la somma residua di quadrati da ciascun adattamento del modello e calcola una statistica F, che puoi utilizzare per trovare i valori p da una distribuzione F o da qualche altra distribuzione nulla che tu stesso generi.


1

Un altro voto per la risposta di Rob.

Ci sono anche alcune idee interessanti nella letteratura "di relativa importanza". Questo lavoro sviluppa metodi che cercano di determinare quanta importanza è associata a ciascuno dei numerosi predittori candidati. Esistono metodi bayesiani e frequentisti. Controllare il pacchetto "relaimpo" in R per citazioni e codice.


1

Mi piace anche la risposta di Rob. E, se ti capita di usare SAS piuttosto che R, puoi usare PROC GLMSELECT per i modelli che verrebbero eseguiti con PROC GLM, anche se funziona bene anche con alcuni altri modelli. Vedere

Flom e Cassell "Arresto graduale: perché i metodi di selezione graduale sono sbagliati e cosa dovresti usare" presentato a vari gruppi, più recentemente, NESUG 2009

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.