Ha senso usare una variabile data in una regressione?


17

Non sono abituato a usare le variabili nel formato data in R. Mi chiedo solo se è possibile aggiungere una variabile data come variabile esplicativa in un modello di regressione lineare. Se è possibile, come possiamo interpretare il coefficiente? È l'effetto di un giorno sulla variabile del risultato?

Vedi la mia idea con un esempio di ciò che sto cercando di fare.


3
Una data può essere convertita in un numero.

la mia impressione è che R lo faccia automaticamente
PAC

3
Ma i numeri risultanti sono spesso enormi, il che può portare a problemi. Meglio convertirsi, ad esempio in intervalli di tempo (ore o giorni o ...) dall'inizio delle misurazioni. Ciò semplifica anche l'interpretazione dell'intercettazione.
Roland,

3
Converti in fattore (per ottenere effetti fissi giornalieri) o converti in numerico e riscala, quindi il valore del primo giorno è 0 per ottenere un effetto lineare di giorni dall'origine.
Thomas,

1
Questa è davvero una bella domanda. Penso che sia una domanda statistica e una di programmazione. La domanda di programmazione è come R gestisce le date quando inseriamo le date come variabile esplicativa in un modello di regressione e la domanda statistica riguarda l'esatta interpretazione del coefficiente.
PAC

Risposte:


17

Basandosi sui commenti precedenti su Stack Overflow:

Sì, ha senso. Qui mi rivolgo alla domanda generale e sono felice di lasciare che gli esperti di R inseriscano i dettagli cruciali. Dal mio punto di vista, dato che ora si tratta di Cross-Validated, non dovremmo concentrarci troppo sul software preferito del poster, sebbene ciò sia importante per le persone affini.

Le date di qualsiasi software se non numeriche possono essere convertite in variabili numeriche, espresse in anni, giorni, millisecondi o qualsiasi altra cosa da qualche tempo. Il coefficiente associato a ciascuna data ha unità denominative che sono qualunque siano le unità della data. Le unità numeratrici dipendono da quelle della risposta o della variabile dipendente. (Le funzioni di collegamento non identitario lo complicano, naturalmente.)

Tuttavia, di solito ha più senso quando le date vengono spostate su un'origine che ha senso per lo studio. Di solito, ma non necessariamente, l'origine dovrebbe essere una data entro il periodo di studio o molto vicino ad essa.

Forse il caso più semplice è la regressione lineare su una variabile data in anni. Ecco una regressione di alcuni responsesu dateespressa in date come 2000 o 2010 implica un intercetto, che è il valore della responsenell'anno 0. Mettendo da parte dettaglio calendariale che non ci era tale anno, una tale intercettazione è spesso assurdamente grande positivo o negativo, che è logico ma una distrazione nell'interpretazione e nella presentazione (anche a un pubblico ben informato).

In un esempio reale del lavoro con studenti universitari, il numero di cicloni all'anno in una certa area stava aumentando leggermente con la data e una tendenza lineare sembrava un ragionevole primo colpo. L'intercettazione dalla regressione era un grande numero negativo, che causò molte perplessità fino a quando non si rese conto che questa era, come sempre, un'estrapolazione all'anno 0. Spostare l'origine su 2000 ha prodotto risultati migliori. (In realtà, una regressione di Poisson che assicurava previsioni positive era persino migliore, ma questa è una storia diversa.)

Regressing date - 2000o qualunque altra cosa sia quindi una buona idea. I dettagli sostanziali di uno studio indicano spesso una buona data di base, ovvero una nuova origine.

L'uso di altri modelli e / o altri predittori non mina questo principio; lo oscura e basta.

È anche una buona idea rappresentare graficamente i risultati utilizzando le date a cui è più facile pensare. Queste potrebbero essere le date originali; questa non è una contraddizione, in quanto è solo lo stesso principio dell'uso di qualsiasi cosa sia più facile a cui pensare.

Un piccolo pensiero dimostra che il principio è molto più generale. Spesso stiamo meglio con (età - 20) o qualcosa del genere, per evitare previsioni logiche ma scomode per l'età 0.

EDIT 21 marzo 2019 (originale 29 luglio 2013): questi argomenti sono stati discussi in un contesto Stata in Cox, New Jersey 2015. Specie di origine. Stata Journal 15: 574-587 vedi qui

EDIT 2 anche il 4 dicembre 2015 @whuber nei commenti solleva anche l'importante questione della precisione numerica. Spesso le unità di tempo vanno bene e le date o le date risultanti possono essere molto grandi, sollevando questioni importanti per le somme di quadrati, e così via e così via. Solleva un esempio da R. A che possiamo aggiungere (ad esempio) che gli orari delle date in Stata sono millisecondi dall'inizio del 1960. Questo problema non è affatto specifico per le date, poiché può sorgere generalmente con numeri molto grandi o molto piccolo, ma vale anche la pena contrassegnarlo.


1
Economicamente parlando, la data viene spesso utilizzata come proxy per una variabile incommensurabile, o semplicemente per i dati che non è possibile ottenere facilmente. Ciò si può vedere nell'aumento del tasso di vendita di un determinato prodotto da una nuova società nel tempo con l'aumentare del riconoscimento del marchio. Poiché molto probabilmente non hai una metrica per il riconoscimento del marchio, la data può essere utilizzata come proxy. Ciò darebbe ai tuoi altri regressori coefficienti "più realistici". ** TL: DR ** dovresti stare attento usando la data nella tua regressione senza pensare a quali fattori non misurati la data potrebbe essere correlata con ciò influenzerebbe la tua variabile indipendente
scott

1
Buon Consiglio. Direi che (una funzione di) la data del calendario è in genere una delega per alcuni processi nel tempo che è difficile da catturare altrimenti, quindi il punto va ben oltre l'econometria.
Nick Cox,

1
Sono affezionato ai seni e ai coseni di chiunque altro, ma quale campionamento di problemi tra le discipline porta a quel giudizio?
Nick Cox,

1
Se interessati, vedi stata-journal.com/sjsearch.html?choice=keyword&q=season per i link ad alcuni dei miei lavori sulla stagionalità.
Nick Cox,

3
R1

5

Come detto sopra, con un adeguato ridimensionamento, le date sono grandi regressori. Gli effetti del tempo hanno meno probabilità di essere lineari rispetto anche alle tipiche covariate, quindi uso quasi sempre spline di regressione nel tempo. Alcune tendenze temporali complesse richiedono molti nodi (ad esempio, 7 o più) per adattarsi. Le spline cubiche ristrette (spline naturali) forniscono un'estrapolazione lineare più sicura oltre la fine dei tempi osservati, sebbene raramente l'estrapolazione sia completamente sicura.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.