L'ora del giorno è una variabile categoriale?


24

"L'ora del giorno" in cui il valore può essere 0, 1, 2, ..., 23 è una variabile categoriale? Sarei tentato di dire di no, dal momento che 5, ad esempio, è "più vicino" a 4 o 6 che a 3 o 7.

D'altra parte, c'è una discontinuità tra 23 e 0.

Quindi è generalmente considerato categorico o no? Nota che 'hour' è una delle variabili indipendenti, non la variabile che sto cercando di prevedere.


7
Cosa stai cercando di realizzare? Se stai adattando un modello, l'ora è una covariata o la risposta, ad esempio?
gung - Ripristina Monica

2
Potresti usare una variabile fittizia per ogni ora se hai abbastanza gradi di libertà da risparmiare (cioè trattare come categorico), o usare i primi termini di Fourier se non l'hai fatto. In generale pensa a come rappresentare al meglio una potenziale relazione con la risposta: una singola variabile fittizia che segnala quando i negozi sono aperti potrebbe servire.
Scortchi - Ripristina Monica

Qualcosa come l'ora può essere trattato come "categorico" o "numerico" a seconda di ciò che funziona meglio. Non esiste una risposta giusta o sbagliata in generale, dipende da ciò che funziona meglio. Consiglierei di provare cose diverse e di vedere cosa funziona meglio nella tua situazione.
roundsquare

Risposte:


29

A seconda di ciò che si desidera modellare, le ore (e molti altri attributi come le stagioni) sono in realtà variabili cicliche ordinali. In caso di stagioni puoi considerarle più o meno categoriche e in caso di ore puoi anche modellarle come continue.

Tuttavia, l'utilizzo di ore nel tuo modello in una forma che non si prende cura della ciclicità per te non sarà fruttuoso. Invece cerca di inventare una sorta di trasformazione. Usando le ore potresti usare un approccio trigonometrico di

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

Quindi invece useresti xhre yhrper la modellazione. Vedi questo post per esempio: utilizzo di predittori circolari nella regressione lineare .


2
(+1) Potresti approfondire la differenza tra stagioni e ore?
Scortchi - Ripristina Monica

Hmm, penso che le stagioni abbiano un significato simile come mattina, mezzogiorno e sera quando si parla di ore durante il giorno. Imho quando sono disponibili solo informazioni vaghe e la risoluzione è scarsa (come 4 valori nelle stagioni) considerandoli categorici e l'utilizzo di variabili fittizie per la codifica sembra ragionevole. :-)
Drey

1
Penso che il punto chiave sia che, poiché ci sono solo 4 stagioni, usando il trig. approccio rispetto a una rappresentazione categorica risparmi solo 1 grado di libertà - con le ore del giorno risparmi 21 gradi di libertà. (E se non hai bisogno di risparmiarli, allora xhr = sin(4*pi*hr/24), yhr = cos(4*pi*hr/24)e così via possono essere aggiunti, fino al punto in cui con abbastanza osservazioni puoi anche considerare le ore del giorno come categoriche.)
Scortchi - Ripristina Monica

Oppure guarda nelle spline cicliche .
kjetil b halvorsen,

1

L'ora del giorno non è meglio rappresentata come una variabile categoriale, perché esiste un ordinamento naturale dei valori. Il colore dei capelli, ad esempio, è categorico, perché l'ordinamento delle categorie non ha significato - {rosso, marrone, biondo} è valido come {biondo, marrone, rosso}. L'ora del giorno, invece, ha un ordinamento naturale: le 9:00 sono più vicine alle 10:00 o alle 8:00 rispetto alle 18:00. È meglio pensare come una variabile ordinale discreta. Ha una caratteristica aggiuntiva di essere ciclico, poiché le 12:00 seguono le 23:00 e precedono le 01:00.


Non esiste un ordinamento naturale dei valori di determinate variabili categoriali?
Dsaxton,

Sì, ma sono meglio descritti come ordinali in quel caso. Le variabili ordinali sono variabili categoriali che hanno una sequenza naturale.
Nuclear Wang,

1
Quindi come rappresenteresti una variabile discreta, ordinale, ciclica come predittore in un modello di regressione?
Scortchi - Ripristina Monica

0

Teoricamente, dipende da come si formatta la variabile, cioè può essere "continua" (modellata con un singolo coefficiente) o categorica (un coefficiente per "ora" del giorno). Si potrebbe anche fare un mix di entrambe, ad esempio le funzioni a livello di pezzo.

In pratica, poiché 0 e 23 sono essenzialmente la stessa "ora" del giorno, prenderei in considerazione il raggruppamento dei periodi del giorno in raggruppamenti più ampi, più omogenei e credibili. Ad esempio, con incrementi di 8 ore - 8: 00-16: 00, 16: 00-12: 00 e 12-8: 00.


4
0 e 23 sono ore distinte. 0 e 24 sarebbero la stessa ora.
Paul Reiners,

A proposito, presumo per il commento di Gung che l'ora del giorno è una variabile indipendente, non la variabile dipendente modellata. Il mio punto è che 0 e 23 non sono così diversi nella realtà - diresti che c'è una differenza statistica tra il tuo evento modellato che si verifica alle 23:59 rispetto alle 0:01?
Frank H.

1
Non sono sicuro del problema che si prevede di eliminare le informazioni. Vedi Qual è il vantaggio di scomporre una variabile predittiva continua? .
Scortchi - Ripristina Monica

@Scortchi - come dice il post, stai assumendo una relazione continua tale che il binning "butti via" le informazioni. Ma se così non fosse, allora il binning è la trasformazione più appropriata. E questo presuppone che tu abbia abbastanza dati per cominciare, che l'OP non ha menzionato.
Frank H.

Imporre vincoli sulla relazione tra un predittore e la risposta non è di per sé una cosa negativa - dato che sei il primo in questo post a far apparire, quante osservazioni sono disponibili è una considerazione importante -, ma quella imposta da questo la rappresentazione dell'ora del giorno - piatta dall'ottava alla quindicesima ora, con un salto o una caduta alla sedicesima, e così via - sembra uno strano suggerimento per un approccio generalmente adatto.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.