Uso di predittori circolari nella regressione lineare


19

Sto cercando di adattare un modello usando i dati del vento (0, 359) e l'ora del giorno (0, 23), ma temo che si adatteranno male ad una regressione lineare perché non sono essi stessi parametri lineari. Vorrei trasformarli usando Python. Ho visto qualche menzione del calcolo di una media vettoriale per mezzo del prendere il peccato e il cos dei gradi, almeno nel caso del vento, ma non molto.

Esiste una libreria Python o un metodo pertinente che potrebbe essere utile?


1
Grazie per averlo posto come una domanda. Nota che chiedere codice o librerie è fuori tema (la maggior parte della tua domanda è sicuramente in argomento), quindi questo aspetto può o non può essere coperto dalle risposte qui.
gung - Ripristina Monica

Qual è la variabile di risposta (risultato, variabile dipendente) qui? La direzione del vento e l'ora del giorno sono entrambi fattori predittivi?
Nick Cox,

@NickCox Sì, sia la direzione del vento che l'ora del giorno sono fattori predittivi. Il risultato è un valore intero che rappresenta la concentrazione di particelle (inquinamento atmosferico). Esistono anche altri predittori, tra cui temperatura, umidità, ecc ... ma credo che questi non debbano essere trasformati.
compguy24,

1
Mi sono preso la libertà di modificare il titolo. A mio avviso, il titolo precedente "Distribuzione lineare dei gradi attorno a un cerchio" non ha catturato affatto la domanda.
Nick Cox,

Risposte:


24

0=360

peccato(π direzione/180),cos(π direzione/180)

dato che radianti = 360 . Allo stesso modo, l'ora del giorno misurata in ore da mezzanotte può essere mappata su seno e coseno usando2π=360

peccato(π tempo/12),cos(π tempo/12)

o

peccato(π(tempo+0.5)/12),cos(π(tempo+0.5)/12)

a seconda di come il tempo è stato registrato o deve essere interpretato.

A volte la natura o la società sono obbligate e la dipendenza dalla variabile circolare assume la forma di una direzione ottimale per la risposta e la direzione opposta (metà del cerchio di distanza) essendo pessimale. In tal caso può essere sufficiente un solo termine seno e coseno; per schemi più complicati potresti aver bisogno di altri termini. Per molto più dettagliato un tutorial su questa tecnica di circolare, Fourier, giornali, regressione trigonometrica può essere trovato qui , a loro volta con ulteriori riferimenti. La buona notizia è che una volta creati termini seno e coseno sono solo predittori extra nella tua regressione.

C'è una vasta letteratura sulle statistiche circolari, a sua volta vista come parte delle statistiche direzionali. Stranamente, questa tecnica spesso non viene menzionata, poiché l'attenzione in quella letteratura è comunemente sulle variabili di risposta circolari. Riassumendo le variabili circolari con i loro mezzi vettoriali è un metodo descrittivo standard ma non è richiesto o direttamente utile per la regressione.

Alcuni dettagli sulla terminologia La direzione del vento e l'ora del giorno sono in termini statistici variabili, non parametri, qualunque sia l'utilizzo nel tuo ramo scientifico.

yXββX[-1,1]

Commento accidentale Per una variabile di risposta come la concentrazione di particelle mi aspetterei di utilizzare un modello lineare generalizzato con collegamento logaritmico per garantire previsioni positive.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.