Test di associazione per un DV normalmente distribuito da variabili direzionali indipendenti?


10

Esiste un test di ipotesi per stabilire se una variabile dipendente normalmente distribuita è associata a una variabile distribuita direzionalmente ?

Ad esempio, se l' ora del giorno è la variabile esplicativa (e supponendo che cose come il giorno della settimana, il mese dell'anno, ecc. Sono irrilevanti), ecco come spiegare il fatto che le 23:00 sono 22 ore in anticipo rispetto all'01: 00 e anche 2 ore dopo l' una in un test di associazione? Posso verificare se l'ora continua del giorno spiega la variabile dipendente senza supporre che la mezzanotte alle 12:00 non segua un minuto dopo le 23:59?

Questo test si applica anche a variabili esplicative direzionali discrete ( modulari ?)? O questo richiede un test separato? Ad esempio, come verificare se la variabile dipendente è spiegata per mese dell'anno (presupponendo giorno e stagione dell'anno e anno o decennio specifici sono irrilevanti). Il trattamento del mese dell'anno ignora categoricamente l'ordinamento. Ma trattare il mese dell'anno come una variabile ordinale standard (diciamo Jan = 1 ... Dic = 12) ignora che gennaio arriva due mesi dopo novembre.


1
La risposta potrebbe riempire un libro (e ce ne sono diversi là fuori). Rendere la tua domanda più specifica potrebbe aiutarti a focalizzare le risposte su ciò che conta per te.
whuber

@whuber Um ... cavolo ... mi puoi aiutare su come restringere? Specificare una distribuzione per il DV? Limitare a un solo test, piuttosto che alla regressione? Sono un po 'perplesso e non so da dove cominciare ...
Alexis,

@whuber Ho cercato di restringere un po 'la domanda, e sarei grato per qualsiasi suggerimento per renderlo più utile (voglio davvero solo un punto di partenza per pensare ai predittori modulari). Se questo è ora in forma decente, è probabile che io risponda a una domanda simile su tale test che è privo di distribuzione nel DV.
Alexis,

@whuber rimuginando il IV modulare discreto in un contesto di regressione: sarebbe un modello misto a due livelli con il IV modulare discreto come identificatore di livello 2 con ciascuna unità di livello 2 avente una variabile di effetto pre e post casuale uguale alla valore precedente e successivo nel sistema numerico essere sulla buona strada?
Alexis,

Risposte:


9

In generale, penso che sia più fruttuoso scientificamente e statisticamente iniziare ponendo una domanda più ampia e diversa, che è fino a che punto è possibile prevedere una risposta da un predittore circolare. Dico circolare qui piuttosto che direzionale , in parte perché quest'ultimo include spazi sferici e persino più favolosi, che non possono essere coperti in un'unica risposta; e in parte perché i tuoi esempi, ora del giorno e periodo dell'anno , sono entrambi circolari. Un altro esempio importante è la direzione della bussola (rilevante per venti, movimenti di animali o umani, allineamenti, ecc.), Che presenta molti problemi circolari: in effetti, per alcuni scienziati è un punto di partenza più ovvio.

Ogni volta che puoi cavartela, usare le funzioni seno e coseno del tempo in una sorta di modello di regressione è un metodo di modellazione semplice e facile da implementare. È il primo punto di riferimento per molti esempi biologici e / o ambientali. (I due tipi sono spesso messi insieme, perché i fenomeni biotici che mostrano la stagionalità di solito rispondono direttamente o indirettamente al clima o agli agenti atmosferici.)

Per concretezza, immagina misurazioni del tempo nell'arco di 24 ore o 12 mesi, in modo che es

sin[2π(hour/24)],  cos[2π(hour/24)]

sin[2π(month/12)],  cos[2π(month/12)]

ognuno descrive un ciclo per l'intero giorno o anno. Un test formale di nessuna relazione tra una risposta misurata o contata e un certo tempo circolare sarebbe quindi un test standard per stabilire se i coefficienti di seno e coseno sono congiuntamente zero in un modello lineare generalizzato con seno e coseno come fattori predittivi, un legame appropriato e una famiglia essere scelto in base alla natura della risposta.

La questione della distribuzione marginale della risposta (normale o altro) è in questo approccio secondario e / o gestita dalla scelta della famiglia.

Il merito dei seni e dei coseni è naturalmente che sono periodici e si avvolgono automaticamente, quindi i valori all'inizio e alla fine di ogni giorno o anno sono necessariamente gli stessi. Non ci sono problemi con le condizioni al contorno, perché non c'è limite.

Questo approccio è stato chiamato regressione circolare, periodica, trigonometrica e di Fourier. Per una revisione introduttiva del tutorial, vedi qui

In pratica,

  1. Tali test di solito mostrano risultati straordinariamente significativi a livelli convenzionali ogni volta che ci aspettiamo una stagionalità. La domanda più interessante è quindi la curva stagionale precisa stimata e se abbiamo bisogno di un modello più complicato anche con altri termini sinusoidali.

  2. Nulla esclude anche altri predittori, nel qual caso abbiamo semplicemente bisogno di modelli più completi con altri predittori inclusi, ad esempio seni e coseni per la stagionalità e altri predittori per tutto il resto.

  3. Ad un certo punto, dipendendo congiuntamente dai dati, dal problema, dai gusti e dall'esperienza del ricercatore, può diventare più naturale enfatizzare l'aspetto delle serie temporali del problema e costruire un modello con dipendenza temporale esplicita. In effetti, alcune persone statisticamente negherebbero che esiste un altro modo per affrontarlo.

Ciò che viene facilmente definito come tendenza (ma non sempre così facilmente identificabile) rientra in n. 2 o n. 3, o anche in entrambi.

Molti economisti e altri studiosi di scienze sociali interessati alla stagionalità nei mercati, nelle economie nazionali e internazionali o in altri fenomeni umani sono di solito più colpiti dalle possibilità di una variabilità più complicata all'interno di ogni giorno o (più comunemente) anno. Spesso, anche se non sempre, la stagionalità è una seccatura da eliminare o da adattare, a differenza degli scienziati biologici e ambientali che spesso considerano la stagionalità interessante e importante, anche l'obiettivo principale di un progetto. Detto questo, anche gli economisti e altri spesso adottano un approccio di tipo regressivo, ma con le munizioni un fascio di variabili indicatore (fittizie), più semplicemente variabili per ogni mese o trimestre di un anno0,1. Questo può essere un modo pratico per cercare di catturare gli effetti di vacanze, periodi di vacanza, effetti collaterali degli anni scolastici, ecc., Nonché influenze o shock di origine climatica o meteorologica. Con queste differenze notate, la maggior parte dei commenti sopra si applica anche in scienze economiche e sociali.

Gli atteggiamenti e gli approcci di epidemiologi e statistici medici interessati alle variazioni di morbilità, mortalità, ricoveri ospedalieri, visite cliniche e simili, tendono a incidere tra questi due estremi.

A mio avviso, dividere i giorni o gli anni a metà per confrontarli è di solito arbitrario, artificiale e nella migliore delle ipotesi scomodo. Sta anche ignorando il tipo di struttura liscia tipicamente presente nei dati.

MODIFICA Finora l'account non affronta la differenza tra tempo discreto e tempo continuo, ma dalla mia esperienza non lo considero un grosso problema in pratica.

Ma le scelte precise dipendono da come arrivano i dati e dal modello di cambiamento.

Se i dati fossero trimestrali e umani, tenderei a utilizzare le variabili degli indicatori (ad esempio, i trimestri 3 e 4 sono spesso diversi). Se mensile e umana, la scelta non è chiara, ma dovresti lavorare sodo per vendere seni e coseni alla maggior parte degli economisti. Se mensile o più fine e biologico o ambientale, sicuramente seno e coseno.

EDIT 2 Ulteriori dettagli sulla regressione trigonometrica

Un dettaglio distintivo della regressione trigonometrica (chiamato in altro modo se si preferisce) è che quasi sempre i termini seno e coseno sono presentati al meglio in un modello in coppia. Per prima cosa scaliamo l'ora del giorno, l'ora dell'anno o la direzione della bussola in modo che sia rappresentato come un angolo sul cerchio in radianti, quindi sull'intervallo [ 0 , 2 π ] . Quindi usiamo tante coppie sin k θ , cos k θ , k = 1 , 2 , 3 , ...θ[0,2π]sinkθ,coskθ,k=1,2,3,come sono necessari in un modello. (Nelle statistiche circolari, le convenzioni trigonometriche tendono a superare le convenzioni statistiche, in modo che simboli greci come sono usati sia per variabili che per parametri.)θ,ϕ,ψ

sinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)

sinθcosϕ+cosθsinϕ,

cosϕsinϕ

b1sinθ+b2cosθ


Noto qualche sovrapposizione sorprendente con la risposta di @Kelvin.
Nick Cox,

+1 (Esp. Per aver usato "favoloso" come hai fatto tu! :) Nick Cox, saresti così gentile da rendere esplicito il caso anche di variabili circolari discrete , come da mia domanda? Sarebbe semplice come l'approccio di "modellazione trigonometrica" ​​che descrivi usando una misura discreta del tempo? O dovrebbero esserci "correzioni di continuità" di qualche tipo?
Alexis,

Per quanto ne so, l'unica differenza tra variabili circolari discrete e continue è nell'arrotondamento dei valori in punti discreti (ad esempio, 14:00 contro 14.12345 ore), come per le variabili non circolari, quindi non ci sarà molta differenza purché applichi meno arrotondamenti con piccoli passi rispetto al periodo complessivo. Fondamentalmente, si tratta solo di avere un errore di arrotondamento o no. Meglio no, se puoi evitarlo.
Kelvin,

Sono d'accordo che discreto e continuo non sono molto diversi. In pratica, molte misurazioni sono più o meno approfondite riportando solo in trimestri, semestri, mesi, giorni, ecc. O come qualsiasi cosa che va da (N. S) a (N, E, S, W) fino a una risoluzione più fine per le direzioni della bussola. Nel dettaglio, ci sono differenze tra le misurazioni dei punti (la temperatura in un momento preciso) e le misurazioni degli intervalli (ad es. Vendite mensili totali). Non raggrupperei tutti questi dettagli insieme come errore di arrotondamento, poiché a volte non c'è errore tanto quanto l'aggregazione o la media.
Nick Cox,

4

Ecco un'opzione senza distribuzione, poiché sembra che sia quello che stai cercando comunque. Non è particolare nel campo delle statistiche circolari, di cui sono abbastanza ignorante, ma è applicabile qui e in molti altri contesti.

X

YRdd1

Z:=(X,Y)mzi=(xi,yi)

Ora, esegui un test usando il criterio di indipendenza di Hilbert Schmidt (HSIC), come nel seguente documento:

Gretton, Fukumizu, Teo, Song, Schölkopf e Smola. Un test statistico dell'indipendenza del kernel. NIPS 2008. ( pdf )

Questo è:

  • kX

    • XR2k(x,x)=exp(12σ2xx2)σX
    • Un'altra opzione è rappresentare come un angolo, dire in e usare il kernel von Mises . Qui è un parametro di scorrevolezza. 1X[π,π]k(x,x)=exp(κcos(xx))κ
  • Definire un kernel per , allo stesso modo. Per in il kernel gaussiano, sopra, è un default ragionevole.lYYRn

  • Let , e siano matrici tale che , , e è la matrice centraggio . Quindi la statistica test ha delle belle proprietà quando viene usata come test di indipendenza. La sua distribuzione nulla può essere approssimata o adattando il momento a una distribuzione gamma (efficiente dal punto di vista computazionale), oppure mediante bootstrap (più preciso per campioni di piccole dimensioni).HKLm×mKij=k(xi,xj)Lij=l(yi,yj)H H=I1m11T1m2tr(KHLH)

Il codice Matlab per eseguire questa operazione con i kernel RBF è disponibile dal primo autore qui .


Questo approccio è carino perché è generale e tende a funzionare bene. Gli svantaggi principali sono:

  • m2 complessità computazionale per calcolare la statistica del test; questo può essere ridotto con approssimazioni del kernel se è un problema.
  • La complicata distribuzione nulla. Per grande-ish , l'approssimazione gamma è buono e non troppo onerosa; per piccoli , è necessario il bootstrap.mm
  • Scelta del kernel. Come sopra menzionato, i noccioli e deve essere selezionata in modo euristico. Questo documento fornisce un criterio non ottimale per la selezione del kernel; questo documento presenta un buon metodo per una versione di grandi dimensioni del test che purtroppo perde potere statistico. Alcuni lavori sono attualmente in corso per un criterio quasi ottimale in questo contesto, ma sfortunatamente non è ancora pronto per il consumo pubblico.kl


1. Questo è spesso usato come kernel di smoothing per i dati circolari, ma in una rapida ricerca non ho trovato nessuno che lo utilizza come kernel RKHS. Tuttavia, è definito positivamente dal teorema di Bochner , poiché la forma invariante a turni è proporzionale al pdf di una distribuzione di von Mises con media 0, la cui funzione caratteristica è proporzionale a una distribuzione uniforme sul suo supporto .k(xx)[π,π]


3

È possibile eseguire un test t tra la media dalle "metà" opposte del periodo, ad esempio confrontando il valore medio dalle 12:00 alle 12:00 con il valore medio dalle 12:00 alle 12:00. E quindi confrontare il valore medio dalle 6:00 alle 6:00 con il valore medio dalle 6:00 alle 18:00.

Oppure, se disponi di dati sufficienti, puoi suddividere il periodo in segmenti più piccoli (ad es. Ogni ora) ed eseguire un test t tra ciascuna coppia di segmenti, correggendo al contempo più confronti.

In alternativa, per un'analisi più "continua" (ovvero senza segmentazione arbitraria), è possibile eseguire regressioni lineari contro le funzioni seno e coseno della variabile direzionale (con il periodo corretto), che "circolaranno" automaticamente i dati:

x=sin(x2π/period)
x=cos(x2π/period)

Il problema principale con tale approccio è che sarà difficile garantire che la fase del modello sia impostata per individuare la massima correlazione, quindi potrebbe essere necessario provare diverse fasi, oppure selezionare la fase a occhio per formulare il tuo valore ipotetico :a

x=sin((x+a)2π/period)

Tuttavia, idealmente si dovrebbe formulare la tua ipotesi (ad esempio, i pomeriggi sono più attivi di mattina) e quindi impostare l'appropriata prima ancora di guardare i dati.a

EDIT: un altro pensiero è che potresti eseguire una regressione multipla contro ENTRAMBE le funzioni seno e coseno della variabile direzionale allo stesso tempo (cioè tra la tua normale variabile più e ) in quanto ciò dovrebbe tener conto la vera "direzione", più o meno allo stesso modo in cui le funzioni seno e coseno definiscono insieme le coordinate xey di un cerchio completo. Quindi non dovrai preoccuparti del problema di fase separatamente, poiché verrebbe risolto automaticamente. Non l'ho mai visto prima, ma non vedo perché non dovrebbe funzionare.x x yxx

In ogni caso, penso che tu debba fare alcune ipotesi riguardo al periodo, e quindi testare di conseguenza.


Kelvin, "rompendo" i dati circolari che descrivi sembrerebbe ignorare precisamente il problema che ho sollevato sull'ordinamento modulare.
Alexis,

Hai letto la seconda metà della mia risposta, che descrive l'analisi continua per regressione multipla?
Kelvin,

Hai ragione su seno e coseno insieme. Ciò è spiegato ulteriormente nella mia risposta e nel documento del 2006 cita e in ulteriori riferimenti che ciò cita.
Nick Cox,

@Nick - Non avevo visto la tua risposta come hai postato dopo la mia ultima modifica, ma è bello che siamo arrivati ​​alla stessa risposta indipendentemente dal fatto che ero solo creativo (praticamente pensando ad alta voce) e che non avevo mai visto prima fatto.
Kelvin,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.