Come confrontare 2 serie temporali non stazionarie per determinare una correlazione?


11

Ho due serie di dati che tracciano l'età mediana alla morte nel tempo. Entrambe le serie dimostrano un aumento dell'età alla morte nel tempo, ma una molto più bassa di un'altra. Voglio determinare se l'aumento dell'età alla morte del campione inferiore è significativamente diverso da quello del campione superiore.

Ecco i dati , ordinati per anno (dal 1972 al 2009 incluso) arrotondati al terzo decimale:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

Entrambe le serie sono non fisse: come posso confrontare le due per favore? Sto usando STATA. Qualsiasi consiglio sarebbe stato grato.

Grafici di dati


Se fornisci un link ai tuoi dati, Matt, possiamo modificare la tua domanda per includerli.
whuber

Mille grazie per l'interesse per la mia situazione - link ai dati aggiunti. Qualsiasi aiuto sarebbe apprezzato
Matt

@ Matt: dando un'occhiata ai tuoi dati, sembra che siano entrambi tendenze al rialzo. Quindi sei essenzialmente interessato all'ipotesi che una coorte stia aumentando più rapidamente dell'altra?
Andrew,

Sì Andrew - la coorte superiore è la popolazione generale, mentre la coorte con l'età di morte più povera è un gruppo che muore della stessa condizione. L'ipotesi nulla è che se sono strettamente correlati qualsiasi miglioramento nella sopravvivenza è potenzialmente dovuto a fattori comuni (e non a una migliore cura di tale condizione).
Matt Hurley,

Gli aumenti, per quanto misurati, sono così ovviamente diversi che non è necessario alcun test formale. (Otterrai valori p di o meno quasi indipendentemente da come valuti e confronti le pendenze, indipendentemente da come modelli la variazione.) La differenza nelle aspettative di vita è diminuita esponenzialmente a un tasso dello 0,83% per anno. La cosa interessante è l'improvvisa battuta d'arresto nella Coorte B al 2001; questo cambiamento - equivalente a una perdita istantanea di sei anni di progresso - è statisticamente significativo. 1010
whuber

Risposte:


14

Questa è una situazione semplice; continuiamo così. La chiave è concentrarsi su ciò che conta:

  • Ottenere una descrizione utile dei dati.

  • Valutare deviazioni individuali da quella descrizione.

  • Valutare il possibile ruolo e influenza del caso nell'interpretazione.

  • Mantenere l'integrità intellettuale e la trasparenza.

Ci sono ancora molte scelte e molte forme di analisi saranno valide ed efficaci. Illustriamo qui un approccio che può essere raccomandato per la sua aderenza a questi principi chiave.

Per mantenere l'integrità, suddividiamo i dati a metà: le osservazioni dal 1972 al 1990 e quelle dal 1991 al 2009 (19 anni ciascuna). Adatteremo i modelli alla prima metà e vedremo poi come funzionano gli adattamenti nella proiezione della seconda metà. Ciò ha l'ulteriore vantaggio di rilevare cambiamenti significativi che potrebbero essersi verificati durante la seconda metà.

Per ottenere una descrizione utile, dobbiamo (a) trovare un modo per misurare le modifiche e (b) adattarsi al modello più semplice possibile appropriato per tali modifiche, valutarlo e adattarlo iterativamente a quelli più complessi per compensare le deviazioni dai modelli semplici.

(a) Hai molte scelte: puoi guardare i dati grezzi; puoi vedere le loro differenze annuali; puoi fare lo stesso con i logaritmi (per valutare le modifiche relative); puoi valutare anni di vita persi o aspettativa di vita relativa (RLE); o molte altre cose. Dopo qualche riflessione, ho deciso di considerare l'RLE, definito come il rapporto tra l'aspettativa di vita nella Coorte B rispetto a quello della (riferimento) Coorte A. Fortunatamente, come mostrano i grafici, l'aspettativa di vita nella Coorte A sta aumentando regolarmente in una stalla moda nel tempo, in modo che la maggior parte della variazione casuale nella RLE sarà dovuta a cambiamenti nella Coorte B.

(b) Il modello più semplice possibile per iniziare è una tendenza lineare. Vediamo come funziona.

Figura 1

I punti blu scuro in questo diagramma sono i dati conservati per l'adattamento; i punti in oro chiaro sono i dati successivi, non utilizzati per l'adattamento. La linea nera è adatta, con una pendenza di 0,009 / anno. Le linee tratteggiate sono intervalli di previsione per singoli valori futuri.

Nel complesso, la vestibilità sembra buona: l' esame dei residui (vedi sotto) non mostra cambiamenti importanti nelle loro dimensioni nel tempo (durante il periodo di dati 1972-1990). (C'è qualche indicazione che tendevano ad essere più grandi all'inizio, quando le aspettative di vita erano basse. Potremmo gestire questa complicazione sacrificando un po 'di semplicità, ma è improbabile che i benefici per la stima della tendenza siano grandi.) C'è solo il più piccolo suggerimento di correlazione seriale (esibita da alcune serie di positive e serie di residui negativi), ma chiaramente questo non è importante. Non ci sono valori anomali, che sarebbero indicati da punti oltre le bande di predizione.

La sorpresa è che nel 2001 i valori sono crollati all'improvviso nella fascia di previsione inferiore e sono rimasti lì: qualcosa di piuttosto improvviso e di grandi dimensioni è accaduto e persistito.

Ecco i residui, che sono le deviazioni dalla descrizione menzionata in precedenza.

figura 2

Poiché vogliamo confrontare i residui con 0, le linee verticali vengono disegnate al livello zero come aiuto visivo. Ancora una volta, i punti blu mostrano i dati utilizzati per l'adattamento. Quelli in oro chiaro sono i residui per i dati che si avvicinano al limite di predizione inferiore, post 2000.

Da questa cifra possiamo stimare che l'effetto della variazione 2000-2001 era di circa -0,07 . Ciò riflette un improvviso calo di 0,07 (7%) di una vita intera all'interno della Coorte B. Dopo tale calo, lo schema orizzontale dei residui mostra che la tendenza precedente è continuata, ma al nuovo livello inferiore. Questa parte dell'analisi dovrebbe essere considerata esplorativa : non è stata specificamente pianificata, ma è stata creata a causa di un sorprendente confronto tra i dati forniti (1991-2009) e l'adattamento al resto dei dati.

Un'altra cosa - anche usando solo i primi 19 anni di dati, l'errore standard della pendenza è piccolo: è solo .0009, solo un decimo del valore stimato di .009. La corrispondente statistica t di 10, con 17 gradi di libertà, è estremamente significativa (il valore p è inferiore a ); cioè, possiamo essere certi che la tendenza non è dovuta al caso. Questa è una parte della nostra valutazione del ruolo del caso nell'analisi. Le altre parti sono gli esami dei residui.107

Non sembra esserci alcun motivo per adattare un modello più complicato a questi dati, almeno non allo scopo di stimare se nel RLE c'è una tendenza reale nel tempo: ce n'è uno. Potremmo andare oltre e suddividere i dati in valori precedenti al 2001 e valori successivi al 2000 al fine di affinare le nostre stimedelle tendenze, ma non sarebbe del tutto onesto condurre test di ipotesi. I valori di p sarebbero artificialmente bassi, poiché i test di divisione non erano stati pianificati in anticipo. Ma come esercizio esplorativo, tale stima va bene. Scopri tutto ciò che puoi dai tuoi dati! Fai solo attenzione a non illuderti con un overfitting (che è quasi sicuro che accada se usi più di una mezza dozzina di parametri o usi tecniche di adattamento automatizzate) o lo snooping dei dati: stai attento alla differenza tra conferma formale e informale (ma prezioso) esplorazione dei dati.

Riassumiamo:

  • Selezionando una misura adeguata dell'aspettativa di vita (RLE), distribuendo metà dei dati, adattando un modello semplice e testando quel modello rispetto ai dati rimanenti, abbiamo stabilito con alta sicurezza che : c'era una tendenza costante; è stato vicino al lineare per un lungo periodo di tempo; e c'è stato un improvviso calo persistente di RLE nel 2001.

  • Il nostro modello è straordinariamente parsimonioso : richiede solo due numeri (una pendenza e un'intercettazione) per descrivere accuratamente i primi dati. Ha bisogno di un terzo (la data della pausa, 2001) per descrivere un'ovvia ma inaspettata partenza da questa descrizione. Non ci sono valori anomali relativi a questa descrizione di tre parametri. Il modello non verrà sostanzialmente migliorato caratterizzando la correlazione seriale (il focus delle tecniche delle serie temporali in generale), tentando di descrivere le piccole deviazioni individuali (residui) mostrate o introducendo adattamenti più complicati (come l'aggiunta di una componente temporale quadratica o modellando le variazioni delle dimensioni dei residui nel tempo).

  • La tendenza è stata di 0,009 RLE all'anno . Ciò significa che ad ogni anno che passa, l'aspettativa di vita all'interno della Coorte B ha avuto 0,009 (quasi l'1%) di una vita normale piena attesa aggiunta ad esso. Nel corso dello studio (37 anni), ciò equivarrebbe a 37 * 0,009 = 0,34 = un terzo di un miglioramento completo della vita. La battuta d'arresto nel 2001 ha ridotto tale guadagno a circa 0,28 di una vita intera dal 1972 al 2009 (anche se durante quel periodo l'aspettativa di vita complessiva è aumentata del 10%).

  • Sebbene questo modello possa essere migliorato, probabilmente avrebbe bisogno di più parametri e è improbabile che il miglioramento sia eccezionale (come attesta il comportamento quasi casuale dei residui). Nel complesso, quindi, dovremmo accontentarci di arrivare a una descrizione così compatta, utile e semplice dei dati per così poco lavoro analitico.


: whuber gli impulsi di una volta identificati non hanno alcun ruolo nella previsione di spirito:
IrishStat

2

Penso che la risposta di Whuber sia semplice e semplice da comprendere per una persona non-serie come me. Baso il mio sul suo. La mia risposta è in R non Stata perché non lo so benissimo.

Mi chiedo se la domanda ci stia effettivamente chiedendo se l'aumento assoluto di anno in anno sia lo stesso nelle due coorti (piuttosto che relativo). Penso che questo sia importante e lo illustri come segue. Considera il seguente esempio di giocattolo:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

inserisci qui la descrizione dell'immagine

Qui abbiamo 2 coorti, ognuna delle quali ha un aumento costante di 1 anno all'anno nella sopravvivenza mediana. Quindi ogni anno entrambe le coorti in questo esempio aumentano dello stesso importo assoluto, ma l'RLE fornisce quanto segue:

rle <-  a / b
plot(rle)

inserisci qui la descrizione dell'immagine

Che ovviamente ha una tendenza al rialzo e il valore p per verificare l'ipotesi che il gradiente della linea 0 sia 2,2e-16. La linea retta adattata (ignoriamo che questa linea sembra curva) ha un gradiente di 0,008. Quindi, sebbene entrambe le coorti abbiano lo stesso aumento assoluto in un anno, la RLE ha una pendenza verso l'alto.

Quindi se usi RLE quando vuoi cercare aumenti assoluti, respingerai in modo inappropriato l'ipotesi nulla.

Utilizzando i dati forniti, calcolando la differenza assoluta tra le coorti otteniamo: inserisci qui la descrizione dell'immagine

Ciò implica che la differenza assoluta tra la sopravvivenza mediana sta gradualmente diminuendo (cioè la coorte con la scarsa sopravvivenza si sta gradualmente avvicinando alla coorte con la migliore sopravvivenza).


: Andrew nota i due gruppi di residui alla fine del grafico. Ciò suggerisce una potenziale carenza nell'analisi. Sfortunatamente anche i matematici esperti che sono anche degli esperti statistici a volte non sono persone delle serie storiche. Quello che ho suggerito è qual è la procedura operativa standard per l'analisi delle serie temporali.
IrishStat,

@andrew Nice response. Ho votato, credo nelle tue qualifiche!
Adam,

1
: Adam Grazie per le tue belle parole. Noterai che affido solo a problemi / domande sulle serie temporali in cui ho un po 'di esperienza in quanto mi sono specializzato in quell'area negli ultimi 40 anni.
IrishStat,

@IrishStat un tocco discorsivo. Bella esperienza, hai messo in atto punk come me da prima che io nascessi.
Adam,

: Adam L'idea è di aiutare gli altri. Spero davvero che sia stato così. Sono confuso dalla parola "punk" in quanto non ho affatto quella sensazione. Sto solo cercando di aiutare!
IrishStat,

1

Queste due serie storiche sembrano avere una tendenza deterministica. Questa è una relazione che ovviamente desideri rimuovere prima di ulteriori analisi. Personalmente, procederei come segue:

1) Avrei eseguito una regressione per ogni serie temporale contro una costante e un tempo, e avrei calcolato il residuo per ogni serie storica.

2) Prendendo le due serie di residui, calcolate nel passaggio precedente, eseguirò una semplice regressione lineare (senza un termine costante) e guarderei la statistica t, il valore p e decisi se ci fosse o meno un'ulteriore dipendenza tra le due serie.

Questa analisi assume lo stesso insieme di ipotesi che si fa in una regressione lineare.


: user3544 Eseguire una regressione contro una costante nel tempo è una forma di detrimento che è una forma di pre-sbiancamento; la differenziazione è un'altra forma di pre-sbiancamento: entrambi sono presuntivi in ​​quanto possono esserci più tendenze o diverse forme di operatori di differenziazione. Si noti che un operatore di differenziazione è un caso particolare di un filtro ARIMA che converte una serie in rumore bianco. In generale si vuole filtrare X per renderlo disturbato (x) e quindi applicare quel filtro a Y per creare y (non necessariamente rumore bianco) ai fini
dell'identificazione

: User3544 Avrei dovuto applaudire l'uso di semplici tendenze semplici ma semplici, ma penso che a volte non si dovrebbe essere ipotetici. Una tendenza semplice spesso è inutile se ci sono cambiamenti di livello nella serie o ci sono un certo numero di tendenze. L'ipotesi di test relativa alla costanza dei parametri deve essere solida e condotta laddove si cerchi il momento in cui i parametri potrebbero essere cambiati piuttosto che selezionare arbitrariamente visivamente il punto usando il Chow Test. È noto che valori inusuali al ribasso mettono alla prova l'auto-correlazione, motivo per cui è necessario rilevarli.
IrishStat

IrishStat: il tuo applauso è ben accolto e ascoltato .. :) Concordo pienamente con i tuoi commenti, tuttavia, dati i complotti delle due serie storiche, ho pensato "Teniamolo semplice" .. :)
Lalas,

1
: user3544 La mia citazione preferita di Einstein è "Rendi tutto il più semplice possibile, ma non più semplice" o riformulato Rendi i modelli il più semplice possibile, ma non più semplice perché alcune persone pensano che l'obiettivo sia semplice, mentre può essere la causa di un'analisi insufficiente. In questo caso il tuo suggerimento sarebbe bastato a identificare la correlazione contemporanea e la correlazione di ritardo tra le due coorti mentre illuminava il cambio di livello. Per saperne di più: brainyquote.com/quotes/quotes/a/… .
IrishStat,

0

In alcuni casi si conosce un modello teorico che può essere utilizzato per verificare la tua ipotesi. Nel mio mondo questa "conoscenza" è spesso assente e si deve ricorrere a tecniche statistiche che possono essere classificate come analisi di dati esplorativi che sintetizzano quanto segue. Quando si analizzano i dati di serie temporali non stazionari, ovvero con proprietà autocorrelative, sono semplici test di correlazione incrociata spesso fuorviante in quanto si possono facilmente trovare falsi positivi. Una delle prime analisi di questo si trova in Yule, GU, 1926, "Perché a volte otteniamo correlazioni senza senso tra le serie temporali? Uno studio nel campionamento e la natura delle serie temporali", Journal of the Royal Statistical Society 89, 1– 64 In alternativa, quando una o più serie stesse sono state realizzate da attività eccezionali (vedi whuber " l'improvvisa battuta d'arresto nella coorte B al 2001) che può effettivamente nascondere relazioni significative. Ora il rilevamento di una relazione tra serie storiche si estende non solo all'esame delle relazioni contemporanee ma a possibili relazioni ritardate. Continuando, se una delle due serie è stata effettuata da anomalie (eventi occasionali), allora dobbiamo rafforzare la nostra analisi adeguandoci a queste distorsioni temporanee. La letteratura delle serie storiche indica come identificare la relazione attraverso il pre-sbiancamento al fine di identificare più chiaramente la struttura. Il pre-sbiancamento regola la struttura intra-correlativa prima di identificare la struttura inter-correlativa. Si noti che la parola chiave stava identificando la struttura. Questo approccio porta facilmente al seguente "modello utile": Ora il rilevamento di una relazione tra serie storiche si estende non solo all'esame delle relazioni contemporanee ma a possibili relazioni ritardate. Continuando, se una delle due serie è stata effettuata da anomalie (eventi occasionali), allora dobbiamo rafforzare la nostra analisi adeguandoci a queste distorsioni temporanee. La letteratura delle serie storiche indica come identificare la relazione attraverso il pre-sbiancamento al fine di identificare più chiaramente la struttura. Il pre-sbiancamento regola la struttura intra-correlativa prima di identificare la struttura inter-correlativa. Si noti che la parola chiave stava identificando la struttura. Questo approccio porta facilmente al seguente "modello utile": Ora il rilevamento di una relazione tra serie storiche si estende non solo all'esame delle relazioni contemporanee ma a possibili relazioni ritardate. Continuando, se una delle due serie è stata effettuata da anomalie (eventi occasionali), allora dobbiamo rafforzare la nostra analisi adeguandoci a queste distorsioni temporanee. La letteratura delle serie storiche indica come identificare la relazione attraverso il pre-sbiancamento al fine di identificare più chiaramente la struttura. Il pre-sbiancamento regola la struttura intra-correlativa prima di identificare la struttura inter-correlativa. Si noti che la parola chiave stava identificando la struttura. Questo approccio porta facilmente al seguente "modello utile": se una delle due serie è stata effettuata da anomalie (eventi occasionali), allora dobbiamo rafforzare la nostra analisi adeguandoci a queste distorsioni temporanee. La letteratura delle serie storiche indica come identificare la relazione attraverso il pre-sbiancamento al fine di identificare più chiaramente la struttura. Il pre-sbiancamento regola la struttura intra-correlativa prima di identificare la struttura inter-correlativa. Si noti che la parola chiave stava identificando la struttura. Questo approccio porta facilmente al seguente "modello utile": se una delle due serie è stata effettuata da anomalie (eventi occasionali), allora dobbiamo rafforzare la nostra analisi adeguandoci a queste distorsioni temporanee. La letteratura delle serie storiche indica come identificare la relazione attraverso il pre-sbiancamento al fine di identificare più chiaramente la struttura. Il pre-sbiancamento regola la struttura intra-correlativa prima di identificare la struttura inter-correlativa. Si noti che la parola chiave stava identificando la struttura. Questo approccio porta facilmente al seguente "modello utile": Si noti che la parola chiave stava identificando la struttura. Questo approccio porta facilmente al seguente "modello utile": Si noti che la parola chiave stava identificando la struttura. Questo approccio porta facilmente al seguente "modello utile":

Y (T) = -194,45
+ [X1 (T)] [(+ 1.2396+ 1.6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

che suggerisce una relazione contemporanea di 1.2936 e un effetto ritardato di 1.6523. Si noti che ci sono stati diversi anni in cui è stata identificata l'attività insolita, vale a dire. (1975,2001,1983,1999,1976,1985,1984,1991 e 1989). Gli aggiustamenti per gli anni ci consentono di valutare più chiaramente la relazione tra queste due serie.

In termini di previsione

MODELLO ESPRESSO COME UN XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ costante

LA COSTANTE DEL LATO DESTRO È: -194.45

COHORTA 0 1.239589 X (39) * 78.228616 = 96.971340

COHORTA 1 1.652332 X (38) * 77.983000 = 128.853835

I ~ L00030 0 -2.475963 X (39) * 1.000000 = -2.475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Sono necessari solo quattro coefficienti per fare una previsione e ovviamente una previsione per CohortA al periodo di tempo 39 (78.228616) ottenuto dal modello ARIMA per Cohorta.


4
Nove su 38 anni mostrano attività "insolite"? In un modello con (apparentemente) 25 parametri ?! Qualcosa non va in questa interpretazione. A parte tutti questi impulsi e lo spostamento di livello, hai trovato la componente non lineare nella tendenza della coorte b?
whuber

2
Quali sono i numeri nella colonna di destra (3, 30, 29, 11, ecc.)? Sembrano essere parte della tua descrizione dei dati e quindi sono anche parametri. Anche se non li contiamo, usare 14 parametri per descrivere 38 valori, specialmente quando la domanda è semplicemente "c'è una tendenza?", Sembra eccessivo. Del resto, qual è esattamente la tendenza? Dove in tutte queste stime si fa a scavare? Se un medico si avvicinasse a te e ti chiedesse "ok, cosa è stato realizzato per i pazienti nella Coorte B dal 1972", potresti dirglielo con una frase chiara?
whuber

2
Ri "previsione molto potente": potrei fraintendere a cosa equivale il tuo modello, ma in generale una migliore descrizione di un metodo (serie temporale o altro) che identifica un quarto dei dati come "insolito" e richiederebbe "aggiustamento" sarebbe "sovralimentato" e "inutilmente complesso". La tua affermazione di nessuna tendenza nella Coorte B è semplicemente incredibile.
whuber

2
@Adam, poiché questa analisi ignora essenzialmente le informazioni sulla variabilità contenuta nei 10 "impulsi", qualsiasi banda di previsione posizionata attorno alle previsioni sarà estremamente ottimista (troppo stretto). Inoltre, un'analisi più approfondita che include tutti i dati (a differenza della mia analisi illustrativa che include solo la prima metà) rileverà una componente non lineare coerente con un leggero declino della tendenza, e anche questo non viene rilevato qui. Di maggiore importanza rispetto alle previsioni è comprendere l'effetto 2000-2001: se si potesse ripetere, probabilmente tutte le previsioni sono errate.
whuber

1
@whuber Devo ammettere che non conosco tutto il gergo tecnico, ma la tua spiegazione ha molto senso. Molte grazie.
Adam,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.