Confronto tra serie di serie storiche


10

Ho tre serie di dati di serie storiche che sto cercando di confrontare. Sono stati presi in 3 periodi separati di circa 12 giorni. Sono la media, il massimo e il minimo dei conteggi in una biblioteca del college durante le settimane delle finali. Ho dovuto significare media, massima e minima perché i conteggi delle ore orarie non erano continui (vedi Lacune di dati regolari in una serie temporale ).

Ora il set di dati è simile al seguente. C'è un punto dati (medio, massimo o minimo) a sera, per 12 sere. Ci sono 3 semestri per i quali sono stati raccolti i dati, solo nei periodi di preoccupazione di 12 giorni. Quindi, ad esempio, Primavera 2010, Autunno 2010 e Maggio 2011 hanno ciascuno un set di 12 punti. Ecco un esempio di grafico:

inserisci qui la descrizione dell'immagine

Ho sovrapposto i semestri perché voglio vedere come i modelli cambiano da semestre a semestre. Tuttavia, come mi è stato detto nel thread collegato , non è una buona idea schiaffeggiare i semestri coda a testa poiché non ci sono dati in mezzo.

La domanda è quindi: quale tecnica matematica posso usare per confrontare il modello di frequenza per ogni semestre? C'è qualcosa di speciale nelle serie storiche che devo fare o posso semplicemente prendere le differenze percentuali? Il mio obiettivo è dire che l'utilizzo della biblioteca in questi giorni sta andando su o giù; Non sono sicuro di quale tecnica dovrei usare per mostrarla.

Risposte:


8

L'ANOVA a effetti fissi (o il suo equivalente di regressione lineare) fornisce una potente famiglia di metodi per analizzare questi dati. Per illustrare, ecco un set di dati coerente con i grafici dell'HC medio per sera (un diagramma per colore):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

ANOVA di countcontro daye colorproduce questa tabella:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

Il modelvalore p di 0,0000 mostra che l'adattamento è altamente significativo. Anche il dayvalore p di 0,0000 è molto significativo: è possibile rilevare le variazioni giornaliere. Tuttavia, il colorvalore p (semestre) di 0,2001 non deve essere considerato significativo: non è possibile rilevare una differenza sistematica tra i tre semestri, anche dopo aver controllato la variazione giornaliera.

Il test HSD di Tukey ("onesta differenza significativa") identifica i seguenti cambiamenti significativi (tra gli altri) nelle medie quotidiane (indipendentemente dal semestre) al livello 0,05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Ciò conferma ciò che l'occhio può vedere nei grafici.

Poiché i grafici saltano un po 'in giro, non c'è modo di rilevare le correlazioni giornaliere (correlazione seriale), che è l'intera analisi delle serie temporali. In altre parole, non preoccuparti delle tecniche delle serie temporali: qui non ci sono dati sufficienti per fornire loro una visione più approfondita.

Ci si dovrebbe sempre chiedere quanto credere ai risultati di qualsiasi analisi statistica. Vari sistemi diagnostici per l'eteroscedasticità (come il test Breusch-Pagan ) non mostrano nulla di spiacevole. I residui non sembrano molto normali - si raggruppano in alcuni gruppi - quindi tutti i valori p devono essere presi con un granello di sale. Tuttavia, sembrano fornire una guida ragionevole e aiutare a quantificare il senso dei dati che possiamo ottenere guardando i grafici.

È possibile eseguire un'analisi parallela sui minimi giornalieri o sui massimi giornalieri. Assicurati di iniziare con un diagramma simile come guida e di controllare l'output statistico.


+1, per la dimostrazione di tecniche semplici ma potenti. Sono molto curioso però come hai fatto a estrarre i valori dal grafico? Qualche software o una punizione per uno studente che si comporta male? :)
mpiktas,

1
@mp Ho digitalizzato i punti sopra uno screenshot del grafico, estratto le loro coordinate con il software GIS, trasformato le coordinate con un foglio di calcolo, quindi importate in un pacchetto di statistiche. Ci vogliono solo pochi minuti. Questo metodo può essere utile quando i soli dati che hai sono sotto forma di un grafico o di una mappa.
whuber

@whuber Quello è bello! Non ne ero a conoscenza.
suncoolsu,

@whuber Mi chiedo quale sia l'effetto di avere 3 serie di 12 letture autocorrelate rispetto a 36 osservazioni indipendenti. Penserei che non abbiamo davvero 35 gradi di libertà da distribuire. Le probabilità su cui rifletti si basano sul rapporto tra una variabile chi-quadro non centrale e una variabile chi-quadrato centrale. C'è qualcosa che mi manca qui? Bel lavoro per estrarre i numeri dalla trama. Esiste un programma particolare a cui puoi fare riferimento per aiutarci al riguardo.
IrishStat,

1
@Irish Sia è la media (tra i colori) per un giorno e la media per un altro. Presumo l'omoscedasticità; vale a dire ( sconosciuto). Il confronto desiderato ("utilizzo ... salendo o scendendo") verifica se . Senza correlazione, . Con correlazione tra ed , . Quando , la varianza in realtà è inferiore a quella ipotizzata nel modello ANOVA. Di conseguenza, le statistiche t, le statistiche F e l'HSD Tukey dovrebbero essere di piùy V a r ( x ) = V a r ( y ) = σ 2 σ x - y = 0 V a r ( x - y ) = 2 σ 2 ρ x y V a r ( x - y ) = 2 ( 1 - ρ ) σ 2 ρ > 0xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0significativo di quanto appaiano.
whuber

0

Sarah, prendi i tuoi 36 numeri (12 valori per ciclo; 3 cicli) e costruisci un modello di regressione con 11 indicatori che riflettono il possibile effetto settimana del semestre e quindi identifica tutte le serie di intervento (impulsi, cambiamenti di livello) necessarie per rendere il la media dei residui deve essere 0,0 ovunque o almeno non statisticamente significativamente diversa da 0,0. Ad esempio, se si identifica uno spostamento di livello nel periodo 13, ciò potrebbe suggerire una differenza statisticamente significativa tra la media del primo semestre, ovvero i primi 12 valori) rispetto alla media degli ultimi due semestri (ultimi 24 valori). Potresti essere in grado di dedurre o testare l'ipotesi di nessuna settimana dell'effetto semestre. Un buon pacchetto di serie temporali potrebbe esserti utile a questo proposito. In caso contrario, potrebbe essere necessario trovare qualcuno che fornisca aiuto in questa arena analitica.


1
Sembra una descrizione dell'ANOVA a due vie (giorni per cicli) seguita da test pianificati di 11 coppie di giorni. Il vecchio software di statistica semplice sarà probabilmente più flessibile e potente da usare rispetto al software specializzato di serie storiche; sarà sicuramente più facile. A proposito, gli indici sono giorni (nel periodo dell'esame), non settimana del semestre.
whuber

Posso utilizzare ANOVA anche per confrontare i massimi e i minimi al giorno? O questo vale solo per i mezzi?
induvidyul,

@Sarah Potrebbe essere applicabile ai minimi e ai massimi. Tuttavia, tali statistiche tendono ad essere molto più variabili rispetto ai mezzi, quindi è meno probabile che sarai in grado di rilevare le modifiche nel tempo o tra i semestri. Il grafico chiarisce che i mezzi differiscono in modo significativo. Se puoi, crea ANOVA in tre direzioni incorporando l'ora del giorno e utilizzando i conteggi orari originali anziché i loro mezzi giornalieri.
whuber

@whuber: Mi è stato detto che mettere insieme i dati orari non è utilizzabile, dal momento che sono stati registrati solo per le 12:00 alle 6:00. Vedi la mia domanda precedente Lacune di dati regolari in una serie temporale .
induvidyul,

@Sarah Sto parlando di qualcosa di diverso: modella la dipendenza in termini di tre fattori: punto (3 di essi), giorno nel periodo (12 di essi) e ora del giorno (6 di loro). Potresti anche spiegare le correlazioni tra le ore, ma ciò potrebbe non essere necessario per i tuoi scopi. Indipendentemente da ciò, io non sostenendo la visualizzazione di ogni periodo come una serie ininterrotta di 12 * 24 conta: ci sono troppi i dati mancanti.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.