Vale la pena modellare le serie storiche brevi?


14

Ecco un po 'di contesto. Sono interessato a determinare in che modo due variabili ambientali (temperatura, livelli di nutrienti) influiscono sul valore medio di una variabile di risposta in un periodo di 11 anni. All'interno di ogni anno sono disponibili dati provenienti da oltre 100.000 località.

L'obiettivo è determinare se, durante il periodo di 11 anni, il valore medio delle variabili di risposta ha risposto ai cambiamenti delle variabili ambientali (ad es. Temperatura più calda + più nutrienti = risposta maggiore).

Sfortunatamente, poiché la risposta è il valore medio (senza guardare la media, solo una variazione inter-annuale regolare sommergerà il segnale), la regressione sarà di 11 punti dati (1 valore medio all'anno), con 2 variabili esplicative. Per me anche una regressione lineare positiva sarà difficile da considerare come significativa dato che il set di dati è così piccolo (non soddisfa nemmeno i 40 punti / variabili nominali a meno che la relazione non sia molto forte).

Ho ragione a fare questo presupposto? Qualcuno può offrire altri pensieri / prospettive che potrei mancare?

PS: alcuni avvertimenti: non c'è modo di ottenere più dati senza aspettare altri anni. Quindi i dati disponibili sono ciò con cui dobbiamo davvero lavorare.


Hai provato a tracciare i dati? Direi che la forza della correlazione tra le vostre variabili ambientali e la vostra variabile di risposta influenzerà la risposta.
rm999,

" Entro ogni anno, ci sono dati provenienti da oltre 100.000 località. " In realtà osservi tutte le località o solo il valore medio basato su di esse? Se sì, puoi scegliere i modelli di dati del pannello come suggerito da @crayola in un contesto lineare. Sebbene alcuni modelli ecologici speciali come menzionato da @GaBorgulya possano richiedere molte meno informazioni per la calibrazione dei parametri piuttosto che per la stima.
Dmitrij Celov,

Risposte:


8

Il numero limitato di punti dati limita il tipo di modelli che potresti adattare ai tuoi dati. Tuttavia, ciò non significa necessariamente che non avrebbe senso iniziare la modellazione. Con pochi dati sarai in grado di rilevare le associazioni solo se gli effetti sono forti e la dispersione è debole.

È un'altra domanda che tipo di modello si adatta ai tuoi dati. Hai usato la parola "regressione" nel titolo. Il modello dovrebbe riflettere in una certa misura ciò che sai del fenomeno. Questo sembra essere un ambiente ecologico, quindi anche l'anno precedente può essere influente.


4

Ho visto set di dati ecologici con meno di 11 punti, quindi direi che se stai molto attento, puoi trarre alcune conclusioni limitate con i tuoi dati limitati.

Potresti anche fare un'analisi della potenza per determinare quanto piccolo è possibile rilevare un effetto, dati i parametri del tuo disegno sperimentale.

Inoltre, potrebbe non essere necessario eliminare la variazione aggiuntiva all'anno se si esegue un'attenta analisi



4

La modellazione dei dati fondamentalmente (soprattutto per le serie temporali) presuppone che i dati siano stati raccolti con una frequenza sufficiente a catturare i fenomeni di interesse. L'esempio più semplice è per un'onda sinusoidale: se stai raccogliendo dati con una frequenza di n * pi dove n è un numero intero, non vedrai altro che zeri e perderai del tutto il modello sinusoidale. Ci sono articoli sulla teoria del campionamento che discutono quanto spesso dovrebbero essere raccolti i dati.


3

Non sono sicuro di aver capito questo bit: "Sfortunatamente, poiché la risposta è il valore medio (senza guardare la media, solo una variazione periodica annuale sommergerà il segnale)"

Con un'attenta modellistica, mi sembra che potresti guadagnare molto modellandolo come dati del pannello. A seconda dell'ambito spaziale dei dati, potrebbero esserci grandi differenze nelle temperature a cui sono stati esposti i punti dati in un determinato anno. La media di tutte queste variazioni sembra costosa.


3

Direi che la validità del test ha meno a che fare con il numero di punti dati e più a che fare con la validità del presupposto che tu abbia il modello corretto.

Ad esempio, l'analisi di regressione utilizzata per generare una curva standard può basarsi solo su 3 standard (basso, medio e alto), ma il risultato è altamente valido poiché esistono prove evidenti che la risposta è lineare tra i punti.

D'altra parte, anche una regressione con migliaia di punti dati sarà imperfetta se si applica un modello errato ai dati.

Nel primo caso qualsiasi variazione tra le previsioni del modello e i dati effettivi è dovuta a un errore casuale. Nel secondo caso alcune delle variazioni tra le previsioni del modello e i dati effettivi sono dovute alla distorsione dalla scelta del modello sbagliato.


1

Il numero richiesto di osservazioni per identificare un modello dipende dal rapporto tra segnale e rumore nei dati e dalla forma del modello. Se mi vengono dati i numeri, 1,2,3,4,5, prevederò 6,7,8, .... L'identificazione del modello Box-Jenkins è un approccio per determinare il termine generale sottostante proprio come il test per " intelligenza numerica "che diamo ai bambini. Se il segnale è forte, allora abbiamo bisogno di meno osservazioni e viceversa. Se la frequenza osservata suggerisce una possibile "struttura stagionale", allora abbiamo bisogno di ripetizioni di questo fenomeno, ad esempio almeno 3 stagioni (preferibilmente di più) come regola empirica per estrarre (identificarlo dalle statistiche descrittive di base (acf / pacf).


-1

Forse puoi provare a gestire le tue serie temporali come un sistema di equazioni lineari e risolverle mediante l'eliminazione di Gauss. Naturalmente in quel caso ti limiti ai dati disponibili, ma questo è l'unico prezzo che devi pagare.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.