Quale modello per un set di dati impegnativo? (centinaia di serie storiche con molti annidamenti)


9

Ho un set di dati piuttosto complicato da analizzare e non riesco a trovare una buona soluzione per questo.

Ecco la cosa:

1. i dati grezzi sono essenzialmente registrazioni di canzoni di insetti. Ogni canzone è composta da più raffiche e ogni raffica è composta da sottounità. Tutti gli individui sono stati registrati per 5 minuti. Il numero di raffiche e la loro posizione nella registrazione possono essere molto diversi tra gli individui, così come il numero di sottounità per raffica.

2. Ho la frequenza portante (frequenza fondamentale) di ogni sottounità, ed è quello che voglio analizzare.

I miei problemi:

1. Le frequenze all'interno di una raffica non sono ovviamente indipendenti (sebbene sia abbastanza stabile, ma la frequenza della sottounità n-1 avrà un'influenza sulla sottounità n).

2. Anche le raffiche non sono indipendenti, all'interno di una registrazione.

3. Sono ancora meno indipendenti quando la frequenza diminuisce con il tempo (l'individuo si stanca di cantare, quindi la frequenza della canzone si abbassa e si abbassa). La caduta sembra essere lineare.

4. Nesting = Ho 3 popolazioni replicate per due posizioni A e B. Quindi ho A1, A2, A3 e B1, B2, B3.

Cosa vorrei fare:

1. Caratterizza la differenza di frequenza tra le mie due posizioni (testala statisticamente)

2. Caratterizza la caduta di frequenza tra le due posizioni (vedi se scende più velocemente in una di esse)

Come farlo:

Bene, ecco perché ho bisogno di aiuto: non lo so. Sembra che il mio caso combini problemi che di solito non si vedono insieme. Ho letto di modelli misti, di GAM, di ARIMA, effetti casuali e fissi, ma non posso essere davvero sicuro del modo migliore per farlo. Quando lo grafico (frequenza ~ numero della sottounità n ), la differenza è molto chiara tra le due posizioni. Devo anche tenere conto di altre variabili, come la temperatura (aumenta la frequenza), ecc.

Ci ho pensato:

  • Nidificazione degli individui all'interno del replicato da cui provengono e nidificazione del replicato all'interno della posizione (individuo / replica / posizione).

  • Usa un effetto 'burst' casuale, quindi prendo in considerazione la variabilità all'interno di ogni burst.

  • Usa un effetto fisso 'burst position in recording', per misurare la caduta di frequenza (sperando che sia effettivamente lineare).

Sarebbe corretto?

Esiste un tipo speciale di modello che potrei usare per questo tipo di scenario?


Benvenuto in questo sito, Joe. Non è necessario accedere al tuo post, il tuo nome apparirà sempre sotto il tuo
gravatar

Ok grazie! È un sito molto bello, molto ben fatto.
Joe,

"Nidificare gli individui all'interno del replicato da cui provengono e nidificare il replicato all'interno della posizione (individuo / replicare / posizione)" suona come una buona idea, se confrontato con le forme non nidificate. Che aspetto ha un LOESS delle sei sotto-popolazioni?
P.

1
Grazie mille per le tue risposte, l'ho davvero apprezzato. Bene, mi ci è voluto molto tempo, ma sono riuscito ad analizzare questo set di dati (insanguinato). Ero troppo ambizioso, penso, voler modellare tutto allo stesso tempo. Quindi ho diviso il lavoro in diversi modelli, per ogni problema (differenza di frequenza media, aumento di frequenza, ecc.). Conclusione: a volte è meglio dividere il lavoro!
Joe,

Risposte:


2

Questi sono solo alcuni suggerimenti generali che potresti trovare utili, più una roadmap che una ricetta.

  • Il mio istinto sarebbe quello di costruire un modello gerarchico bayesiano, perché si presta allo sviluppo di modelli iterativi - non credo che troverai un modello esistente che abbia tutte le campane e i fischi che stai cercando. Ma questo rende più difficile il test delle ipotesi, non so quanto sia necessario il test delle ipotesi per te.
  • Sembra che tu abbia un piccolo modello informale nella tua testa su come si comportano gli insetti; dici cose come "stancarsi" e sai che la temperatura aumenta la frequenza, presumibilmente perché l'animale ha più energia. Sembra che tu abbia un piccolo modello generativo nella tua mente su come gli insetti fanno le loro canzoni.
  • Il problema sembra troppo complesso per modellare "in un colpo solo". Penso che dovrai costruire qualcosa a pezzi. Vorrei iniziare con alcune "forti ipotesi semplicemente" - vale a dire, eliminare la maggior parte della complessità del set di dati, con un piano per aggiungerlo in seguito una volta ottenuto un modello semplice che funziona.

Quindi, per iniziare, farei qualcosa come preelaborare le frequenze delle sottounità su base raffica in qualcosa come una coppia (frequenza media, andamento della frequenza) - fare questo con OLS e modellare semplicemente la media e l'andamento della frequenza uno scoppio piuttosto che le stesse sottounità. Oppure potresti fare (media, tendenza, n. Di sottounità), se il numero di subunità si riferisce alla stanchezza dell'insetto. Quindi costruire un modello gerarchico bayesiano in cui la distribuzione della media e dell'andamento di una raffica è determinata dalla media, dall'andamento della registrazione, e questo a sua volta è determinato dall'andamento medio della posizione.

Quindi aggiungere la temperatura come fattore per la media / tendenza della registrazione.

Questo semplice modello dovrebbe consentire di vedere la media e l'andamento delle singole esplosioni in una registrazione come determinato dalla temperatura e dalla posizione. Prova a farlo funzionare.

Quindi proverei a stimare la differenza tra la frequenza media delle raffiche (o la tendenza, dividendo per il tempo di quiete tra raffiche) aggiungendo questa come una variabile determinata dalla posizione e dalla registrazione. Il passo successivo è un modello AR della media burst all'interno di una registrazione.

Dati alcuni priori e alcune assunzioni molto forti sulla natura delle esplosioni (che tutte le informazioni sono fornite per media e tendenza), questo modello di base ti dirà:

  • come è la frequenza media di una raffica diversa posizione per posizione e temp per temp
  • in che modo la tendenza all'interno del burst differisce posizione per posizione e temperatura per temperatura
  • in che modo la tendenza di scoppio esterno differisce posizione per posizione e temperatura per temperatura

Una volta che hai qualcosa di simile a funzionare, potrebbe essere il momento di modellare le sottounità stesse e buttare via la stima OLS originale. Guarderei i dati a questo punto per avere un'idea di quale tipo di modello di serie temporale potrebbe adattarsi e modellerei i parametri del modello di serie temporale piuttosto che coppie (medie, di tendenza).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.