Come modellare i big data longitudinali?


14

Tradizionalmente usiamo il modello misto per modellare i dati longitudinali, cioè dati come:

id obs age treatment_lvl yield
1  0   11   M  0.2
1  1   11.5 M  0.5
1  2   12   L  0.6
2  0   17   H  1.2
2  1   18   M  0.9

possiamo supporre intercettazione o pendenza casuali per persone diverse. Tuttavia, la domanda che sto cercando di risolvere riguarderà enormi set di dati (milioni di persone, osservazione giornaliera di 1 mese, ovvero ogni persona avrà 30 osservazioni), al momento non sono consapevole se ci sono pacchetti in grado di fare questo livello di dati.

Ho accesso a spark / mahout, ma non offrono modelli misti, la mia domanda è: esiste comunque un modo per modificare i miei dati in modo da poter usare RandomForest o SVM per modellare questo set di dati?

Qualunque tecnica di ingegneria delle caratteristiche su cui posso fare leva in modo che possa aiutare RF / SVM a rendere conto della correlazione automatica?

Grazie molto!

Alcuni metodi potenziali, ma non potevo permettermi il tempo di scriverli in Spark

Come posso includere effetti casuali in randomForest

Regressione SVM con dati longitudinali


1
il set di dati non è così grande. 1 milione di soggetti con 30 record, forse 20 byte di dati per record porteranno 600 MB. Non è niente. qualsiasi pacchetto stat lo gestirà
Aksakal,

Risposte:


4

Se hai solo alcune variabili, come nell'esempio, non dovresti avere problemi con alcune varianti di lme4.

Il punto di forza delle tecniche di apprendimento automatico è quando hai molte variabili e desideri modellare le non linearità e le interazioni tra le tue variabili. Sono stati sviluppati pochi approcci ML che possono farlo con dati longitudinali. Le RNN sono un'opzione, sebbene siano generalmente ottimizzate per problemi di serie temporali, piuttosto che dati del pannello.

In linea di principio, una rete neurale feed-forward è un modello lineare (generalizzato), con regressori che sono funzioni non lineari dei dati di input. Se i regressori derivati ​​- il livello superiore del modello prima dell'output - sono considerati la parte non parametrica, allora non c'è nulla che ti impedisca di aggiungere una struttura parametrica insieme ad essa, forse sotto forma di effetti casuali.

Tuttavia, questo non è stato implementato per problemi di classificazione, che presumo tu stia facendo perché sei interessato a SVM come candidato.



2

Hai davvero bisogno di foreste casuali, NN, ecc. Per i tuoi dati longitudinali? lme4è in grado di gestire milioni di persone:

https://cran.r-project.org/web/packages/lme4/vignettes/Theory.pdf

Può facilmente gestire modelli misti lineari e, come puoi vedere dal link, ha anche il supporto per modelli misti non lineari (anche se non mi aspetterei che sia fulmineo anche per i modelli non lineari).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.