Tradizionalmente usiamo il modello misto per modellare i dati longitudinali, cioè dati come:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
possiamo supporre intercettazione o pendenza casuali per persone diverse. Tuttavia, la domanda che sto cercando di risolvere riguarderà enormi set di dati (milioni di persone, osservazione giornaliera di 1 mese, ovvero ogni persona avrà 30 osservazioni), al momento non sono consapevole se ci sono pacchetti in grado di fare questo livello di dati.
Ho accesso a spark / mahout, ma non offrono modelli misti, la mia domanda è: esiste comunque un modo per modificare i miei dati in modo da poter usare RandomForest o SVM per modellare questo set di dati?
Qualunque tecnica di ingegneria delle caratteristiche su cui posso fare leva in modo che possa aiutare RF / SVM a rendere conto della correlazione automatica?
Grazie molto!
Alcuni metodi potenziali, ma non potevo permettermi il tempo di scriverli in Spark