Sto spesso costruendo un modello (classificazione o regressione) in cui ho alcune variabili predittive che sono sequenze e ho cercato di trovare raccomandazioni tecniche per riassumere nel modo migliore possibile per l'inclusione come predittori nel modello.
A titolo di esempio concreto, supponiamo che sia stato costruito un modello per prevedere se un cliente lascerà l'azienda nei prossimi 90 giorni (in qualsiasi momento tra t e t + 90; quindi un risultato binario). Uno dei predittori disponibili è il livello del saldo finanziario dei clienti per i periodi da t_0 a t-1. Forse questo rappresenta osservazioni mensili per i 12 mesi precedenti (ovvero 12 misurazioni).
Sto cercando modi per costruire funzionalità da questa serie. Uso descrizioni di ogni serie di clienti come media, alta, bassa, deviazione standard, adatta una regressione OLS per ottenere la tendenza. Sono i loro altri metodi di calcolo delle funzionalità? Altre misure di cambiamento o volatilità?
INSERISCI:
Come menzionato in una risposta di seguito, ho anche considerato (ma ho dimenticato di aggiungere qui) l'utilizzo di Dynamic Time Warping (DTW) e quindi il clustering gerarchico sulla matrice di distanza risultante, creando un certo numero di cluster e quindi utilizzando l'appartenenza al cluster come funzionalità. Il calcolo dei dati dei test dovrebbe probabilmente seguire un processo in cui il DTW è stato eseguito su nuovi casi e sui centroidi del cluster, abbinando le nuove serie di dati ai loro centroidi più vicini ...