Ho cercato di risolvere questo problema per oltre un anno senza molti progressi. Fa parte di un progetto di ricerca che sto realizzando, ma lo illustrerò con un esempio di storia che ho inventato, perché l'attuale dominio del problema è un po 'confuso (eye-tracking).
Sei un aereo che segue una nave nemica che viaggia attraverso l'oceano, quindi hai raccolto una serie di coordinate (x, y, tempo) della nave. Sai che un sottomarino nascosto viaggia con la nave per proteggerlo, ma mentre esiste una correlazione tra le loro posizioni, il sottomarino si allontana spesso dalla nave, quindi mentre è spesso vicino ad essa, può anche essere dall'altra parte della mondo di tanto in tanto. Vuoi prevedere il percorso del sottomarino, ma sfortunatamente ti è nascosto.
Ma un mese di aprile noti che il sottomarino si dimentica di nascondersi, quindi hai una serie di coordinate sia per il sottomarino che per la nave durante 1.000 viaggi. Utilizzando questi dati, ti piacerebbe costruire un modello per prevedere il percorso del sottomarino nascosto dato solo i movimenti della nave. La linea di base ingenua sarebbe quella di dire "posizione sottomarina indovinare =" posizione attuale della nave "ma dai dati di aprile in cui il sottomarino era visibile, si nota che c'è una tendenza per il sottomarino a stare un po 'avanti rispetto alla nave, quindi" posizione sottomarina indovinare = la posizione della nave in 1 minuto "è una stima ancora migliore. Inoltre, i dati di aprile mostrano che quando la nave si ferma in acqua per un lungo periodo, è probabile che il sottomarino sia lontano a pattugliare le acque costiere. Esistono altri schemi ovviamente.
Come costruiresti questo modello, dati i dati di aprile come dati di addestramento, per prevedere il percorso del sottomarino? La mia attuale soluzione è una regressione lineare ad-hoc in cui i fattori sono "tempo di viaggio", "coordinata x della nave", "era nave inattiva per 1 giorno", ecc. E quindi con R capire i pesi e fare una validazione incrociata . Ma mi piacerebbe davvero un modo per generare automaticamente questi fattori dai dati di aprile. Inoltre, un modello che utilizza la sequenza o il tempo sarebbe bello, dal momento che la regressione lineare non lo fa e penso che sia rilevante.
Grazie per aver letto tutto questo e sarei felice di chiarire qualsiasi cosa.