Supponiamo che io abbia un pannello di variabili esplicative , per , , nonché un vettore di variabili binarie dipendenti dal risultato . Quindi Y viene osservato solo nell'ultima volta T e non in qualsiasi momento precedente. Il caso del tutto generale è avere più X_ {ijt} per j = 1 ... K per ogni unità i in ogni momento t , ma concentriamoci sul caso K = 1 per brevità.
Le applicazioni di tali coppie "sbilanciate" con variabili esplicative correlate temporali sono ad esempio (quotazioni giornaliere, dividendi trimestrali), (bollettini meteorologici giornalieri, uragani annuali) o (caratteristiche della posizione degli scacchi dopo ogni mossa, esito di vincite / perdite a la fine del gioco).
Sono interessato ai coefficienti di regressione (possibilmente non lineari) per fare la previsione di , sapendo che nei dati di allenamento, date le prime osservazioni di per , porta al risultato finale
Proveniente da un background di econometria, non ho visto molti modelli di regressione applicati a tali dati. OTOH, ho visto le seguenti tecniche di apprendimento automatico applicate a tali dati:
- facendo un apprendimento supervisionato sull'intero set di dati, ad esempio minimizzando
semplicemente estrapolando / imputando la Y osservata a tutti i punti precedenti nel tempo
Ciò sembra "sbagliato" perché non terrà conto della correlazione temporale tra i diversi punti nel tempo.
- facendo l' apprendimento di rinforzo come la differenza temporale con il parametro di apprendimento e il parametro di sconto , e risolvendo ricorsivamente per attraverso la propagazione all'indietro a partire daβ t t = T
con il gradiente di rispetto a . f ( ) β
Questo sembra più "corretto" perché tiene conto della struttura temporale, ma i parametri e sono in qualche modo "ad hoc".λ
Domanda : esiste una letteratura su come mappare le tecniche di apprendimento supervisionato / rafforzamento di cui sopra in un quadro di regressione utilizzato nelle statistiche / econometriche classiche? In particolare, vorrei essere in grado di stimare i parametri in "one go" (cioè per tutti contemporaneamente) eseguendo i minimi quadrati (non lineari) o la massima probabilità su modelli come t = 1 ... T
Sarei anche interessato a sapere se la differenza temporale apprendendo i meta-parametri e potrebbe essere recuperata da una formulazione di massima verosimiglianza.λ