Tradurre il problema dell'apprendimento automatico in un quadro di regressione


12

Supponiamo che io abbia un pannello di variabili esplicative , per , , nonché un vettore di variabili binarie dipendenti dal risultato . Quindi Y viene osservato solo nell'ultima volta T e non in qualsiasi momento precedente. Il caso del tutto generale è avere più X_ {ijt} per j = 1 ... K per ogni unità i in ogni momento t , ma concentriamoci sul caso K = 1 per brevità.Xiti=1...Nt=1...TYiTYTXijtj=1...KitK=1

Le applicazioni di tali coppie "sbilanciate" (X,Y) con variabili esplicative correlate temporali sono ad esempio (quotazioni giornaliere, dividendi trimestrali), (bollettini meteorologici giornalieri, uragani annuali) o (caratteristiche della posizione degli scacchi dopo ogni mossa, esito di vincite / perdite a la fine del gioco).

Sono interessato ai coefficienti di regressione (possibilmente non lineari) βt per fare la previsione di Yit , sapendo che nei dati di allenamento, date le prime osservazioni di Xit per t<T , porta al risultato finale YiT

Y^it=f(k=1tXikβk),t=1...T

Proveniente da un background di econometria, non ho visto molti modelli di regressione applicati a tali dati. OTOH, ho visto le seguenti tecniche di apprendimento automatico applicate a tali dati:

  1. facendo un apprendimento supervisionato sull'intero set di dati, ad esempio minimizzando

i,t12(Yitf(Xitβt))2

semplicemente estrapolando / imputando la Y osservata Ya tutti i punti precedenti nel tempo

YitYiT,t=1...T1

Ciò sembra "sbagliato" perché non terrà conto della correlazione temporale tra i diversi punti nel tempo.

  1. facendo l' apprendimento di rinforzo come la differenza temporale con il parametro di apprendimento e il parametro di sconto , e risolvendo ricorsivamente per attraverso la propagazione all'indietro a partire daαβ t t = Tλβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

con il gradiente di rispetto a . f ( ) ββY^f()β

Questo sembra più "corretto" perché tiene conto della struttura temporale, ma i parametri e sono in qualche modo "ad hoc".λαλ

Domanda : esiste una letteratura su come mappare le tecniche di apprendimento supervisionato / rafforzamento di cui sopra in un quadro di regressione utilizzato nelle statistiche / econometriche classiche? In particolare, vorrei essere in grado di stimare i parametri in "one go" (cioè per tutti contemporaneamente) eseguendo i minimi quadrati (non lineari) o la massima probabilità su modelli come t = 1 ... Tβtt=1...T

YiT=f(t=1TXitβt)+ϵi

Sarei anche interessato a sapere se la differenza temporale apprendendo i meta-parametri e potrebbe essere recuperata da una formulazione di massima verosimiglianza.λαλ


Potresti chiarire la formulazione nel terzo paragrafo? Scrivi che vuoi prevedere da , , ma la seguente formula suggerisce che vuoi predire . X i t t < T Y i tYiTXitt<TYit
NRH,

@NRH in realtà, osservo solo , ma quello che ho visto in letteratura sull'apprendimento supervisionato è che imputano inosservato ad essere uguale a e quindi si adattano per spiegare effettivamente questo falso da (questo viene fatto nelle applicazioni di gioco, in cui una funzione di valutazione per ogni posizione è adattata al risultato finale del gioco). Scusate se questo non era chiaro dalla mia formulazione iniziale. In ogni caso, sarebbe il "risultato" previsto (nelle applicazioni di gioco) dati gli eventi osservati . Y i tYiTYit Y i t X i t Y i t X i tYiTYitXitY^itXit
TemplateRex,

Capisco l'impostazione e ciò che osservi, ma la tua formulazione nella domanda non è chiara. Vuoi formare un modello per prevedere mentre scrivi a parole o vuoi formare un modello per prevedere per tutte le come suggeriscono le formule? Forse è solo un errore di battitura. Quando scrivi "... previsione di ..." intendi "... previsione di ..."? Y i t t Y i T Y i tYiTYittYiTYit
NRH,

non è chiaro il motivo per cui vuoi farlo. Se riesci a spiegare l'applicazione pratica reale potresti ottenere risposte più chiare. In generale, la migliore previsione per ogni periodo di tempo sarà solo una regressione di sui dati disponibili separatamente per ogni t. Non è ovvio che un approccio simultaneo abbia qualche vantaggio. Penso che devi specificare il modello statistico per il tuo set di dati e quindi forse i benefici sono più chiari. X 1 , , X tYTX1,,Xt
seanv507,

@NRH, sì, voglio prevedere da sapendo che porta al risultato nei dati di allenamento, al fine di intraprendere azioni ottimali per i dati di test in cui osservo anche ma non ho ancora osservato il risultato. Aggiornerò la mia formulazione. Yit Y i T X i tXitYiTXit
TemplateRex,

Risposte:


1

La descrizione del problema non è del tutto chiara per me, quindi provo a indovinare alcuni presupposti. Se questo non risponde alla tua domanda, potrebbe almeno aiutare a chiarire ulteriormente i problemi.

La prima cosa che non mi è chiara sono i dati su cui vuoi basare la tua previsione. Se si desidera prevedere base ai dati osservati fino a allora un approccio ricorsivo come nel metodo 2. non ha senso poiché utilizza dati futuri, ovvero con . t < T X τ τ > tYTt<TXττ>t

Secondo, non dichiari quali saranno le proprietà del tuo previsto . Generalmente, date le informazioni al momento l'aspettativa condizionale è il "miglior predittore" di in senso L2. Nel caso in cui si desideri veramente prevedere l'aspettativa condizionale, i minimi quadrati ordinari sono il metodo di scelta per la stima pratica.X 1 , , X t t < T Y t = E [ Y TX 1 , , X t ] Y TYtX1,,Xtt<TYt=E[YTX1,,Xt]YT

Inoltre, non capisco la tua osservazione sulle correlazioni non riflesse dalla regressione basata su . Questo incorpora tutto ciò che sai fino a che includa le correlazioni tra le tue osservazioni. tX1,,Xtt

Quindi riassumendo e formulando questo come una risposta: se vuoi fare una previsione ottimale nel senso L2, basandoti solo sui dati osservati fino a puoi usare la regressione dei minimi quadrati.t<T


nei dati di allenamento, voglio usare il fatto che una data osservazione porterà statisticamente al risultato al fine di prevedere per i dati di test in cui non osservo fino a dopo. Se ad esempio sai che dopo 3 giorni ventosi pioverà probabilmente il giorno 7, vuoi usare queste informazioni per dire alle persone di portare gli ombrelli dopo il fine settimana dopo alcuni giorni ventosi. Y i T Y i t Y i TXitYiTY^itYiT
TemplateRex,

0

Il vantaggio delle differenze temporali è che ti permettono di imparare da episodi incompleti. Quindi, le sequenze in cui non sei arrivato alla Y finale possono essere ancora utilizzate per adattarsi al modello; vengono invece utilizzate le stime successive. L'effetto è simile all'imputazione di dati nascosti; implicitamente stai imputando il resto della sequenza in base al tuo modello attuale.
I modelli di differenza temporale sono normalmente addestrati dalla discesa gradiente stocastica . controlla il tasso di apprendimento. Troppo alto e il metodo divergerà. Troppo basso e la convergenza a un ottimale locale sarà molto lenta. Ma la convergenza dovrebbe essere sempre allo stesso modello. Qui,γ γ = 1α
γcontrolla lo sforzo relativo dato alle previsioni in base alla distanza dalla fine di una sequenza. Poiché queste sequenze hanno una lunghezza limitata, è possibile impostare questo su , per assegnare lo stesso peso a tutte le stime. γ=1


Questo in realtà non risponde alla domanda: ad es. Come si possono impostare in modo ottimale parametri e in un framework di massima verosimiglianza? γαγ
TemplateRex

γα controlla la velocità di convergenza ma non dovrebbe avere alcun effetto sul modello finale o sulla probabilità di quel modello. In pratica, l'ho impostato per tentativi ed errori. È necessario impostare in quanto controlla l'importanza relativa delle previsioni a breve termine rispetto a quelle a lungo termine se gli stessi parametri vengono utilizzati nelle previsioni a breve e lungo termine. Questo sarà specifico dell'applicazione a seconda di ciò che si desidera fare con le previsioni. γ
nsweeney,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.