Algoritmi di machine learning per dati panel


12

In questa domanda: esiste un metodo per costruire alberi decisionali che tenga conto dei predittori strutturati / gerarchici / multilivello? - menzionano un metodo di dati del pannello per gli alberi.

Esistono metodi dati pannello specifici per il supporto di macchine vettoriali e reti neurali? In tal caso, potresti citare alcuni documenti per gli algoritmi e (se disponibili) pacchetti R che lo implementano?


1
Mi chiedevo cosa hai deciso di usare per questo? Cercare di risolvere un problema simile.
user0

Risposte:


1

LSTM (memoria a breve termine) potrebbe essere rilevante per te. Questo tipo di modello può gestire più funzionalità in più punti nel tempo, che dovrebbero adattarsi ai dati del pannello. Ecco una bella spiegazione sul concetto di LSTM, ed ecco un pacchetto che implementa una versione R di LSTM.


1

Quando si hanno i dati del pannello, ci sono diverse attività che è possibile provare a risolvere, ad esempio classificazione / regressione delle serie temporali o previsione del pannello. E per ogni compito, ci sono numerosi approcci per risolverlo.

Quando si desidera utilizzare i metodi di apprendimento automatico per risolvere le previsioni dei panel, esistono diversi approcci:

Per quanto riguarda i tuoi dati di input (X), trattando le unità (ad es. Paesi, individui, ecc.) Come campioni iid, puoi farlo

  • bin le serie temporali e trattare ogni bin come una colonna separata, ignorando qualsiasi ordinamento temporale, con bin uguali per tutte le unità, la dimensione del bin potrebbe ovviamente essere semplicemente la misurazione delle serie temporali osservata, oppure potresti sottocampionare e aggregare in bin più grandi, quindi utilizzare algoritmi di apprendimento automatico standard per dati tabulari,
  • o estrarre funzionalità dalle serie storiche per ciascuna unità e utilizzare ciascuna funzionalità estratta come colonne separate, sempre combinate con algoritmi tabulari standard,
  • o utilizzare algoritmi di regressione / classificazione di serie storiche specializzati a seconda che si osservino dati di serie temporali continui o categorici, questo include macchine vettoriali di supporto con kernel speciali che confrontano le serie temporali con le serie temporali.

Per quanto riguarda i dati di output (y), se si desidera prevedere più punti temporali in futuro, è possibile

  • adattare uno stimatore per ogni passo in avanti che si desidera prevedere, utilizzando sempre gli stessi dati di input,
  • o adattare un singolo stimatore per il primo passo avanti e nella previsione, ruotare i dati di input in tempo, utilizzando le previsioni del primo passaggio per aggiungere i dati di input osservati per fare le previsioni del secondo passaggio e così via.

Tutti gli approcci sopra riducono sostanzialmente il problema di previsione del panel a una regressione di serie temporali o un problema di regressione tabulare. Una volta che i tuoi dati sono nella serie temporale o nel formato di regressione tabulare, puoi anche aggiungere qualsiasi funzione invariante per gli utenti.

Naturalmente ci sono altre opzioni per risolvere il problema di previsione del pannello, come ad esempio l'utilizzo di metodi di previsione classici come ARIMA adattati ai dati del pannello o metodi di apprendimento profondo che consentono di effettuare direttamente previsioni da sequenza a sequenza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.