Hai una visione globale di queste tecniche di analisi?


24

Attualmente sto lavorando a un progetto in cui sostanzialmente ho bisogno, come tutti noi, di capire come l'output è correlato all'input x . La particolarità qui è che i dati ( y , x ) mi vengono dati un pezzo alla volta, quindi voglio aggiornare la mia analisi ogni volta che ricevo un nuovo ( y , xyX(y,X) . Credo che questo sia chiamato elaborazione "on-line", al contrario dell'elaborazione "batch", in cui hai tutti i dati necessari e fai i tuoi calcoli usando tutti i dati contemporaneamente.(y,X)

Quindi ho cercato idee e sono finalmente arrivato alla conclusione che il mondo è diviso in tre:

  • La prima parte è la terra della statistica e dell'econometria. Le persone lì fanno OLS, GLS, variabili dello strumento, ARIMA, test, differenze di differenza, PCA e quant'altro. Questa terra è per lo più dominata dalla linearità e svolge solo l'elaborazione "batch".

  • La seconda parte è l'isola dell'apprendimento automatico e altre parole come intelligenza artificiale, apprendimento supervisionato e non supervisionato, reti neurali e SVM. Qui vengono eseguite sia l'elaborazione "batch" che "on-line".

  • La terza parte è un intero continente che ho appena scoperto, per lo più popolato da ingegneri elettrici, quindi sembra. Lì, le persone spesso aggiungono la parola "filtro" ai loro strumenti e hanno inventato cose fantastiche come l'algoritmo Widrow-Hoff, i minimi quadrati ricorsivi , il filtro Wiener , il filtro Kalman e probabilmente altre cose che non ho ancora scoperto. Apparentemente eseguono principalmente elaborazioni "on-line" poiché si adattano meglio alle loro esigenze.

Quindi la mia domanda è: hai una visione globale di tutto ciò? Ho l'impressione che queste tre parti del mondo non si parlino troppo. Ho sbagliato? Esiste una grande teoria unificata della comprensione di come rapporta a X ? Conoscete qualche risorsa in cui si potrebbero porre le basi di quella teoria?YX

Non sono sicuro che questa domanda abbia davvero senso, ma sono un po 'perso tra tutte quelle teorie. Immagino la risposta alla domanda "dovrei usare questo o quello?" sarebbe "dipende da cosa vuoi fare (e dai tuoi dati)". Tuttavia, mi sento come se quei tre mondi provassero a rispondere alla stessa domanda ( ?) E quindi dovrebbe essere possibile avere una visione più alta di tutto ciò, e comprendere profondamente ciò che rende particolare ogni tecnica.y=f(X)


Penso che le prime 2 aree si parlino molto di più in questi giorni. Ottima domanda però!
Zach,

Argomento della dinamite e domanda ben scritta!
rolando2,

1
Si prega di fare questo CW.
cardinale il

1
Mi definirei uno statistico, ma faccio un sacco di cose on-line, faccio alcuni modelli non lineari di vario genere e mi sono dilettato in almeno un po 'di intelligenza artificiale. Penso che le differenze negli strumenti tipici abbiano più a che fare con i tipi di problemi che le persone tendono ad incontrare. Laddove i loro problemi convergono, prima o poi tendono a trovare o reinventare gli stessi strumenti (spesso con nomi diversi e con campane e fischietti leggermente diversi).
Glen_b -Restate Monica

Risposte:


4

In termini di batch contro online, la mia esperienza mi dice che a volte si combinano entrambi. Quello che voglio dire è che lasci che il lavoro pesante, ovvero il calcolo di elementi intensivi relativi alla formulazione del modello, sia fatto off-line e quindi usi procedure rapide / adattive per usare questi modelli. Abbiamo scoperto che i "nuovi dati" possono essere utilizzati in tre modi; 1. semplicemente per prevedere; 2. per rivedere i parametri del modello noto e 3. per rivedere i parametri e possibilmente rivedere il modello. Questi tre approcci sono stati utilizzati per "analisi dal vivo" e, naturalmente, il tempo necessario per completare uno di questi tre passaggi dipende sia dal software utilizzato che dall'hardware disponibile.

Passiamo ora all'altro punto su come modellare y vs x. Preferisco usare una versione estesa della regressione (chiamata Transfer Functions o ARMAX Models) come base per estrarre l'impatto della storia di y e i valori correnti e pas di x. È fondamentale convalidare i requisiti gaussiani e incorporare come proxy necessari sia la struttura deterministica omessa (tramite Outlier Detection) sia la struttura stocastica omessa tramite il componente ARMA. Inoltre, è necessario assicurarsi di non aver utilizzato troppi dati (test per la costanza dei parametri) e che qualsiasi varianza di errore non costante risultante dalla varianza deterministica / stocastica dell'errore e / o dal collegamento tra il valore atteso di y e la varianza della residui.

Ora storicamente (o istericamente se lo desideri) diversi silos di pensiero hanno tentato di formulare approcci. Molti dei modelli ad-hoc usati dai nostri antenati possono essere sottoinsiemi di una funzione di trasferimento, ma ci sono set di dati che possono essere immaginati che sfiderebbero i presupposti di una funzione di trasferimento. Sebbene possano esistere questi insiemi di dati, non si deve presumere che influenzeranno direttamente l'utente a meno che l'analisi non fornisca tale conclusione.

Testi come Wei (Addison-Wessley) o Box-Jenkins dovrebbero fornire una tabella di marcia ragionevole per supportare i miei commnents e portarti ad alcune "risposte" più

A proposito, questa è un'ottima domanda!

Inoltre, se hai dei dati che desideri utilizzare, potrei dimostrare le varie opzioni qui descritte. Pubblica i tuoi dati sul Web affinché tutti possano vederli e utilizzarli nei loro sforzi per mettere in relazione "da y a x".


Grazie per la tua risposta! Lo approfondirò non appena avrò tempo e probabilmente tornerò da te. Devo dire che non conoscevo il modello ARMAX. Immagino che sarei stato direttamente a un VAR completamente endogeno. Per quanto riguarda i dati, in realtà stiamo ancora costruendo altri elementi per il nostro progetto, quindi non ho molti dati rilevanti al momento. Ma grazie mille, dovresti sentirti di nuovo!
Arthur,

"convalidare i requisiti gaussiani": la modellazione gaussiana / non parametrica / dimenticare (pace Breiman) è una divisione profonda?
denis,

2

Breiman affronta questo problema in " Modellistica statistica: due culture ". Una prima risposta a una domanda eccellente.


Grazie! Il tuo link non ha funzionato per me, quello funziona e questo porta direttamente al pdf. Ho letto solo l'abstract e alcune parti in modo casuale nel testo e sembra molto interessante. I ragazzi sembrano essere totalmente "statistiche anti-classiche", comunque. Grazie ancora.
Arthur,

Ottimo - ho aggiornato il link. È una lettura divertente - buon divertimento!
Ram Ahluwalia,

Le "Due culture" di Breiman sono state discusse qui : alcuni punti interessanti, ma è difficile cambiare o persino spiegare la propria mentalità.
denis,

1

Sospetto che la risposta a questa domanda sia qualcosa del tipo "non c'è pranzo libero". Forse il motivo per cui gli statistici, gli informatici e gli ingegneri elettrici hanno sviluppato diversi algoritmi è che sono interessati a risolvere diversi tipi di problemi.


0

Direi che questi tre gruppi che hai indicato sono davvero solo due gruppi:

  • statistica
  • Apprendimento automatico, intelligenza artificiale e riconoscimento dei modelli.

Tutti i rami relativi al filtraggio del segnale si basano su due aspetti: l'estrazione delle caratteristiche (wavelet, Gabor e Fourier) che appartiene al riconoscimento dei modelli e la discreta trasformazione di Fourier che appartiene alla matematica dura. In effetti, il filtro digitale è più vicino al lato ingegneristico in quanto cerca di risolvere questo problema di riconoscimento dei modelli mediante algoritmi di costo computazionale semplici e bassi. Ma essenzialmente, è l'apprendimento automatico.

Inoltre, Filtering, Wavelets, Gabor e Fourier sono ampiamente utilizzati nell'elaborazione delle immagini essendo il nucleo della visione artificiale.

La differenza esiste tra statistica e apprendimento automatico.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.