Data Science vs Research Operations


11

La domanda generale, come suggerisce il titolo, è:

  • Qual è la differenza tra DS e OR / ottimizzazione.

A livello concettuale, capisco che DS cerca di estrarre conoscenza dai dati disponibili e utilizza principalmente tecniche statistiche, di apprendimento automatico. D'altra parte, OR utilizza i dati per prendere decisioni basate sui dati, ad esempio ottimizzando alcune funzioni oggettive (criterio) sui dati (input).

Mi chiedo come si possano confrontare questi due paradigmi.

  • Un sottoinsieme è l'altro?
  • Sono considerati campi complementari?
  • Ci sono esempi che un campo completa l'altro o che sono usati in congiunzione?

In particolare, sono interessato a quanto segue:

Esiste qualche esempio in cui le tecniche OR vengono utilizzate per risolvere una domanda / un problema di Data Science?


3
Non sono sicuro che si tratti davvero di una domanda sull'informatica, ma suppongo che sia abbastanza vicino. Ho modificato la parte su ciò che le persone da una parte pensano dell'altra, dal momento che sembra essere interamente una questione di opinione.
David Richerby,

@DavidRicherby grazie. Sono d'accordo con te sul fatto che potrebbe essere una questione di opinione. Tradizionalmente, entrambe le discipline sono state insegnate ed emerse dalla comunità CS, quindi, suppongo, questo è il posto giusto per chiedere.
PsySp


@DW grazie. Ho letto gli articoli e ad essere sincero non riesco a vedere alcuna discussione sulla sovrapposizione e / o sulle differenze tra i due campi citati. In particolare, come l'uno completa l'altro.
PsySp

1
La scienza dei dati riguarda principalmente il lavoro per trovare informazioni tramite i dati. La ricerca operativa riguarda principalmente il lavoro per migliorare il processo decisionale. È spesso possibile visualizzare OR come metodi per trovare una politica ottimale da utilizzare nel processo decisionale. Alcuni metodi utilizzati in OR possono essere classificati come metodi di apprendimento di rinforzo nella comunità CS, sebbene non tutti i problemi OR siano di questo tipo.
spektr

Risposte:


9

Mentre sia la ricerca operativa che la scienza dei dati coprono entrambe una grande quantità di argomenti e aree, cercherò di dare la mia prospettiva su quelle che vedo come le parti più rappresentative e tradizionali di ciascuna.

Come altri hanno sottolineato, la maggior parte delle operazioni di ricerca riguarda principalmente le decisioni . Mentre ci sono molti modi diversi per determinare come prendere decisioni, le parti più tradizionali di OR (secondo me) sono focalizzate sulla modellizzazione dei problemi di decisione in un quadro di programmazione matematica. In questo tipo di framework, in genere si dispone di una serie di variabili decisionali, vincoli su tali variabili e una funzione oggettiva dipendente dalle variabili decisionali che si sta tentando di ridurre al minimo o massimizzare. Quando le variabili decisionali possono assumere valori in , i vincoli sono disuguaglianze lineari rispetto alle variabili decisionali e la funzione obiettivo è una funzione lineare delle variabili decisionali, quindi si ha un programma lineareR- il principale cavallo di battaglia di OR negli ultimi sessant'anni. Se hai altri tipi di funzioni o vincoli oggettivi, ti trovi nel regno della programmazione di interi , della programmazione quadratica , della programmazione semi-definita , ecc ...

Data Science, d'altra parte, si occupa principalmente di fare inferenze. Qui, di solito inizi con una grande quantità di dati e vorresti dedurre qualcosa sui dati che non hai ancora visto nella tua grande pila. I tipi tipici di cose che vedi qui sono: 1) la grande pila di dati rappresenta i risultati passati di due diverse opzioni e ti piacerebbe sapere quale opzione produrrà i migliori risultati, 2) la grande pila di dati rappresenta un tempo serie e ti piacerebbe sapere come quelle serie temporali si estenderanno in futuro, 3) la grande pila di dati rappresenta un insieme etichettato di osservazioni e desideri inferire etichette per nuove osservazioni senza etichetta. I primi due esempi ricadono esattamente nelle aree statistiche classiche (test di ipotesi e previsione delle serie temporali, rispettivamente) mentre il terzo esempio penso sia più strettamente associato ai moderni argomenti di apprendimento automatico (classificazione).

Quindi, a mio avviso, la ricerca operativa e la scienza dei dati sono per lo più discipline ortogonali, sebbene vi siano alcune sovrapposizioni. In particolare, penso che la previsione delle serie temporali appaia in una quantità non banale in OR; è una delle parti più significative e non matematiche della programmazione basata su OR. La ricerca operativa è il punto in cui ti rivolgi se hai una relazione nota tra input e output; Data Science è il punto in cui ti rivolgi se stai cercando di determinare quella relazione (per alcune definizioni di input e output).


Grazie per la chiara risposta. Mi chiedevo se, ad esempio, si potesse usare qualsiasi tecnica OR per risolvere i problemi di DS. Sarei interessato a un tale esempio ma, dalla tua risposta, dubito che ce ne sia.
PsySp

@Psysp Eh, forse? Non riesco a pensare a nessun altro nella mia testa ma è tutt'altro che definitivo.
mum

1
Non credo che la divisione tra OR e DS sia rigorosa come credi, ma ciò potrebbe essere dovuto al fatto che considero argomenti come apprendimento automatico e datamining come parti di DS invece di considerare DS un sinonimo di Statistica. (Sfortunatamente, poiché DS è una parola d'ordine, non ha una definizione ampiamente accettata, per quanto ne so) Tuttavia, i compiti di discendenza e inferenza non devono necessariamente escludersi a vicenda. L'apprendimento automatico è precisamente il campo in cui entrambi sono combinati: a volte si devono prendere decisioni intelligenti per fare inferenze decenti, altre volte si usano inferenze intelligenti per le buone decisioni.
Lucertola discreta

@Discretelizard Certo, sono d'accordo in una certa misura. Sto presentando una divisione piuttosto netta (forse quasi una caricatura?) E mi sto concentrando sulle parti principali di ciascun campo al fine di evidenziare le differenze nei tipi di problemi per i quali ciascun campo è in genere sintonizzato. I bordi di entrambi i campi possono essere piuttosto sfocati (specialmente in DS, che è molto più recente) e probabilmente c'è più sovrapposizione lì. Inoltre, sono d'accordo sul fatto che gran parte del mainstream di DS include roba ML ma non ero sicuro di quanto sia diviso DS da ML.
mum

4

Questa non è una risposta completa, dal momento che mhum's è abbastanza bravo a contrastare i diversi obiettivi di OR vs DS.

Piuttosto, voglio affrontare questo tuo commento:

Mi chiedevo se, ad esempio, si potesse usare qualsiasi tecnica OR per risolvere i problemi di DS.

La risposta è si. L'esempio più chiaro che viene in mente è Support Vector Machines (SVM) .

Per "adattare" un modello SVM ad alcuni dati (che devono essere eseguiti prima di poterlo utilizzare per inferire le previsioni), è necessario risolvere il seguente problema di ottimizzazione:

Massimizza il doppio,

g(un')=Σio=1mαio-12Σio=1mΣj=1mαioαjyioyjXioTXj,

soggetto ai vincoli

0αioC,Σio=1nyioαio=0

Questo è un problema di ottimizzazione vincolata, proprio come molti nel campo dell'OR, ed è risolto usando metodi di programmazione quadratica o metodi di punti interni. Questi sono generalmente associati al campo di OR piuttosto che a DS, ma questo è un esempio della loro più ampia applicabilità.

Più in generale, l'ottimizzazione è la chiave di molti dei modelli statistici e di apprendimento automatico impiegati nel campo della DS, poiché il processo di formazione di questi modelli può essere tipicamente formulato come un problema di minimizzazione che comporta una funzione di perdita / rimpianto - dall'umile secolare modello di regressione lineare all'ultima rete neurale di apprendimento profondo.

Un buon riferimento agli SVM è Bishop .


2

Come stratega, ho avuto l'opportunità di lavorare con entrambe le parti della disciplina. Nel tentativo di spiegare cosa sono OR e DS per un dirigente MBA qualitativo, la mia (eccessivamente) semplicistica introduzione di una riga per ogni

OPPURE: economisti che sanno codificare
DS: statistici che sanno codificare.

In termini pratici, come i due gruppi si incontrano in genere: la parte OR sviluppa il modello decisionale e la parte DS individua l'implementazione dei dati appropriata per alimentare il modello.

Ognuno per conto proprio, farà affidamento sulle tradizioni teoriche delle proprie discipline - insieme, conducono la sperimentazione per strutturare i dati e perfezionare il modello al fine di ottenere le vere intuizioni necessarie per decisioni ottimali. Man mano che ognuno conosce l'altro, il loro modo di pensare e il loro linguaggio convergono in genere.


1
Comprendo la descrizione pratica di DS come "statistici che codificano", ma la descrizione di OR mi sembra un po 'strana. OR include logistica e problemi di routing correlati. Per me non sembra un posto naturale per un economista. Forse potresti approfondire il motivo per cui gli economisti praticano l'OR?
Lucertola discreta

1
@Discretelizard Non dubito che gli economisti facciano OR, ma c'è, come dici tu, un sacco di OR che non ha nulla a che fare con l'economia ed è fatto da informatici, matematici e altri.
David Richerby,

0

La scienza dei dati è un ampio campo che si occupa dei dati in generale. Se questo sembra vago, è normale perché lo è davvero. È una parola d'ordine da parecchi anni ormai. In sostanza, cerca di trovare un modo per sfruttare i dati: cosa posso fare con i miei dati (quali intuizioni posso ricavarne?).

La ricerca operativa è la scienza dell'ottimizzazione matematica: modellate un problema in "equazioni", risolvete questo modello matematico e traducete le soluzioni nella vostra impostazione iniziale del problema. È uno strumento che aiuta a prendere decisioni: cosa devo / posso fare per ottenere questo o quello.

Molti problemi aziendali possono essere considerati un problema di ottimizzazione. Dato che sto cercando di massimizzare le mie entrate, dati i vincoli di risorse, il modo in cui svolgerei esattamente la mia attività, quali valori dovrei impostare per le mie variabili decisionali. Problemi come la programmazione, la pianificazione delle strutture, la gestione della catena di fornitura ... ecc. Tutte le tecniche di ottimizzazione della leva finanziaria.

L'ottimizzazione del portafoglio è anche un classico esempio di utilizzo dell'ottimizzazione. Supponiamo di poter investire in diverse attività nel mio portafoglio, ognuna con rendimenti non deterministici, come dovrei bilanciare il mio portafoglio in modo da ridurre al minimo il rischio del mio portafoglio complessivo mantenendo un livello di rendimento monetario. In questa impostazione, la funzione oggettiva diventa spesso il rischio / varianza del portafoglio e i vincoli sono il tasso di rendimento richiesto sull'investimento, nonché la quantità di denaro che hai.


3
Elencate solo brevi riassunti di entrambi i campi. Questa risposta non affronta le differenze e / o le somiglianze tra DS e OR, per le quali la domanda è stata posta in modo specifico. Puoi migliorare la tua risposta concentrandoti su quella parte
Lucertola discreta

-1

Se conti ML e AI guidati da ML come parte di Data Science (cosa che alcune persone fanno e altri non secondo la mia esperienza, ad esempio il programma professionale Microsoft in AI contiene aspetti chiave di Data Science + Machine learning (sia con DL che con RL ) mentre la Higher School of Economics presenta praticamente le stesse parti avanzate del cuuriculum Microsoft di Advanced Machine Learning), ci sono molte somiglianze in matematica che vengono utilizzate in entrambi i campi. Ad esempio: Programmazione non lineare (moltiplicatori di Lagrange, condizioni KKT ...) -> utilizzato per la derivazione di macchine vettoriali di supporto ... Econometria che si basa principalmente su regressioni ---> Le regressioni sono una parte fondamentale di entrambi Scinece dei dati in generale e in particolare l'apprendimento supervisionato ... Statistiche (normalmente presenti nel curriculum OR) ---> chiave per la scienza dei dati e l'apprendimento automatico ... Processi stocastici ---> molto importanti nell'apprendimento del rinforzo ... Programmazione dinamica ---> trovati di nuovo nell'apprendimento del rinforzo ... Quindi, direi che ci sono alcune somiglianze con Data Science in generale e praticamente somiglianze con ML. Ovviamente, gli obiettivi di queste discipline sono diversi ma ci sono molte somiglianze in matematica che vengono utilizzate in queste discipline.


Come risponde alla domanda?
Evil
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.