Scienza dei dati senza conoscenza di un argomento specifico, vale la pena perseguire come carriera? [chiuso]


15

Di recente ho avuto una conversazione con qualcuno e ho menzionato il mio interesse per l'analisi dei dati e chi intendevo apprendere le competenze e gli strumenti necessari. Mi hanno suggerito che mentre è bello imparare gli strumenti e sviluppare le competenze, non ha molto senso farlo a meno che non abbia una conoscenza specializzata in un campo specifico.

Fondamentalmente hanno riassunto che sarei solo come un costruttore con una pila di strumenti che potrebbero costruire alcune scatole di legno e potrebbero essere cose migliori (cabine, armadietti ecc.), Ma senza conoscenza in un campo specifico non avrei mai essere un costruttore a cui verrebbe la gente per un prodotto specifico.

Qualcuno ha trovato questo o ha qualche input su cosa fare di questo? Sembrerebbe che se fosse vero si dovrebbe imparare gli aspetti della scienza dei dati delle cose e quindi imparare un nuovo campo solo per specializzarsi.


Mentre la tua domanda è valida, questo non è il posto giusto per questo. Le domande relative alla carriera sono considerate fuori tema qui.
sheldonkreger,

Non è chiaro cosa stai chiedendo: è meglio apprendere strumenti o acquisire conoscenze sul dominio? probabilmente troppo aperto e basato sull'opinione per StackExchange.
Sean Owen,

Risposte:


43

Drew Conway ha pubblicato il diagramma di Data Science Venn , con il quale concordo vivamente:

Diagramma di Venn di data science

Da un lato, dovresti davvero leggere il suo post. D'altra parte, posso offrire la mia esperienza: la mia esperienza in materia (che mi piace di più come "competenza sostanziale", perché dovresti avere anche "competenza sostanziale" in matematica / statistiche e hacking) è nella commercio al dettaglio, i miei calcoli matematici / statistici sono previsioni e statistiche inferenziali, e le mie capacità di hacking risiedono in R.

Da questo punto di vista, posso parlare e capire i rivenditori e qualcuno che non ha almeno una conoscenza passante di questo campo dovrà affrontare una ripida curva di apprendimento in un progetto con i rivenditori. Come concerto secondario, faccio statistiche in psicologia, ed è esattamente lo stesso lì. E anche con una certa conoscenza della parte hacking / matematica / statistica del diagramma, avrei difficoltà ad accelerare, diciamo, il punteggio di credito o qualche altro nuovo argomento.

Una volta che hai un certo numero di abilità matematiche / statistiche e di hacking, è molto meglio acquisire una base in una o più materie piuttosto che aggiungere un altro linguaggio di programmazione alle tue abilità di hacking, o ancoraun altro algoritmo di apprendimento automatico per il tuo portafoglio di matematica / statistiche. Dopo tutto, una volta che hai una solida base matematica / statistica / di hacking, potresti, se necessario, imparare tali nuovi strumenti dal web o dai libri di testo in un periodo di tempo relativamente breve. Tuttavia, per competenza in materia, probabilmente non sarai in grado di imparare da zero se inizi da zero. E i clienti lavoreranno piuttosto con alcuni data scientist A che capiscono il loro campo specifico piuttosto che con un altro data scientist B che per primo ha bisogno di apprendere le basi, anche se B è meglio in matematica / stats / hacking.

Ovviamente, tutto ciò significherà anche che non diventerai mai un esperto in nessuno dei tre campi. Ma va bene, perché sei uno scienziato di dati, non un programmatore o uno statistico o un esperto in materia. Ci saranno sempre persone nelle tre cerchie separate da cui puoi imparare. Che fa parte di ciò che mi piace della scienza dei dati.


EDIT: Poco dopo e qualche pensiero dopo, vorrei aggiornare questo post con una nuova versione del diagramma. Penso ancora che Hacking Skills, Math & Statistics Conoscenza e sostanziale competenza (abbreviata in "Programmazione", "Statistica" e "Affari" per leggibilità) sono importanti ... ma penso che anche il ruolo della comunicazione sia importante. Tutte le intuizioni ottenute sfruttando l'hacking, le statistiche e le competenze aziendali non faranno la differenza a meno che tu non possa comunicarle a persone che potrebbero non avere quel mix unico di conoscenze. Potrebbe essere necessario spiegare le tue conoscenze statistiche a un dirigente aziendale che deve essere convinto di spendere soldi o cambiare i processi. O a un programmatore che non pensa statisticamente.

Ecco quindi il nuovo diagramma di Venn per la scienza dei dati, che include anche la comunicazione come ingrediente indispensabile. Ho etichettato le aree in modo tale da garantire la massima infiammabilità, pur essendo facile da ricordare.

Commenta via.

nuovo diagramma di Venn di data science

Codice R:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()

1
Sono stato portato qui da un post sul blog che fa riferimento al tuo diagramma aggiornato. Penso che questo sia un grande miglioramento rispetto alla versione originale di Conway, anche se non riesco proprio a superare l'idea - implicita dalla dimensione della sovrapposizione - che un Professore Statistico sia qualcuno con le stesse capacità in statistica e comunicazione.
Robert de Graaf,

1

Certo che puoi. Le aziende chiedono a gran voce scienziati dei dati. Fai attenzione, però, perché tutti interpretano il termine in modo diverso. A seconda dell'azienda, potresti trovarti invitato a fare qualsiasi cosa, dalle statistiche alla scrittura del codice di produzione. O uno è un lavoro a tempo pieno in sé e devi essere preparato per entrambi, quindi chiedere una conoscenza approfondita e approfondita non è ragionevole, secondo me, e le aziende con cui ho parlato hanno sottolineato le altre due aree ( specialmente la programmazione). Tuttavia, ho scoperto che aiuta a conoscere i tipi di problemi che potresti incontrare. A seconda del settore, questo potrebbe essere il rilevamento di anomalie, la raccomandazione / personalizzazione, la previsione, il collegamento dei record, ecc. Queste sono cose che puoi imparare come esempi contemporaneamente alla matematica e alla programmazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.