Drew Conway ha pubblicato il diagramma di Data Science Venn , con il quale concordo vivamente:
Da un lato, dovresti davvero leggere il suo post. D'altra parte, posso offrire la mia esperienza: la mia esperienza in materia (che mi piace di più come "competenza sostanziale", perché dovresti avere anche "competenza sostanziale" in matematica / statistiche e hacking) è nella commercio al dettaglio, i miei calcoli matematici / statistici sono previsioni e statistiche inferenziali, e le mie capacità di hacking risiedono in R.
Da questo punto di vista, posso parlare e capire i rivenditori e qualcuno che non ha almeno una conoscenza passante di questo campo dovrà affrontare una ripida curva di apprendimento in un progetto con i rivenditori. Come concerto secondario, faccio statistiche in psicologia, ed è esattamente lo stesso lì. E anche con una certa conoscenza della parte hacking / matematica / statistica del diagramma, avrei difficoltà ad accelerare, diciamo, il punteggio di credito o qualche altro nuovo argomento.
Una volta che hai un certo numero di abilità matematiche / statistiche e di hacking, è molto meglio acquisire una base in una o più materie piuttosto che aggiungere un altro linguaggio di programmazione alle tue abilità di hacking, o ancoraun altro algoritmo di apprendimento automatico per il tuo portafoglio di matematica / statistiche. Dopo tutto, una volta che hai una solida base matematica / statistica / di hacking, potresti, se necessario, imparare tali nuovi strumenti dal web o dai libri di testo in un periodo di tempo relativamente breve. Tuttavia, per competenza in materia, probabilmente non sarai in grado di imparare da zero se inizi da zero. E i clienti lavoreranno piuttosto con alcuni data scientist A che capiscono il loro campo specifico piuttosto che con un altro data scientist B che per primo ha bisogno di apprendere le basi, anche se B è meglio in matematica / stats / hacking.
Ovviamente, tutto ciò significherà anche che non diventerai mai un esperto in nessuno dei tre campi. Ma va bene, perché sei uno scienziato di dati, non un programmatore o uno statistico o un esperto in materia. Ci saranno sempre persone nelle tre cerchie separate da cui puoi imparare. Che fa parte di ciò che mi piace della scienza dei dati.
EDIT: Poco dopo e qualche pensiero dopo, vorrei aggiornare questo post con una nuova versione del diagramma. Penso ancora che Hacking Skills, Math & Statistics Conoscenza e sostanziale competenza (abbreviata in "Programmazione", "Statistica" e "Affari" per leggibilità) sono importanti ... ma penso che anche il ruolo della comunicazione sia importante. Tutte le intuizioni ottenute sfruttando l'hacking, le statistiche e le competenze aziendali non faranno la differenza a meno che tu non possa comunicarle a persone che potrebbero non avere quel mix unico di conoscenze. Potrebbe essere necessario spiegare le tue conoscenze statistiche a un dirigente aziendale che deve essere convinto di spendere soldi o cambiare i processi. O a un programmatore che non pensa statisticamente.
Ecco quindi il nuovo diagramma di Venn per la scienza dei dati, che include anche la comunicazione come ingrediente indispensabile. Ho etichettato le aree in modo tale da garantire la massima infiammabilità, pur essendo facile da ricordare.
Commenta via.
Codice R:
draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
tt <- seq(0,2*pi,length.out=1000)
foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)
png("Venn.png",width=600,height=600)
opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)
name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
name(8,62,"Communi-\ncation",cex=1.5,pos=3)
name(30,78,"Statistics",cex=1.5)
name(70,78,"Programming",cex=1.5)
name(92,62,"Business",cex=1.5,pos=3)
name(10,45,"Hot\nAir")
name(90,45,"The\nAccountant")
name(33,65,"The\nData\nNerd")
name(67,65,"The\nHacker")
name(27,50,"The\nStats\nProf")
name(73,50,"The\nIT\nGuy")
name(50,55,"R\nCore\nTeam")
name(38,38,"The\nGood\nConsultant")
name(62,38,"Drew\nConway's\nData\nScientist")
name(50,24,"The\nperfect\nData\nScientist!")
name(31,18,"Comp\nSci\nProf")
name(69,18,"The\nNumber\nCruncher")
name(42,11,"Head\nof IT")
name(58,11,"Ana-\nlyst")
name(50,5,"The\nSalesperson")
par(opar)
dev.off()