日报标题:搞数据科学,有没有什么「核心技能」?
看到这个题目我是很汗颜的,毕竟我就是个写 SQL 的,只不过凑巧碰上了数据科学家这个职位大扩招的年代,哪懂什么核心技能……
数据科学家这个职业的定义有点广泛。同样叫数据科学家,在不同行业不同公司干的活可能是很不一样的。
有的偏机器学习、建模,有的偏数据分析。有的叫数据科学家,干的很多事情跟软件工程师(SWE)很类似。有的偏产品,风格短平快。有的偏长期研究,看的是一两年甚至更久的效果。
身为一个行业新人,这里就偏产品、数据分析类的数据科学家(或者说叫数据分析师)来讨论一下,需要的核心技能是什么,抛砖引玉。
做数据分析的最终目的,那就是通过数据分析来引导产品改进的能力。
任何方面的技能,归根结底都需要为这个目的服务。
举个假想的例子:现在知乎想增加用户黏度,让每个用户每天花更多的时间,看更多的回答。
可以是
1. 写个 SQL 看看过往哪些内容被浏览得最多,用户参与度最高,然后把这些内容推送给新用户,简单粗暴。
2. 做一个用户画像,找出来那些花的时间多的用户都有什么特点,花的时间少的用户又有什么特点,然后对症下药。
3. 做一个先进到没朋友的机器学习、深度学习、好好学习的模型,然后每天给用户推送 TA 最喜欢的内容,以至于用户觉得知乎简直就是自己的贴心管家,刷得停不下来。
至于具体用什么办法,不同公司不同产品不同时期的侧重点是会不一样的。
比如说在产品初期,项目经理说我们要给用户推送一些内容,问数据科学家有什么方案。然后你说我要花一年时间搭建一个 ABC 系统使用 XYZ 算法做一个功能的自动推荐系统,保证每个用户都满意。 项目经理扭头就跑,因为等这个系统做出来,竞争对手“者也”都上市了。
反之,如果产品已经做了一段时间了,也不少竞争对手做类似的事情,数据科学家却还停留在一些初级的敲敲打打,那说不定哪天就被竞争对手甩在身后了。
如果真的要选一项核心技能的话,我觉得是不停学习、思考、独立解决问题的能力。
至于具体到数据科学家需要什么技能,网上有很多讨论,长长的单子保证看得人酸爽,欲罢不能。
比如说 Quora:
成为 Google 或者 Facebook 的数据科学家需要哪些技能?
很多人可能看过这个图,Drew Conway 提出来的这个图(The Data Science Venn Diagram)
更新的版本(The New Data Scientist Venn Diagram):
以及各种变种(google: data scientist skills venn diagram):
这些图看得人都眼花缭乱了,还有一些图关于数据科学家的技能树的。
比如说:现代数据科学家(http://www.marketingdistillery.com/wp-content/uploads/2014/11/mds_f-723x1024.png)
(为了扩大队伍里女性同胞的比例,我专门找了个一个女性卡通形象版本的。)
如说 Udacity 的迷宫版软广(Data Science Archives),又叫通往死亡之路。
正所谓技多不压身,鬼多不压床。
但是不管什么技能树也好,核心技能也好,都不要忘了最初的目的:改进产品。