一本读透影响时代的七大技术
数据科学家: 21世纪“最性感的职业”
托马斯·达文波特 (Thomas H.Davenport) D.J. 帕蒂尔(D.J.Patil) | 文 熊静如 | 译
2006年6月,乔纳森·高德曼(Jonathan Goldman)进入商务社交网站LinkedIn工作。那时的LinkedIn还像是一家初创企业,只有不到800万个用户。随着这些用户不断邀请朋友同事加入,网站的用户数量开始迅速增长。但是,用户在已注册者中寻找联系人的比例却没有达到管理者们的预期。显然,这种社交体验不够完整。正如LinkedIn的一位经理所言,“这种情况就如同你到达会议接待处,发现自己谁都不认识,只能呷着饮料呆在角落—你很可能会提前离场。”
高德曼作为斯坦福大学物理学博士,醉心于无处不在的链接和丰富的用户资料。虽然这两者通常只能形成混乱的数据和浅显的分析,但当他着手挖掘人际联系时,却从中发现了“新大陆”。他开始构建理论、检验预设,并研究出了模型。通过这些模型,他可以预测出某账号所归属的人际网络。高德曼觉得,在探索基础之上形成的新功能也许能为用户提供价值。但LinkedIn的工程师团队,一心只想扩大网站规模,对高德曼的想法无动于衷。当时一些同事甚至公然对高德曼的想法嗤之以鼻—网站已经有地址簿输入端,可以将用户所有的联系人导入进来。为什么还要LinkedIn为用户找出他们的人际网络?
幸运的是,LinkedIn的联合创始人兼时任CEO雷德·霍夫曼(现执行总裁),在贝宝(PayPal)的工作经验让他对分析学的威力深信不疑,因此,他给了高德曼高度的自主权。首先,他给予高德曼一个不同于传统产品发布套路的新方式—在网站黄金页面以广告的形式挂出小型加载模块。
通过该模块,高德曼开始测试—如果将人们可能认识(例如那些同时期在同一学校或工作场所的人)但尚未彼此联系的人名推荐给他们,将会发生什么?测试采取的方式是,以用户在LinkedIn的个人资料为基础,用商业广告的形式为每个用户推荐三名最匹配的新联系人。短短几天之内,该测试就显示出非凡成效。这些广告创造了前所未有的高点击率。高德曼继续改良推荐联系人的生成方式,提炼出合并社交网络的理念,比如,“三角形闭合”—如果你认识拉里和苏,那么拉里和苏很有可能彼此相识。高德曼和他的团队还把回复推荐广告的动作简化为一次点击。
LinkedIn的高管们没过多久便意识到这是一个好点子,并将之固化为标准功能。此时,新功能开始大放异彩。与其他旨在促进用户多浏览网站页面的促销手段相比,“你可能认识的人”(People You May Know)—这一广告的点击率高出30%,创造了以百万计的新页面浏览量。得益于这一功能,LinkedIn的增长曲线急剧攀升。
一项新职业
高德曼代表着组织中新的关键角色—“数据科学家”(Data Scientist)。他们是一群训练有素、乐于在大数据的世界中进行探索的高级专家。这一职位近几年才涌现出来(实际上,这一概念直到2008年,才由本文作者之一D.J. 帕蒂尔和杰夫·哈默巴赫尔创造,随后LinkedIn和Facebook在数据和分析领域各领风骚)。但是目前数千名数据科学家已经供职于各类公司,包括初创型企业和根基稳固的公司。数据科学家在商业世界中崭露头角反映出一个事实:企业正在应对前所未有的庞大而多样的信息。如果你的组织存有数千万亿字节的海量数据;如果那些对企业至关重要的信息排列无序;再或者,如果解决你最大的难题需要融合多种分析工具的话,那么,恭喜你,利用大数据的机会来啦!
目前,对于大数据的热情多数聚焦于能够驯服大数据的技术,包括分布式计算Hadoop(应用最广的文件系统处理框架)以及相关开源工具、云计算和数据可视化。虽然这些技术可谓神兵利器,但拥有精通这些技术(以及思想)的人才更加重要。在这一前沿领域,此类人才已经供不应求。事实上,数据科学家短缺已成为制约一些部门发展的瓶颈。曾投过Facebook、LinkedIn、Palo Alto Networks(著名网络安全公司)和Workday(人力资源软件制造商)的早期风险投资公司格雷洛克风险投资公司,对于紧缺的人才供应感到非常焦虑,于是他们建立了特别招聘团队,将人才直接输送给企业的相关业务部门。“一旦有了数据”,该团队负责人丹·波蒂略(Dan Portillo)说,“企业就需要能够管理和洞察它们的人”。
这些人是谁?
如果说,对大数据的利用很大程度上依赖于聘用稀缺的数据科学家,那么管理者面临的挑战就是学习如何发现和招聘这些人才并为公司所用。这些任务一旦与管理者的其他组织角色结合,便不再像看上去那么简单明了。事实上,所有大学都尚未设置数据科学的学位(课程)。同样,数据科学家在组织中的诸多问题也未有定论,比如他们应该扮演什么角色,这一角色如何才能创造最大价值,以及该如何衡量他们的表现。
因此,解决数据科学家短缺的第一步,是理解他们在企业中的职责,然后再思考,他们应该具备什么技能?这些技能最容易在什么领域找到?
数据科学家徜徉于数据海洋的同时,最重要的是进行探索。为身边的世界导航正是他们的拿手好戏,他们在数据领域得心应手,能够将大量不规则数据组织起来,使之成为可分析的数据。他们找出丰富的数据源,并与其他数据源(可能是不完整的数据源)连接起来,清理、简化运算结果。在充满竞争的世界中,挑战随时变化,数据流动不息,数据科学家能帮助决策者从特设分析(ad hoc analysis)转向与数据持续不断的对话。
数据科学家认识到所面临的技术限制,但是他们不愿意停下研究等待新解决方案的出现。一旦他们有了新成果,就非常乐于传播新成果,并阐明该成果对企业未来发展方向的影响。通常他们在信息可视化展示以及令模式清晰化、更具有说服力方面颇有创意。他们依据数据所显示出的信息,为企业高管和产品经理提供产品、流程、决策方面的建议。
数据科学家的短缺将成为制约一些业务发展的瓶颈
核心观点
一个全新角色在公司中的地位正在迅速崛起:那就是数据科学家。数据科学家是一群懂得如何从现有的海量非结构化信息中采撷重要商业难题答案的人。在企业奔向大数据应用的道路上,最大的绊脚石就是这类特殊人才的短缺。
大学里还没有大量炮制数据科学家的课程,因此招聘数据科学家时要有创造力。你可以从任何一个以数据和运算为重点的领域来寻找,从实验物理学到系统生物学不一而足。你还要认识到,吸引和留住一个数据科学家的理由,可能不同于其他专家。
数据科学家需要自治权利,同时还想登上“舰桥”,随时回应负责管理的同事提出的管理问题。薪金意味着价值,但在这个快速发展的学科中,解决有趣的问题、利用最丰富的数据流,从而出人头地的机会,可能意味着更多。
由于这项业务正处在发展初期,数据科学家往往还要承担起改进数据分析工具甚至开展学术研究的任务。雅虎是早期雇用数据科学家的公司之一,在开发数据分析工具Hadoop方面贡献良多。Facebook的数据团队为Hadoop编程开发了Hive(一个数据仓库框架)。还有许多数据科学家参与了改善技术工具的过程,这种情况尤以数据驱动型企业为甚,如谷歌、亚马逊、微软、沃尔玛、eBay、LinkedIn和Twitter。
何人能胜任这些事?成功的数据科学家应具备什么能力?答案是:他(或她)应该是数据黑客、分析师、传播者和靠谱顾问的综合体,这样的组合可谓极其强大,同时也极其罕见。
数据科学家最基本和普遍的能力是写代码。但5年后,当比今天多得多的人把“数据科学家”这一头衔印在名片上时,这一点可能没那么绝对。比写代码能力更持久走俏的,是能够用所有利益相关者都能听明白的语言进行交流的能力。他们要能够展示出用数据说话的能力,包括口头表达和形象化展示,最好两者兼备。
但我们认为,数据科学家身上最重要的品质是强烈的好奇心,即透过现象看本质并将之提炼为清晰的、可验证的假说的能力。这一点通常需要联想思维,正是联想思维塑造了各个领域中最富创造力的科学家。举例来说,我们知道,有一个研究欺诈问题的数据科学家就想到,他所研究的问题和DNA排序问题具有相似性。通过将两个不相关的领域联系起来,他和他的团队起草出了一个能够显著减少欺诈损失的方案。
为什么对这一新角色冠以“科学家”的称号?答案或许已浮现出来。例证之一就是实验物理学家,他们同样需要设计实验装备,收集数据,开展多个实验并传播研究成果。因此,想要招聘能处理复杂数据人才的企业,在具有物理或社会科学专业教育和工作背景的人群中,更易有所斩获。有些顶尖的数据科学家是来自生态学、系统物理学等深奥领域的博士,比如,硅谷Intuit(一家为公司提供财务软件的厂商)的数据科学团队领头人乔治· 鲁迈利奥蒂斯(George Roumeliotis),就拥有天体物理学博士头衔。较为意料之中的是,许多现在供职于企业的数据科学家曾接受过计算机科学、数学或是经济学训练。数据科学家可以来自于任何一个领域,只要这一领域重点关注数据和运算。
谨记科学家的职业概念非常重要,因为“数据”一词很容易将研究引入歧途。正如波蒂略所言,“一个人只拥有10~15年前的传统教育和工作背景,完全不能适应今日所需。”定量分析者也许善于分析数据,但却不擅长应对一大堆混乱无序的非结构化数据并将其整理为可分析的数据形式。一个数据管理专家或许擅长生成数据、将数据整理为结构化形式,但却不擅于将非结构化的数据结构化,也不善于对数据进行切实分析。表达能力不那么强的人可以成为传统数据专家,但却无法成为数据科学家。数据科学家必须具备这些技能才能发挥作用。
鲁迈利奥蒂斯明确说,他在招聘时不会偏重数据或分析能力。他寻找数据科学家的第一步,就是问应聘者能不能用Java之类的主流程序语言开发原型。鲁迈利奥蒂斯寻找的对象要拥有一套能力体系,包括坚实的数学、统计学、概率学以及计算机科学基础,还要有良好的思维习惯。他希望寻找的人具有商业感觉和客户同理心。他说,他所要求具备的这些能力,都得益于在职培训和偶尔地讲授特定技术的课程。
一些大学正在计划开设数据科学课程,现有的一些分析课程,比如北卡罗来纳州的分析科学硕士项目,正忙于引入大数据的练习和课程。一些企业也在试着培养自己的数据科学家。EMC在收购Greenplum之后,决意将数据科学家的应用作为自身和客户在大数据开发中的控制性因素。因此,EMC的培训服务部门开设了数据科学和大数据分析的培训和认证项目。该项目对员工和客户同时开放,培养出的一些学员已经在做内部大数据方案。
随着教育课程的激增,人才输送渠道也应得到扩展。大数据技术的供应商也在努力提高易用性。同时,一位大数据科学家提出了富有创意地弥合鸿沟的方法。“数据科学伙伴项目”(IDSFP)是由一位高能物理学家杰克·克拉姆卡(Jake Klamka)设计的博士后奖学金项目。该项目从学术界中选取科学家,用6周时间将他们成功打造为数据科学家。项目有来自当地企业(如Facebook、Twitter、谷歌和LinkedIn)的数据专家的理论指导,同时结合大数据的实际问题。起初计划招生目标是10人,而克拉姆卡最终从超过200个报名者中招收了30人,越来越多的组织正排起长队想要参与进来。“来自企业的需求异乎寻常得大,”,克拉姆卡说,“他们确实难以找到这方面的优质人才”。
为何愿意在此工作?
虽然数据科学家的地位正在不断提升,对顶级人才的争夺仍将非常激烈。满足招聘要求的候选人在考量工作机会时,往往以对大数据的兴趣为导向。一位顶尖数据科学家说,“如果想处理结构化的数据,我们会去华尔街工作”。考虑到如今大多数符合要求的候选人来自非商业领域,招聘经理们也许需要想办法描绘一个激动人心的前景,强调他们面临的问题具有带来突破性进展的可能,以吸引数据科学家的关注。
薪水当然是一个因素。一个出色的数据科学家会面对很多企业抛出的橄榄枝,薪水也随之水涨船高。一些供职于初创型企业的数据科学家说,他们已经提出甚至得到了一笔庞大的股票期权。即便一些人由于其他原因接受了该职位,薪资依然代表着受尊重的水平和企业对该职位价值回报的预期。但是,我们对数据科学家的心理排序所做的非正式调查却显示出一些或许更基础、也更重要的东西。这群人想要“走上舰桥”—典故来自20世纪60年代电视剧《星际迷航》,电视剧中的舰长詹姆斯·柯克非常依赖于史波克博士提供的数据。数据科学家想要站上浪潮之巅,实时地观察脚下滚滚而来的机会。
考虑到招聘和留住数据科学家的困难,企业应该思考出一个好的策略吸引他们来做顾问。大多数咨询公司都还没有配备大量的数据科学家,即使像埃森哲、德勤和IBM全球服务这样的“大象”们,也还处在为客户引入大数据项目的早期阶段。他们所拥有的数据科学家的作用,主要用于较常规的定量分析。但Mu Sigma之类的离岸分析服务公司,可能会率先迈出应用大数据科学家的重要一步。
但是本文所讨论的数据科学家们想要进行创造,而不仅是给决策者提供建议。有人曾将做顾问称作是“死亡地带—你所要做的只是告诉别人数据分析给出的建议”。但通过创造有效的解决方案,他们能够拥有更多的影响力,并因为成为同行业先驱而彪炳史册。
关注和培养
权限过少的情况下,数据科学家难有出色表现。他们应该得到进行试验和探索可能性的自由,也就是说,他们需要与企业其他部门密切联系。他们最需要与之建立联系的人应该是负责产品和服务的主管,而不是总揽企业全局的人。正如乔纳森·高德曼的故事所告诉我们的,他们为企业创造价值的最好机会不在于写报告、也不是为高管做演讲,而是在与顾客直接相关的产品和流程方面进行创新。
如何找到你需要的数据科学家
1.招聘重点放在那些盛产数据科学家的大学(斯坦福大学、麻省理工学院、加州大学伯克利分校、哈佛大学、卡内基梅隆大学),以及其他一些实力雄厚的大学:北卡罗莱纳州立大学、加州大学圣克鲁兹分校、马里兰大学、华盛顿大学和德州大学奥斯汀分校。
2.浏览数据科学工具的兴趣小组成员名单,比如R User组(一个受数据科学家们喜爱的统计工具)和Python兴趣组(PIGgies),就是搜寻数据科学家的好地方。
3.在LinkedIn上寻找数据科学家——他们几乎全部聚集于此,你还可以查看他们是否具有你想要的技能。
4.走出去和数据科学家阶层厮混在一起。参加数据和Hadoop方面的会议和类似聚会(如今这些会议几乎每周一次)或是数据科学家们在湾区、波士顿、纽约、华盛顿、伦敦、新加坡和悉尼的非正式会议。
5.结交本地风险投资家,他手中可能握有许多大数据方面的创业计划书。
6.在Kaggle或者topCoder之类的分析和编码竞赛网站上举办一场竞赛,跟进联络最富创造性的参赛者。
7.别在不会编码的候选者身上浪费时间,候选人的编码能力不一定要世界一流,但至少应说得过去。同时你要检验候选者是否能快速地学习新技术和方法。
8.确保候选者能够在数据组中找到线索,并能清晰连贯地表述出其主要数据发现。你应测试一他是否能形象生动地用数字进行交流。
9.小心那些完全脱离商业世界的候选者。当你问他,怎样用数据工作来解决你的管理问题,他是否会无言以对?
10.询问候选者最喜欢的数据分析或观点,以及他们如何保持技术敏锐度。他们是否拿到了斯坦福的在线机器学习课程证书?是否对开源项目有所贡献?是否在gitHub之类的编程及代码托管网站建立了可供分享的代码库?
并非只有LinkedIn在应用数据科学家来生成产品、特征和增值服务方面的创意。Intuit公司要求数据科学家为小企业客户和消费者提供观点,向负责大数据、社交设计和营销的新任副总裁进行汇报;通用电气已经在使用数据科学家来优化服务合同、工业产品的维修间隔;谷歌在使用数据科学家来优化自己的核心搜索和广告服务算法;Zynga使用数据科学家来优化游戏体验以打造长久客户纽带并带来收入;Netflix创造了著名的Netflix奖,授予开发出了影片推荐最佳方案的企业数据科学家团队;应试教育公司卡普兰(Kaplan)使用它的数据科学家来发现有效的学习战略。
然而,数据科学家们在数据这一快速发展的领域中拥有高超的技能。若让他们把时间花在与管理人员建立联系上,会带来潜在的副作用。他们与同类专家的交流会减少,而他们需要这种交流来保持自身技能和所使用的工具跟得上最尖端的潮流。数据科学家必须接触公司内外的社会实践。支持合作与技术分享的新的会议和非正式联盟正在不断涌现,企业应当本着“水涨船高”的理念鼓励科学家参与其中。
面对的期待越多,数据科学家往往越有动力。有时,获取和组织大数据的挑战占据了太多时间和精力,使数据科学家难以进行预测和优化复杂分析。然而,如果主管们声明他们满足于简单报告,数据科学家将会奉献出更多的精力来进行高阶分析。大数据不应该被等同于“小数学”。
这十年最热门的工作
谷歌首席经济学家哈尔·范里安曾有一句众所周知的话:“未来10年最炙手可热的工作将是统计学家。大家以为我在开玩笑,但谁又曾猜到计算机工程师成了20世纪90年代的性感工作呢?”
如果说“性感”意味着需求庞大而又为数稀少的素质,数据科学家已然称得上“性感”。
数据科学家招聘难、聘用花费高,并且由于市场竞争激烈难以留住他们,因为同时拥有理科、计算机和分析学背景的人实在不多。
如今的数据科学家类似于20世纪八九十年代华尔街的“宽客(Quants 金融数量分析师)”。当时,拥有物理学和数学背景的人纷纷投身于投资银行和对冲基金,在那里他们能够设计全新的算法和数据策略。尔后各类大学纷纷开设金融工程学的硕士课程,催生出了更贴合主流企业的第二代人才。随后的90年代,这一模式在搜索工程师身上重演,他们稀有的技能不久便成了计算机科学课程所教授的内容。
这种模式的存在抛出了一个问题,如果企业坐等第二代数据科学家兴起,等到被选者大量增多、更易审核、更易融入团队时再招入公司,是不是一个更明智的做法?为什么不把寻找和培养特殊人才的麻烦留给其他公司呢?比如初创的大数据公司或者是通用电气、沃尔玛之类需要数据科学家来冲锋陷阵,以实现其激进战略的公司。
企业若以此为据,会遇到麻烦。因为大数据的发展没有任何放缓的迹象。在早期,企业如果由于缺乏人才而袖手旁观,会担上落后于人的风险,而其他竞争对手和渠道伙伴会获得几乎难以估量的竞争优势。如今,大数据恰如一次汹涌而来的时代浪潮,如果你想抓住它,你需要会冲浪的人。
托马斯·达文波特是哈佛商学院客座教授、德勤分析部门高级顾问和《判断力说了算》一书的合著者(哈佛商业评论出版社,2012年)。 D.J.帕蒂尔是格雷洛克风投公司Greylock Partners的数据科学家,之前担任 LinkedIn的数据产品负责人,同时还是《数据柔术:将数据转化为产品的艺术》(The Art of Turning Data into Product,出版社:o’Reilly Media,2012年)一书的作者。