一名合格的数据科学家

什么是“数据科学家”?

Posted by Paradise on October 17, 2021

一、数据科学家的工作模式和组织结构

1.数据驱动还是业务驱动

业务驱动的特点是业务人员主导数据分析需求的提出、结果的应用,在业务中应用数据洞察;数据驱动则是更看重主动应用数据分析手段,从数据洞察发起业务、改善业务,在业务执行时也会广泛应用数据洞察。一般在较新的业务领域采用数据驱动,已有复杂业务则采用业务驱动。

然而从自身能力发展、数据驱动逐渐成为主要的工作模式的情况来看,数据科学家需要思考如何将数据驱动的模式做得更好,并且承担更多责任。所以,除了算法、用法等基本技能,还需要考虑如何改善业务。重点由上到下依次为:战略、业务、用法、算法。

2.数据科学家团队的组织结构

分散式结构是数据科学家属于确定的部门,这样的组织结构的好处是数据科学家可紧密地与业务人员合作,将业务问题转化成高效的数据分析任务。不足是,一方面数据分析的知识积累是在个人身上,而不是团队;另一方面由于角色的限制使得业务部门内 的数据科学家没有上升空间。

集中式结构就是跨业务条线而成立独立的专门做数据分析的结构。缺点是团队对业务的理解不够深入,业务部门也可能只将其看作支持部门,而不会在实际业务中有太多引入。

二、数据科学家的工作方法要点

1.开始工作之前确保具备成功要件

在开始一项工作之前,要先明确业务场景、数据可获得性、数据质量等重要信息。否则一些问题将严重阻碍数据分析的进行,影响最终的分析结果。

2.同时输出两种价值

假设要通过数据分析手段改善某业务问题,如构建预测模型筛选高价值、高响应率的客户,即使是在目标非常明确的情况下,数据科学家也要在做的过程中保证两种输出结果:

1)重要发现

数据分析过程中势必要进行数据提取、数据处理、数据探查等一系列基础工作。在这些基础工作的过程中,往往会隐藏着有巨大业务价值的信息,这些信息对后期的营销策略制定至关重要。因此,数据科学家在实际工作中需保持“业务敏感性”,对数据背后的业务故事保持好奇心,同时将一些重要的数据发现协同模型结果一并输出,可以大大提高分析主题的价值。

2)模型结果

给定分析主题,目标模型的结果就基本确定,如寻找高价值客户就是模型输出一个名单,风险预警就是给出风险评分以及依据。这是模型输出的最基本形式。

在实际的模型实施应用中,业务人员会经常以挑剔的眼光来看待模型,并且基于模型的结果总是有不同的疑惑需要数据科学家来解决。典型的疑惑如“聚类分析模型确实将客户分成了几个类别,但是我不知道该如何营销这些客户”、“社交网络分析模型给出了潜在的高价值客户名单,但这些信息不足以让营销人员开展营销”。这种情况下,一种简单做法就是和业务人员深入探讨,梳理他们的关注点,然后将对应的指标从数据库中提取出来,作为模型输入的补充一并提交给业务人员。出现以上疑惑的本质原因是,业务人员期待模型输出决策而不是名单,也就是说,数据科学家也需要具备将模型结果转化为业务决策的能力。

3. 充满想象力地开展工作

算法能做到什么是数学范畴的知识,数据科学家的核心工作就是将业务需求转换为一系列的数据分析实践过程。若将各个算法看作一个个组件,那么用一个算法来解决问题还是多个算法的组合,需要数据科学家的想象力和不断尝试。作者曾在给某用户构建模型时,其需求是“根据客户持有产品的现状推荐产品,达到交叉销售的目的”。最后采用的是“客户聚类与产品聚类的交叉分布以及迁移矩阵,并据此展开不同目的的营销”。若向上销售可以推荐同类产品,交叉销售则可推荐不同类产品。

4. 按照敏捷的方式来构建模型

数据挖掘过程也可以看作一个项目过程,从项目管理的角度当然可以按照敏捷的方式来进行。数据科学家需要积极主动地汇报分析思路、预期结果、进度等重要信息。时刻与业务人员以及管理人员保持沟通,对需求变化保持开放。

建模方法论CRISP-DM的核心要点:紧贴业务、不断探索、以结果为导向、模型在应用后仍需不断调优等。

5. 以业务成果衡量自己的工作

模型的效果到底如何?不应该基于测试集上优异的模型性能而洋洋自得,这没有任何意义,顶多代表建模技巧高超。模型最终带来的收益是由模型输出、匹配模型输出的业务决策、业务决策实施过程中的资源配置、应用场景的价值大小等综合因素决定的。数据科学家应该积极主动地推进这些环节的工作,积极收集模型部署后的监测数据。