数据|当面试官问“分析一下为什么XX指标下降了?”
编辑导语:“分析一下,为什么今天的日活突然下降了?”这是数据分析面试的高频题,考察的是应聘者的分析问题、验证猜想、结果呈现等一系列能力。本篇作者就对此问题,结合自己的思考理解,给我们总结了如何看数据、做拆分和做假设,一起来看一下。
文章插图
一、框架分析流程总体可以归纳为三步:看数据、做拆分、做假设。
文章插图
1. “看数据”,看数据本身及其变化是否存在问题由于指标的波动可以分为正常的和异常的,按照持续时间又可以分为暂时性波动、周期性波动和持续性波动,所以要先明确这个波动是不是真的是异常的,可以和产品、运营、研发、运维等多方确认数据的真实性,然后观察数据波动持续了多久,判断波动程度是否是在合理的范围之内,比起昨天和上周,同比环比分别变化了多少等等。
文章插图
这一步可能发现的原因大致有:服务器异常、后台统计出错、报表数据异常、指标计算口径不一致等,也可能是外部的恶意行为造成的,需要根据后续步骤再仔细排查。
2.“做拆分”,将指标和业务流程多维度拆解,缩小排查范围这一步要注意“辛普森悖论”,即在某些情况下,分析数据整体和分析数据的各个部分会得到相反的结论。
1)从指标上拆:一个指标一般可以由其他指标计算得到,指标的波动是若干个因素共同作用的结果。要想缩小问题的排查范围,可以在原始指标下尽量细分,不断地由粗到细拆解,找出可能影响指标波动的所有因素,得到一个类似树的结构。比如“DAU=新用户+老用户留存+流失用户回流”,新用户有来源渠道,老用户有留存渠道,流失用户有自然回流和干预回流,而用户共同的因素又有软件版本、地区、设备、活跃时间段等等。
文章插图
另外,拆分不只是用加法,还需要针对具体指标做拆分,比如一些复合指标:“GMV=新用户x转化率x新用户客单价+老用户x转化率x老用户客单价”。
2)从业务流程上拆:一个用户从注册到进入首页再到流失或留存的整个过程,其中的任意一步都有可能会是指标下降的“罪魁祸首”。比如说,当一个新用户第一次进入首页时,发现首页推荐的内容并非他所喜欢的甚至是反感的,反手来一个卸载,这种因为推荐内容质量而导致的用户流失,锅就甩在推荐系统工程师的冷启动没做好上了。
文章插图
不止是这些“表面上”的因素,还有很多其他因素可以加入进来,它们大体上可以归纳为内因和外因两类,内因往往和用户、产品、运营和内容质量相关,外因则可能和政治、经济、法律、竞品的出现甚至疫情的爆发有关,外因可以从宏观上做PEST分析。
往往在分析之前需要先判断指标波动的情况,一般来说,短期变化找内因,长期异动找外因。比如向外考虑国家是否有重大政策发布,向内考虑是否产品本身有问题,是否用户需求发生了转移,在数据上则需要关注数据指标的起点、拐点和终点。
举个最近的例子就是,最近在线学科教育产品的日活为什么下降了?因素就很有可能是最近国家发布了双减政策,自国家发布消息的那一天起,指标数据开始下跌。
除了使用拆分的方法外,还可以结合相关性分析的方法,思考目标指标与另外一个因素是否相关联。
- 创业|八成互联网电视非法采集用户数据, 彩电企业怎么办?
- 新书推荐 │ 大数据算法设计与分析
- 够我国用130年!南海可燃冰试采成功,资源量相当于650亿吨石油
- harmonyos|两年前的小米10 Pro,放到现在相当于什么价位的手机?
- rest|golang笔记 | 面试题整理
- |一招教你入门数据可视化!
- 固态硬盘|PCI-E 4.0新选择,西部数据WD_BLCK SN770固态硬盘体验
- 原神|原神:说好数据互通的,为什么自己不能用电脑玩?多数人都没注意
- 客户端|多平台分析618数据,看清家居人未来方向!
- 芯片|芯片数据出炉!情况出现反转,美企们坐不住了
