学习笔记55 数据分析常见面试题4-16

业务与用户分析-4

16.你了解的回归分析有哪些（阿里）

参考答案

将回归分析中的Y（因变量）进行数据类型区分，如果是定量且1个（比如身高），通常我们会使用线性回归，如果Y为定类且1个（比如是否愿意购买苹果手机），此时叫logistic回归，如果Y为定量且多个，此时应该使用PLS回归（即偏最小二乘回归）。

17.淘宝某日销售额下降，分析原因（阿里）

参考答案

销量=下单数 *（1-订单取消率-退货率），

这个公式就可以把销量用“下单数、订单取消率、退货率”等三个维度去量化，下单数=咨询数 *（1-咨询流失率）+浏览量 *（1-浏览流失率）；

订单取消率=支付取消数/下单数；

退货率=订单退货数/已支付订单数；所以又会引出“咨询流失率、浏览流失率、支付取消数、订单退货数”等多个衡量指标。

经过这样一层一层公式化的量化，找到那些“最小不可分割的指标”，进而最可能发现本质的问题所在了。

18.如果近期贝壳二手房成交量下跌，怎么分析（贝壳找房）

参考答案

首先，按照省市、价格区间等维度划分，找到是哪个维度下的二手房成交量下跌。找到原因后，分内外部进行归因，内部包括产品侧、运营侧和技术测。外部包括宏观经济政策和竞品分析。

答案解析

定位原因+内外部分析

19.用滴滴的行为情况，问你用哪些数据做分析，方案的优缺点，可行性，效益这类问题（滴滴出行）

参考答案

哪些数据做分析：指标体系搭建。采用“人货场”场景化搭建指标体系。“人”数据指标主要看发单用户数、完单用户数、客单价、周期内完单订单数、取消订单数、评价订单数等。“货”数据指标主要看成交了多少，交易额多少，花了多少，到具体数据指标主要会看GMV、成交率、取消率指标等等。“场”数据指标主要看哪个渠道用户点击量大曝光率大，带来了多少新用户，完成多少交易订单，客单价是多少。

方案的优缺点可行性等可以采用AB实验才量化。

具体步骤：

1. 收集指标，建立评估指标体系。

2. 设置实验组和对照组，分配流量。

3. 假设检验，评估实验结果是否显著。

4.给出决策方案。

答案解析

指标体系问题+ab实验步骤

20.总体转化率下降，但是其余各渠道转化率正常，应该怎么进行分析？（猿辅导）

参考答案

这是辛普森悖论问题，多组数据分别讨论时都会满足某种性质，可是一旦合并考虑，却可能导致相反的结论。要更客观分析产品的转化率情况，就需要设立更多角度去综合评判。也就是对用户进行更细致的划分。

答案解析

解释什么是辛普森悖论问题+解决方法

业务与用户分析-5

21.某日营收下滑30%怎么分析？（斗鱼）

参考答案

首先验证数据的准确性，确定数据异常不是因为统计口径或数据报表异常所导致的。随后，各维度进行拆解，找到是哪个维度的收入下降显著。最后定位问题维度后通过内外部分析找到原因，内部从产品、技术和运营侧找原因，外部从政策经济和竞品找原因。

22.GMV下滑严重怎么分析（拼多多）

参考答案

首先确定是相比于何时下滑，是环比上月、同比去年某月、环比去年还是环比上周等下滑，通过时间的比较初步可以判断出下滑是否由于季节、节日、突发性事件和天气等影响。

随后按照公式拆解，GMV = 购买人数 * 客单价 * 购买次数，由此判断是购买人数下滑，还是客单价下滑，还是购买次数下滑。

若购买人数下滑，则将购买人数进行漏斗细分，购买人数= 流量 * 进店转化率 * 购物车转化率 * 付款转化率，判断是漏斗的哪个环节出现了下滑。若流量下滑，则要重视拉新；若进店转化率下滑，则要重视营销活动等。若客单价和购买次数下滑，则可以将客户进行细分，如分为高价值用户和低价值用户；忠诚用户和一般用户；新用户和老用户；高频购买用户和低频购买用户，判断是哪类用户的客单价和购买次数下滑了。定位问题所在后，从产品、运营和技术侧分别找原因，也可以从外部政策和竞品找原因。

23.DAU下降5%怎么分析（快手）

参考答案

首先验证数据的准确性，确定数据异常不是因为统计口径或数据报表异常所导致的。随后两步分析法：首先定位问题原因，这里可以通过计算各个维度DAU的变动系数=（该维度下异常前DAU-该维度下异常后DAU）/该维度下异常前DAU，选出变动系数较大的前几个维度，对其进行分析。然后可以从内部和外部进行分析，内部从产品（版本更新）、技术（卡顿，闪退）、运营（运营活动）分别沟通看是否能找到原因。外部从政策和竞品的角度找原因。

答案解析

确定问题+定位问题+找到原因

24.留存率下降该如何分析（拼多多）

参考答案

首先，明确什么留存率下降，以及下降标准（对比什么下降了）。例如次日新增用户留存率下降。次日新增用户留存率= 当天新注册用户次日仍登录数 / 当天新注册用户数。首先定位问题原因，是分子变动过大还是分母变动过大。随后进行内外部分析，内部可以从产品和运营的角度，例如版本机型不兼容、闪退、权限获取情况等原因。外部从竞品的角度分析。

25.爱奇艺想要提高付费会员数，应从哪几个方面分析。（拼多多）

参考答案

内部和外部进行分析。

内部：从未付费用户，持续付费用户，流失付费用户。分别分析这些用户的付费率情况，以及如何提高对应用户的付费意愿。

外部：竞品用户。分析竞品的付费用户情况，可以从外部购买数据或数据爬虫等方法获取，分析这些用户能否转化为爱奇艺的付费用户。

26.给一张流量表，怎么识别不同渠道的变化？（拼多多）

参考答案

取数的时候对groupby不同的渠道进行聚合。变化的话看不同渠道的影响系数=(该渠道变化前指标-该渠道变化后指标)/总的变化前指标，就可以量化比较不同渠道变化带来的影响。

6.分析一个case，case背景是陌陌换了匹配算法，要做abtest（字节跳动）

参考答案

关键指标：匹配后互动成功率

相关指标：DAU、用户在线时长，次均聊天时长、用户付费率、各类功能的使用情况

负向指标：用户流失率

7.算法部门上线了新的推荐算法，在ab-test中败给了老算法，让你找出其中的原因，需要说出具体思路和框架（拼多多）

参考答案

电商平台的商品推荐中，商品历经曝光、点击、加购物车、下单这一系列漏斗。应该分别比较两个算法推荐商品在各环节的转化率，并针对不同环节寻找原因。如果较老算法而言，新算法推的商品从曝光至点击的转化率很低，则应该从推荐推送客群的画像思考，说明推荐算法推送的商品并不适合推送的客群，以此为依据重新调整算法逻辑。

8.简要介绍AB测，并给出样本量计算公式。（拼多多、携程）

参考答案

AB实验经常运用在活动策略是否有效的问题上，进行实验的步骤是：实验的流程：确定目标和假设->确定指标->确定实验单位->计算样本量->实施测试->分析实验结果

其中样本量的计算是比较重要的内容，A/B 测试所需的时间 = 总样本量 /每天可以得到的样本量。从公式就能看出来，样本量越小，意味着实验所进行的时间越短。在实际业务场景中，时间往往是最宝贵的资源，毕竟，快速迭代贵在一个“快”字。另外，我们做 A/B 测试的目的，就是为了验证某种改变是否可以提升产品、业务，当然也可能出现某种改变会对产品、业务造成损害的情况，所以这就有一定的试错成本。那么，实验范围越小，样本量越小，试错成本就会越低。实践和理论上对样本量的需求，其实是一对矛盾。所以，我们就要在统计理论和实际业务场景这两者中间做一个平衡：在 A/B 测试中，既要保证样本量足够大，又要把实验控制在尽可能短的时间内。样本量的计算公式如下：

9.拼多多最近在测试两个不同的推荐算法，其中A比B好，从哪几个方面可以分析好的原因。（拼多多）

参考答案

关键指标提升：A组用户下单转化率明显高于B组

相关指标正向：A组用户人均订单量增加、GMV提升、用户活跃时间更长、物品的收藏率和分享率更高、用户拉新拉活数量更多

负向指标减少：A组用户退款率下降、用户差评率降低

10.ABtest, 为了提高点击率，对界面进行了小幅度修改，有两个组一组1000个人，有100个人点击，另一组1000个人，120人点击，怎么判断好不好（拼多多）

参考答案

在比例类别指标的假设检验中，可以使用卡方检验方法。首先进行假设，设H0为两组实验的点击率无明显差异，H1为第二组点击率要高于第一组。在该实验中，A组1000人中有100人点击，则点击率为10%，置信区间为[8.3%, 12%]；B组1000人中有120人点击，则点击率为12%，置信区间为[10.1%, 14.2%]，在95%的置信度下，进行计算得到p-value=0.15>0.05，不能拒绝原假设H0，因此认为两组点击率无明显差异。

答案解析

卡方检验：卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

11.有没有接触过ABtest/经验，请说说对他的理解（滴滴、快手、字节跳动）

参考答案

AB实验经常运用在活动策略是否有效的问题上，它的理论基础是假设检验，也就是选择一种合适的检验方法，去验证在 A/B 测试中我们提出的假设是否正确。现在，你只要知道“假设检验”中，最重要也最核心的是“检验”就可以了，因为选取哪种检验方法，取决于指标的统计属性。A/B 测试是促进业务持续增长的最实用、最有效的方式。

12.选择AB实验的样本的时候，应该注意什么（滴滴）

参考答案

选择AB实验的样本的时候，我们最要考虑的是样本量的选择，影响样本量选择通常有4个因素：显著性水平（α）、标准差（1 – β）、统计功效（μA-μB）、均值差异（σ）

● 显著性水平：显著性水平越低，对AB实验结果的要求也就越高，越需要更大的样本量来确保精度

● 统计功效：统计功效意味着避免犯二类错误的概率，统计功效越大，需要的样本量也越大

● 均值差异：如果真实值和测试值的均值差别巨大，也不太需要多少样本，就能达到统计显著

● 标准差：标准差越小，代表两组差异的趋势越稳定。越容易观测到显著的统计结果

将这四个值带入样本计算量公式就能得到需要的样本量，通常有网站专门计算AB实验的样本量，所以只要搞清楚上面四个值，就能计算出你需要的样本量

答案解析

这道题主要是对AB实验样本量选择的考量，因为在选择样本的时候最关键也是最重要的一步就是对样本量的选择，对于有经验的人来说可以按照经验判断样本量级，但是对于更多人来说还是需要有更多辅助的判断。通常来说样本量太少，实验结果不大可信，但是样本量太多，也不是更好，一个最直接的原因就是样本量越大，影响的用户越多，就有可能影响到用户对产品的体验。

13.如何设计ABtest确定此功能上线收益（正负收益平衡点）（快手）

参考答案

1. A方案和B方案，哪个方案的结果更好？

首先的话，需要做需要运用假设检验，分为两种不同的检验方式，对于留存率、渗透率等漏斗类，采用卡方检验。对于人均时长类等均值类指标，采用t检验。

2. 通过假设检验后，如果结论置信，我们就能够得到A方案和B方案哪个指标更好（有显著性差异），对于不置信的结论，尽管A方案和B方案的指标可能略有差异，但可能是数据正常波动产生。哪个 ROI 更高？

一般有活动相比无活动，留存、人均时长等各项指标均会显著。

对于ROI 的计算，成本方面，每个实验组成本可以直接计算，对于收益方面，就要和对照组相比较，假定以总日活跃天（即 DAU 按日累计求和）作为收益指标，需要假设不做运营活动，DAU 会是多少，可以通过对照组计算，即：

● 实验组假设不做活动日活跃天 = 对照组日活跃天 * （实验组流量 / 对照组流量）

● 实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天

这样就可以量化出每个方案的ROI。

答案解析

这道题主要是考察ABtest上线后，从哪些维度来确认哪个方案更好，或者说新的方案是否比旧的方案更加适合上线

14.根据上面说的改进点做AB测试，从什么角度来分析？（小红书）

参考答案

以下是ABtest常用的不同的分析指标，可以从这些指标来分析ABtest（以电商为例）

● 点击率

● 留存率

● 复购率

● 转化率

● 跳出率

● 平均保留率

● 平均使用时长（应用，手机网站、网页或游戏场景上的时间）

● 客户满意率

● 平均用户收入

● 平均订单金额

通过对比以上指标在ABtest中的效果，就可以分析不同方案的优缺点

答案解析

这题考虑的是ABtest的分析的角度，分析的角度可以通过不同的指标来分析，不同的指标体现了不同角度的意义

15.怎么验证你的改进办法有没有效（字节跳动）

参考答案

常见的方法就是去关注一下指定的指标，因为大多数ABtest在确认做之前都会指定一些关键性指标，比如，点击率、留存率、复购率和转化率等等，所以在上线后就可以直接关注这些指标是否有提高，如果有就说明办法有效，如果没有提高就需要看看办法哪里出了问题。其次也能够通过计算ROI来比对不同的方案。

● 实验组假设不做活动日活跃天 = 对照组日活跃天 * （实验组流量 / 对照组流量）

● 实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天

这样就可以量化出每个方案的ROI。

答案解析

这题主要还是考察ABtest上线后的效果，最简单的是一些指标可以看出是否有效果，也能看一个投资回报率ROI来看是否有效果

16.A/B test场景问题，第一类错误，第二类错误具体是什么，你觉得哪个更严重等延伸开的问题（阿里）

参考答案

第一类错误：原假设正确但是拒绝原假设，弃真错误。第二类错误：原假设错误但是接受原假设，取伪错误。第一类错误更严重，由于报告了本来不存在的现象，则因此现象而衍生出的后续研究、应用的危害将是不可估量的。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345

学习笔记55 数据分析常见面试题4-16

推荐阅读更多精彩内容