20个问题分辨真假数据科学家

原文翻译：@Lizyjieshu
转载地址：https://www.zybuluo.com/hanxiaoyang/note/522362
原文地址：https://www.quora.com/What-are-20-questions-to-detect-fake-data-scientists
校对调整：@apple @寒小阳
Quora answer from Jay Verkuilen, 心理测验学博士，数理统计硕士，伊利诺伊大学香槟分校

回答可能包含有数学公式或少量代码(R, Python, SQL等)，而不只是泛泛而谈的模糊内容。

我通常不会去看代码示例，因为好的代码通常都是具有目标性的，需要针对特定问题进行优化设计。但如果你想要知道些分辨数据科学家的问题，那可参考下文。这些问题难度都较大，更多是针对统计或建模，而不是数据处理本身。这些很重要，但会些代码的人可能更适合来写这些问题。
或许你可以试着把“我不知道，但我可以从阅读以下内容开始……”作为你答案的一部分，因为这也是在测试候选人的诚实与正直。一家组织最不想要的人就是那些夸张自己的能力或纯粹胡编乱造的虚假人才。
注（我留意到回复中关于这一点的讨论很火热）：这些问题都不是最终的或是具备代表性的问题，只是基于我自己专业领域提出来的。这些是问题的原型，使用时应该在此基础上进行编辑和改进。若针对你通常处理的数据类型，你需要在问题中加上更多细节描述。

解释什么是正规化（regularization）以及它的用处。解释特定方法的优劣势，如岭回归（ridge regression）和LASSO算法？
解释什么是局部优化（local optimum）以及为什么它在特定情况，如K均值聚类，是很重要的。具体有哪些方法能确定你是不是真的遇到了局部优化问题？用什么方法可以避免局部最优解？
假设你需要使用多次回归来为一个定量分析结果中的变量建立预测模型，请解释你将如何来验证该模型。
解释什么是准确率（precision）和召回率（recall），它们和ROC曲线有什么关联？
解释什么是长尾分布并举出三个相关案例。为什么它们在分类和预测问题中很重要？
什么是隐语义分析（latent semantic indexing）？其主要是用来做什么的？这种方式的局限性是什么？
中心极限理论是什么？其重要性是什么？在何种情况下会失效？
统计功效（statistical power）是什么？
解释什么是重采样法（resampling methods）以及它的用处和局限性。
解释含softmax activation的人工神经网络（artificial neural networks ）、逻辑回归及最大熵分类器的区别。
解释选择性偏差（这里指特定数据库而不是随机选择）及其重要性。解释缺失数据处理等数据管理流程是如何让这种偏差变得更严重的？
举例说明实验设计是如何帮助解决行为问题的。例如解释实验设计如何帮助优化网络页面。如何将实验数据和观测数据作对比？
解释“长格式数据”和“宽格式数据”的不同，为什么你选择使用其中某一种？
对缺失数据使用均数填补法（mean imputation）是可行的么？为什么？
解释Edward Tufte 的“chart junk”理论。
什么是异常值？解释你是如何在数据库中寻找异常值以及找到后是如何处理的。
什么是主成分分析（PCA）?阐述你会用PCA来解决何种问题，以及这种方法的局限性。
假如你拥有一家客户呼叫服务中心的来电时长数据，你打算如何编码并分析这些数据？描述一个这些电话时长数据可能呈现的分布场景，你将如何验证（最好是能图形化地展现）这个分布场景的正确性？
解释什么是“误报”（false positive）和“漏报”（false negative）。区分这两者的重要性是什么？分别对以下场景举例：（1）误报比漏报更重要（2）漏报比误报更重要（3）两者同样重要。
解释管理数据集(administrative datasets)和实验中收集的数据集(datasets gathered from experimental studies)之间可能的差异。有哪些是管理数据可能碰到的问题？实验是如何帮助减轻这些问题的？但随之又会带来哪些其他问题？

最后编辑于：2017.12.10 21:16:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,539评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,911评论 3赞 391
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,337评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,723评论 1赞 290
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,795评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,762评论 1赞 294
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,742评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,508评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,954评论 1赞 308
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,247评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,404评论 1赞 345
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,104评论 5赞 340
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,736评论 3赞 324
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,352评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,557评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,371评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,292评论 2赞 352

20个问题分辨真假数据科学家

推荐阅读更多精彩内容