端午节放了三天羊,临近要上班才想到公众号到了要交稿子的时候了。这周来不及写价格与互联网相关的分析文章了,简单聊聊多年的老本行,数据与模型。
模型,是我们理解对象的一种结构化方式。所谓的建模,是基于一定的假设对分析对象展开简化分析的过程。所有的分析,必须时时刻刻记住我们的假设是什么,其中哪些假设可以放宽不会影响主要结论,哪些假设一旦不成立整个模型会分崩离析。带着这样的模型和假设,从数据里面找到可以证伪或不能证伪模型的证据,得出结论的过程,即从数据中寻求模式(pattern)的过程,也就是我们日常所讲的数据分析。以下简单聊聊数据分析过程中大部分人理解存在误区的地方。
第一,数据分析的本质是验证而非探索得到一个结论。从数据中寻求模式的过程,具备无限发散的可能。因此,首先必须有脱离于数据的模型以及模型的假设。不带任何假设看数据,得不出任何有价值的结论。即便是最纯粹的数据挖掘或机器学习,同样需要对样本有必要的假设。给定假设结合逻辑,可以演绎出一组结论,数据分析的过程便是基于数据来验证这一组结论的过程。
第二,数据分析中的验证,本质上只能是证伪而非证实。严格来讲,所有基于数据来验证模型和假设的可靠性,都需要关注P值。P值不是给定样本结果时原假设为真的概率,而是给定原假设为真时样本结果出现的概率。因此,通过数据分析来产出结论时,严谨的思考方式应该是:基于已有的数据,我们的假设没有被挑战,故而可以在一定程度上认为数据支持了我们的假设。只能在一定程度上说明这一点,是因为一个模型最大的假设是模型本身。
第三,一个模型,最大的假设是模型本身。这是CCER计量经济学教授朱家祥讲授的所有知识里面对我影响最深的一条。大部分人意识不到这一点,是因为在他们看来,来自于教科书的模型,默认应该就是对的。然而,在应用数据分析的过程中,模型从来都谈不上正确或者错误,只有合适或者不合适的差别。问题是,模型选择本身在大部分时候无法通过假设检验得到有效的反馈,只能依赖于建模者的经验和品味。对很多缺乏品味的数据分析师而言,这是一个悲剧。
第四,一个模型没有被数据证伪,不能说明该模型对,别的模型错。更可能出现的情况是,一个模型没有被数据证伪,说明该模型还凑合,但不排除还有别的模型更合适。大部分情况下我们不知道还有多少潜在的备选模型可能更合适。这时候,奥卡姆剃刀原理可以帮上忙,优先考虑简单的模型。在没有明确的领域知识时,模型越复杂,可能犯错的地方越多。绝大部分时候,最简单的模型,就是线性模型。
第五,模型不是越复杂越好,而是,在可以解释问题的前提下,越简单越好。甚至,在一些情况下,牺牲少许解释力可以大幅降低模型复杂度时,我们应该优先选择简单的模型。使用简单的模型对样本进行拟合的过程中,不可避免会出现残差。如果某项变量可以有效说明残差里面的一部分内容,把该变量纳入模型中可能是值得的。带着这样的思路,我们大致可以知道什么样的变量有必要进入模型。
第六,找到有价值的变量,依赖于领域知识和DGP(数据生成过程)的掌握程度。很多互联网行业数据分析师的领域知识匮乏到了令人发指的程度,不理解业务的目的,业务的发展阶段,业务开展过程中所面临的约束,业务变化可能会带来什么样的预期结果。这样的数据分析师,更合适的title是跑数据工程师。理解DGP的数据分析师更是凤毛麟角,只有兼具业务和技术视野,才能深入理解DGP。遇到了理解DGP的数据分析师,请珍惜TA。或者,请推荐给我。