前面的几种数据分析的思维都是用来解释是什么和为什么的问题,即what和why,而在模型思维中,主要是为了解释怎么样的问题,即how。通过模型,可以让数据发挥更大的效能,能够产生更有价值的信息。
从模型说起
模型是一个很常见的词语,现实生活中就存在各种的实物模型,而在数据分析中,模型主要是指数学模型。在这里,模型其实是联系现实世界和数据世界的工具,是现实世界中问题的数学转换,通过模型能够实现从零散数据到决策结果的过程。
在一个模型中,有若干的输入,这些输入都是数据,通过模型运转后,就会有输出的结果,结果可以是连续数据也可以是离散数据,不论是什么形态,模型的输出都将指导生产生活的运行。
模型的例子
比如说某东根据电商浏览商品的记录,推荐给用户产品,这里输入就是用户对商品的浏览记录,而输出是推荐的产品。又比如阿法狗根据李世石的前面的N手操作和下棋的局面确定落子的位置,这里输入时前面N手操作记录和当前局面,通过模型可以得到落子的位置。又比如公式“长方形面积=长*宽”,“距离=时间*速度”,输入分别是长和宽,以及时间和速度,输出则是面积和距离。
模型从何而来
在是连接现实世界和数据世界的纽带,因而模型一定是来自于现实世界的。
对要生成一个模型而言,首先是要讲现实问题转换成数学问题。简而言之就是明确要输出的结果的数学形式,这些数学形式包括了指示N/Y选择的0-1值,分类,具体的数值,以及相应的概率等等形式。例如涉及到某东推荐手机的问题时,其实是要输出根据浏览记录计算下单手机的概率。
在将现实问题转换成数学问题后,接下来是明确构建模型的思路,在这一步中,需要确认模型的方法,包括了明确输入到输出的规则是什么,以及需要考虑利用到哪些参数。还是以推荐手机为例,针对对你推荐手机的规则是需要考虑因为你浏览过这款手机而推荐给你,还是因为和你有类似购买记录的人购买了这款手机而对你推荐。
最后就是需要产生模型的输出规则。在生成规则的过程中,需要明确哪些参数被选取,这些参数对模型的影响效果如何,以及确认参数的具体大小。在推荐手机的例子中,如果模型是根据看过的情况推荐,那么参数就是围绕看过几次、在什么时间看的,比如在最近一周内看过三次以上就进行推荐。
模型的基本思想——阈值
阈值是模型的最基本的思想,通过阈值,就可以围绕输出结果,制定出一套规则和确定规则中的参数。
对于阈值而言,其定义是临界值,即产生一个效应需要的最高值或者最低值。在数学意义是:当x>m时,Y=……,这里m就是阈值。
在现实生活中的阈值的例子很多,比如微信朋友圈中常有的集齐20个赞就发红包,这里的20个赞就是阈值,只有点赞大于等于20个,才会触发发红包的动作。
又如物理学中的第一宇宙速度7.9km/s,只有大于7.9km/s的速度时,飞行器才能摆脱地心引力的束缚,能够环绕地球飞行,这里的阈值就是7.9km/s,只要大于等于改值才能触发绕地飞行的动作。
在投资领域中的牛股挖掘模型中,PE小于20,市值小于50亿,利润同比增幅大于20%的股票是具备牛股潜力,这里的阈值为三个,小于20,大于50亿和大于20%,只有达到这三个阈值时,才会触发作为潜力牛股的选择条件。
阈值是模型中非常常见的控制手段,一个模型可以在一个维度有阈值,同时也可以在多个维度有阈值。
当只在一个维度上面有阈值的时候,只需要考虑一个数据的情况,这个数据既可以是一个方向,也可以是两个方向。一个方向是是指,数据的阈值只是一个点,只要达到就能够激活相应的状态。比如以考试60分及格为例,只要分数大于等于60分就是及格,而小于60分就是不及格。两个方向是指,阈值存在于一个闭合区间上,只要进入或者超出这个闭合区间,就会引发不同的状态,两个方向的例子常见于体检报告中,在体检报告中体检指标都有正常区间,如果大于正常区间的最大值或者小于正常区间的最小值就属于指标不正常,反之则数据正常。
二维阈值是指对数据考虑连个维度,在不同的两个维度上设置阈值来区分相应的状态。通过对数据多维度的思考,可以用不同的两个数据指标设置阈值,比如成本和价格,也可以用同一个数据的绝对值和相对值设置阈值,比如销售额和销售市场份额,同时也可以将一个数据的现在值和过去值设置阈值,比如当前价格和价格同比增幅。
当有两个阈值的时候,其实就可以将两组数据通过阈值划分为四个区间,构成一个矩阵。在一个矩阵中,一个坐标轴为一个指标,每个指标的阈值都构成了分解点。就这样针对同一组对象,围绕两个思考维度,最终形成四个快速分类。
通过矩阵的形式,可以对对象快速实现分类,并进一步采取相应的措施。
对数据而言中可以是用两个定量维度进行分类,比如在战略管理领域中的波士顿矩阵,就围绕市场成长率和相对市场占有率将产品分为了,明星、金牛、问号和瘦狗四类产品。
同样也可以通过连个定性的维度进行分类,在战略领域中的安索夫矩阵,也围绕新老产品和新老市场,制定了产品拓展,市场拓展,市场渗透和多元化经营四种策略
此外数据还可以通过定性与定量维度相结合的方式,构建矩阵进行快速分类,比如在投资领域,就围绕国际-国内市场和投资收益,制定出是否投入还是应该用哪种模式投资的策略。
前面谈到了一维阈值和二维阈值,在模型中阈值不仅仅只有两个维度,还可以从多个维度上进行考虑,这里就可以有多维阈值的情形存在。多维阈值,顾名思义,就是在模型中考虑阈值的维度有多个,一般是三个或者三个以上。
在日常的生活中,就存在这种思考模式,比如信用卡,就会考虑以前是否办过卡,收入水平以及违约情况等情况,因而围绕是否发放信用卡就包含了办卡记录阈值,收入水平阈值以及违约记录阈值的三个维度。又比如一个在网上的段子,就像下面的图片一样,以是否是高富帅是回家还是去学习。
高富帅的套路正式对应了三个维度,分别是高、帅、富。高否,其实对应的就是身高,要到达高的标准一般需要有180cm,因此180cm就可以作为了身高的阈值,只要身高大于等于180cm就可以认为是高。帅否,其实对应的是颜值,颜值不能像身高一样有直接的观测指标,但是可以通过定量转化的方式,进行测量,比如按照喜欢此长相的妹子的人数的比例,比如有80%妹子喜欢此长相可以认为是帅,这里80%可以作为是颜值的阈值。富否对应的是财富,如果说达到富的标准是资产有180万,那么180万就可以作为财富的阈值,只要资产大于等于180万就是富。
最终当三个条件都达到了,就是高帅富,那么就可以滚回家,如果没有都达到,就该滚去学习。
这个三维阈值的多条件筛选模型,既包含了判定过程,同时还有决策依据,其实在数据模型的应用中,就是这样的套路。
多维阈值的应用领域比较广泛,除了有这样的多条件筛选外,还有其他的模型场景。
比如在决策树,就是决策节点上就是根据指标阈值的达到的情况进行分叉,通过依次分叉,最终形成一个树状结构,不能继续往下分的节点就是决策树的决策结果。
又比如多维分类模型的情况,通过在多个维度上的阈值是否达到情况,将对象直接分成许多类,在三维阈值的分类中,就可以像把一个立方体从长宽高三个角度上,按照阈值直接分成八瓣。
模型规则确认的方式
从前面的阈值的设定的例子可以看出,模型产生的过程是要经历业务理解,规则确定以及参数设置的过程。在进行了业务问题转换以后,就是规则确定,对模型而言,规则要么是“if-then”的条件选择过程,也可以以一个公式的形式存在。当通过规则确定了模型的输入输出规则后,就是选取的规则中的参数,并确定其值大小。
对参数的设定而言,一般分为三种方式,第一是认为划定,即根据经验来设置,第二是统计分类,不同于拍脑袋,是通过统计分类,靠用数据说话的方式来确定参数。第三是自动选择,即通过数据挖掘的方式来确定参数。
在参数的设定过程中,人为划定实质上是通过人的经验来设定相关的参数,这也是用得最久和最成熟的方式。对人为设定来说,模型的规则是基于对业务的理解和人为的要求制定的,这种方式非常简单和快捷,在很多时候都能够起到良好的作用。对其中的参数,也是通过人为自行进行制定,制定的依据更多来自于经验总结。
人为设定规则和参数的模型,具有简单高效的特征,所以模型在体现上也是非常简洁的。流程图和条件表就是人为划定规则模型的体现。
流程图中,根据不同的条件进行不同的路径走向,最终实现模型的运行。途中是一个关于车速扣分的例子,例子中的模型,其实就是道法中,对于驾驶行为扣分的规定。如果没有超速,就不扣分,如果超速了,就进入扣分环节。在扣分环节中,有一个超速是否大于限速50%的阈值,如果达到了就扣6分,如果未到达就扣三分。通过这个模型,把对司机处理方式就分为了三类,并且也根据条件的达成情况,制定了处理措施。
在人为划定的模型中,流程图通常用于按条件进行分支的情况,而在按条件进行归并的情况,用条件表的方式就会更方便简捷。在条件表中,存在多个条件,通过对比条件达成的情况,在输出最终的结果。在关于开店的模型中,就是通过条件表进行考虑的,依次考虑餐厅座位数,周围人群,还有到达餐厅的人数的阈值达成的情况,只要有两项可以达成,那么就可以开店。
简答的方法往往是有效的方法,对通过人为划定的规则和参数的模型而言,就具备到容易解释,方便操作的特性,因此这种简单粗暴的解决方式,在实际操作的领域也被大量应用。
尽管通过人为划定来确定模型的方式简单粗暴还有效,但是这种方式一方面依赖于对经验的积累,另外一方面这种拍脑袋的做法还是具有随意性,不一定会得到最好的结果。
因而,在人为划定的基础上,有了通过统计分类来确定模型的模式,对这种模式而言,模型的规则还是来自于经验积累和业务理解人,而对参数的阈值设定就来自于统计分析了。通过统计对象指标的分布情况,来合理的地制定阈值,使模型的构建具有科学依据。
同时根据统计分类构建的模型,也具备稳定性,由于模型从长期积累的数据中得出参数,因此随着时间的推移,在一定程度上模型的都会有良好的效果。
统计分类模型在商业领域中都广泛存在,在生产环节中,质量控制模型是一个非常常见的例子。在质量控制中,通过探查相关产品的指标分布情况,知道其99.75%和0.25%的分位数作为质量上限和下限,这两个数也作为模型的阈值存在。当产品指标大于质量上线或者小于质量下限时,则被判定为质量异常,当监控指标处于上下限之间时,则被判定为质量正常。
此外在营销领域的商品推荐中,也常常用到统计分类的模式确定模型。如果购买了一个产品后,还有购买其他产品的情况,通过统计同时购买多个产品组合的分布,来制定出阈值。比如以60%同时购买率作为阈值的话,只要购买一个产品后,其他产品和他同时出现的情况大于60%,那么都会被推荐。
统计分类确定模型的方式,具有科学性和稳定性,然而并不是所有情况下都适用于这种方式。
在数据维度多,指标数量大的情况下,如何选择参数和如何确定参数大小,是一个非常困难的问题,如果通过人工选择的话,会因为庞大计算量导致效率降低,加上计算的复杂度高的情况,也会降低模型的准确性。因此,把人工划定和统计分类中参数选择和计算的过程,交给机器,通过机器大规模计算的大规模计算,能够高效、准确、快捷得获得所需的参数。这种通过机器来获得参数从而确定模型的方式,也是自动选择的。自动选择确定模型的方式,也有数据挖掘、机器学习、统计学习等等定义。
在自动选择模型中,可以得出多方面的模型,常用的有聚类、分类、预估和关联。
聚类即是基于数据特征,将对象自动分成不同种类,比如按人群自动进行分类。分类是将对象分成预设的类别,比如会员等级的分类。预估是通过模型产生估计的数值,比如预测销售金额。而关联这是通过模型来探求哪些事情会一同发生,比如在购物篮分析中就会查看哪些产品会一起购买。
通过自动选择确定模型,能够提高计算效率,同时也能够针对多维度,大体量的数据,快速输出模型规则和模型参数。
模型思维总结
在数据分析的思维中,统计思维是回答what的问题,结构思维是回答why的问题,模型思维可以回答how的问题。通过模型可以对决策提出数据建议,对问题给出参考方案。
模型是从数据到结果的神奇过程,实质上是现实中实际问题的数学转换,通过把现实问题转换成数学问题,并且最终得到一个数学的结果,并运用于现实世界中去。对模型而言,需要有个一系列的数据输入,并通过模型的计算过程,最终获得结果。
模型产生的过程首先是将显示问题转换成数学问题,接下来根据预想的结果和目标,明确建模的思路,并最终产生输出的规则。当规则产生后,就可以根据规则的设定,导入输入的数据,并最终形成模型的输出。
对模型规则而言,有三种来源方式。第一种是人为划定的方式,即通过业务理解和人为要求制定模型规则,并根据人的经验设定模型参数。第二种是统计分类的方式,即基于统计分类的结果确定参数,于第一种方式相比,也还是同样是基于经验和业务理解产生规则,而具体的参数,则来自于统计分析。第三种是自动选择,其实就是依据数据挖掘的方式确定参数。这种模式应用数据维度多的情况,即将人工划定和统计分类的中的参数选择和计算交给机器通过大规模运算得出。自动选择的方式,总共有四种方法,分别是聚类(将对象自动分成不同的种类),分类(将对象分成预设的类别),预估(估计的对象的值),和关联(了解哪些对象会同时发生)。
原文转发,功德无量!