一、分类模型
1.举例,几十年前,如果你是华尔街投资人,对于Amazon公司,你觉得它是否有投资价值?
a,有投资价值,因为他是info公司,所以有投资价值(信息公司则不然)
b,没有投资价值,因为他不过是delivery,所以没有投资价值(因为现在已经有了很多运输公司UPS,EPX,而且这个行业的利润非常薄)
2.你看,不同的分类,造成了对不同公司的分类,从而也导致了你是否会投资成功,所以,怎么进行分类是关键!
我们可以把a和b看成两个盒子,其实盒子就是我们对社会的认知和框架,所以选择哪个盒子(a或b或其他)反映出你怎样对事物分类的,也将会影响你对这些事物的思考,还会影响你所做出的决定。
3.Lump to live——为了生活,必须把东西捏成团。其隐喻就是,为了理解世界,我们创造了这些团块、盒子、各种分类,我们看到一辆车,我们不会说那是几几年的什么款式的车(除非你是专业人士),而是会说那是一辆卡车、跑车等。我不会把事物分得一清二楚,我只会将事物分门别类 这些都是为了便捷 它们帮助我们理解世界 再想想我们建立模型的原因。原因之一就是用模型帮助我们 做出决定、制定策略、进行设计 所以把东西混在一起 有助于我们更快作出决定 我们将事物分类 说这一件我喜欢 这一件我不喜欢 这一件有风险 这一件没风险
4.我们会用方差来表示物体的差值,因为平方之后不仅让数值变成了正数好比较,而且会让数据之间细微的差异显得明显很多,这也方便我们观察。
步骤:
①我们会先算整体的mean(平均值)
②然后通过每个值与平均值的比较,得出结果,然后平方,最终得到方差。
③然后我们加起来得到总的方差和,英文诗total variations(总方差)
R squared-R平方:表示通过那个简单的分类,解释的方差的百分比。(即为方差/总方差的百分数)
0-------------R--------------1(R 距离0和1的值,取决于数据的准确性)
!!!专家与非专家之间的一个区别就是:专家倾向于more boxes,也就是更多的分类,也就是在某个领域,分得越来越细,也就是越来越接近分子成面,就是我们可能是看到森林,而他已经看到了数目,这就是专家和普通之间的区别。
!!!记住,correlation≠causation(相关性≠因果关系)
eg:就像一般有很好的马术场的学校其学校的排名就会高很多,但是你不能说学校排名高是因为拥有好的马术场,我们是只能说统计数据显示有相关性,而不能推导出因果性,这点要注意。
我们还可以这么想,这个世界有一个总的total variations,我们的创造各种不同的盒子,目的就是为了让R的值接近100%,这样我们就能够更好的理解这个世界,对世界的理解和预测可以更包容和准确。
more 方差(R)→分类越好 ⇋ more boxes →more 方差(R)
互逆过程。