它是在做什么?
希望找到一个线性模型,来尽可能解释手头的数据。这个数据可以是从一维到n维不等的。
所谓的解释,就是希望这个模型越接近手头的数据越好。这里有几个点需要明白。
第一,手头数据的维度模型的维度不一定是相等的。你有三维的数据,但可能很多时候二维就已经可以很好的解释了。一个帮助理解的例子就是,我们看照片就可以分辨人,不需要看立体图。3d信息缩减为2d也可以达到我们的“看出来”这个目的。这也就是前文所谓的“接近”的概念。
第二,什么叫做“好”。假设你已经有完整的数据了,那么完美的情况就是,你所有的数据点,全都落在了这个模型上。这可能很难。比如你的数据是二维的,你的模型也是二维的;你的数据全都落在了一条线上,你的模型刚好就是这条线。只要任何一条不满足,比如你的数据并不在一条线上,那就不可能得到什么完美的情况了。这时,我们就需要退而求其次,得到最接近的,相对的最好。这就涉及到了一个核心内容,如何评判模型的好。TLDR的版本是,教材上写的,利用anova,解释原始数据var越多为越好。这个不足以落到实处的理解(对我来说)。具体的解释需要我们回到回归的本源下一条再说。
第三,模型是线性的。即:我们希望用(大于二维)“直线”,而不是曲线来构造模型。这个挺有意思,这其实是一种美好的愿景。从脑子里模拟这个情形的话,可能是这样:我有一组数据点,在二维空间里,我希望用一维的线(y=b+ax1)将他们串起来…可能很难,那么我决定在三维空间里去找,二维里无法穿起来的点,在三维里有可能被一个二维的面就穿起来了(y=b+ax1+bx2)…可能还是很难,那么我决定继续到四维空间里找,在四维空间有可能就被三维的体给…不仅能穿起来,还得是用线面体这么好的形式,也是有点难为,但模型总归是从简单到复杂…也合理。总不至于一上来就研究特别复杂的,基础呢?