主成分分析法教程

想象一下,你是一个营养学家试图探索食物的营养成分。什么是区分食品的最佳方式?通过维生素含量?蛋白水平?或者两者的组合?那么,你需要这个——主成分分析

以下内容译自Algobeans

区分识别一个整体里有什么成分,最直观的就是可视化以及揭示集群,例如,在食品中,我们可以识别广泛的类别,如肉类和蔬菜,以及子类别,如蔬菜类型。

但是如何找出这些成分呢?

💡💡💡

主成分分析定义

主成分分析(PCA)是在大型数据集中找出少量基础变量(被称为“主成本”)的技术。主要思想为降维,把多指标转化为几个综合指标。

主成分可以由一个或多个现有变量表示。

举例来说:

我们可以用单一变量维生素C来区分食物,因为维生素C只在蔬菜中但不存在于肉类中。 但是用这样的变量,肉类将全部聚集在一起(因为所有肉类对维生素C的反应都为0,无法分开)(👇图一最左所示👇)

图一:用变量分类

为了把肉类的子类也表示出来,我们可以用多个变量「维生素C-脂肪」来表示,因为不同的肉类脂肪含量不同,而且蔬菜中不含有脂肪,这样我们就把蔬菜和肉类以及所含有的子类也分别开来了。(👆图一中间👆)

如果想要得到更精细的分类,我们可以用「维生素C+纤维-脂肪」这样的变量来把蔬菜的子类更好的展开。(👆图一最右👆)

以上就是我们用重复的实验和脑子获得主成分,但这用来应付「天朝食物」还远远不够。但是你还有强大的电脑啊!


接下来就厉害了,我们可以通过主成分分析法来分析一个随机的食物样品。

ps:样本来自美国农业部数据,以100g生食物为标准测试,分析四个营养变量:维生素C、脂肪、纤维、蛋白质。

数据发现,某些营养素的存在似乎相关。脂肪和蛋白质似乎在一同增长,而纤维和维生素C一同增长。

为了证实我们的假设,我们可以用相关性分析检查营养变量之间的相关性。正如所料,脂肪和蛋白质水平(r= -0.56)之间以及纤维和维生素C水平之间存在大的正相关(r= 0.57)。

在发现了这样的关系之后,我们可以把高度相关的变量看作一个变量,我们就可以把四个维度降维成两个维度来考虑。那么对食物集做主成分分析就可得以下结果:

数字表示用于组合变量以导出主成分的权重。例如,为了得到特定食品的最高主成分(PC1)值,我们加上它包含的纤维和维生素C的量,稍微强调纤维,然后从中减去脂肪和它含有的蛋白质,与蛋白质抵消的程度较大。

我们观察到,主要成分(PC1)总结了我们的目前为止的研究结果 - 它已配对脂肪与蛋白质和纤维与维生素C.它还考虑到对之间的反向关系。因此,PC1可能用于区分肉类和蔬菜。第二主成分(PC2)是两个不相关的营养变量 - 脂肪和维生素C的组合。它用于进一步区分肉(使用脂肪)和蔬菜(使用维生素C)中的子类别。

用这样两个变量在做食物分组的话,将得到最为详细的分类:

肉类项目(蓝色)具有低PC1值,因此集中在图的左侧,与蔬菜项目(橙色)相对的一侧。在肉类中,海产品(深蓝色)具有较低的脂肪含量,因此它们具有较低的PC2值,并且位于图的底部。几种具有较低维生素C含量的非叶状素食物(深橙色)也具有较低的PC2值,并出现在底部。

(在坚持一会 快下课了!)

主成分分析好像很厉害的样子,但是,是个算法就有他的局限性,PCA就有不少局限:

最大化传播:PCA的主要假设是,显示数据点之间最大差异的维度是最有用的。但是,这可能不是真的。例如,识别技术堆中数据点的个数。为了计算数量,沿纵轴将每个数据点分开,但是如果堆栈很短,PCA会错误地识别水平轴为任务的有效成分,因为这是具有最大扩展的维度。

解释组件:PCA需要用具体的变量组合来表示组件,但是通常在现实中是很难实现的。

正交变量:PCA的一个主要缺点是其生成的主分量必须不在空间中重叠,否则称为正交分量。这意味着组件总是彼此以90度定位。为了解决这个问题,我们可以使用一种称为独立分量分析(ICA)的替代技术。


(喜欢的话请关注我哦~ 微信公众号:kuairobot)

-相关阅读-

教程 | 假如遇到灾难,你有多少概率能活下来? 深入浅出学习决策树

极客必看!|用纸板木棍就能做机器人?点进来5分钟包教包会!

小快为何这么污?3分钟带你了解小快的机器学习原理!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,265评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,078评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,852评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,408评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,445评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,772评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,921评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,688评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,130评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,467评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,617评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,276评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,882评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,740评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,967评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,315评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,486评论 2 348

推荐阅读更多精彩内容