PCA和LDA

在机器学习领域,PCA和LDA都可以看成是数据降维的一种方式。但是PCA是无监督的,也就是说不需要知道sample对应的label,而LDA是监督的,需要知道每一个数据点对应的label。下面分别解释PCA和LDA的基本原理

image

PCA:

  • PCA又称为主成分分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。

  • 从线形代数的角度来看,PCA的目标就是使用另一组基去重新描述得到的数据空间。而新的基要能尽量揭示原有的数据间的关系。PCA本质上就是向量换基。PCA通过对投影的距离方差的运用将降维问题转换为了求最值的问题。

LDA(Linear Discriminant Analysis):

  • 线性判别分析,是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的,这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”,如下图所示。 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。

  • 对新样本进行分类时,将其投影到同样的一条直线上,再根据投影点的位置来确定样本的类别。


  • 再看一个例子,假设有两类数据,分别为红色和蓝色,如下图所示,这些数据特征是二维的,希望将这些数据投影到一维的一条直线,让每一种类别数据的投影点尽可能的接近,而红色和蓝色数据中心之间的距离尽可能的大。
  • 从直观上可以看出,右图要比左图的投影效果好,因为右图的黑色数据和蓝色数据各个较为集中,且类别之间的距离明显

  • LDA算法既可以用来降维,又可以用来分类,但是目前来说,主要还是用于降维。在进行图像识别相关的数据分析时,LDA是一个有力的工具

两者比较:

相同点:

  • 两者均可以对数据进行降维。
  • 两者在降维时均使用了矩阵特征分解的思想。
    两者都假设数据符合高斯分布。

不同点:

  • PCA是无监督的,希望降维之后方差尽可能大
  • LDA是有监督的,希望降维之后组内方差小,组间方差大
  • LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
  • LDA除了可以用于降维,还可以用于分类。
  • LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。这点可以从下图形象的看出,在某些数据分布下LDA比PCA降维较优。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • PCA PCA本质上是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方...
    yousa_阅读 1,905评论 0 0
  • 一、降维的作用 降维的算法只负责减少维数,新产生的特征的意义就必须由我们自己去发现了 数据压缩 数据可视化 二、 ...
    dreampai阅读 1,027评论 0 6
  • 本文用于理解机器学习中常见的两种降维方法,主成分分析和线性判别分析,并对两者进行简单的对比。 基本目录如下: 什么...
    蘑菇轰炸机阅读 20,330评论 1 52
  • 一、实验描述 分别使用PCA、LDA和KPCA方法对Iris数据集进行降维,利用可视化工具比较降维的效果。 二、分...
    Garfield猫阅读 6,519评论 0 9
  • PCA是无监督的降维,降维后方差尽可能的大;LDA是有监督的降维,希望分类后组内方差小,组间方差大; 聚类,降维;...
    yanggali99阅读 676评论 0 1