机器学习中的PCA降维作用

概述

本文主要介绍一种降维方法，PCA（Principal Component Analysis，主成分分析）。降维致力于解决三类问题：

1.降维可以缓解维度灾难问题；

2.降维可以在压缩数据的同时让信息损失最小化；

3.理解几百个维度的数据结构很困难，两三个维度的数据通过可视化更容易理解。

下面，将从简介、计算步骤、应用三方面进行理解PCA的降维作用。

PCA简介

在理解特征提取与处理时，涉及高维特征向量的问题往往容易陷入维度灾难。随着数据集维度的增加，算法学习需要的样本数量呈指数级增加。有些应用中，遇到这样的大数据是非常不利的，而且从大数据集中学习需要更多的内存和处理能力。另外，随着维度的增加，数据的稀疏性会越来越高。在高维向量空间中探索同样的数据集比在同样稀疏的数据集中探索更加困难。

主成分分析也称为卡尔胡宁-勒夫变换（Karhunen-Loeve Transform），是一种用于探索高维数据结构的技术。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩，数据预处理等。PCA可以把可能具有相关性的高维变量合成线性无关的低维变量，称为主成分（ principal components）。新的低维数据集会尽可能的保留原始数据的变量。

PCA将数据投射到一个低维子空间实现降维。例如，二维数据集降维就是把点投射成一条线，数据集的每个样本都可以用一个值表示，不需要两个值。三维数据集可以降成二维，就是把变量映射成一个平面。一般情况下，nn维数据集可以通过映射降成kk维子空间，其中k≤n。

假如你是一本养花工具宣传册的摄影师，你正在拍摄一个水壶。水壶是三维的，但是照片是二维的，为了更全面的把水壶展示给客户，你需要从不同角度拍几张图片。下图是你从四个方向拍的照片：

第一张图里水壶的背面可以看到，但是看不到前面。第二张图是拍前面，可以看到壶嘴，这张图可以提供了第一张图缺失的信息，但是壶把看不到了。从第三张俯视图里无法看出壶的高度。第四张图是你真正想要的，水壶的高度，顶部，壶嘴和壶把都清晰可见。

PCA的设计理念与此类似，它可以将高维数据集映射到低维空间的同时，尽可能的保留更多变量。PCA旋转数据集与其主成分对齐，将最多的变量保留到第一主成分中。假设我们有下图所示的数据集：

数据集看起来像一个从原点到右上角延伸的细长扁平的椭圆。要降低整个数据集的维度，我们必须把点映射成一条线。下图中的两条线都是数据集可以映射的，映射到哪条线样本变化最大？

显然，样本映射到黑色虚线的变化比映射到红色点线的变化要大的多。实际上，这条黑色虚线就是第一主成分。第二主成分必须与第一主成分正交，也就是说第二主成分必须是在统计学上独立的，会出现在与第一主成分垂直的方向，如下图所示：

后面的每个主成分也会尽量多的保留剩下的变量，唯一的要求就是每一个主成分需要和前面的主成分正交。现在假设数据集是三维的，散点图看起来像是沿着一个轴旋转的圆盘。

这些点可以通过旋转和变换使圆盘完全变成二维的。现在这些点看着像一个椭圆，第三维上基本没有变量，可以被忽略。当数据集不同维度上的方差分布不均匀的时候，PCA最有用。（如果是一个球壳形数据集，PCA不能有效的发挥作用，因为各个方向上的方差都相等；没有丢失大量的信息维度一个都不能忽略）。

PCA的计算步骤

在介绍PCA的运行步骤之前，有一些术语需要说明一下。

方差，协方差和协方差矩阵（对此概念不是很理解可以参考附录链接）

如何通俗易懂地解释「协方差」与「相关系数」的概念？中“GRAYLAMB”的回答。（https://www.zhihu.com/question/20852004）

方差（Variance）是度量一组数据的分散程度。方差是各个样本与样本均值的差的平方和的均值：

协方差（Covariance）是度量两个变量的变动的同步程度，也就是度量两个变量线性相关性程度。

如果两个变量的协方差为0，则统计学上认为二者线性无关。注意两个无关的变量并非完全独立，只是没有线性相关性而已。计算公式如下：

如果协方差大于0表示一个变量增大是另一个变量也会增大，即正相关，协方差小于0表示一个变量增大是另一个变量会减小，即负相关。

协方差矩阵（Covariance matrix）由数据集中两两变量的协方差组成。矩阵的第(i,j)(i,j)个元素是数据集中第ii和第jj个元素的协方差。例如，三维数据的协方差矩阵如下所示：

让我们计算下表数据的协方差矩阵：

可以有python中的numpy包计算均值和协方差：

importnumpyasnpX = [[2,0,-1.4], [2.2,0.2,-1.5], [2.4,0.1,-1], [1.9,0,-1.2]]print(np.mean(X,axis=0))print(np.cov(np.array(X).T))

得到三个变量的样本均值分别是2.125，0.075和-1.275；协方差矩阵为：

特征向量和特征值

（可以直观的理解：“特征向量是坐标轴，特征值是坐标”）

向量是具有大小（magnitude）和方向（direction）的几何概念。

特征向量（eigenvector）是由满足如下公式的矩阵得到的一个非零向量：

其中，

是特征向量，A是方阵，λ是特征值。经过A变换之后，特征向量的方向保持不变，只是其大小发生了特征值倍数的变化。也就是说，一个特征向量左乘一个矩阵之后等于等比例放缩（scaling）特征向量。德语单词eigen的意思是“属于…或…专有（ belonging to or peculiar to）”；矩阵的特征向量是属于并描述数据集结构的向量。

特征向量和特征值只能由方阵得出，且并非所有方阵都有特征向量和特征值。

如果一个矩阵有特征向量和特征值，那么它的每个维度都有一对特征向量和特征值。

矩阵的主成分是由其协方差矩阵的特征向量，按照对应的特征值大小排序得到的。最大的特征值就是第一主成分，第二大的特征值就是第二主成分，以此类推。

让我们来计算下面矩阵的特征向量和特征值：

根据前面的公式A乘以特征向量，必然等于特征值乘以特征向量。我们建立特征方程求解：

从特征方程可以看出，矩阵与单位矩阵和特征值乘积的矩阵行列式为0，即：

矩阵的两个特征值都等于-1。现在再用特征值来解特征向量。把λ=−1带入：

得：

所以有：

任何满足方程

的非零向量（取

）都可以作为特征向量：

PCA需要单位特征向量，也就是L2范数

等于1的特征向量。

于是单位特征向量是：

这里可以通过numpy检验手算的特征向量是否正确。eig函数返回特征值和特征向量的元组：

importnumpyasnpw, v = np.linalg.eig(np.array([[1,-2], [2,-3]]))print('特征值：{}\n特征向量：{}'.format(w,v))

输出（这里特征值不同为1，是由于python编译器对浮点数据精度要求所致）：

特征值：[-0.99999998 -1.00000002]特征向量：[[ 0.70710678 0.70710678][ 0.70710678 0.70710678]]

用PCA降维

让我们用PCA方法把下表二维数据降成一维：

PCA第一步是用样本数据减去样本均值：

然后，我们计算数据的主成分。前面介绍过，矩阵的主成分是其协方差矩阵的特征向量按照对应的特征值大小排序得到的。

主成分可以通过两种方法计算：

第一种方法是计算数据协方差矩阵。因为协方差矩阵是方阵，所以我们可以用前面的方法计算特征值和特征向量。

第二种方法是用数据矩阵的奇异值分解（singular value decomposition）来找协方差矩阵的特征向量和特征值的平方根。

我们先介绍第一种方法，然后介绍scikit-learn的PCA实现，也就是第二种方法。

上述数据集的解释变量协方差矩阵如下：

用前面介绍过的方法，特征值是1.25057433和0.03398123，单位特征向量是：

下面我们把数据映射到主成分上。

第一主成分是最大特征值对应的特征向量，因此我们要建一个转换矩阵，它的每一列都是主成分的特征向量。

如果我们要把5维数据降成3维，那么我们就要用一个3维矩阵做转换矩阵。在本例中，我们将把我们的二维数据映射成一维，因此我们只需要用特征向量中的第一主成分作为转换矩阵。最后，我们用数据矩阵右乘转换矩阵。下面就是第一主成分映射的结果：

通过numpy包中的矩阵调用实现过程如下：

importnumpyasnpx = np.mat([[0.9,2.4,1.2,0.5,0.3,1.8,0.5,0.3,2.5,1.3], [1,2.6,1.7,0.7,0.7,1.4,0.6,0.6,2.6,1.1]])x = x.TT = x - x.mean(axis=0)C = np.cov(x.T)w,v = np.linalg.eig(C)v_ = np.mat(v[:,0])#每个特征值对应的是特征矩阵的每个列向量v_ = v_.T#默认以行向量保存，转换成公式中的列向量形式y = T * v_print(y)

PCA的运用

高维数据可视化

二维或三维数据更容易通过可视化发现模式。一个高维数据集是无法用图形表示的，但是我们可以通过降维方法把它降成二维或三维数据来可视化。 Fisher1936年收集了三种鸢尾花分别50个样本数据（Iris Data）：Setosa、Virginica、Versicolour。解释变量是花瓣（petals）和萼片（sepals）长度和宽度的测量值，响应变量是花的种类。鸢尾花数据集经常用于分类模型测试，scikit-learn中也有。让我们把iris数据集降成方便可视化的二维数据：

%matplotlib inlineimportmatplotlib.pyplotaspltfromsklearn.decompositionimportPCAfromsklearn.datasetsimportload_iris

首先，我们导入鸢尾花数据集和PCA估计器。

PCA类把主成分的数量作为超参数，和其他估计器一样，PCA也用fit_transform()返回降维的数据矩阵：

data = load_iris()y = data.targetX = data.datapca = PCA(n_components=2)reduced_X = pca.fit_transform(X)

最后，我们把图形画出来：

red_x, red_y = [], []blue_x, blue_y = [], []green_x, green_y = [], []foriinrange(len(reduced_X)):ify[i] ==0: red_x.append(reduced_X[i][0]) red_y.append(reduced_X[i][1])elify[i] ==1: blue_x.append(reduced_X[i][0]) blue_y.append(reduced_X[i][1])else: green_x.append(reduced_X[i][0]) green_y.append(reduced_X[i][1])plt.scatter(red_x, red_y, c='r', marker='x')plt.scatter(blue_x, blue_y, c='b', marker='D')plt.scatter(green_x, green_y, c='g', marker='.')plt.show()

降维的数据如上图所示。每个数据集中三个类都用不同的符号标记。从这个二维数据图中可以明显看出，有一个类与其他两个重叠的类完全分离。这个结果可以帮助我们选择分类模型。

脸部识别

现在让我们用PCA来解决一个脸部识别问题。脸部识别是一个监督分类任务，用于从照片中认出某个人。本例中，我们用剑桥大学AT&T实验室的Our Database of Faces数据集（http://www.cl.cam.ac.uk/Research/DTG/attarchive/pub/data/att_faces.zip），这个数据集包含40个人每个人10张照片。这些照片是在不同的光照条件下拍摄的，每张照片的表情也不同。照片都是黑白的，尺寸为92 x 112像素。虽然这些图片都不大，但是每张图片的按像素强度排列的特征向量也有（92 x 112=）10304维。这些高维数据的训练可能需要很多样本才能避免拟合过度。而我们样本量并不大，所有我们用PCA计算一些主成分来表示这些照片。

我们可以把照片的像素强度矩阵转换成向量，然后用所有的训练照片的向量建一个矩阵。每个照片都是数据集主成分的线性组合。在脸部识别理论中，这些主成分称为特征脸（eigenfaces）。特征脸可以看成是脸部的标准化组成部分。数据集中的每张脸都可以通过一些标准脸的组合生成出来，或者说是最重要的特征脸线性组合的近似值。

fromosimportwalk, pathimportnumpyasnpimportmahotasasmhfromsklearn.cross_validationimporttrain_test_splitfromsklearn.cross_validationimportcross_val_scorefromsklearn.preprocessingimportscalefromsklearn.decompositionimportPCAfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportclassification_reportX = []y = []

下面我们把照片导入Numpy数组，然后把它们的像素矩阵转换成向量：

fordir_path, dir_names, file_namesinwalk('C:/Users/HLB/Desktop/first blog/att_faces/'):#walk() 函数内存放的是数据的绝对路径，同时注意斜杠的方向。forfninfile_names:iffn[-3:] =='pgm': image_filename = path.join(dir_path, fn) X.append(scale(mh.imread(image_filename, as_grey=True).reshape(10304).astype('float32'))) y.append(dir_path)X = np.array(X)

然后，我们用交叉检验建立训练集和测试集，在训练集上用PCA：

X_train, X_test, y_train, y_test = train_test_split(X, y)pca = PCA(n_components=150)

我们把所有样本降到150维，然后训练一个逻辑回归分类器。数据集包括40个类；scikit-learn底层会自动用one versus all策略创建二元分类器：

X_train_reduced = pca.fit_transform(X_train)X_test_reduced = pca.transform(X_test)print('训练集数据的原始维度是：{}'.format(X_train.shape))print('PCA降维后训练集数据是：{}'.format(X_train_reduced.shape))classifier = LogisticRegression()accuracies = cross_val_score(classifier, X_train_reduced, y_train)

训练集数据的原始维度是：(300, 10304) PCA降维后训练集数据是：(300, 150)

最后，我们用交叉验证和测试集评估分类器的性能。分类器的平均综合评价指标（F1 score）是0.88，但是需要花费更多的时间训练，在更多训练实例的应用中可能会更慢。

print('交叉验证准确率是：{}\n{}'.format(np.mean(accuracies), accuracies))classifier.fit(X_train_reduced, y_train)predictions = classifier.predict(X_test_reduced)print(classification_report(y_test, predictions))

最终的分析结果：

交叉验证准确率是：0.829757290513[0.830357140.833333330.8255814] precision recall f1-score supportC:/Users/HLB/Desktop/first blog/att_faces/s11.001.001.001C:/Users/HLB/Desktop/first blog/att_faces/s101.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s111.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s121.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s131.001.001.004C:/Users/HLB/Desktop/first blog/att_faces/s141.001.001.003C:/Users/HLB/Desktop/first blog/att_faces/s151.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s161.000.750.864C:/Users/HLB/Desktop/first blog/att_faces/s171.001.001.004C:/Users/HLB/Desktop/first blog/att_faces/s181.001.001.003C:/Users/HLB/Desktop/first blog/att_faces/s191.001.001.003C:/Users/HLB/Desktop/first blog/att_faces/s21.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s201.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s211.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s221.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s231.001.001.004C:/Users/HLB/Desktop/first blog/att_faces/s241.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s251.001.001.004C:/Users/HLB/Desktop/first blog/att_faces/s261.001.001.005C:/Users/HLB/Desktop/first blog/att_faces/s270.501.000.671C:/Users/HLB/Desktop/first blog/att_faces/s281.000.670.803C:/Users/HLB/Desktop/first blog/att_faces/s291.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s31.001.001.001C:/Users/HLB/Desktop/first blog/att_faces/s301.001.001.003C:/Users/HLB/Desktop/first blog/att_faces/s311.001.001.003C:/Users/HLB/Desktop/first blog/att_faces/s321.001.001.001C:/Users/HLB/Desktop/first blog/att_faces/s331.001.001.001C:/Users/HLB/Desktop/first blog/att_faces/s341.001.001.003C:/Users/HLB/Desktop/first blog/att_faces/s351.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s360.671.000.802C:/Users/HLB/Desktop/first blog/att_faces/s370.501.000.671C:/Users/HLB/Desktop/first blog/att_faces/s381.001.001.005C:/Users/HLB/Desktop/first blog/att_faces/s391.001.001.003C:/Users/HLB/Desktop/first blog/att_faces/s41.001.001.001C:/Users/HLB/Desktop/first blog/att_faces/s401.001.001.001C:/Users/HLB/Desktop/first blog/att_faces/s51.000.830.916C:/Users/HLB/Desktop/first blog/att_faces/s61.001.001.003C:/Users/HLB/Desktop/first blog/att_faces/s71.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s81.001.001.002C:/Users/HLB/Desktop/first blog/att_faces/s91.001.001.001avg / total0.980.970.97100

总结

本文主要介绍PCA降维问题。高维数据不能轻易可视化。估计器训练高维数据集时，也可能出现维度灾难。通过主成分分析法缓解这些问题，将可能解释变量具有相关性的高维数据集，通过将数据映射到一个低维子空间，降维成一个线性无关的低维数据集。最后拓展用PCA将四维的鸢尾花数据集降成二维数据进行可视化；并将PCA用在一个脸部识别系统。

作者：7125messi

链接：//www.greatytc.com/p/9188582970c8

來源：简书

简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,816评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,729评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 158,300评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,780评论 1赞 285
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,890评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,084评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,151评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,912评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,355评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,666评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,809评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,504评论 4赞 334
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,150评论 3赞 317
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,882评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,121评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,628评论 2赞 362
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,724评论 2赞 351

机器学习中的PCA降维作用

推荐阅读更多精彩内容