特征提取本质是降维的一种特殊情况
TF-IDF 词频-逆向词频, 实际上不算 feature selection ,因为它(通常)并没有丢弃低权值的维度,并且处理过后的特征的每个维度都被乘上了一个权值,不再是原来的值了;但是它却可以被看作一种降维,虽然严格意义上来说维度并没有“降低”。简单来说降维可以看作一个函数,其输入是一个 D 维的向量,输出是一个 M 维的向量。
我们通常希望在最大限度地降低数据的维度的前提下能够同时保证保留目标的重要的信息,一个最直接的办法就是衡量 reconstruction error ,即
其中Xi是Xi所对应的低维表示再重新构造出来的高维形式,就相当于是压缩之后解压出来的结果,虽然有许多压缩方法都是无损的,就是说这个差值会等于零,但是大部分降维的结果都是有损的。不过我们仍然希望把上面的 reconstruction error 最小化。
另一种方法是利用variance来衡量所包含的信息量:
将方差前K大的K维保留,后一维与前后的维度垂直
(PCA),主成分分析:
从最初的X= N*D矩阵,X*W = Y, 降为N*M 维,目标是使协方差矩阵最大
S = 1/N *wT * xT * x * w .
矩阵不能直接最大化,如果采用Trace(即对角线上元素的和),
只需要求出XT*X的特征值和特征向量,将M个最大的特征值所对应的特征向量按列排列起来组成线性变换矩阵W即可。
与SVD有一定联系。
PCA的缺点:
PCA 实际上可以看作是一个具有 Gaussian 先验和条件概率分布的 latent variable 模型,它假定数据的 mean 和 variance 是重要的特征,并依靠 covariance 最大化来作为优化目标,而事实上这有时候对于解决问题帮助并不大。
例如在谱聚类中,虽然 PCA 极力降低 reconstruction error ,试图得到可以代表原始数据的 components ,但是却无法保证这些 components 是有助于区分不同类别的。
Fisher Linear Discriminant Analysis: 是一个线性映射模型,只不过它的目标函数并不是 Variance 最大化,而是有针对性地使投影之后属于同一个类别的数据之间的 variance 最小化,并且同时属于不同类别的数据之间的 variance 最大化
MDS(multiple dimensional scaling, 多维缩放)
是 PCA 之外的另一种经典的降维方法,它降维的限制就是要保持数据之间的相对距离。实际上 MDS 甚至不要求原始数据是处在一个何种空间中的,只要给出他们之间的相对“距离”,它就可以将其映射到一个低维欧氏空间中,通常是三维或者二维,用于做 visualization 。
Laplacian Eigenmap:同 MDS 类似,LE 也只需要有原始数据的相似度矩阵,从最简单的情况开始,即降到一维xi -> yi ,通过最小化目标函数
从直观上来说,这样的目标函数的意义在于:如果原来xi和xj比较接近,Wij会相对比较大,这样如果映射过后yi和yj相差比较大的话,就会被权重Wij放大,因此最小化目标函数就保证原来相近的点在映射过后不会彼此相差太远
核化线性降维
线性降维方法假设从高维空间到低维空间的函数映射是线性的。然而在不少现实任务中,可能需要非线性映射才能找到恰当的低维嵌入
核技术引入降维:核主成分分析