2020机器学习无监督学习(1)

machine_learning.jpg

流形学习

首先我们知道流形问题也是无参数的模型,而且也是无监督的模型

高维空间

我们生活在世界是 3 维空间,所以对于 3 维以上数据可视化是比较困难的事。但是在机器学习中我们研究样本特征往往是通过向量描述,随着描述和反应样本的特征增加,向量维度也势必不断增加。今天我们当然希望信息越详尽越好,但是这些特征是否有用,我们是否 handle 这么多信息,已经成为我们在数据分析和机器学习上要面对和解决的问题。高维样本在一起构成了高维空间,但是可能这些样本仅占据高维空间一部分,一些特征都是冗余的。

流形学习

流形学习的观点:认为我们所能观察到的数据实际上是由一个低维流形映射到高维空间的。也就是存在高维空间低纬空间。在开始之前,我们先看经典图形帮助我们来分析流形。
我们今天演示实例主要还是用的 sklearn 和 numpy 来进行模型演示,数据可视化还是用 matplotlib ,这里用到 matplotlib 的扩展 mplot3d 来可视化 3d 数据。

from time import time
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from matplotlib.ticker import NullFormatter

from sklearn import manifold,datasets

%matplotlib inline
n_pts = 500
X,color = datasets.samples_generator.make_s_curve(n_pts,random_state=0)
fig = plt.figure(figsize=(12,12))
plt.suptitle("S curve with %i points" % (n_pts),fontsize=12)

ax = fig.add_subplot(111,projection='3d')
ax.scatter(X[:,0],X[:,1],X[:,2],c=color,cmap=plt.cm.Spectral,s=125)
ax.view_init(4,-72)
output_2_0.png

这是一个 3D 空间中样本数据分布,我们很容发现可以通过一些操作将 s 曲线延展出曲面可以在 2 维空间呈现出一个平面。

s_curve.png

在上图我们中看一看这里有三个距离dist_1,dist_2dist_3三个距离,其中 dist_3 欧式距离并不能真正反映样本点之间关系。实际样本间距离需要沿着流行进行计算距离。那么我们需要保证在从 3维空间降维到 2维样本点的距离还保持一致。

那么我们今天讨论局部线性嵌入 LLE(Locally Linear Embedding),我们先看一下什么是嵌入。说到嵌入(embedding),我第一个想起的就是词嵌入,word2vec 就是任何词映射为向量,这就是一种词嵌入(word embedding) 这个技术在自然语言处理变得非常重要。嵌入就是讲低纬空间嵌入到高维空间吧,自己理解的。那么谓嵌入就是把表示大量信息的数据通过空间向量将其表示出来。嵌入不仅使用词汇而且使用图形嵌入等。

  • 图可以嵌入
  • 词可以嵌入
  • 情感可以嵌入
  • 句子可以嵌入

我们通过简单实例解释一下局部线性嵌入,例如我们有一个系学生成绩样本,在之前我们学习KNN时候举过这样例子,要推测班级中同学的数学成绩,我们可以通过他的好朋友的数学成绩来推测他的数学成绩。我们还知道可以通过对朋友加权重来推测这位学生成绩。这个是我们知道的,这样以此类推我们可以推测他物理成绩、化学成绩。如果现在将这些成绩降维到理科成绩,其实这是一种降维,在推测他理科成绩时候我们还是应该保持在高维空间时他们之间权重。

E(W) = \sum_i |x^{(i)} - \sum_{j=1}^k W_{ij} x^{(j)} | \, \, s.t. \sum_j w_{ij}= 1
我们需要将 M 高维空间映射到低纬 N 空间,我们可用x^{(i)}周围几个点加权后取和来表示x^{(i)},然后将在 N 维空间的x^{(i)} 映射到低纬空间z^{(i)} 并且保持上面x^{(i)}和表示他周围点的关系不变。

也就x^{(i)} 可以通过周围点线性组合来表示来。

\epsilon^{(i)} = ||x^{(i)} - \sum_{j=1}^k w^{(j)}\eta^{(j)}||^2

  • \epsilon^{(i)} 代表每一个样本值和其周期样本对其估计的误差,也是我们减少的目标
  • x^{(i)}周围的几个点用\eta^{(j)} \, j \in [0,k] 来表示

我们通过 k 个\eta点(位置)乘以一定权重来表示x^{(i)} 他们之间误差为\epsilon^{(i)}
\epsilon^{(i)} = ||\sum_{j=1}^k(x^{(i)} - \eta^{(i)})w^{(j)}||^2
经过一些列推导我们可以得到上面式子。

\epsilon^{(i)} = ||XW||^2

X = \begin{bmatrix} x^{(i)} - \eta^{(1)} \\ x^{(i)} - \eta^{(2)} \\ \vdots \\ x^{(i)} - \eta^{(k)} \end{bmatrix} \, \, W = \begin{bmatrix} w_{i1} \\ w_{i2} \\ \vdots \\ w_{ij} \end{bmatrix}

  • 我们知道\epsilon^{(i)} 是一个数
  • 我们通过向量来表示 XW 每一个分量就是(x^{(i)} - \eta^{(j)})w_{ij}
    \begin{aligned} \epsilon^{(i)} = ||XW||^2 \\ = (XW)^TXW \\ = W^TX^TXW \end{aligned}
    现在我们先把上面一系列推导整理一下,现在我们问题就是有一个等式约束条件的最小值优化问题。
    \begin{cases} \min \epsilon^{(i)} \\ s.t. \, \sum_{i=1}^k w_i^{(j)} = 1 \Rightarrow I^TW = 1 \end{cases}
    这里 I 是一个单位矩阵[1,1,\dots,1]^T,接下来我们就可以用拉格朗日来表示这个有条件的优化问题

L = W^TX^TXW - \lambda(1 - I^TW)

向量求导,一个数对于向量求导就是应该是对向量每一个分量求导,所以也应该是一个向量。我们在做向量运算不但要了解运算,还要了解每一个矩阵或向量的具体形状。

\frac{\partial L}{\partial w} = 0 \Rightarrow 2X^TXW - \lambda I^T \Rightarrow W = \frac{\lambda I}{2X^TX} = \frac{\lambda}{2} (X^TX)^{-1}I \tag{1}
\frac{\partial L}{\partial \lambda} = 0 \Rightarrow I^TW= 1 \tag{2}

  • L 分别对 w 和\lambda 进行求导
  • 这里 1 或 0 都是由 1 组成向量或是由 0 组成的向量
  • 这里 I 是[1,1,\dots,1]的单位向量

\begin{aligned} \sum_j w^{(j)} = 1 \\ \sum_j \frac{\lambda}{2} (X^TX)^{-1}I = 1 \\ X^TX = Q^{(i)} \end{aligned}
我们可以回忆一下 X 包含一个 j 维维度,现在 X 已经不是之前数据样本而是 j 维向量,大家可以看看上面推导。我们这里用Q^{(i)}来表示X^TX

w = \frac{\lambda}{2} (Q^{(i)})^{-1}
w^{(j)}_i = \frac{\sum_{m=1}^k(Q^{(i)})_{jm}^{-1}}{\sum_q \sum_p ((Q^{(i)})^{-1})_{pq}}

(待续)
最后希望大家关注我们微信公众号


wechat.jpeg
output_2_0.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容