序列模型—自然语言处理与词嵌入

词汇表征

利用one-hot向量来表示词,会使得词语词之间孤立,对相关词的泛化能力差,如下图所示

苹果与橙子的区别

当你学习到了一个语言模型:I want a glass of orange,在进行第二个句子的学习的时候,并不能识别苹果与橙子之间的关系。因为使用one-hot向量进行词的表示时,apple 与orange之间的内积为0。因为我们用另一种方法,学习这些词的特征。如,我们可以给出一个特征gender,那么他们在这个特征上的得分如下,男人在这一特征上得分为-1,女人的得分为1.

词嵌入

可以构造很多特征,假设我们构造了300个特征,那么每个词可以用新构造的300维向量来代替原来的one-hot向量,这样一来,每个词都被嵌入到300维空间内的一个点上,这种方法就称为嵌入。新的向量可以比较不同词之间的相似性,如苹果和橙子在很多特征上具有相似性,那么学习了一个句子I want a glass of orange juice,模型可能会自动识别另一个句子I want a glass of apple juice.                    在构造了一个新的向量以后,我们可以将这个300维的向量嵌入到一个二维的空间里,这样就可以进行可视化了,常用的方法是T-SNE方法。

映射

词嵌入的使用

词嵌入在命名实体中的应用

以命名实体为例,如果你已经得到第一个句子,那么根据词嵌入,知道了不同词之间特征的关系,那么你很容易知道,orange farmer 和apple farmer表示的含义相同,即使是较为复杂的词Durian cultivator,只要有了词嵌入,学习算法也能识别正确。词嵌入能实现这一点的原因是其考察了非常大的文本集,1亿甚至100亿也是合理的。通过大量的无标签的文本集,你会发现orange 与apple相似,farmer与cultivator相似。同时,即使你的训练集很小,你也可以从大量的文本中进行词嵌入的学习或者直接从网上下载预训练的词嵌入,然后通过迁移学习进行训练:

词嵌入的迁移学习

首先得到词嵌入,然后迁移学习,用得到的词嵌入表示你的训练集中(假设训练集较小),此时,可以用词嵌入代替one-hot向量,那么10000的one-hot向量可以用300维的词嵌入向量表示。第三步,可以使用新的数据对词嵌入进行微调(适用于数据量较大的时候)。进行这种词嵌入的迁移学习在任务的训练样本较少的时候最有效。

词嵌入的特性——类比推理

如果man对应woman,那么king对应什么呢?

词嵌入的类比推理

通过词嵌入的向量计算,我们可以知道,man与woman,King与queen之间的区别都是性别。测量词与词之间的相似性,最常用的度量方法就是余弦相似性,我们已知Man和woman还有king,要找到queen.假设我们要找到的向量是e_{w} ,e_{w} 可以表示为e_{w} \approx e_{king}-e_{man}+e_{woman},那么,就可以通过余弦相似性得到。

余弦相似性

只要通过大量的文本库进行词嵌入的学习,就可以得到很多词之间的相似性。

词嵌入矩阵

当利用算法学习词嵌入的时候,实际上是学习一个嵌入矩阵。

假设我们的字典中有10000个词,包括位置次等,那么我们就得到了一个嵌入矩阵,其维度是300*10000的矩阵我们用E表示这个嵌入矩阵。对于第6257个词,当我们用one-hot向量表示的时候,会得到一个10000维的向量,其第6257个元素为1,其他元素为0.当我们用嵌入矩阵乘以这个one-hot向量的时候,就可以得到一个300*1的向量,即E*o_{j} =e_{j} =embedding for word j。值的注意的是,这个等式在计算的时候非常复杂,因为one-hot向量维度很高,且大部分元素为零,在实践中,会通过特定的算法取出E中的某一列,而不是直接进行矩阵向量相乘。

词嵌入矩阵

学习词嵌入

词嵌入的学习
学习词嵌入

如上例所示,目标词是juice。如果想学习语言模型,那么应该选取目标器前后多个单词(此处是4个)作为context,然后输入到一个神经网络中,进行目标词的预测,如果是想学习词嵌入,那么可以选取其他形式的context,如选取前一个单词,或者距离目标词较近的某个单词。

Word2Vec

skip-gram找到词嵌入

给定一个context,要找到目标词的词嵌入,首先得到context词的one-hot向量,然后与词嵌入矩阵相乘,可以的到其嵌入向量,再通过神经网络中的softmax分类,得到预测的目标词的one-hot向量。在实际计算中,softmax在进行分类的时候,要计算p(t|c),当词汇量较多的时候,这种方法的计算效率较低。分级的softmax分类器可以解决这个问题,该分类器在进行学习之前,先对词汇表进行分类,如对于一个10000的词汇表,hierarchical softmas分类器先告诉你目标词位于词汇表的前5000个词还是后5000个词,确定为前5000以后,再进一步分析其属于前2500还是后2500。如此就可以进行类似于树状的分类。从而提高计算效率。通常,分级softmax分类词不会是一个平衡分类的树。

分级softmax

那么,如果进行context词的选择呢?我们可以在词汇表中均匀随机的采样,选择环境词,然后进行目标词的预测,但是,这种均匀随机的采样很可能会得到在词汇表中出现较多的the ,of,a,and之类的词,这样会需要反复更新e_{c} ,从而增大计算量。因此,一般不会采用均匀随机采样。

负采样

给定一对词orange,juice,如何知道他们是不是context-Word?首先生成一对正样本context-Word,生成方法和上一小节相同,首先选定一个context词,然后在一定词距内,如正负十个词的词距内,选一个目标词,然后就生成了orange juice,标记为1。为了生成一个负样本,采用相同的上下文词orange,然后再从词典中随机选择一个词,示例中选择的词是king,生成 orange King并标记为0,同样的,形成k个负样例,如orange book等,若我们选取的词出现在orange上下词距内也没有关系,如这里的orange of。

负采样

学习算法输入x,即一个词对,对输出y进行预测。问题变为,给定一个词对,你觉得他们会同时出现吗,你觉得这两个词是通过对靠近的两个词采样获得的吗,他们是在原来的文本中获得的还是在字典中随机选择得到的,算法就是要区分这两种不同的采样方式。这就是如果获得训练集的方法。那么k如何选择呢,如果是小数据集的haul,k从5~20 比较好,对于更大的数据集,k属于2~5比较好。下面来分析一下从x到y的监督学习模型。定义一个logistic回归模型,计算再给定输入对c,t的情况下,y=1的概率

负采样

在进行采样之后,采用logistic分类,建立一个由1000个二分类构成的神经网络,将环境词orange构造成嵌入向量之后,通过神经网络,会生成1000个logistic回归,但是在训练的时候,我们只训练我们的样本,即1个正样本加k个负样本,这样就比更新1000维的softmax分类器的成本低。在每次迭代的时候,选择一个正样本和四个负样本进行训练。

负样本的选择:可以根据经验概率,即词语在字典中出现的频率进行选择,但这样会很容易选到the,of,a之类的词;另一种极端就是等概率的从字典中选择。经研究,通过图中的概率选择效果较好。

负样本的选择
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容