2.1 语言模型和词向量

----------------------------大纲--------------------------

1 原理

1.1 语言模型

1.2 ngram

1.3 神经网络语言模型

      当前词wt 依赖于其前面的词w1:(t−1) ,估计P(Wt|W1:(t−1)) 转化为分类问题,降低语言模型困惑度

1.4 word2vec 不通过优化语言模型而直接学习词嵌入

       训练目标是得到一组较好的词嵌入而不是降低语言模型的困惑度,word2vec,当前词wt 依赖于其前后的词

1.4.1 CBOW

1.4.2 Skip-Gram

2 tensorflow中两种使用方式

        词向量使用预先训练好的,程序中不断迭代

time:20180108

by : lbda1

-------------------------------------------------------------

1 原理

1.1 语言模型

语言模型用于对特定序列的一系列词汇的出现概率进行计算。一个长度为m的词汇序列{w1,…,wm}的联合概率被表示为P(w1,…,wm)。由于在得到具体的词汇之前我们会先知道词汇的数量,词汇wi的属性变化会根据其在输入文档中的位置而定,而联合概率P(w1,…,wm)的计算通常只考虑包含n个前缀词的词窗口而非考虑全部的前缀词

1.2 ngram

上式可以看出,我们需要估计句子中每个词wt 在给定前面词序列w1:(t−1) 时的条件概率。假如我们有一个很大的文档集合,就可以去估计这些概率。但是由于数据稀疏问题,我们很难估计所有的词序列。一个解决方法是马尔可夫性质。 我们假设一个词的概率只依赖于其前面的n − 1个词(n阶马尔可夫性质)。

这就是N元(N-gram)语言模型。当n = 1 时,称为一元(unigram)语言模型,当n = 2 时,称为二元(bigram)语言模型。2-gram的词频是通过统计当前词和其前面一个词。

同理3-gram如下

1.3 神经网络语言模型

在统计语言模型中,一个关键的问题是估计P(Wt|W1:(t−1)),即在时刻(或位置)t,给定历史信息ht = w1:(t−1) 条件下,词汇表V 中的每个词vk出现的概率。这个问题可以转换为一个类别数为|V| 的多类分类问题.

其中,fk 为分类函数,估计的词汇表中第k 个词出现的后验概率,并满足如下条件

其中Θ为模型参数.这样,我们就可以使用机器学习中的不同分类器来估计语言模型的条件概率.

1.3.1 模型结构

输入层

隐藏层

输出层: 输出层输出层为大小为|V|,其接受的输入为历史信息的向量表示ht,输出为词汇表V中每个词的概率。

1.3.2 train

给定一个训练文本序列w1, · · · ,wT ,神经网络语言模型的训练目标为找到一组参数Θ,使得负对数似然函数NLL最小。

1.3.3 大词汇表上softmax 计算的改进

为了使得神经网络语言模型的输出P(w|h) 为一个概率分布,得分函数会进行softmax 归一化。在语言模型中,词汇表V的规模一般都比较大,取值一般在1 万到10 万之间。在训练时,每个样本都要计算一次。这导致整个训练过程变得十分耗时。在实践中,经常采样一些近似估计的方法来加快训练速度。常用的加快神经网络语言模型训练速度的方法可以分为两类:

• 一类是层次化的softmax 计算,将标准softmax 函数的扁平结构转换为层次化结构;

另一类是基于采样的方法,通过采样来近似计算更新梯度

1.3.3.1 层次化softmax

一般对于词汇表大小|V|,我们将词平均分到√|V| 个分组中,每组√|V| 个词。这样通过一层的分组,我们可以将softmax 计算加速12√|V| 倍。比如,词汇表大小为40, 000,我们将词汇表中所有词分到200 组,每组200 个词。这样,只需要计算两次200 类的softmax,比直接计算40, 000 类的softmax 加快100 倍。

为了进一步降低softmax的计算复杂度,我们可以更深层的树结构来组织词汇表。假设用二叉树来组织词汇表中的所有词,二叉树的叶子节点代表词汇表中的词,非叶子节点表示不同层次上的类别。图中给出了平衡二叉树和Huffman二叉树的示例。

1.3.3.2基于采样

具体的不介绍了

1.4 不通过优化语言模型而直接学习词嵌入word2vec

通过神经网络语言模型,我们可以在大规模的无标注语料上进行训练,来得到一组好的词向量。这些词向量可以作为预训练的参数,再代入到特定任务中进行精调。但是使用神经网络语言模型来预训练词嵌入由两个不足。一是即使使用改进的神经网络语言模型,其训练也需要大量的计算资源训练,训练时间非常长。二是神经网络语言模型的优化目标是降低语言模型的困惑度,和词嵌入的好坏并不是强相关关系。虽然训练一个好的语言模型会得到一组好的词嵌入,但是一组好的词嵌入却不一定要使得语言模型的困惑度降低.

下面我们介绍几种不通过优化语言模型而直接学习词嵌入的方法.连续词袋模型和Skip-Gram 模型.这这两个模型是著名的词嵌入学习工具word2vec 中包含的两种模型。这两种模型虽然依然是基于语言模型,但训练目标是得到一组较好的词嵌入而不是降低语言模型的困惑度。为了提高训练效率,这两种模型都通过简化模型结构大幅降低复杂度,并提出两种高效的训练方法(负采样和层次化softmax)来加速训练。在标准的语言模型中,当前词wt 依赖于其前面的词w1:(t−1)。而在连续词袋模型CBOW和Skip-Gram 模型中,当前词wt 依赖于其前后的词

1.4.1 连续词袋模型CBOW

上下文几个词相加变成新的向量Ct

1.4.2 skip-gram(多个普通神经网络语言模型的加和,体现在目标函数内层的求和)

1.4.3 训练方法

在Word2Vec 中,连续词袋模型和Skip-Gram 模型都可以通过层次化softmax(huffman树) 和负采样来加速训练.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,194评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,058评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,780评论 0 346
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,388评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,430评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,764评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,907评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,679评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,122评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,459评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,605评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,270评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,867评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,734评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,961评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,297评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,472评论 2 348

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,745评论 25 707
  • 只说人话,不砌公式,让非数学专业读者能看明白的Word2Vec。 1. Word2Vec的作用 顾名思义,Word...
    巾梵阅读 17,533评论 2 42
  • 写在前面 态度决定高度!让优秀成为一种习惯! 世界上没有什么事儿是加一次班解决不了的,如果有,就加两次!(- - ...
    夜尽天明时阅读 18,747评论 3 14
  • 1。 前两天老板给我们开会说到大家要积极走出自己的舒适区,一直呆在舒适区不止是对公司的发展无意义,对个人自身的能力...
    青猫酱阅读 910评论 0 4
  • 话说许多年前第一次出国,目的地便是日本。从羽田机场出来,便径直去了葉山町。然而殊不知这个深入群众生活、离横须贺港不...
    Quercus阅读 396评论 0 1