NLP(1)从Word2Vec到Doc2Vec

链接中的文章写的都非常好,在这里就简略记录一下每篇文章写了什么以及一些想法。

1、语义分析的一些方法(上)

http://dataunion.org/10748.html
文章首先介绍了文本基本处理,包括分词、语言模型、Team weighting等。

分词方法

  • 基于字符串匹配的分词方法。
  • 全切分方法。它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果。


  • 由字构词的分词方法。可以理解为字的分类问题,将每个字分为词的开头Begin、中间Inside、结尾End或单字成词Single,然后维特比搜送总词图的最大概率路径。


语言模型

  • N-gram
    例如2-gram

LOOK 3
LOOK THE 2
LOOK IT 1
PREPARING 1
PREPARING YOUR 1
THE 9
THE PEPSY 1

统计每两个单词之间出现的次数,进而统计出出现概率。它只考虑了词的位置关系,没有考虑词之间的相似度,词语法和词语义,并且还存在数据稀疏(因为是取n个单词的排列,很多排列情况是没有出现的)的问题。

  • 神经网络语言模型


在n-gram的基础上将n个词对应的向量组合成一个更长的向量输出其出现概率
目前效果最好的是RNN网络,因为它可以较好地考虑到前后相关性。文章也介绍了一下LSTM。

RNN

说到这里想起上一篇提到的Word2Vec,是训练语言模型得到的副产物,那么他是怎么训练的呢?这就涉及到第二篇文章了。

关键词

最后一部分是寻找每个词的重要程度。包括TF-IDF、Okapi等方法。

2、 Word2Vec&Doc2Vec

Ref:
https://blog.csdn.net/mpk_no1/article/details/72458003
语义分析的一些方法(中篇)
pythonNLP-文本相似度计算-Demo

单词级别的表示包括Word2Vec CBOW Skip-gram两种模型的训练方式。模型训练过程中需要调整树的路径,Word2Vec实际是语言模型训练得到的副产物。可以理解为在训练一个网络时任务是减小损失函数,副产物是相应的网络的权重,从第一层走到最后一层,走过的路径所对应的权重,就是一个Word对应的Vec。

CBOW

Skip-gram

如果不关心内部的实现方式的话,可以这样从大局思考:CBOW Skip-gram模型把上下文都关联在了一起,为了更好地复现上下文(例如给定附近的单词预测中间的单词、或是给定单词预测附近的上下文),网络需要调整这个单词所对应的权重以完成这个目的。和其他网络中的权重不同的是,该权重和输入的单词关联最紧密,因此该权重就可以代表这个单词的含义。虽然两个模型搭建之初形式不同,但最终产生的权重含义都是一样的。
再来看一下Doc2Vec的DM(给定上下文和文档向量的情况下预测单词的概率)和 DBOW(给定文档向量的情况下预测文档中一组随机单词的概率)模型。
DM模型

DM模型在训练时,首先将每个文档ID和语料库中的所有词初始化一个K维的向量,然后将文档向量和上下文词的向量输入模型,隐层将这些向量累加(或取均值、或直接拼接起来)得到中间向量,作为输出层softmax的输入。感觉这个做法十分巧妙,目的是为了提出整个文章的特点,按照正常思路应该是根据单词什么的来判断,但这里作者就直接把文章的特点设定成一个向量,在每个单词训练的时候都塞进去影响其训练。在一个文档的训练过程中,文档ID保持不变,共享着同一个文档向量,相当于在预测单词的概率时,都利用了整个句子的语义,也就是说这个文档向量和文档中每一个出现的上下文都建立起了联系,和文档中每一个出现的上下文都能建立起联系的自然也就是文档的共性,也就是其代表向量了。
DBOW

DBOW模型的输入是文档的向量,预测的是该文档中随机抽样的词。同样也是将文档ID和文档中每一个出现的上下文都建立起了联系。
而SVD和LSI等模型做的工作也是主成分抽取,主成分,即和文章联系最多的部分,二者的作用是一样的。
不过Doc2Vec每遇到一篇文章都需要重新训练一次,速度堪忧。

思考

Doc2Vec的主要工作就是将文章中的各个词和同一个文章向量联系在了一起,Word2Vec同样也是将上下文的各个单词联系在了一起。这样的公共成分提取思路能否应用到图像、语音?如果将这样固定的Input放到每个特征层去训练,能不能提取出某一类图像的共有特征?
另外思考一下网络是如何构成运作的。网络结构固定,我们可以调整的是Input,Label,Weight。

  • 训练过程,Input+Label=Weight。给定训练集(Input,Label),得到能够拟合训练集的网络权重Weight。
  • 普通的分类模型,Weight+Input=Label。输入Input到训练好的网络,得到分类结果Label。
  • DeepDream,Weight+Label=Input。权重Weight固定,最大化想要输出的Label,得到调整后的Input图像。
    然而,第一种和第三种都涉及到了重新训练,需要不断调整Loss到最小,速度比不上直接计算而不需要反向传播的第二种。

附:一个课程推荐的小项目

如何计算两个文档的相似度全文文档

可以实现寻找类似主题的功能


内容包括
1) TF-IDF,余弦相似度,向量空间模型
2)SVD和LSI
3 ) LDA
等。
该项目的一些参考链接
特征值 SVD介绍
https://www.cnblogs.com/pinard/p/6251584.html
NLTK语料库如何下载
https://blog.csdn.net/cxq2046/article/details/50972715
链接: https://pan.baidu.com/s/1UfJhJY9bJ9hqeTuzKxgQvw 密码: 2ce5
coursea课程介绍文本
百度网盘链接: http://t.cn/RhjgPkv,密码: oppc

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 227,572评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,071评论 3 414
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 175,409评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,569评论 1 307
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,360评论 6 404
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,895评论 1 321
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,979评论 3 440
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,123评论 0 286
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,643评论 1 333
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,559评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,742评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,250评论 5 356
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,981评论 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,363评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,622评论 1 280
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,354评论 3 390
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,707评论 2 370

推荐阅读更多精彩内容

  • @synthesize和@dynamic分别有什么作用?@property有两个对应的词,一个是 @synthes...
    笔笔请求阅读 526评论 0 1
  • 现在最流行的话题莫过于中年危机,被它怒刷了一波存在感的90后开始思索,到了40岁还没实现财务自由的自己,应该如何面...
    有融网阅读 887评论 0 0
  • 猜想runloop内部是如何实现的?一般来讲,一个线程一次只能执行一个任务,执行完成后线程就会退出。如果我们需要一...
    笔笔请求阅读 433评论 0 0
  • 一路上高山深涧、挺拔峻险、雄姿奇伟、万重千山、斧削四壁、峰峦起伏、陡壁悬崖,终于来到了壶口瀑布。 冬天的黄河冻成了...
    志子君阅读 296评论 0 0
  • 我所有的无理取闹源于你的不理解,我死撑够了,比以前更多了一点无所谓。至少你要让我觉得为了一棵树值得放弃整片森林。...
    吧啦扒拉19阅读 91评论 0 0