梳理文本表示(词嵌入技术:Word Embedding)相关方法

梳理文本表示(词嵌入技术:Word Embedding)相关方法

概述

文本的表示是自然语言处理领域重要的工作,如何更好地表示文本语义是自然语言处理领域实际应用的重要基石。通过训练得到的词嵌入向量表示,可以认为其即代表单词本身其含义。单词在不同语境下的含义不一样,不同的语境下涉及到一词多义问题,如何准确表示词嵌入向量以适应不同的语境也是目前研究的热点。目前词嵌入技术还处于初级阶段,还有很多问题值得深入研究。

将文本数据转换为计算机可以识别的表示是自然语言处理中非常重要的一个环节。词嵌入技术的表示方法是目前流行且有效的方法,如何找到通用的词嵌入表示方法成为近年来学者研究的热点问题。文本的词嵌入表示也很大程度上决定了具体应用任务的性能。

目前词嵌入的技术包括早期的传统的词表示法,如独热表示(one-hot representation)TF-IDF 等,以及词的分布式表示法(distributed representations ),如ELMo、Bert 等。

传统的词表示法

独热表示

缺点1一个问题是独热表示的向量为稀疏表示,词汇表的大小决定了向量的维度大小,而当词汇表里单词很多时,向量的维度也就会很大,则会存在维数灾难的问题。且其表示能力弱,N 维度大小的向量仅能表示 N个单词。

缺点2另一个问题是,不同单词使用独热表示得到的向量之间是相互独立的,这就造成了“语义鸿沟”的现象,即独热表示也不能表示一个单词与另一个单词的语义相似度

TF-IDF

TF-IDF 是一种用来计算每个单词重要性的关键词抽取的方法。通过计算词频和逆文本频率,TF-IDF 在考虑效率的同时也得到了比较满意的效果

缺点由于 TF-IDF 仅仅考虑与词频相关的统计,没有关注单词与单词之间的联系。与独热表示相同,TF-IDF 依然存在向量维度较高、不能准确表示文本语义的缺点

......

词的分布式表示法

Word Embeddings are dense,distributed, fifixed-length word vectors, built using word co-occurrence statistics as per the distributional hypothesis

相比传统的词表示法,词的分布式表示法较好地解决了以上问题。与简单的词嵌入表示如 TF-IDF 相比,词的分布式表示[1] 是一种维度大小相对较低的稠密向量表示,且每一个维度都是实数。分布式表示将所有信息分布式的表示在稠密向量的各个维度上,其表示能力更强,且具备了不同程度上语义表示的能力。

[1]Hinton G.E. Learning Distributed Representations of Concepts[C]. Eighth Conference of the Cognitive Science Society,1989.

静态的词嵌入表示

NNLM

NNLM 是由 Bengio 等人在 2003 年提出的模型[2]。NNLM 模型中的思路较为简单,我们认为句子中某个单词的出现与其上文存在很大的相关性,其中 N 元语言模型即表示这个单词与其前面的 N-1 个单词有关。即输入是目标单词上文的单词,学习任务是要求准确预测这个单词。模型在拟合过程中,优化目标是使得预测概率最大似然化.

[2]Bengio Y.,Ducharme R.,Vincent P. A Neural Probabilistic Language Model[J]. Journal of Machine Learning Research,2003(3):1137-1155.

在 NNLM 模型中,词嵌入映射矩阵是作为参数而存在的,训练这个语言模型时,词嵌入表示也在不断地被训练。即模型不仅可以根据上文预测后面接的单词,还得到了单词的词嵌入这个副产品。

NNLM 使用稠密向量作为单词的词嵌入表示,解决了简单词嵌入表示如 TF-IDF 的向量稀疏等问题。TF-IDF 不具备不同语境下表示不同语义的功能,而NNLM 可以在相似的语境下预测相似的单词,具备了一定表示语义的功能。

Word2Vec

Word2Vec 是谷歌开源的训练词嵌入向量的工具,其中又包括 CBOW 和 Skip-Gram 两种不同的训练模式[3]。

[3]Mikolov T.,CHEN K.,Corrado G.,et al. Efficient Estimation of Word Representations in Vector Space[J]. arXiv Preprint:1301.3781,2013.

和 NNLM 顺便得到词嵌入表示的方法不一样,学习每个单词的词嵌入表示是 Word2Vec 的主要任务。

Word2Vec 的缺点是,由于其训练出来的词嵌入向量表示与单词是一对一的关系,一词多义问题还是没有解决。

单词在不同上下文中是具有不一样含义的,而Word2Vec 学习出来的词嵌入表示不能考虑不同上下文的情况。

动态的词嵌入表示

通过 NNLM、Word2Vec 等技术方法得到的静态的词嵌入表示,其本质上就是当模型训练好之后,在不同的上下文语境中,单词的词嵌入表示是一样的,不会发生改变。为了解决一词多义问题,考虑上下文而选择不同语义,动态的词嵌入方法提供了研究的思路和方向

ELMo

2018 年,Peters 等人首次提出了 ELMo 模型[4]。与静态的词嵌入表示得到固定向量表示不一样,ELMo 首先通过语言模型进行学习,得到单词的一个词嵌入表示,在实际使用词嵌入时,根据上下文单词的语义再去调整单词的词嵌入表示,从而使得单词在不同的上下文语境中得到不同的词嵌入表示

[4]Peters M.E.,Neumann M.,Iyyer M.,et al.Deep Contextualized Word Representations[J]. arXiv Preprint arXiv,2018(1802):5365.

其网络结构采用了双层双向 LSTM 网络。其中前向双层 LSTM 和逆向双层 LSTM 分别代表正方向编码器和反方向编码器,输入的分别是单词的上文和下文。一个句子输入到训练好的网络中,最终将得到每个单词三个不同的嵌入表示:双向 LSTM 中的两层词嵌入表示以及单词的词嵌入表示。其中双向 LSTM 中的两层词嵌入表示分别编码了单词的句法信息语义信息。在做实际任务时,网络中单词对应的词嵌入表示将被提取出来作为新特征补充到实际任务中去。

优点与之前的静态词嵌入表示方法相比,ELMo 最大的创新之处就在于,ELMo 可以依据不同上下文来动态地生成相关的词嵌入表示。

缺点1对比后来出现的 BERT 等模型,ELMo 的不足之处有两点:一是 ELMo 模型中使用 LSTM 来提取特征,而LSTM 提取特征的能力没有后来的 Transformer 好

缺点2二是其采取的是用双向简单的拼接来融合特征,而后来的 BERT 一体化融合特征表现更好。

OpenAI GPT

在基于无监督方式进行预训练时,GPT[5] 仍然是使用标准的语言模型来训练,学习出来单词的词嵌入表

示,然后可以在通过很小的调整之后应用到不同的任务中去。与 ELMo 相比,ELMo 模型中的特征提取器是

使用的 LSTM ,GPT 采用的则是 Transformer , Transformer 是谷歌团队在 2017 年提出的模型[6],其中最主要的是自注意力机制。自注意力机制是注意力机制的另一种形式。在 Transformer 公布之前,自然语言处理领域的神经网络,大多数是浅层的,而 Transformer 公布以来,才将其网络层数上升到几十乃至上百层。Transformer 摒弃了如 RNN、LSTM 等时序类模型结构,而相比 RNN 等时序类模型又有更多的优点,如并行化地更快速的处理,以及能学习更长距离的依赖关系等。GPT 的不足之处在于,其采取的语言模型是单向的,未考虑下文

[5]Rajpurkar P.,Zhang J.,Lopyrev K.,et al. Squad:100,000+Questions for Machine Comprehension of Text[J]. arXiv PreprintArxiv,2016(1606):5250.

[6]Vaswani A.,Shazeer N.,Parmar N.,et al. Attention Is All You Need [C]. Advances in Neural Information Processing Systems,2017:5998-6008.

BERT

2018 年 10 月,谷歌团队提出了 BERT 模型[7]。作为自然语言处理领域近几年来研究成果的集大成者,BERT 也为词嵌入表示的研究提供了很好的思路。

[7]Devlin J.,CHANG M.W.,Lee K.,et al. Bert:Pre-Training of Deep Bidirectional Transformers for Language Understanding[J]. arXivPreprint arXiv:1810.04805,2018.

和 GPT 一样,在 BERT 中,特征提取器也是使用的Transformer。且 BERT 与 ELMo 在最高层进行简单的拼接特征不一样,BERT 模型是真正在双向上深度融合特征的语言模型可以认为,BERT 同时拥有 ELMo 和GPT 两个模型的优势。

在 BERT 出现之前的词嵌入技术,如 Word2Vec 中,一个句子的嵌入表示,往往简单的使用 Word2Vec 得到的各个单词的词嵌入表示进行平均或加和得到,这就导致无法得到包含深层语义的词嵌入表示,实际任务中效果也较差。而通过BERT 得到的词嵌入表示融入了更多的语法、词法以及语义信息,而且动态的改变词嵌入也能够让单词在不同语境下具有不同的词嵌入表示。

虽然目前 BERT 模型效果已经很好,但也存在不足的地方,主要有两点:一是数据规模要求较高,如果

没有足够大的语料,则很难达到期望的效果。二是开销较大,其计算量很大,所需成本较高。

结语

在自然语言处理领域任务中,文本的词嵌入表示是很重要的一环,大量的研究针对其进行展开。从传统的基于统计的 TF-IDF 表示,到静态词嵌入表示如NNLM、Word2Vec,再 到 动 态 词 嵌 入 表 示 如 ELMo、BERT 等,词嵌入技术也随着深度学习技术以及自然语言处理领域的发展而渐趋成熟。同时词嵌入技术也是自然语言处理领域产业实际落地的重要支撑力量,未来也还有许多问题值得深入地研究。

想更深入的了解可以参考以下论文

Word Embeddings: A Survey

A Survey on Contextual Embeddings

Pre-trained Models for Natural Language Processing: A Survey

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容