nezha论文解析

NEZHA

Abstract

主要核心创新点:1.函数式相关性位置编码 2.全词mask策略 3.混合预测训练 4.LAMB优化器

1 Introduction

google‘s bert,ernie,bert-wwm的区别:google mask chinese character or wordpiece token。ernie mask实体或短语,同时增加预训练任务 Token-Document Relation Prediction and Sentence Reordering,这个需要看了ernie论文才行。bert-wwm mask全词。

补充:wordpiece和BPE(byte-pair encoding)。英语love,loving,loves都是一个意思,但如果以词为粒度,就是不一样的词,词表变得非常大,训练速度慢,训练效果也不好。wordpiece是BPE的变种,BPE每次选择最高频的subword加入词表,而wordpiece则是基于概率生成subword。BPE例子如下。

编码例子:

# 给定单词序列
[“the</w>”, “highest</w>”, “mountain</w>”]

# 假设已有排好序的subword词表
[“errrr</w>”, “tain</w>”, “moun”, “est</w>”, “high”, “the</w>”, “a</w>”]

# 迭代结果
"the</w>" -> ["the</w>"]
"highest</w>" -> ["high", "est</w>"]
"mountain</w>" -> ["moun", "tain</w>"]

解码例子:

# 编码序列
[“the</w>”, “high”, “est</w>”, “moun”, “tain</w>”]

# 解码序列
“the</w> highest</w> mountain</w>”

wordpiece算法:

  1. 准备足够大的训练语料
  2. 确定期望的subword词表大小
  3. 将单词拆分成字符序列
  4. 基于第3步数据训练语言模型
  5. 从所有可能的subword单元中选择加入语言模型后能最大程度地增加训练数据概率的单元作为新的单元
  6. 重复第5步直到达到第2步设定的subword词表大小或概率增量低于某一阈值

关于position embedding,主要有三种。transformer使用sinusoidal function,bert使用parametric positional encodings。transformer-XL和XLNet使用折中方案,使用sinusoidal function+training bias组成。而nezha使用的是,使用事先设定好的函数,在self-attention模块,没有额外的需要训练的参数。

2 pre-training nezha models

2.1 Preliminaries: BERT Model & Positional Encoding

参数式postion encoder:bert最大长度处理512的句子,所以bert会在position embedding的时候,形成一个512*768的lookup table,然后在模型训练中更行。

函数式position encoder:transformer通过一个函数,固定住position ebedding的值,公式如下:

image.png

这两个公式可以简单的学习到相对位置信息。

image.png

如图所示,对于每个维度,正弦波的频率和偏移有所不同,也就是说不同位置的单词,拥有不同的波,所以可以认为拥有相对位置信息。

Self-attention with relative position representations:

image.png

这篇里在self-attention里加需要训练的参数,用距离表示位置信息。

2.2 Functional Relative Positional Encoding

NEZHA用的是函数式相对位置编码,在上文Self-attention with relative position representations的基础上,基于函数生成a。该生成方法思想来源于transformer,按我的理解是将transformer的编码模式改成相对编码,同时将它加入到self-attention计算过程中作为bias,而不是在ebedding的时候计算。

image.png

2.3 WholeWord Masking

跟bert-wwm一样,全词mask。分词的时候使用jieba。12%的中文字被mask掉。同时1.5%的字随机替换。

2.4 Mixed Precision Training

一种加速方式,mixed precision training,有空看相关论文。

2.5 LAMB Optimizer

一种可以在大批量数据上做优化的优化器,该方法使用超过30k的batch-size,作为结果,可以把bert训练时间从3天下降到76分钟。这里分析一下优化器,以及优化器之间的差别。

sgd,bgd,mini-batch sgd是以前常用的优化器。尽管sgd在模型及数据集上获得了很好的效果,但是速度慢,那么一个自然而然的想法就是利用动量(momentum),利用当前位置的梯度结合过去累积的梯度来优化。将其结合进SGD就诞生了最基本的结合动量的优化方法。需要注意的是momentum在这里扮演了阻力的角色,也就是如果梯度的方向来回波动,那么momentum可以减少波动对于整体收敛方向的影响,以此来加快收敛速率。

image.png

但是这个算法没有解决两个问题:

1)模型参数的初始设定对收敛的影响

2)由于引入了更多的超参数,那么超参数的设定对收敛的有很大影响

为了解决第二点,提出了Adagrad:如果梯度一直保持同一个方向,那么可以适当增大学习速率,相反则减少学习速率。Adagrad采用了类似的思想,同说提出可以用累积的动量来rescale梯度从而达到控制学习速率的目的。但这个就有一个很明显的问题,如果前几次梯度方向相同,那么 [图片上传失败...(image-aa4178-1645178652782)] 的值就会很快变得很大,结果模型居然就这么收敛了?!实验也证明了这一点。因此这个方法要求初始学习速率一定要很小,而且最好是凸优化问题,毕竟只有一个最优解,RMSProp则优化了这个问题。

RMSProp 采用了exponential moving average的办法,可以理解为一种加权的平均数,在迭代的过程中,越早的梯度对于当前动量的影响就越小,因此整体动量可以维持在一个较为稳定的范围内而不像adamGrad一样有迅速收敛的危险。大量实验也证明在优化非凸函数的任务上,这个方法基本都是最优解。

接下来推出了adam算法。

3 Experiments

实验结果是对google bert,bert-wwm,ernie的对比。中文的效果测试数据集为:

• CMRC (Chinese Machine Reading Comprehension 2018) [16]: A machine reading comprehension task that returns an answer span in a given passage for a given question.
• XNLI (Cross-lingual Natural Language Inference) [17]: The Chinese portion of XNLI, which is a version of MultiNLI where the dev and test sets have been translated (by humans) into 15 languages. XNLI is a natural language inference task. The goal of this task is to predict if the second sentence is a contradiction, entailment or neutral to the first sentence.
• LCQMC (Large-scale Chinese Question Matching Corpus) [18]: A sentence pair matching task. Given a pair of sentences, the task is to determine if the two sentences are semantically equivalent or not.
• PD-NER (People’s Daily Named Entity Recognition) 9: A sequence labeling task that identifies the named entities from text. The corpus is from People’s Daily, a Chinese News Media.
• ChnSenti (Chinese Sentiment Classification) 10: A binary classification task which predicts if the sentiment of a given sentence is positive or negative.

Conclusion

跟abstract一样。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容