NEZHA
Abstract
主要核心创新点:1.函数式相关性位置编码 2.全词mask策略 3.混合预测训练 4.LAMB优化器
1 Introduction
google‘s bert,ernie,bert-wwm的区别:google mask chinese character or wordpiece token。ernie mask实体或短语,同时增加预训练任务 Token-Document Relation Prediction and Sentence Reordering,这个需要看了ernie论文才行。bert-wwm mask全词。
补充:wordpiece和BPE(byte-pair encoding)。英语love,loving,loves都是一个意思,但如果以词为粒度,就是不一样的词,词表变得非常大,训练速度慢,训练效果也不好。wordpiece是BPE的变种,BPE每次选择最高频的subword加入词表,而wordpiece则是基于概率生成subword。BPE例子如下。
编码例子:
# 给定单词序列
[“the</w>”, “highest</w>”, “mountain</w>”]
# 假设已有排好序的subword词表
[“errrr</w>”, “tain</w>”, “moun”, “est</w>”, “high”, “the</w>”, “a</w>”]
# 迭代结果
"the</w>" -> ["the</w>"]
"highest</w>" -> ["high", "est</w>"]
"mountain</w>" -> ["moun", "tain</w>"]
解码例子:
# 编码序列
[“the</w>”, “high”, “est</w>”, “moun”, “tain</w>”]
# 解码序列
“the</w> highest</w> mountain</w>”
wordpiece算法:
- 准备足够大的训练语料
- 确定期望的subword词表大小
- 将单词拆分成字符序列
- 基于第3步数据训练语言模型
- 从所有可能的subword单元中选择加入语言模型后能最大程度地增加训练数据概率的单元作为新的单元
- 重复第5步直到达到第2步设定的subword词表大小或概率增量低于某一阈值
关于position embedding,主要有三种。transformer使用sinusoidal function,bert使用parametric positional encodings。transformer-XL和XLNet使用折中方案,使用sinusoidal function+training bias组成。而nezha使用的是,使用事先设定好的函数,在self-attention模块,没有额外的需要训练的参数。
2 pre-training nezha models
2.1 Preliminaries: BERT Model & Positional Encoding
参数式postion encoder:bert最大长度处理512的句子,所以bert会在position embedding的时候,形成一个512*768的lookup table,然后在模型训练中更行。
函数式position encoder:transformer通过一个函数,固定住position ebedding的值,公式如下:
这两个公式可以简单的学习到相对位置信息。
如图所示,对于每个维度,正弦波的频率和偏移有所不同,也就是说不同位置的单词,拥有不同的波,所以可以认为拥有相对位置信息。
Self-attention with relative position representations:
这篇里在self-attention里加需要训练的参数,用距离表示位置信息。
2.2 Functional Relative Positional Encoding
NEZHA用的是函数式相对位置编码,在上文Self-attention with relative position representations的基础上,基于函数生成a。该生成方法思想来源于transformer,按我的理解是将transformer的编码模式改成相对编码,同时将它加入到self-attention计算过程中作为bias,而不是在ebedding的时候计算。
2.3 WholeWord Masking
跟bert-wwm一样,全词mask。分词的时候使用jieba。12%的中文字被mask掉。同时1.5%的字随机替换。
2.4 Mixed Precision Training
一种加速方式,mixed precision training,有空看相关论文。
2.5 LAMB Optimizer
一种可以在大批量数据上做优化的优化器,该方法使用超过30k的batch-size,作为结果,可以把bert训练时间从3天下降到76分钟。这里分析一下优化器,以及优化器之间的差别。
sgd,bgd,mini-batch sgd是以前常用的优化器。尽管sgd在模型及数据集上获得了很好的效果,但是速度慢,那么一个自然而然的想法就是利用动量(momentum),利用当前位置的梯度结合过去累积的梯度来优化。将其结合进SGD就诞生了最基本的结合动量的优化方法。需要注意的是momentum在这里扮演了阻力的角色,也就是如果梯度的方向来回波动,那么momentum可以减少波动对于整体收敛方向的影响,以此来加快收敛速率。
但是这个算法没有解决两个问题:
1)模型参数的初始设定对收敛的影响
2)由于引入了更多的超参数,那么超参数的设定对收敛的有很大影响
为了解决第二点,提出了Adagrad:如果梯度一直保持同一个方向,那么可以适当增大学习速率,相反则减少学习速率。Adagrad采用了类似的思想,同说提出可以用累积的动量来rescale梯度从而达到控制学习速率的目的。但这个就有一个很明显的问题,如果前几次梯度方向相同,那么 [图片上传失败...(image-aa4178-1645178652782)] 的值就会很快变得很大,结果模型居然就这么收敛了?!实验也证明了这一点。因此这个方法要求初始学习速率一定要很小,而且最好是凸优化问题,毕竟只有一个最优解,RMSProp则优化了这个问题。
RMSProp 采用了exponential moving average的办法,可以理解为一种加权的平均数,在迭代的过程中,越早的梯度对于当前动量的影响就越小,因此整体动量可以维持在一个较为稳定的范围内而不像adamGrad一样有迅速收敛的危险。大量实验也证明在优化非凸函数的任务上,这个方法基本都是最优解。
接下来推出了adam算法。
3 Experiments
实验结果是对google bert,bert-wwm,ernie的对比。中文的效果测试数据集为:
• CMRC (Chinese Machine Reading Comprehension 2018) [16]: A machine reading comprehension task that returns an answer span in a given passage for a given question.
• XNLI (Cross-lingual Natural Language Inference) [17]: The Chinese portion of XNLI, which is a version of MultiNLI where the dev and test sets have been translated (by humans) into 15 languages. XNLI is a natural language inference task. The goal of this task is to predict if the second sentence is a contradiction, entailment or neutral to the first sentence.
• LCQMC (Large-scale Chinese Question Matching Corpus) [18]: A sentence pair matching task. Given a pair of sentences, the task is to determine if the two sentences are semantically equivalent or not.
• PD-NER (People’s Daily Named Entity Recognition) 9: A sequence labeling task that identifies the named entities from text. The corpus is from People’s Daily, a Chinese News Media.
• ChnSenti (Chinese Sentiment Classification) 10: A binary classification task which predicts if the sentiment of a given sentence is positive or negative.