Bert


一些资源:

官方论文:Pre-training of Deep Bidirectional Transformers for Language Understanding

[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

官方代码和预训练模型:research/bert: TensorFlow code and pre-trained models for BERT

pytorch:GitHub - huggingface/transformers: 🤗Transformers: State-of-the-art Natural Language Processing for Pytorch and TensorFlow 2.0.


简介:

BERT 全称为 Bidirectional Encoder Representation from Transformer,是 Google 以无监督的方式利用大量无标注文本训练的语言模型。

BERT=Encoder of Transformer:

如果已经 完全了解了 Transformer 的结构,那么bert 理解就很简单了,transformer 是一个 Encoder-Decoder 结构的特征提取器,bert 实际上就是 使用了 Transformer 的 Encoder 部分,在两个任务:1)Mask Language Model  2)Next Sentence Prediction(NSP) 上进行训练,保留模型的参数,于是得到的预训练语言模型。甚至更通俗理解,其就是 word2vec的替代品,只是用更加复杂的网络和更多一点的任务训练得到的词编码器。

基本思想:

1. Bert之前的几年,人们通过DNN对语言模型进行“预训练”,得到词向量,然后在一些下游NLP任务(问题回答,自然语言推断,情感分析等)上进行了微调,取得了很好的效果。

2. 对于下游任务,通常并不是直接使用预训练的语言模型,而是使用语言模型的副产物--词向量。实际上,预训练语言模型通常是希望得到“每个单词的最佳上下文表示”。如果每个单词只能看到自己“左侧的上下文”,显然会缺少许多语境信息。因此需要训练从右到左的模型。这样,每个单词都有两个表示形式:从左到右和从右到左,然后就可以将它们串联在一起以完成下游任务了。

目标函数:

 bert 是双向的 transformer 的 encoder ,ELMO也是一个双向的 LSTM 编码器,ELMO 的训练目标是:P(w_{i}| w_{1},w_{2},...,w_{i-1}) 和 P(w_{i}| w_{i+1},w_{i+2},...,w_{n}) 单独训练两个表示然后 进行拼接;而bert 是以 P(w_{i}| w_{1},...,w_{i+1},...,w_{n}) 为目标函数训练语言模型。

模型介绍:

Bert 和GPT一样均是采用的transformer的结构,相对于GPT来说,其是双向结构的,而GPT是单向的,如下图所示:

先看下bert的内部结构,官网最开始提供了两个版本,L表示的是transformer的层数,H表示输出的维度,A表示mutil-head attention的个数:

Bert_{base} =L=12,H=768,A=12,Parameters=110M

Bert_{large} =L=24,H=1024,A=16,Parameters=340M

预训练模型:

首先了解一下什么是预训练模型,举个例子,假设我们有大量的维基百科数据,那么我们可以用这部分巨大的数据来训练一个泛化能力很强的模型,当我们需要在特定场景使用时,例如做文本相似度计算,那么,只需要简单的修改一些输出层,再用我们自己的数据进行一个增量训练,对权重进行一个轻微的调整。

预训练的好处在于在特定场景使用时不需要用大量的语料来进行训练,节约时间效率高效,bert就是这样的一个泛化能力较强的预训练模型。

Bert 的预训练过程:

BERT的预训练阶段包括两个任务,一个是Masked Language Model,还有一个是Next Sentence Prediction。两个任务的图解:

任务一:Masked Language Model:

MLM可以理解为完形填空,作者会随机mask每一个句子中15%的词,用其上下文来做预测,例如:my dog is hairy → my dog is [MASK]

如果机器能够根据上下文正确预测出被 mask 掉的词是什么,那有理由认为机器已经完全理解了这句话的意思。具体的:

随机把一句话中 15% 的 token(字或词)替换成以下内容:

1)这些 token 有 80% 的几率被替换成 [MASK],例如 my dog is hairy→my dog is [MASK]

2)有 10% 的几率被替换成任意一个其它的 token,例如 my dog is hairy→my dog is apple

3)有 10% 的几率原封不动,例如 my dog is hairy→my dog is hairy

之后让模型预测和还原被遮盖掉或替换掉的部分,计算损失的时候,只计算在被随机遮盖或替换的部分,其余部分不做损失,其余部分无论输出什么东西,都无所谓。

那么为啥要以一定的概率使用随机词呢?这是因为transformer要保持对每个输入token分布式的表征,否则Transformer很可能会记住这个[MASK]就是"hairy"。至于使用随机词带来的负面影响,文章中解释说,所有其他的token(即非"hairy"的token)共享15%*10% = 1.5%的概率,其影响是可以忽略不计的。Transformer全局的可视,又增加了信息的获取,但是不让模型获取全量信息。

这样的好处是:Bert 并不知道 [MASK] 替换的是哪一个词,而且任何一个词都有可能是被替换掉的,比如它看到的 apple 可能是被替换的词。这样强迫模型在编码当前时刻词的时候不能太依赖当前的词,而要考虑它的上下文,甚至根据上下文进行 "纠错"。

具体实现分为三步:

1. 在encoder的输出上添加一个分类层。

2. 用嵌入矩阵乘以输出向量,将其转换为词汇的维度。

3. 用softmax计算词汇表中每个单词的概率。

任务二:Next Sentence Prediction:

选择一些句子对A与B,其中50%的数据B是A的下一条句子,剩余50%的数据B是语料库中随机选择的,学习其中的相关性,添加这样的预训练的目的是目前很多NLP的任务比如问答和文本蕴含都需要理解两个句子之间的关系,从而能让预训练的模型更好的适应这样的任务。

首先拿到属于上下文的一对句子,也就是两个句子,之后我们要在这两个句子中加一些特殊的 token:[CLS]上一句话[SEP]下一句话[SEP] 。也就是在句子开头加一个 [CLS],在两句话之间和句末加 [SEP],具体地如下图所示:

上图中 Token Embeddings 是一般的词向量,pytorch 中的 nn.Embedding()

Segment Embedding 是用于区分上下句的词向量,A句全为1,B句全为0

Position Embedding 和 Transformer 中的不一样,不是三角函数,而是学习出来的,可以参与训练;

实现步骤

1. 整个输入序列输入给 Transformer 模型用一个简单的分类层将[CLS]标记的输出输入到分类器进行二分类.

2. 用 softmax 计算 IsNextSequence 的概率.

Bert 的预训练过程就是把两个任务合并起来同时训练,然后将所有的 loss 相加,目标就是要最小化两种策略的组合损失函数。

bert 的使用:

bert 预训练模型可以直接使用,使用的方式大致分为 Feature-based 和 fine-tune ,关于这个的理解可以看这篇博客:feature-based 和 fine-tune - 简书 

下面是一些使用实践:

1)bert embedding:

官方提供了一个可以直接使用bert预训练好的字向量的包:

!pip install transformers

!pip install sentencepiece

参考:

一文读懂BERT(原理篇)_程序猿废柴的博客-CSDN博客_bert

bert-embedding:获取BERT预训练的词向量_杂文集-CSDN博客

BERT模型详解 - ZingpLiu - 博客园

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,265评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,078评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,852评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,408评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,445评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,772评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,921评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,688评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,130评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,467评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,617评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,276评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,882评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,740评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,967评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,315评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,486评论 2 348

推荐阅读更多精彩内容