主题:
- 最近的研究证明了生成性预训练对英语自然语言理解的有效性,我们讲这种方法扩展到多语言,并且展现了跨语言预训练的有效性
- 两种方法 for cross-lingual language models(XLMs):
- 基于单语语料的无监督学习
- 基于平行语料的有监督学习
- result:
- 得到SOTA 级别的跨语言分类结果
- SOTA级别的无监督和有监督机器翻译
- contribution:
- 提出一种新的使用跨语言语言模型,学习跨语言表示的无监督方法
- 提出一种新的监督学习改善跨语言预训练当有平行语料的时候
- 超出了SOTA 级别的跨语言分类任务和无监督以及有监督的机器翻译
- 证明跨语言模型在低资源的语言中有明显的效果提升
几种语言模型:
CLM:
- 基于 transformer 语言模型去训练,给定序列前面的几个词去预测当前词的概率,RNN取得了SOTA基本表现
- LSTM模型中使用BPTT算法,将最后一层隐藏层提供给LSTM单元,在Transformer中,之前的隐藏层单元可以传递给当前的单元,给当前的第一个词提供上下文信息,但是这项技术不适用于跨语言的环境,所以为了简单起见只留下每个 batch中的不带上下文信息的第一个单词
MLM:
TLM:
- 利用平行语料,随机mask一部分词在source 和 target 中,让模型去预测,促使模型去对齐英语和法语的表示
- 并且当一种语言上下文不足以支持预测时候,可以利用另一种语言的信息去完成预测任务,并且重置了目标语言的位置编码
跨语言模型任务:
Cross-lingual classification:
- 跨语言模型提供了一般的跨语言文本表示,和一般的单语语言模型fine-tune 一样,我们使用跨语言NLI任务数据去评估模型
- 我们在 预训练的 transformer 的第一层隐藏层上面加入一层线性分类层,将全部参数fine- tune 到英文的NLI 数据集上,然后在15个跨语言的NLI数据上去预测评估我们的模型效果 (在 source data上 fine-tune 之后再target 数据上预测)
Unsupervised Machine Translation:
- 预训练是无监督机器翻译的核心,研究表明跨语言预训练模型的词向量质量对无监督机器翻译的表现有很大的影响,我们提出将整个encoder和decoder都使用跨语言预训练模型去训练,探究多种初始化机制和评价标准对结果的影响
Supervised Machine Translation:
Low-resource language modeling:
-
对于Low-resource language ,一般来说利用和其相近的high-resource language 来学习是有效的,尤其是当两者有相似的词表时
Unsupervised cross-lingual word embeddings:
- 通过用对抗训练对齐单语词向量空间,来进行无监督词翻译
- 在两种语言之间使用共享词表,然后应用于fastText,得到高质量的词向量
- 使用共享的词表,但是词向量通过查跨语言语言模型的词表
亮点:
- 没有提出新的算法模型,只是将几种模型糅合,取得了很好的效果,偏工程