2.3 corpus
语料库的变化维度:
(1) 语种:开发出的算法,一般是适用于英语或者针对工业化大国的官方语言(汉语、西班牙语、日语、德语等)开发的,但我们不希望将工具仅仅局限在这几种语言上。
多数语言也有多个变种,即所谓的方言。
说话者或写作者在实际交流或写作时同时使用多种语言是非常常见的,这种现象称为语码转换(code switching).
(2) 体裁:新闻、小说、会议纪要等等。
(3) 文本还反映了作者(或说话人)的人口统计学特征:他们的年龄、性别、种族、社会经济阶层都会影响我们所处理文本的语言属性。
(4) 时间也很重要。语言会随着时间的推移而变化。
由于语言是如此的具有情境性(situated),所以当根据语料库来开发语言处理模型时,为每个语料库建立一个datasheet或datastatement。
需要包括:Motivation、Situation、Language variety、Speaker demographics、Collection process、Annotation process、Distribution。
2.4 Text Normalization
At least three tasks are commonly applied as part of any normalization process:
- Tokenizing (segmenting) words
- Normalizing word formats
- Segmenting sentences
2.4.1 用于粗略分词和规范化的 Unix 工具
tr -sc 'A-Za-z' '\n' < sh.txt | tr A-Z a-z | sort | uniq -c | sort -n -r
2.4.2 分词(Word Tokenization)
Unix 命令过滤了所有的数字和标点符号,但对于大多数 NLP 应用来说,我们需要在分词任务中保留这些字符。我们往往想把标点符号视作一个单独词;对于解析器来说,逗号是一个有用的信息。句号有助于指示句子的边界。
一个常用的分词标准是 Penn Treebank 分词(Penn Treebank tokenization)标准,用于语言数据联盟(Linguistic Data Consortium)(LDC)发布的解析语料库(treebanks),它是许多有用数据集的来源。
在实践中,由于分词需要在其他自然语言处理任务之前进行,所以它必须非常快。因此,分词的标准方法是使用基于正则表达式的确定性算法,这些正则表达式被编译成非常高效的有限状态自动机(finite state automata)。
2.4.3 用于分词的字节对编码(Byte-Pair Encoding for Tokenization)
NLP 算法通常会从一个语料库(训练语料库)进行学习,从中提取一些关于语言的事实,然后利用这些事实对另外一个测试语料库进行推理。
假设我们的训练语料库中包含,比如说 low、new、newer 等词,但不包含 lower,那么如果在测试语料库中出现了 lower 这个词,我们的系统就不知道该怎么处理它了。
为了处理这种未登录词的问题,现代分词器通常会自动推导出包括比词(words)更小的 token 集,称为子词(subwords)。子词可以是任意的子串,也可以是有语义的单位如 -est 或 -er 这种语素。
大多数分词方案有两个部分:一个 token 学习器(token learner)和一个 token 分割器(token segmenter)。Token 学习器使用原始训练语料库(有时会预先进行粗略分词,如使用空格),然后得到一个词汇表(vocabulary),一个 token 集合。Token 分割器将一个原始测试句子分割成词汇表中的 token。有三种广泛使用的算法:字节对编码(byte-pair encoding)、一元语法语言模型(unigram language modeling) 和 WordPiece;还有一个 SentencePiece 库,包含了这三种算法中前两种的实现。
这里值得注意的是,BERT、T5等都是使用的WordPiece分词器。
PBE算法详解:
BPE 的 token 学习器从一个初始词汇表开始,这个词汇表只是所有单个字符(characters)的集合。然后它遍历训练语料库,选择两个最常相邻的符号(symbol)(比如说 ‘A’、‘B’),将两者合并成一个新的符号‘AB’添加到词汇表中,并将语料库中每一个相邻的‘A’‘B’替换为新的‘AB’。以此循环往复,得到新的越来越长的字符串,直到完成了 k次合并,创造了k个新的符号;因此k是算法的一个参数。最终产生的词汇表由原来的字符集加上k个新的符号组成。
通常是在词内部运行该算法(不会跨越词边界进行合并),所以先将输入语料库进行空格分割,得到一组字符串,每个字符串对应一个词的字符,再加上一个特殊的词尾符号 _,以及其频数。我们以下面这个包含 18 个 token 及其频数的微型语料库为例来说明算法时如何运行的(词 low 出现 5 次,词 newer 出现 6 次,以此类推),初始词汇表有 11 个字符:
语料库:
5 l o w _
2 l o w e s t _
6 n e w e r _
3 w i d e r _
2 n e w _
词汇表:
_, d, e, i, l, n, o, r, s, t, w
核心思想:获取相邻符号对频数最高的进行连接,加入词汇表
具体步骤如下
e 和r 相邻共现的频次是最高的为9, 当然了 r 和_ 也是9, 这里以e和r先共现为例子。
步骤序号 | 合并 | 最高相邻共现词频 | 当前词汇表 |
---|---|---|---|
1 | (e, r) | 9 | _, d, e, i, l, n, o, r, s, t, w, er |
2 | (er, _) | 9 | , d, e, i, l, n, o, r, s, t, w, er, er |
3 | (n, e) | 8 | , d, e, i, l, n, o, r, s, t, w, er, er, ne |
4 | (ne, w) | 8 | , d, e, i, l, n, o, r, s, t, w, er, er, ne, new |
5 | (l, o) | 7 | , d, e, i, l, n, o, r, s, t, w, er, er, ne, new, lo |
6 | (lo, w) | 7 | , d, e, i, l, n, o, r, s, t, w, er, er, ne, new, lo, low |
7 | (new, er_) | 6 | , d, e, i, l, n, o, r, s, t, w, er, er, ne, new, lo, low, newer_ |
8 | (low, _) | 5 | , d, e, i, l, n, o, r, s, t, w, er, er, ne, new, lo, low, newer_, low_ |
一旦我们学到了词汇表,token 解析器(token parser)就会对测试句子进行分词。Token 解析器会按照词汇表顺序,贪婪地在测试数据上匹配我们从训练数据中学到的词。
所以,首先我们把每个测试句子的词分割成字符。然后我们会应用第一条规则:将测试语料库中的 e r 替换为 er,然后应用第二条规则:将测试语料库中的 er _ 替换为 er_,以此类推。到最后,如果测试语料库中包含 n e w e r _这个词,它将被分为一个完整的词。但是,一个新的(未知)单词,如 l o w e r ,将被分成两个 token:low er。
2.4.4 词规范化,词形还原和词干提取(Word Normalization, Lemmatization and Stemming)
词的规范化是将词或者 token 转成标准格式的任务,对于有多种形式的词,如 USA 和 US 或 uh-huh 和 uhhuh,选择一个规范形式。
大小写折叠(Case folding)是另一种规范化方法。
词形还原(Lemmatization)是确定两个词尽管表面存在差异但具有相同词根(root)的任务 。形态学(Morphology)是研究词是如何由较小的语义单位(称为语素)构成的。语素可以分为两大类:词干(stems)—— 词的中心语素,词的主要含义;词缀(affixes)—— 增加各种“附加”(additional)意义。
词形还原算法比较复杂。出于这个原因,我们有时会使用一种更简单但更粗糙的方法,主要是去掉词尾后缀。这种形态学分析的 naive 版本被称为词干提取(stemming)。
2.4.5 分句(Sentence Segmentation*)
分句(Sentence segmentation)是文本处理的另一个重要步骤。将文本分割成句子最有用的线索是标点符号,如句号、问号和感叹号。问号和感叹号是相对明确的句子边界标记。而句号则比较含糊,既可以作为在句子边界标记,也可以作为缩写标记如 Mr. 和 Inc.你刚才读到的上一句话显示了这种歧义的更复杂的情况,其中 Inc. 的最后一个句号既表示缩写,又表示句子边界。因此,分句和分词可以合并一起进行。
一般来说,分句首先需要确定句号是词的一部分还是句子边界标记(基于规则或机器学习)。缩略语词典可以帮助确定句号是否是常用缩略语的一部分;词典可以是手工建立的,也可以是机器学习到的 。