speech and language processing-----2.3--2.4

2.3 corpus

语料库的变化维度：
(1) 语种：开发出的算法，一般是适用于英语或者针对工业化大国的官方语言（汉语、西班牙语、日语、德语等）开发的，但我们不希望将工具仅仅局限在这几种语言上。
多数语言也有多个变种，即所谓的方言。
说话者或写作者在实际交流或写作时同时使用多种语言是非常常见的，这种现象称为语码转换（code switching）.
(2) 体裁：新闻、小说、会议纪要等等。
(3) 文本还反映了作者（或说话人）的人口统计学特征：他们的年龄、性别、种族、社会经济阶层都会影响我们所处理文本的语言属性。
(4) 时间也很重要。语言会随着时间的推移而变化。
由于语言是如此的具有情境性（situated），所以当根据语料库来开发语言处理模型时，为每个语料库建立一个datasheet或datastatement。
需要包括：Motivation、Situation、Language variety、Speaker demographics、Collection process、Annotation process、Distribution。

2.4 Text Normalization

At least three tasks are commonly applied as part of any normalization process:

Tokenizing (segmenting) words
Normalizing word formats
Segmenting sentences

2.4.1 用于粗略分词和规范化的 Unix 工具

tr -sc 'A-Za-z' '\n' < sh.txt | tr A-Z a-z | sort | uniq -c | sort -n -r

2.4.2 分词（Word Tokenization）

Unix 命令过滤了所有的数字和标点符号，但对于大多数 NLP 应用来说，我们需要在分词任务中保留这些字符。我们往往想把标点符号视作一个单独词；对于解析器来说，逗号是一个有用的信息。句号有助于指示句子的边界。

一个常用的分词标准是 Penn Treebank 分词（Penn Treebank tokenization）标准，用于语言数据联盟（Linguistic Data Consortium）（LDC）发布的解析语料库（treebanks），它是许多有用数据集的来源。
在实践中，由于分词需要在其他自然语言处理任务之前进行，所以它必须非常快。因此，分词的标准方法是使用基于正则表达式的确定性算法，这些正则表达式被编译成非常高效的有限状态自动机（finite state automata）。

2.4.3 用于分词的字节对编码（Byte-Pair Encoding for Tokenization）

NLP 算法通常会从一个语料库（训练语料库）进行学习，从中提取一些关于语言的事实，然后利用这些事实对另外一个测试语料库进行推理。

假设我们的训练语料库中包含，比如说 low、new、newer 等词，但不包含 lower，那么如果在测试语料库中出现了 lower 这个词，我们的系统就不知道该怎么处理它了。

为了处理这种未登录词的问题，现代分词器通常会自动推导出包括比词（words）更小的 token 集，称为子词（subwords）。子词可以是任意的子串，也可以是有语义的单位如 -est 或 -er 这种语素。

大多数分词方案有两个部分：一个 token 学习器（token learner）和一个 token 分割器（token segmenter）。Token 学习器使用原始训练语料库（有时会预先进行粗略分词，如使用空格），然后得到一个词汇表（vocabulary），一个 token 集合。Token 分割器将一个原始测试句子分割成词汇表中的 token。有三种广泛使用的算法：字节对编码（byte-pair encoding）、一元语法语言模型（unigram language modeling）和 WordPiece；还有一个 SentencePiece 库，包含了这三种算法中前两种的实现。
这里值得注意的是，BERT、T5等都是使用的WordPiece分词器。

PBE算法详解：
BPE 的 token 学习器从一个初始词汇表开始，这个词汇表只是所有单个字符（characters）的集合。然后它遍历训练语料库，选择两个最常相邻的符号（symbol）（比如说 ‘A’、‘B’），将两者合并成一个新的符号‘AB’添加到词汇表中，并将语料库中每一个相邻的‘A’‘B’替换为新的‘AB’。以此循环往复，得到新的越来越长的字符串，直到完成了 k次合并，创造了k个新的符号；因此k是算法的一个参数。最终产生的词汇表由原来的字符集加上k个新的符号组成。

The token learner part of the BPE algorithm

通常是在词内部运行该算法（不会跨越词边界进行合并），所以先将输入语料库进行空格分割，得到一组字符串，每个字符串对应一个词的字符，再加上一个特殊的词尾符号 _，以及其频数。我们以下面这个包含 18 个 token 及其频数的微型语料库为例来说明算法时如何运行的（词 low 出现 5 次，词 newer 出现 6 次，以此类推），初始词汇表有 11 个字符：

语料库：
5  l o w _
2  l o w e s t _
6  n e w e r _
3  w i d e r _
2  n e w _

词汇表：
_, d, e, i, l, n, o, r, s, t, w

核心思想：获取相邻符号对频数最高的进行连接，加入词汇表
具体步骤如下
e 和r 相邻共现的频次是最高的为9，当然了 r 和_ 也是9，这里以e和r先共现为例子。

步骤序号	合并	最高相邻共现词频	当前词汇表
1	(e, r)	9	_, d, e, i, l, n, o, r, s, t, w, er
2	(er, _)	9	, d, e, i, l, n, o, r, s, t, w, er, er
3	(n, e)	8	, d, e, i, l, n, o, r, s, t, w, er, er, ne
4	(ne, w)	8	, d, e, i, l, n, o, r, s, t, w, er, er, ne, new
5	(l, o)	7	, d, e, i, l, n, o, r, s, t, w, er, er, ne, new, lo
6	(lo, w)	7	, d, e, i, l, n, o, r, s, t, w, er, er, ne, new, lo, low
7	(new, er_)	6	, d, e, i, l, n, o, r, s, t, w, er, er, ne, new, lo, low, newer_
8	(low, _)	5	, d, e, i, l, n, o, r, s, t, w, er, er, ne, new, lo, low, newer_, low_

一旦我们学到了词汇表，token 解析器（token parser）就会对测试句子进行分词。Token 解析器会按照词汇表顺序，贪婪地在测试数据上匹配我们从训练数据中学到的词。
所以，首先我们把每个测试句子的词分割成字符。然后我们会应用第一条规则：将测试语料库中的 e r 替换为 er，然后应用第二条规则：将测试语料库中的 er _ 替换为 er_，以此类推。到最后，如果测试语料库中包含 n e w e r _这个词，它将被分为一个完整的词。但是，一个新的（未知）单词，如 l o w e r ，将被分成两个 token：low er。

2.4.4 词规范化，词形还原和词干提取（Word Normalization, Lemmatization and Stemming）

词的规范化是将词或者 token 转成标准格式的任务，对于有多种形式的词，如 USA 和 US 或 uh-huh 和 uhhuh，选择一个规范形式。
大小写折叠（Case folding）是另一种规范化方法。
词形还原（Lemmatization）是确定两个词尽管表面存在差异但具有相同词根（root）的任务。形态学（Morphology）是研究词是如何由较小的语义单位（称为语素）构成的。语素可以分为两大类：词干（stems）—— 词的中心语素，词的主要含义；词缀（affixes）—— 增加各种“附加”（additional）意义。
词形还原算法比较复杂。出于这个原因，我们有时会使用一种更简单但更粗糙的方法，主要是去掉词尾后缀。这种形态学分析的 naive 版本被称为词干提取（stemming）。

2.4.5 分句（Sentence Segmentation*）

分句（Sentence segmentation）是文本处理的另一个重要步骤。将文本分割成句子最有用的线索是标点符号，如句号、问号和感叹号。问号和感叹号是相对明确的句子边界标记。而句号则比较含糊，既可以作为在句子边界标记，也可以作为缩写标记如 Mr. 和 Inc.你刚才读到的上一句话显示了这种歧义的更复杂的情况，其中 Inc. 的最后一个句号既表示缩写，又表示句子边界。因此，分句和分词可以合并一起进行。

一般来说，分句首先需要确定句号是词的一部分还是句子边界标记（基于规则或机器学习）。缩略语词典可以帮助确定句号是否是常用缩略语的一部分；词典可以是手工建立的，也可以是机器学习到的。

最后编辑于：2024.01.04 00:08:50

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,294评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,493评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,790评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,595评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,718评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,906评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,053评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,797评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,250评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,570评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,711评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,388评论 4赞 332
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,018评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,796评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,023评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,461评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,595评论 2赞 350