NLP中数据预处理主要是为文本数据的处理过程。文本处理的一般步骤:分词、构建词汇表、向量化。
单词分割(分词):Tokenization(Text to Words)
分词是NLP的基础任务,按照特定需求能把文本中的句子、段落切分成一个字符串序列(其中的元素通常称为token 或叫词语)方便后续的处理分析工作。
分词的目的是将复杂问题转化为数字问题,即指将文本的非结构化数据转化为【结构化的数据】,这样就可以将数据转化为数学问题。因为机器学习中绝大多数模型是不支持字符串的(除了决策树模型),想要模型能够进行顺利有效地学习,必须对字符串数据先数值化。
Tokenization按切分的粒度分成了三大类,一是按词粒度来分,二是按字符粒度来分,三是按subword(子词粒度来分)。统计频率构建词汇表(vocabulary)
词向量(word embedding)化
词向量,也称词嵌入技术,是通过将单词、句子甚至图像转化为计算机可认识的向量数据,它不仅仅改善了文本的表示方式,更重要的是,它捕捉到了语言的本质和丰富的语义。今天,词嵌入技术也是LLM的核心技术之一,也是Transformer的初始输入形式(Input Embedding)。