文本表示：从one-hot到word2vec

文本表示的意思是把字词处理成向量或矩阵，以便计算机能进行处理。文本表示是自然语言处理的开始环节。

文本表示按照细粒度划分，一般可分为

字级别（char level）：

如把“邓紫棋实在太可爱了，我想养一只”这句话拆成一个个的字：｛邓，紫，棋，实，在，太，可，爱，了，我，想，养，一，只｝，然后把每个字用一个向量表示，那么这句话就转化为了由~~14个向量组成的矩阵~~。

文本表示：

分为离散表示和分布式表示。
~~离散表示的代表就是词袋模型~~，one-hot（也叫独热编码）、TF-IDF、n-gram都可以看作是词袋模型
~~分布式表示也叫做词嵌入（word embedding）~~，经典模型是word2vec，还包括后来的Glove、ELMO、GPT和最近很火的BERT。

词袋模型：离散、高维、稀疏；

假如现在有1000篇新闻文档，把这些文档拆成一个个的字，~~去重后得到3000个字，然后把这3000个字作为字典，进行文本表示的模型，叫做词袋模型~~。这种模型的特点是字典中的字没有特定的顺序，句子的总体结构也被舍弃了。下面分别介绍词袋模型中的one-hot、TF-IDF和n-gram文本表示方法。

其原理就是~~把句子看着若干个单词的集合，不会考虑单词的出现顺序，仅仅考虑单词出现没有或者出现的频率~~，这样看来每一个句子都可能有高维、稀疏和离散的情况，即使通过n-gram来表征单词间的关联也会造成高维、稀疏的情况发生，所以缺点是明显：
比如：~~语义丢失~~，表现为词的顺序信息丢失；近义词没办法体现；假定词都是独立的，等。

one-hot

~~有该词就是1否则为0~~

第一个问题是数据稀疏和维度灾难。
数据稀疏也就是向量的大部分元素为0，如果词袋中的字词达数百万个，那么由每篇文档转换成的向量的维度是数百万维，由于每篇文档去重后字数较少，因此向量中大部分的元素是0。而且对数百万维的向量进行计算是一件比较蛋疼的事。但是这样进行文本表示有几个问题。可见，尽管两个句子的长度不一样，但是one-hot编码后长度都一样了，方便进行矩阵运算。
第二个问题是没有考虑句中字的顺序性
假定字之间相互独立。这意味着意思不同的句子可能得到一样的向量。比如“我太可爱了，邓紫棋爱我”，“邓紫棋要看我的演唱会”，得到的one-hot编码和上面两句话的是一样的。
第三个问题是没有考虑字的相对重要性。
这种表示只管字出现没有，而不管出现的频率，但显然一个字出现的次数越多，一般而言越重要（除了一些没有实际意义的停用词）。

TF-IDF

TF-IDF用来评估字词对于文档集合中某一篇文档的重要程度。字词的重要性与它在某篇文档中出现的次数成正比，与它在所有文档中出现的次数成反比。TF-IDF的计算公式为：

TF-IDF的思想比较简单，但是却非常实用。然而这种方法还是存在着数据稀疏的问题，也没有考虑字的前后信息。

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()
# stop words自定义停用词表，为列表List类型             
# token_pattern过滤规则，正则表达式，如r"(?u)bw+b
# max_df=0.5，代表一个单词在 50% 的文档中都出现过了，那么它只携带了非常少的信息，因此就不作为分词统计
documents = [
    'this is the bayes document',
    'this is the second second document',
    'and the third one',
    'is this the document'
]
tfidf_matrix = tfidf_vec.fit_transform(documents)  
# 拟合模型，并返回文本矩阵  表示了每个单词在每个文档中的 TF-IDF 值
print('输出每个单词在每个文档中的 TF-IDF 值，向量里的顺序是按照词语的 id 顺序来的:', '\n', tfidf_matrix.toarray())
print('不重复的词:', tfidf_vec.get_feature_names())
print('输出每个单词对应的 id 值:', tfidf_vec.vocabulary_)
print('返回idf值:', tfidf_vec.idf_)
print('返回停用词表:', tfidf_vec.stop_words_)

n-gram

上面词袋模型的两种表示方法假设字与字之间是相互独立的~~，没有考虑它们之间的顺序~~。于是引入n-gram（n元语法）的概念。n-gram是从一个句子中提取n个连续的字的集合，可以获取到字的前后信息。一般2-gram或者3-gram比较常见。

比如“邓紫棋太可爱了，我爱邓紫棋”，“我要看邓紫棋的演唱会”这两个句子，分解为2-gram词汇表：
｛邓，邓紫，紫，紫棋，棋，棋太，太，太可，可，可爱，爱，爱了，了，了我，我，我爱，爱邓，我要，要，要看，看邓，棋的，的，的演，演，演唱，唱会，会｝
于是原来只有14个字的1-gram字典（就是一个字一个字进行划分的方法）就成了28个元素的2-gram词汇表，词表的维度增加了一倍。
结合one-hot，对两个句子进行编码得到：
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0]
[1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1]
也可以结合TF-IDF来得到文本表示，这里不再计算。
这种表示方法的好处是可以获取更丰富的特征，提取字的前后信息，~~考虑了字之间的顺序性~~。
但是问题也是显而易见的，这种方法~~没有解决数据稀疏和词表维度过高的问题~~，而且随着n的增大，词表维度会变得更高。
这种表示方法的好处是可以获取更丰富的特征，提取字的前后信息，考虑了字之间的顺序性。

分布式表示：连续、低维、稠密。

基本思想是把研究的对象表示成一个低维的稠密的实质的向量，那么这种向量的物理意义就是在于它能够把所有的这些对象都能够表示在一个语义的空间里。

Word2vec

是Google的Mikolov等人提出来的一种文本分布式表示的方法，这种方法是对神经网络语言模型的“瘦身”，巧妙地运用~~层次softmax（hierarchical softmax ）和负采样（Negative sampling ）~~两种技巧，使得原本参数繁多、计算量巨大的神经网络语言模型变得容易计算。

Word2vec概括地说是包含了两种模型和两种加速训练方法：

两种模型：CBOW（continuous bag-of-words）和Skip-Gram。

~~CBOW的目标是通过上下文的词语预测中间的词是什么。而skip-gram则相反，由一个特定的词来预测前后可能出现的词。~~这两个模型并非是在Word2vec中首次提出，而是神经网络语言模型中就有的。

两种方法：层次softmax和负采样。

层次softmax是通过构建一种有效的树结构（哈夫曼树，huffman tree）来加速计算词语的概率分布的方法；而负采样则是通过随机抽取负样本，与正样本一起参加每次迭代，变成一个二分类问题而减少计算量的方法。

word2vec 中的数学原理详解 word2vec 1
word2vec原理推导与代码分析 word2vec2
参考：https://github.com/2692999758/nlp-plus-/blob/master/word2vec.md
https://blog.csdn.net/huacha__/article/details/84068653
https://blog.csdn.net/sinat_29694963/article/details/79177832

keras.layers.Embedding
https://keras-zh.readthedocs.io/layers/embeddings/

上图的流程是把文章的单词使用词向量来表示。
(1)提取文章所有的单词，把其~~按出现的次数降序排列~~
(2)每个~~编号ID都可以使用50000维的二进制(one-hot)表示~~
(3)最后，我们会生产一个矩阵M，~~行大小为词的个数50000，列大小为词向量的维度~~(通常取128或300)。
那这个矩阵M怎么获得呢？在Skip-Gram 模型中，我们会随机初始化它，然后使用神经网络来训练这个权重矩阵
那我们的输入数据和标签是什么？如下图，输入数据就是中间的哪个蓝色的词对应的one-hot编码，标签就是它附近词的one-hot编码(这里windown_size=2,左右各取2个)

我输入数组中的词典大小是3，即有三个不同的词，所以我的input_dim便要比3要大1，其中output_dim便是输出维度，就如同CNN最后的全连接层一样，上面我设置的5，便将每一位要表示的数字变为用1x5来表示的向量。

最后编辑于：2021.04.19 17:09:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,997评论 6赞 502
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,603评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,359评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,309评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,346评论 6赞 390
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,258评论 1赞 300
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,122评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,970评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,403评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,596评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,769评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,464评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,075评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,705评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,848评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,831评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,678评论 2赞 354