文本是更高层的,是人有智慧以后定义的一些tokens 或者是一些符号去组合成的数据,所以必须转换成计算机能够识别出来的数据(如word2vec)
前提:先把词用今天的方法或者传统的方式映射为一个个向量,然后才用这些数值向量去完成后续的工作。我们知道 数据(特征)决定了算法最终能达到的上限。所以如果数据不好的话,即使后面的模型再好也不能达到好的结果
如上图,词袋就相当于放在该袋中的有几个词,如第一句话likes有2个所以就在第二个位置写2(默认,出现该词为1,未出现该词为0),该方法忽视了词的重要性 ,后来提出了TF-IDF计算词的权重(可以表示重要程度)
上图,例如 Mike love you 和you love Mike(发现用用词袋来做的话就不行,因为都出现了)所以解决该问题就是:我们可以将2个词看成一个整体,考虑了词的顺序。
语言模型对语序的考虑,语言模型的好坏对结果的准确度或者是通畅度影响非常大
降维:SVD降维
用当前3个词与词第4个词
word2vec是在大量数据集中训练不能再2,3句句子训练。