word2vec

目标;对于一个很稀疏的特征,如onehot,想把它压缩到维度很小,并且不同的one-hot向量之间不再是相互正交的。

实现方式是用神经网络,输入和输出均为one-hot,取中间隐藏层的结果作为该输入对应的embedding特征,以CBOW模型为例。

输入为上下文单词对应的one-hot,来预测当前单词的one-hot,损失函数为y与y_hat的交叉熵,最终得到权重矩阵W 和W'。

训练时,C个上下文单词乘以W得到隐向量后求平均,再乘以W'得到y_hat,与y计算loss,反向传播修正权重W,W'


对于量级比较大的情况,有两个问题:

1. 数据库的数据怎么接入python训练?

2. W维度太高需要大量数据和时间,怎么改善?


参考

https://blog.csdn.net/yu5064/article/details/79601683

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 词向量技术将自然语言中的词转化为稠密向量,使得相近的词有相似的向量表示,方便后续在向量的基础上做运算,进一步挖掘文...
    jerrychenly阅读 1,226评论 1 1
  • 原作者:Alex Minnaar 原文地址(已失效):Word2Vec Tutorial Part I: The ...
    coxid阅读 842评论 0 0
  • Word2vec word2vector,顾名思义,就是将语料库中的词转化成向量,以便后续在词向量的基础上进行各种...
    潇萧之炎阅读 1,702评论 0 2
  • one-hot是文本向量化最常用的方法之一。 1.1 one-hot编码 什么是one-hot编码?one-hot...
    歌当对酒阅读 3,068评论 0 2
  • 独热编码 独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个...
    阡陌哥哥阅读 272,987评论 18 270