数据预处理部分和上一篇一样,就不啰嗦了。重点看一下模型构造:1. Attention层:核心在于对encoder端隐层权重进行计算 比如我们准备生成“machine”这个词:...
1.加载数据 2.查看数据 3.数据预处理 3.1 构造字典 3.2 增加特殊字符 3.3 word和id之间的映射表 3.4 text 转换成 int 4. 构建模型 和上...
决策树 纯度和信息熵:决策树构造的过程就是为寻找纯净划分的过程,数学上的解释,就是让目标变量分歧最小。比如有3个集合:集合1有6次去打球;集合2有5次去打球,1次不去;集合3...
tf.nn.embedding_lookup的作用就是找到要寻找的embedding data中的对应的行下的vector。 +CRF 用F1值来评估 关于调参: Valid...
对于序列标注来讲,普通CNN有一个劣势,就是卷积之后,末层神经元可能只是得到了原始输入数据中一小块的信息。而对NER来讲,整个句子的每个字都有可能都会对当前需要标注的字做出影...
用的是kaggle上的比赛“Quora Question Paris: Can you identify question pairs that have the same ...
两个句子从一开始就交互,这样就会获得更准确的关系。图中可以将单词与单词之间的相似度看成是像素,那么对于两个单词数为M,N的句子,其相似度矩阵就是M*N,然后!就可以用卷积搞事...
先看看seq2seq原理: encoder通过学习将输入embedding后传入rnn网络形成一个固定大小的状态向量S,并将S传给Decoder, Decoder一样通过学习...
比较:其 [a¯i,βi][a¯i,βi] 就是把两部分concat起来(句子中第 i 个词, 和另一个句子里所有词与它比较的加权词向量) image.png 总计aggre...
先谈一下敏感话题:为什么都说程序员是青春饭,为什么搞程序到了35岁都会人人自危?如果你有HR猎头的朋友,咨询一下他们,会发现现阶段市场对十年以上的程序员(基本上都35岁+)需...
机器学习分三类: 监督学习:Given D={x,y}, learn y=f(x) 当y为离散值时为分类问题,当y为连续值时为回归问题。常用于语音识别,搜索广告,商品推荐,机...
先看上图就知道LSTM和CRF具体产出什么。LSTM+softmax分类后只能把特征的上下文关系学出来,CRF可以把label的上下文学出来。 比如通过上下文特征,BiLST...
本文以命名实体识别NER数据预处理为例 将训练集中每句话变成4个list: 第一个list是字,如[今,天,去,北,京] 第二个list是char_to_id [3,5,6,...
Word Embedding 之深度学习 RNN: RNN引入了隐状态h(hidden state)的概念,h1接收到前一个隐状态h0和当前输入x1,结合权重和bias,输出...