基于Tensorflow 1.4自己写一个LSTM Language Model

LSTM公式

原理图：http://colah.github.io/posts/2015-08-Understanding-LSTMs/，并参考了github上这份代码实现：https://github.com/jonnykira/Tensorflow_mLSTM
公式：
$i_t=\sigma(W^{(i)}x_t+U^{(i)}h_{t-1})$
$f_t=\sigma(W^{(f)}x_t+U^{(f)}h_{t-1})$
$o_t=\sigma(W^{(o)}x_t+U^{(o)}h_{t-1})$
$\tilde{c}_t=tanh(W^{(c)}x_t+U^{(c)}h_{t-1})$
更新细胞状态：
$c_t=f_t \circ c_{t-1}+i_t\circ \tilde{c_t}$
更新隐层：
$h_t=o_t\circ tanh(c_t)$

定义需要用到Variable

先来个初始化用的对象，玄学初始化：

initializer = tf.contrib.layers.xavier_initializer()
全局变量：seq_length, embedding_size, rnn_size

定义那些矩阵

##tensorflow中的实现好像是把x_t和h_t-1拼起来了，这里简单点，分开算
Wi=tf.get_variable('Wi', shape=(embedding_size, rnn_size), initializer=initializer)
Ui=tf.get_variable('Ui', shape=(rnn_size, rnn_size), initializer=initializer)

Wf=tf.get_variable('Wf', shape=(embedding_size, rnn_size), initializer=initializer)
Uf=tf.get_variable('Uf', shape=(rnn_size, rnn_size), initializer=initializer)

Wo=tf.get_variable('Wo', shape=(embedding_size, rnn_size), initializer=initializer)
Uo=tf.get_variable('Uo', shape=(rnn_size, rnn_size), initializer=initializer)

Wc=tf.get_variable('Wc', shape=(embedding_size, rnn_size), initializer=initializer)
Uc=tf.get_variable('Uc', shape=(rnn_size, rnn_size), initializer=initializer)
# 如果要做weight normalization可以接着写.....

LSTM Cell

def lstm_cell(x, h, c):
    it = tf.sigmoid(tf.matmul(x, Wi) + tf.matmul(h, Ui))
    ft = tf.sigmoid(tf.matmul(x, Wf) + tf.matmul(h, Uf))
    ot = tf.sigmoid(tf.matmul(x, Wo) + tf.matmul(h, Uo))
    ct = tf.tanh(tf.matmul(x, Wc) + tf.matmul(h, Wc))

    c_new = (ft * c) + (it * ct)
    h_new = ot * tf.tanh(c_new)

    return c_new, h_new

展开LSTM

在tensorflow中这个过程是用tf.nn.static_rnn和tf.nn.dynamic_rnn实现，实际上写个循环就行了。(ps: tf.nn.dynamic_rnn是用tf.while实现的，不同batch可以有不同的seq_length，而tf.nn.static_rnn的time_step数量定义好了就不能改了)

def transform(x):
    # 处理一下输入数据，rnn的batch和cnn有些不同
    embedding_outputs = embedding(x) # embedding函数，需自己定义
    shape = tf.shape(embedding_outputs)
    embedding_inputs = tf.nn.dropout(embedding_outputs, 0.5,
                                     noise_shape=[1, shape[1], shape[2]])
    # (batch_size, seq_length, embeding_size)
    inputs_split = tf.split(embedding_inputs, seq_length, axis=1)
    # it's a list: seq_length x (batch_size, embedding_size)
    list_inputs = [tf.squeeze(input_, [1]) for input_ in inputs_split]
    return list_inputs


def unroll_lstm(lstm_cell, x, length):
    # length是序列的真实长度
    # x.shape = (batch_size, seq_length), 这个seq_length是padding后的
    batch_size = tf.shape(x)[0]
    # 对x做embedding
    input_list = transform(x)
    outputs = []
    # unrolled lstm loop
    # 定义output & state来接输出结果
    output = tf.tile(tf.expand_dims(tf.Variable(tf.zeros(cell_size),
                     trainable=False), 0), [batch_size, 1])
    state = tf.tile(tf.expand_dims(tf.Variable(tf.zeros(cell_size),
                     trainable=False), 0), [batch_size, 1])
    for ipt in input_list:
        state, output = lstm_cell(ipt, output, state)
        outputs.append(output)
    # 使用mask来截掉大于序列真实长度的部分（置为0）
    mask = tf.sequence_mask(length, seq_length)
    out_tensor = tf.stack(outputs, axis=1)
    outputs = tf.where(tf.stack([mask] * cell_size, axis=-1), out_tensor,
                       tf.zeros_like(out_tensor))
    return outputs, state

输出的截取

前面lstm输出的结果为(batch_size, seq_length, rnn_size)，batch中某些句子的长度可能比seq_length要短，这时需要使用tf.gather_nd函数去截取真实长度的输出。

# 计算真实输出部分的indices
# 这里我添加了一个记录batch中句子长度的placehoder: ph_length, shape: (batch_size, )
output_indices = tf.stack([tf.range(tf.shape(ph_length)[0]),
                          ph_length - 1], 1)
# (batch_size, rnn_size)
lstm_out_with_len = tf.gather_nd(lstm_outs, output_indices)

关于Language Model的Loss

基于LSTM的Language Model就是对于句子 $(x_1,x_2,\dots,x_n)$ (其中 $x_i$ 是句子的分词结果)，使用 $(x_1,\dots,x_i)$ 去预测第 $i+1$ 个词 $x_{i+1}$ 是什么。如果是一整片文章，没有加Padding和句子末尾标记<EOS>，那这个工作还是比较简单的；若加上Padding，在计算loss的时候需要对输入和输出做一些处理，Padding部分需要截取掉。
Loss参考代码：https://github.com/sherjilozair/char-rnn-tensorflow/blob/master/model.py，其中loss函数用了sequence_loss_by_example有点迷，感觉用cross_entropy就够了，看了下API：https://github.com/tensorflow/tensorflow/blob/r1.13/tensorflow/contrib/legacy_seq2seq/python/ops/seq2seq.py。sequence_loss_by_example计算了batch_size x sequece_length个sparse_softmax_cross_entropy_with_logits，最后放在了一个list里面。直接写的话，这样子：

# 输入: 
#   outputs: LSTM每个timestep的输出，shape = (batch_size, sequence_len, lstm_cell_size)
#   length: 这个batch_size中每个句子的实际长度，shape = (batch_size, )
#   max_seq_len: 最大句子长度
#   (optional) embed_mat: embedding使用的Lookup Table矩阵 (vocabulary_size, lstm_cell_size)


# mask tensor representing the first N positions of each cell
mask = tf.sequence_mask(length, max_seq_len)
# 提取非Padding位置的LSTM输出
output = tf.boolean_mask(outputs, mask) # (?, lstm_cell_size)

# 构造预测的target部分，例如 “落 霞 与 孤 鹜 齐 飞”其对应的target为
# "霞 与 孤 鹜 齐 飞 <EOS>" → [20, 11, 38, 79, 3, 7, 0] (假设"<EOS>"的id表示为0)
# 这个工具最好预处理的时候做，tensorflow的tensor不支持assignment操作，不好实现。。
# input_y: 这个batch句子处理后的id化表示 shape = (batch_size, max_seq_len)
target = tf.boolean_mask(input_y, mask)

decoder_matrix = tf.get_variable(shape=[lstm_cell_size, vocabulary_size], initializer=
                                 tf.random_uniform_initializer(-1., 1.))
logits = tf.matmul(output, decoder_matrix)
# 如果想要节约内存，减少一些参数，可以复用embedding matrix
logits = tf.matmul(output, tf.transpose(embed_mat))

loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=target))

最后编辑于：2019.02.18 10:05:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,383评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,522评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,852评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,621评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,741评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,929评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,076评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,803评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,265评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,582评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,716评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,395评论 4赞 333
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,039评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,798评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,027评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,488评论 2赞 361
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,612评论 2赞 350