基于Tensorflow 1.4自己写一个LSTM Language Model

LSTM公式

定义需要用到Variable

先来个初始化用的对象,玄学初始化:

initializer = tf.contrib.layers.xavier_initializer()
全局变量:seq_length, embedding_size, rnn_size

定义那些矩阵

##tensorflow中的实现好像是把x_t和h_t-1拼起来了,这里简单点,分开算
Wi=tf.get_variable('Wi', shape=(embedding_size, rnn_size), initializer=initializer)
Ui=tf.get_variable('Ui', shape=(rnn_size, rnn_size), initializer=initializer)

Wf=tf.get_variable('Wf', shape=(embedding_size, rnn_size), initializer=initializer)
Uf=tf.get_variable('Uf', shape=(rnn_size, rnn_size), initializer=initializer)

Wo=tf.get_variable('Wo', shape=(embedding_size, rnn_size), initializer=initializer)
Uo=tf.get_variable('Uo', shape=(rnn_size, rnn_size), initializer=initializer)

Wc=tf.get_variable('Wc', shape=(embedding_size, rnn_size), initializer=initializer)
Uc=tf.get_variable('Uc', shape=(rnn_size, rnn_size), initializer=initializer)
# 如果要做weight normalization可以接着写.....

LSTM Cell

def lstm_cell(x, h, c):
    it = tf.sigmoid(tf.matmul(x, Wi) + tf.matmul(h, Ui))
    ft = tf.sigmoid(tf.matmul(x, Wf) + tf.matmul(h, Uf))
    ot = tf.sigmoid(tf.matmul(x, Wo) + tf.matmul(h, Uo))
    ct = tf.tanh(tf.matmul(x, Wc) + tf.matmul(h, Wc))

    c_new = (ft * c) + (it * ct)
    h_new = ot * tf.tanh(c_new)

    return c_new, h_new

展开LSTM

在tensorflow中这个过程是用tf.nn.static_rnntf.nn.dynamic_rnn实现,实际上写个循环就行了。(ps: tf.nn.dynamic_rnn是用tf.while实现的,不同batch可以有不同的seq_length,而tf.nn.static_rnn的time_step数量定义好了就不能改了)

def transform(x):
    # 处理一下输入数据,rnn的batch和cnn有些不同
    embedding_outputs = embedding(x) # embedding函数,需自己定义
    shape = tf.shape(embedding_outputs)
    embedding_inputs = tf.nn.dropout(embedding_outputs, 0.5,
                                     noise_shape=[1, shape[1], shape[2]])
    # (batch_size, seq_length, embeding_size)
    inputs_split = tf.split(embedding_inputs, seq_length, axis=1)
    # it's a list: seq_length x (batch_size, embedding_size)
    list_inputs = [tf.squeeze(input_, [1]) for input_ in inputs_split]
    return list_inputs


def unroll_lstm(lstm_cell, x, length):
    # length是序列的真实长度
    # x.shape = (batch_size, seq_length), 这个seq_length是padding后的
    batch_size = tf.shape(x)[0]
    # 对x做embedding
    input_list = transform(x)
    outputs = []
    # unrolled lstm loop
    # 定义output & state来接输出结果
    output = tf.tile(tf.expand_dims(tf.Variable(tf.zeros(cell_size),
                     trainable=False), 0), [batch_size, 1])
    state = tf.tile(tf.expand_dims(tf.Variable(tf.zeros(cell_size),
                     trainable=False), 0), [batch_size, 1])
    for ipt in input_list:
        state, output = lstm_cell(ipt, output, state)
        outputs.append(output)
    # 使用mask来截掉大于序列真实长度的部分(置为0)
    mask = tf.sequence_mask(length, seq_length)
    out_tensor = tf.stack(outputs, axis=1)
    outputs = tf.where(tf.stack([mask] * cell_size, axis=-1), out_tensor,
                       tf.zeros_like(out_tensor))
    return outputs, state

输出的截取

前面lstm输出的结果为(batch_size, seq_length, rnn_size),batch中某些句子的长度可能比seq_length要短,这时需要使用tf.gather_nd函数去截取真实长度的输出。

# 计算真实输出部分的indices
# 这里我添加了一个记录batch中句子长度的placehoder: ph_length, shape: (batch_size, )
output_indices = tf.stack([tf.range(tf.shape(ph_length)[0]),
                          ph_length - 1], 1)
# (batch_size, rnn_size)
lstm_out_with_len = tf.gather_nd(lstm_outs, output_indices)

关于Language Model的Loss

基于LSTM的Language Model就是对于句子(x_1,x_2,\dots,x_n)(其中x_i是句子的分词结果),使用(x_1,\dots,x_i)去预测第i+1个词x_{i+1}是什么。如果是一整片文章,没有加Padding和句子末尾标记<EOS>,那这个工作还是比较简单的;若加上Padding,在计算loss的时候需要对输入和输出做一些处理,Padding部分需要截取掉。
Loss参考代码:https://github.com/sherjilozair/char-rnn-tensorflow/blob/master/model.py,其中loss函数用了sequence_loss_by_example有点迷,感觉用cross_entropy就够了,看了下API:https://github.com/tensorflow/tensorflow/blob/r1.13/tensorflow/contrib/legacy_seq2seq/python/ops/seq2seq.py。sequence_loss_by_example计算了batch_size x sequece_lengthsparse_softmax_cross_entropy_with_logits,最后放在了一个list里面。直接写的话,这样子:

# 输入: 
#   outputs: LSTM每个timestep的输出,shape = (batch_size, sequence_len, lstm_cell_size)
#   length: 这个batch_size中每个句子的实际长度,shape = (batch_size, )
#   max_seq_len: 最大句子长度
#   (optional) embed_mat: embedding使用的Lookup Table矩阵 (vocabulary_size, lstm_cell_size)


# mask tensor representing the first N positions of each cell
mask = tf.sequence_mask(length, max_seq_len)
# 提取非Padding位置的LSTM输出
output = tf.boolean_mask(outputs, mask) # (?, lstm_cell_size)

# 构造预测的target部分,例如 “落 霞 与 孤 鹜 齐 飞”其对应的target为
# "霞 与 孤 鹜 齐 飞 <EOS>" → [20, 11, 38, 79, 3, 7, 0] (假设"<EOS>"的id表示为0)
# 这个工具最好预处理的时候做,tensorflow的tensor不支持assignment操作,不好实现。。
# input_y: 这个batch句子处理后的id化表示 shape = (batch_size, max_seq_len)
target = tf.boolean_mask(input_y, mask)

decoder_matrix = tf.get_variable(shape=[lstm_cell_size, vocabulary_size], initializer=
                                 tf.random_uniform_initializer(-1., 1.))
logits = tf.matmul(output, decoder_matrix)
# 如果想要节约内存,减少一些参数,可以复用embedding matrix
logits = tf.matmul(output, tf.transpose(embed_mat))

loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=target))

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容