加载数据,整篇参考极客学院
模型公式
y = softmax(Wx+b)
交叉熵loss函数,可以参考似然函数,y 是我们预测的概率分布, y' 是实际的分布(我们输入的one-hot vector)
loss = -Σy'ilogyi
import tensorflow.examples.tutorials.mnist.input_data
from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets
mnist = read_data_sets('MNIST_data/', one_hot=True)
import tensorflow as tf
# 这里的None表示此张量的第一个维度可以是任何长度的
# x不是一个特定的值,而是一个占位符placeholder
x = tf.placeholder(tf.float32, [None, 784])
# W参数矩阵784行,10列
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
# x 是个noneX784矩阵, y是个noneX10
# 这里为什么要用xW,而不是Wx,因为矩阵+b向量运算,会将b向量每个元素加到xW每一列上
# softmax 按照行来计算,一行算出来正好是对应y
y = tf.nn.softmax(tf.matmul(x,W)+b)
y_ = tf.placeholder('float', [None, 10])
#计算交叉熵
cross_entroy = -tf.reduce_sum(y_*tf.log(y))
train_step = tf.train.GradientDescentOptimizer(
0.01).minimize(cross_entroy)
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
for i in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict = {x:batch_xs, y_:batch_ys})
tf.argmax函数用法
testArgmax=tf.argmax([[12,34,3],[78,21,45]],0)
init = tf.global_variables_initializer()
sess.run(init)
sess.run(testArgmax)
输出(第二个参数为0,取出每一列最大值的索引)
array([1, 0, 1])
testArgmax=tf.argmax([[12,34,3],[78,21,45]],1)
init = tf.global_variables_initializer()
sess.run(init)
sess.run(testArgmax)
输出(第二个参数为1,取出每一行最大值的索引)
array([1, 0])
取出每一行最大值索引与标准比较是否相等,[True,False...]
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
tf.cast函数将[T,F...]转化为[1,0....],tf.reduce_mean计算1占有多少
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
算出准确率大约0.9185,这里面还有很多东西可以调整,比如学习率、迭代次数、每次随机取出的样本个数,这个回头以后再来调参。
比如这里随机取100个样本,如果这里要增加样本,导致Δy变大,学习率要相应变小,否则将导致W变化过大,算法不收敛
函数测试小例子
testArgmax1=tf.argmax([[12,34,3],[32,40,45]],0)
testArgmax2=tf.argmax([[12,34,3],[78,21,45]],0)
accurate = tf.equal(testArgmax1, testArgmax2)
testcast = tf.cast(accurate, 'float')
accuracy = tf.reduce_mean(testcast)
init = tf.global_variables_initializer()
sess.run(init)
sess.run([testcast,accuracy])
输出
[array([1., 0., 1.], dtype=float32), 0.6666667]