- tensorflow 架构
- 张量(tensor): 任意维度的数据
- 常量(constant): 用于存储一些 固定值
- 变量(Variables): 主要用于存储可训练的变量,比如 模型参数,需要初始化时指定初值
- 占位符(placeholder):主要用于存储可变的 输入输出,不需要指定初值,而且在初始化时可以不完全指定形状([None, 5]表示行不确定,即样本总数不确定)
- 算子(operation): tensorflow图中的计算节点
- 图(graph): 常量、变量、占位符以及算子构成一个完整的图流程
- 会话(session): tensorflow中任何操作(算子op)都需要在会话下执行,前面定义好的常量、变量、占位符以及算子只是构建图的架构,图的数据流通需要会话来触发执行
import tensorflow as tf with tf.Session() as sess: sess.run([op])
- tensorflow数据读取
-
队列
-
文件名队列
- tf.train.string_input_producer(string_tensor=[filenames], num_epochs, shuffle, capacity=32)
string_tensor([filenames]): 传入一个文件名列表
num_epochs(None): 迭代次数,默认None表示无限循环
shuffle: 是否打乱次序
capacity: 队列大小
eg :tf.train.string_input_producer(['a.txt','b.txt'])
-
输入队列
-
tf.train.slice_input_producer(tensor_list, num_epochs, shuffle, capacity)
- 用于把输入的数据集(features & labels)进行分割读取
- 使用前需要将features和labels包装成tensorflow的tensor对象(
tf.convert_to_tensor(input_data)
)
import tensorflow as tf labels_tensor = tf.train.convert_to_tensor([labels]) features_tensor = tf.train.convert_to_tensor([features]) queue = tf.slice_input_producer([labels_tensor, features_tensor])
-
-
批次处理( batch )
- tf.train.batch(tensors, batch_size, num_thread=1, capacity)
将传入的tensor对象进行存储,累计到一定数量后再集中输出,相当于缓存区
执行
with tf.Session() as sess: # 如有设置num_epochs则需要先初始化变量 tf.local_variables_initializer().run() # 执行队列填充 coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(sess=sess, coord=coord)
- 例子
用文件队列同步读取label和图片数据(数据量大)
def image_label_data(labels=[],image_filenames=[],num_epochs=1, capacity=100): path = tf.convert_to_tensor(image_filenames, dtype=tf.string) label = tf.convert_to_tensor(labels, dtype=tf.float32) queue = tf.train.slice_input_producer([path, label], capacity=capacity, num_epochs=num_epochs) return queue if __name__ == '__main__': queue = image_label_data(labels, image_filenames) reader = tf.read_file(queues[0][0]) image = tf.image.decode_jpeg(reader) label = queues[0][1] image_batch, label_batch = tf.train.batch([image, label], batch_size=100, capacity=100, num_threads=1) with tf.Session() as sess: tf.local_variables_initializer().run() coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(sess=sess, coord=coord) # 同步读取batch中的label和图片(必须) try: while not coord.should_stop(): image, label = sess.run([image_batch, label_batch]) catch tf.error.OutOfRangeError: coord.request_stop() finally: coord.join(thread)
-
-