Tensorflow之tif图像文件预处理

写在前面

许久没有登录我的简书了,或许忙只是给自己的借口,内心浮躁,不愿坐下来静下心写点东西才是真正的原因。写作是个该坚持的好习惯,一方面能记录下一些当时的心情想法,一方面也是在锻炼自己的表达能力。善于抒发,会懂得表达在如今其实对个人而言是个很大的加分项。或者说, 起码是我希望自己能够提升的一种能力。
目前我正处于硕士生涯的毕业设计阶段,也正在筹备即将来临的求职季。这个文集也是我在目前这个阶段的记录总结。如果你恰好碰到和我一样或者类似的问题,希望能对你有所帮助。

问题描述

我做的项目与深度学习相关,我选用了Tensorflow作为主要的工具。对于图像文件,为了便于移动以及读取为tf.data.Dataset使用,我想做的预处理便是将图像先转存为TFRecord文件,之后再通过读取TFRecord得到tf.data.Dataset。
这样选择的理由就不在此详细展开,可参考以下几篇文章:

由于Tensorflow目前仅有对bmp,gif,jpeg以及png四种图片的类型的decode方法,对于tif格式的图片文件并不支持,我在写完运行良好的预处理的代码后,不得不又为此修改了一番。接下来我分别描述修改前后的过程,并点出我需要如何改动才能使tif格式的图片也能被良好地预处理。


Figure 1 ref:https://www.tensorflow.org/api_docs/python/tf/io/decode_image

预处理1.0版

代码链接

Pipeline 1.0

起初,我在使用的数据集皆为png格式的图片,Tensorflow包含了相应的decode方法。于是,在tf.read_filetf.image.decode_png的启发下,我选用了如上图所述的预处理方式:首先将所有的图像文件读取为一个tf.data.Dataset,再存为TFRecord文件。在最终需要训练时再重新将TFRecord文件读取成当初的tf.data.Dataset。这个方法对我所使用的png图片数据而言运行良好。在完成并调试这部分代码的同时,我也通过对其中数次的格式转换的学习,加深了对Tensorflow这部分代码的理解。
[ToThink: 是否需要将其中的细节展开叙述呢?]

碰到问题后的反思

一切顺风顺水,在成功得到了一些测试结果后,我找到了第二个数据集,来进一步检验所使用的方法。不幸的事情发生了,第二个数据集为tif格式的图片,先前写好的预处理方法会报错。进行简单的检索后我发现,已有很多人被同样的问题困扰,在17年时便有人在Tensorflow的Github上提出了这一点。但直至现在,还没有人为此做出贡献。

ref:https://github.com/tensorflow/tensorflow/issues/12997

既然原有的方式不能对tif图片进行预处理,不破不立,我只能推倒重来,尝试用其他的方式在完成这一功能。于是我更仔细地查找资料,阅读源码和自己写的代码,看看能不能找到一个突破口。
首先,我思考的问题是png图片与tif图片究竟有什么不同。png与tif是两种不同的图片格式,具体的区别可以查看以下的这篇文章。
What's the Difference Between PNG, JPEG, GIF, and TIFF?
其中关键的区别是,tif图片并不一定是三通道的图片文件,很可能含有更多的通道。但png,jpeg,bmp等格式的图片,都是单通道(灰度图片)或者三通道(RGB)的图片文件。简单来说,tif图片的通道数的可能很多,并且不同通道中的数值代表的意义也有很大的不同,不仅仅是颜色数值这么简单。或许这就是为何tif图片的decode迟迟没人完成的原因吧。

幸运的是,我所要使用的这个数据集的所有tif图片,都是三通道(RGB)的。从图片数据角度而言,前后两个数据集没有任何区别。于是我返回去查看预处理1.0的代码,重点放在了数据格式的转换上。有了如下的发现:
tf.read_file函数读取后的返回的类型为A Tensor of type string,是一个Tensor。而如图一所示,Tensorflow中decode_img进行的处理是“ performs the appropriate operation to convert the input bytes string into a Tensor of type dtype.” ,返回类型依然是一个Tensor。但最终转存为TFRecord文件中的确实是转化成字符串的图片文件。

            #代码片段
            #tf.data.Dataset -> TFRecord
            img_data = img.tobytes() 
            mask_data = mask.tobytes() 
            #print(type(img_data))
        
            example=tf.train.Example(features=tf.train.Features(
                    feature={
                    'shape': tf.train.Feature(int64_list = 
                      tf.train.Int64List(value=[img.size[0],
                      img.size[1],len(img.getbands())])),
                    'img_data':tf.train.Feature(bytes_list =
                       tf.train.BytesList(value=[img_data])),
                    'mask_data':tf.train.Feature(bytes_list = 
                        tf.train.BytesList(value=[mask_data]))
                    }))

既然最终需要的是转化为字符串的图片文件,那么中间变成Tensor的几步操作,是可以用其他方式替代的。图片本质而言就是矩阵,对于所有的三通道RGB图片,可将他们直接转化为矩阵先进行一系列预处理操作(如改变大小,旋转,调色),之后再转存为TFRecord文件就可以了。我先前的一个观念是,只有将tf.data.Dataset变成TFRecord,才能再后面从TFRecord变成TFRecordtf.data.Dataset。但在测试后发现,只要有了TFRecord,就能轻易的读取为tf.data.Dataset,不管TFRecord是如何得到的。

预处理2.0版

经过修改,2.0版本的预处理方式便实现出来了。代码链接

Pipeline 2.0

在读取图片时,我选用的库为Pillow,主要原因为其读取tif图片的表现较好。但可能会碰到如下的报错信息:

Hide "TIFFSetField: tempfile.tif: Unknown pseudo-tag 65538."

不要紧张,这只是个小问题,参考如下的信息,将PIL更新至5.4.0之后的版本就行啦!
Hide "TIFFSetField: tempfile.tif: Unknown pseudo-tag 65538." messages

总结

本文总结并介绍了在Tensorflow下预处理tif图像的一种方式。在至今Tensorflow仍没给出tif的decode函数的情况下,我们可以选用先直接将图像转化成矩阵,经预处理后再转存为TFRecord的方式进行预处理。
从这个过程中,我不得不深入的去思考整个格式转换的的过程。在我看来,最重要的一点,便是看清楚最终转换的目标结果,通过结果再思考选用的方式和流程。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 207,248评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,681评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,443评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,475评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,458评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,185评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,451评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,112评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,609评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,083评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,163评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,803评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,357评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,357评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,590评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,636评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,925评论 2 344

推荐阅读更多精彩内容