Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neur...

题目

Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

摘要

近年来，基于深度神经网络的几种模型在单幅图像超分辨率重建精度和计算性能方面都取得了很大的成功。在这些方法中，通常在重建之前，使用单个滤波器(通常为双三次插值)将低分辨率(LR)输入图像放大到高分辨率(HR)空间。这意味着在HR空间中执行超分辨率（SR）操作。我们证明，这是次优的，并且增加了计算复杂度。在本文中，我们提出了第一种能够在单个K2 GPU上实时1080p视频SR的卷积神经网络（CNN）。为此，我们提出了一种新的CNN体系结构，在LR空间中提取特征映射。此外，我们引入了一个有效的亚像素卷积层，它学习一组尺度扩展滤波器，以便将最终的LR特征映射放大到HR输出中。通过这样做，我们有效地将SR传递途径中的手工双三次滤波器替换为针对每个特征图专门训练的更复杂的放大滤波器，同时还降低了整个SR操作的计算复杂度。我们使用来自公开可用的数据集的图像和视频来评估所提出的方法，并显示出其性能明显更好（+0.15dB用于图像，+0.39dB用于视频），并且比先前基于CNN的方法快一个数量级。

介绍

从它低分辨率（LR）对应部分恢复高分辨率（HR）图像或视频是数字图像处理领域非常感兴趣的课题。这项被称为超分辨率（SR）的任务在许多领域有直接的应用，如HDTV[15]、医学成像[28，33]、卫星成像[38]、人脸识别[17]和监视[53]。全局SR问题假设LR数据是HR数据的低通滤波（模糊）、下采样和噪声版本。由于不可逆低通滤波和子采样过程中出现的高频信息丢失，这是一个高度不适定（病态）的问题。此外，SR操作实际上是从LR到HR空间的一对多映射，该映射可以有多个解，其中确定正确的解是非平凡的（重要的）。许多SR技术的基础的一个关键假设是许多高频数据是冗余的，因此可以从低频分量中精确地重构。因此，SR是一个推理问题，因此依赖于我们所讨论的图像的统计模型。
许多方法假设多个图像可用作具有不同视角的同一场景的LR实例，即具有独特的先验仿射变换。这些可归类为多图像SR方法，并通过用附加信息约束不适定问题并尝试反转下采样过程来利用显式冗余。然而，这些方法通常需要计算复杂的图像配准和融合阶段，其精度直接影响结果的质量。另一种方法是单图像超分辨率（SISR）技术。这些技术试图学习自然数据中存在的隐式冗余，以便从单个LR实例中恢复丢失的HR信息。这通常以图像的局部空间相关性和视频中的附加时间相关性的形式出现。在这种情况，需要重构约束形式的先验信息来限制重构的解空间。

方法

SISR的任务是从给定一张由相应原始HR图像 $I^{HR}$ 的缩放得到的LR图像 $I^{LR}$ 来估计HR图像 $I^{SR}$ 。下采样操作是确定性的且是已知的：为了从 $I^{HR}$ 产生 $I^{LR}$ ，我们首先使用高斯滤波器卷积 $I^{HR}$ ，从而模拟相机的点扩展函数，然后将图像下采样r倍。一般来说， $I^{LR}$ 和 $I^{HR}$ 都有C个颜色通道，因此它们分别表示为大小为H×W×C和rH×rW×C的真值张量。
为了解决SISR问题，在[7]中提出的SRCNN从 $I^{LR}$ 的放大和内插版本中恢复，而不是从 $I^{LR}$ 中恢复。为了恢复 $I^{SR}$ ，使用了3层卷积网络。在本节中，我们提出了一种新颖的网络体系结构，如图1所示，以避免在将 $I^{LR}$ 馈入网络之前对其进行升级。在我们的体系结构中，我们首先将l层卷积神经网络直接应用于LR图像，然后将亚像素卷积层应用于LR特征映射的放大以产生I SR。

[7] C. Dong, C. C. Loy, K. He, and X. Tang. Image super-resolution using deep convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2015.

对于一个有L层组成的网络，首先L-1层可以如下描述：
$f^1(I^{LR};W_1;b_1)=\phi(W_1*I^{LR}+b_1)$

$f^1(I^{LR};W_{1:l};b_{1:l})=\phi(W_l*f^{l-1}I^{LR}+b_l)$

其中 $W_l , b_l , l\in(1, L − 1)$ 分别是学习网络的权值和偏差， $W_l$ 是一个大小为 $n_{l-1}\times n_{l}\times k_{l}\times k_{l}$ 的2D卷积张量，其中 $n_l$ 是l层的特征数量， $n_0=C$ ， $k_l$ 是l层的卷积大小。 $b_l$ 是长度为 $n_l$ 的向量偏置。非线性函数（或激活函数） $\phi$ 应用为智能元素并且固定。最后一层 $f^l$ 将LR特征图转换为HR图像 $I_{SR}$ 。

图1 ESPCN.png

反卷积层

添加反卷积层是从最大值池化max-pooling 和其他图像下采样down-sampling层恢复分辨率的通俗选择。这种方法已经成功地用于可视化层激活以及使用来自网络的高级特征生成语义分割。要证明SRCNN中使用的双三次插值是反卷积层的特殊情况，这一点是微不足道的，正如[24，7]中已经提出的。[50]中提出的反卷积层可以被看作每个输入像素乘以具有步长r的滤波器元件，并且在得到的输出窗口上求和，也称为后向卷积[24]。然而，卷积之后的任何约简(求和)都是昂贵的。

[24] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks
for semantic segmentation. arXiv preprint arXiv:1411.4038, 2014.

高效的亚像素卷积层

另一种提升LR图像的方法是，如[24]所述，在LR空间中以 $\frac{1}{r}$ 的分数步长进行卷积，这可以通过内插、穿孔[27]或反池化[49]从LR空间解集到HR空间，然后在HR空间中以1步长进行卷积来实现。由于在HR空间中发生卷积，这些实现将计算成本增加 $r^2$ 倍。

[27] C. Osendorfer, H. Soyer, and P. van der Smagt. Image super-resolution with fast approximate convolutional sparse coding. In Neural Information Processing, pages 250–257. Springer, 2014.

[49] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In Computer Vision–ECCV 2014, pages 818–833. Springer, 2014.

或者，在LR 空间步长为 $\frac{1}{r}$ 的卷积中，使用具有权重间隔 $\frac{1}{r}$ 的大小为 $k_s$ 的滤波器 $W_s$ ，将激活卷积中 $W_s$ 的不同部分。处在像素之间的权重不被激活，不需要计算。激活模式的数目正好是 $r^2$ 。每个激活模式，根据其位置，最多激活 $\frac{k_s}{2}$ 权重。这些图案在滤波器卷积期间根据不同的子像素位置在图像上周期性地激活： $mod(x，r)$ ， $mod(y，r)$ ，其中x，y是HR空间中的输出像素坐标。本文提出了一种在 $MOD(k_s，r)=0$ 时实现上述操作的有效方法：
$I^{SR}= f^L I^{LR} = PS(W_L ∗ f^{L−1} (I^{LR}) + b_L)$
其中PS是一个周期混排算子，它把 $H×W×C·r ^2$ 张量的元素后移到形状 $rH×rW×C$ 的张量。该操作的效果如图1所示。从数学上讲，这种操作可以用以下方法来描述：
$PS(T ) x,y,c = T ⌊ x / r ⌋,⌊ y / r ⌋,c·r·mod(y,r)+c·mod(x,r)$

卷积算子 $W_L$ 具有形状 $n_ {L-1}×r^2 C×K_L×K_ L$ 。注意，我们不在最后一层上对卷积的输出应用非线性。很容易看出，当 $k_L=k_s/r$ 和 $mod(k_s，r)=0$ 时，它等价于具有滤波器 $W_s$ 的LR空间中的亚像素卷积。我们将我们的新层称为亚像素卷积层，我们的网络称为有效亚像素卷积神经网络（ESPCN）。最后一层直接从LR特征映射生成一个HR图像，每个特征映射使用一个放大滤波器，如图4所示。

图4.png

给定一个训练集由HR图像实例 $I_N^{HR }，N=1……n$ ，我们生成相应的LR图像 $I_N^{LR }，N=1……N$ ，并且计算重建的像素级均方误差(MSE)作为目标函数以训练网络：
$l(W_{1:L},b_{1:L})=\frac{1}{r^2HW}\sum_{x=1}^{rH} \sum_{x=1}^{rW}(I_{x,y}^{HR}-f_{x,y}^L(I^{LR}))^2$
值得注意的是，与HR空间中的缩减或卷积相比，上述周期性混排的实现可以非常快，因为每个操作是独立的，因此在一个周期内可微不足道的并行化。因此，与前向通道中的反卷积层相比，我们提出的层在 $\log_2r^2$ 倍，与卷积之前使用各种形式的放大实现的情况相比快 $r^2$ 倍。

最后编辑于：2018.12.06 23:00:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,884评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,347评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,435评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,509评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,611评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,837评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,987评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,730评论 0赞 267
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,194评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,525评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,664评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,334评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,944评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,764评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,997评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,389评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,554评论 2赞 349

Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neur...

题目

摘要

介绍

方法

反卷积层

高效的亚像素卷积层

推荐阅读更多精彩内容