前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)核心思想范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞: 超分辨率; 深度學(xué)習(xí); 卷積; 神經(jīng)網(wǎng)絡(luò); 視覺特征; 映射
中圖分類號:TP399 文獻標(biāo)志碼:A 文章編號:1006-8228(2017)07-38-04
Application of deep learning in super-resolution image reconstruction
Han Sensen
(School of Computer and Information Engineering, Henan University, Kaifeng, Henan 475000, China)
Abstract: Super-resolution image reconstruction can reconstruct a high-resolution image using low-resolution images; it has become a hotspot in image processing. Deep learning is a popular branch of machine learning, which by combining low-level features to form more abstract high-level visual features, to avoid the artificial extraction of features. This paper divides the current reconstruction algorithm into three categories, which are based on interpolation, based on reconstruction and based on learning, and especially focuses on the reconstruction algorithms based on deep learning. Finally the future research direction of super-resolution image reconstruction technology is prospected.
Key words: super-resolution; deep learning; convolution; neural networks; visual feature; mapping
0 引言
單幀圖像的超分辨率(super resolution,SR)重建是指利用已知的低分辨率圖像,重構(gòu)出具有更高像素密度的圖像,并且重構(gòu)出的圖像還能夠保持豐富的紋理、質(zhì)地等細節(jié)信息。它在視頻監(jiān)控、圖像打印、醫(yī)學(xué)圖像處理、衛(wèi)星成像等領(lǐng)域有較廣泛的應(yīng)用。
超分辨率圖像的重建本質(zhì)上是一個病態(tài)(ill-posed)問題,因為不完全相同的多張圖像高分辨圖像在經(jīng)過相同的降采樣都可以產(chǎn)生相同的低分辨圖像,這是一種典型的一對多問題,因此存在惟一解,特別是在放大倍數(shù)較高的情況下該問題將變得更為復(fù)雜。
1 算法分類
當(dāng)前的超分辨算法大致可分為三類:基于插值的超分辨率重建算法,基于重構(gòu)的超分辨率重建算法和基于學(xué)習(xí)的超分辨率重建算法。
基于插值的重建算法假設(shè)像素的灰度值是連續(xù)變化的,并利用鄰近像素的灰度值計算待插值像素的灰度值,然而實際應(yīng)用中許多圖像并不滿足這種假設(shè)。并且該算法通過一個預(yù)定義的數(shù)學(xué)公式直接將低分辨率圖像生成高分辨率的圖像而不考慮任何的圖像特性,也不接受任何的訓(xùn)練。所以基于差值方法得到的重建圖像容易產(chǎn)生模糊、鋸齒現(xiàn)象。常見的線性插值方法有最近鄰插值方法,雙線性插值方法,雙三次插值方法等。
基于重構(gòu)的超分辨率重建算法是依照特定的退化模型,將已知的低分辨率圖像序列中不同鼉暗男畔⒔行融合來重建出高分辨率圖像,因此該算法需要對圖像進行配準(zhǔn)。常見重構(gòu)算法有種迭代反向投影[1](IBP)、凸集投影法[2](POCS)。
基于學(xué)習(xí)的分辨率重建算法則是通過機器學(xué)習(xí)方法從大量的低分辨圖像和高分辨圖像對中學(xué)習(xí)它們之間的映射函數(shù),利用學(xué)習(xí)到的函數(shù)對測試圖像進行預(yù)測來產(chǎn)生高分辨率圖像。常見的基于學(xué)習(xí)的分辨率重建算法有嵌套的鄰域嵌入[3](Neighbor Embedding with Locally Linear Embedding)、固定鄰域回歸[4](Anchored Neighborhood Regression)、稀疏編碼[5](Sparse Coding)。
相比較于其他兩類算法而言,基于學(xué)習(xí)的SR算法直接學(xué)習(xí)分辨率圖像與高分辨率圖像端到端的映射函數(shù),比傳統(tǒng)的插值和重構(gòu)的方法具有更突出的性能。本文著重介紹幾種基于深度學(xué)習(xí)的超分辨算法,包括SRCNN[6],DRCN[7], ESPCN[8]和SRGAN[9]等。
2 SRCNN
SRCNN(Super-Resolution Convolutional Neural Network)是較早地使用卷積神經(jīng)網(wǎng)絡(luò)來做SR的網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)結(jié)構(gòu)十分簡單,僅僅用了三個卷積層。對于一張低分辨率圖像,SRCNN首先使用雙三次插值將它放大到將要放大的尺寸,再通過三層卷積神經(jīng)網(wǎng)絡(luò)做非線性映射,得到的輸出結(jié)果作為重建的高分辨率圖像。整個過程可分為三個部分:圖像塊的提取和特征表示,特征非線性映射和最終的重建。
圖像塊提取與表示:該過程從低分辨率圖像中提取出部分重疊的圖像塊,并將每個圖像塊表示為一個高維向量,這些向量包含一些特征映射,映射的個數(shù)與向量的維數(shù)相同。
非線性映射:這個功能將每個高維向量非線性地映射成另外一個高維向量。從概念上來講每個映射后的向量代表了一個高分辨率圖像塊。這些向量構(gòu)成了另外一個特征集。
重建:這個處理聚集以上高分辨率基于像素塊的替代對象,用于生成最終的高分辨率圖像。并且我們希望這個圖像能盡可能與高分辨率原圖相近。
對重建后的超分辨率圖像的質(zhì)量進行定量評價的兩個常用指標(biāo)是PSNR[10](Peak Signal-to-Noise Ratio)和SSIM[11](Structure Similarity Index)。這兩個值代表重建圖像的像素值和原始圖像像素值的接近程度,具體對比結(jié)果如表1,在2、3、4的放大倍數(shù)下,SRCNN與傳統(tǒng)方法的對比,可以看出無論是在哪個放大倍數(shù)下,SRCNN的PSNR值都比其他的重建算法要高出0.4Db左右。
SRCNN的網(wǎng)絡(luò)層數(shù)較少,同時局部感受野也較小,所以從輸入圖像中提取到的信息就非常有限。因此DRCN(Deeply-Recursive Convolutional Network for Image Super-Resolution)提出在網(wǎng)絡(luò)中增加更多的卷積層增加局部感受野的大小,這樣可利用更多的鄰域像素。同時為了避免過多W絡(luò)參數(shù),DRCN提出使用遞歸神經(jīng)網(wǎng)絡(luò)RNN(Recurrent neural network)。
與SRCNN比較類似DRCN的網(wǎng)絡(luò)結(jié)構(gòu)可分為三個部分,第一個是Embedding network,相當(dāng)于SRCNN中的特征提取,第二個是Inference network,相當(dāng)于SRCNN中的非線性變換,第三個是Reconstruction network,即從特征圖像得到最后的重建結(jié)果。其中的Inference network是一個遞歸網(wǎng)絡(luò),即數(shù)據(jù)循環(huán)地通過該層進行多次遞歸。將這個遞歸過程展開后可以看出,它等效于多個串聯(lián)的卷積層共享同一組參數(shù),Inference network展開后的網(wǎng)絡(luò)結(jié)構(gòu)是由D個共享參數(shù)的卷積層組成。DRCN將每一層的卷積輸出都送入同一個Reconstruction Net來作為其輸入,由于遞歸的深度是D,從而一共可得到D個重建圖像,再把它們加權(quán)平均得到最終的輸出。此外DRCN受ResNet[14]的啟發(fā)通過skip connection將輸入圖像與Inference net的輸出HD疊加作為Reconstruction Net的輸入,這就相當(dāng)于Inference Net學(xué)習(xí)的是高分辨率圖像與低分辨率圖像的殘差圖像,即圖像的高頻信息。
實驗部分,DRCN同樣也使用了包含91張圖像的Set91[4]數(shù)據(jù)集進行訓(xùn)練,與SRCNN不同的是DRCN使用的訓(xùn)練數(shù)據(jù)是在多個方法倍數(shù)下生成的,而不像SRCNN那樣在單一的放大倍數(shù)下生成,這樣可以利用不同尺度圖像間的信息進行互補,理論上DRCN的重建效果會由于SRCNN,具體的對比結(jié)果如表2所示,可以看出DRCN的重建圖像的PSNR與SRCNN相比有了較大提高。
4 ESPCN
在SRCNN和DRCN中,低分辨率圖像都需要先使用雙三次插值得到與高分辨率圖像大小相同的低分辨率圖像來為網(wǎng)絡(luò)輸入,這意味著卷積的計算將在較高分辨率的圖像上進行,這與在低分辨率圖像上計算卷積相比于會需要較大的計算開銷。因此ESPCN(Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network)提出在低分辨率圖像上直接計算卷積來得到高分辨率圖像。
ESPCN的核心思想是亞像素卷積層(Sub-pixel Convolutional Layer)。網(wǎng)絡(luò)的輸入是原始的低分辨率圖像,經(jīng)過兩個卷積層后得到的特征圖像大小與輸入圖像一樣,但是特征的通道數(shù)變?yōu)閞2,γ是圖像的目標(biāo)放大倍數(shù)。然后將每個像素上的r2個通道重新排列成一個γ×γ的區(qū)域,該區(qū)域?qū)?yīng)于高分辨率圖像中的一個區(qū)域大小為γ×γ的子塊,從而對于一個大小為r2×H×W的特征圖像在通道上進行重新排列會形成一個大小為1×rH×rW的圖像,該圖像的尺寸是輸入圖像尺寸的r倍,從而間接地實現(xiàn)了輸入圖像的放大。
通過使用sub-pixel convolution可以間接的實現(xiàn)圖像的放大過程,即插值函數(shù)是隱含地包含在前面的卷積層中,只在網(wǎng)絡(luò)的最后一層對圖像大小做變換,前面的卷積運算由于在低分辨率圖像上進行,因此效率會有很明顯的較高。
ESPCN的訓(xùn)練與SRCNN類似,在重建效果上,以PSNR為評價指標(biāo)來看ESPCN比SRCNN有進一步的提高,具體對比如表3所示。而時間效率方面對于一個1080HD的視頻圖像,對其放大四倍進行的高分辨率重建,SRCNN需要的時間為0.434s,而ESPCN只需要0.029s。
SRGAN(Photo-Realistic Single Image Super Resolution Using a Generative Adversarial Network)是將生成對抗網(wǎng)絡(luò)用于SR問題的處理。其出發(fā)點是傳統(tǒng)的方法一般只能處理的是較小的放大倍數(shù),當(dāng)圖像的放大倍數(shù)在4以上時,得到的結(jié)果往往顯得過于平滑,從而重建出的圖像在視覺上卻少一些質(zhì)地細節(jié)的真實感,因此SRGAN使用GAN來生成圖像中的細節(jié)。
SRGAN網(wǎng)絡(luò)由兩部分組成:生成網(wǎng)和判別網(wǎng),生成網(wǎng)用于生成一些圖像,判別網(wǎng)用于判斷接收到的輸入圖像是由生成網(wǎng)生成的還是來自于真實樣本中的原始圖像。訓(xùn)練時如果判別網(wǎng)無法區(qū)分出來輸入的樣本來自于哪里就達到了預(yù)期的效果。
傳統(tǒng)方法一般使用圖像的最小均方差(MSE)作為誤差函數(shù),即該誤差函數(shù)使重建圖像有較高的PSNR,但是重建圖像缺少了必要的高頻信息,因而在重建后的圖像中容易出現(xiàn)過度平滑的紋理。在SRGAN的誤差函數(shù)中又增加了一個內(nèi)容誤差項和生成誤差項。
內(nèi)容誤差用于衡量重建出圖像與原始圖像在更高級的視覺特征上的差e。其具體定義由以下公式描述。
生成誤差項基于判別網(wǎng)輸出的概率,其輸出值表示輸入數(shù)據(jù)來自于真實樣本的概率大小。其具體定義由以下公式描述。
其中是一個圖像屬于真實的高分辨率圖像的概率。是重建的高分辨率圖像。
SRGAN的訓(xùn)練過程與前面的網(wǎng)絡(luò)類似,同樣使用PSNR和SSIM評價標(biāo)準(zhǔn)對算法的重建效果進行測試,SRGAN生成的高分辨率圖像看起來更真實,具體的對比如表4所示。
6 結(jié)束語
深度學(xué)習(xí)已經(jīng)在超分辨率圖像重建領(lǐng)域取得了突破性的成績,同時它仍然存在一些問題,例如它與傳統(tǒng)的機器學(xué)習(xí)方法一樣,通常假設(shè)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)服從同樣的分布,而實際上這兩者存在一定的偏差。此外當(dāng)前的重建算法仍然只使用于較小的放大倍數(shù),對于較大的放大倍數(shù)得到重建圖像仍然過于平滑模糊,因此如何充分利用深度學(xué)習(xí)來增強算法在較高的放大倍數(shù)下的重建性能是目前深度學(xué)習(xí)研究的重點。
參考文獻(References):
[1] Irani M, Peleg S. Improving resolution by image registration[J].
CVGIP: Graphical models and image processing,1991.53(3):231-239
[2] Stark H, Oskoui P. High-resolution image recovery from
image-plane arrays, using convex projections[J].JOSA A,1989.6(11):1715-1726
[3] Timofte R, De Smet V, Van Gool L. A+: Adjusted
anchored neighborhood regression for fast super-
resolution[C],2014:111-126
[4] Timofte R, De Smet V, Van Gool L. Anchored
neighborhood regression for fast example-based super-
resolution[C],2013:1920-1927
[5] Yang J, Wright J, Huang T S, et al. Image
super-resolution via sparse representation[J]. IEEE transactions on image processing,2010.19(11):2861-2873
[6] Bruna J, Sprechmann P, Lecun Y, et al. Image
Super-Resolution Using Deep Convolutional Networks[J]. Computer Science,2015.
[7] Kim J, Lee J K, Lee K M. Deeply-Recursive Convolutional
Network for Image Super-Resolution[J]. arXiv preprint arXiv:1511.04491,2015.
[8] Shi W, Caballero J, Huszár F, et al. Real-Time Single
Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[J],2016.
[9] Ledig C, Theis L, Huszar F, et al. Photo-Realistic Single
Image Super-Resolution Using a Generative Adversarial Network[J],2016.
[10] Hore A, Ziou D. Image Quality Metrics: PSNR vs. SSIM[J],
2010:2366-2369
[11] Wang Z, Bovik A C, Sheikh H R, et al. Image quality
assessment: from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004.13(4):600-612
[12] Kim K I, Kwon Y. Single-image super-resolution using
sparse regression and natural image prior[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on,2010.32(6):1127-1133
[13] Dong C, Loy C C, He K, et al. Image super-resolution
using deep convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence,2016.38(2):295-307