在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁(yè) > 文章中心 > 卷積神經(jīng)網(wǎng)絡(luò)的算法

卷積神經(jīng)網(wǎng)絡(luò)的算法

前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的算法范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。

卷積神經(jīng)網(wǎng)絡(luò)的算法范文第1篇

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);自動(dòng)編碼器;非監(jiān)督訓(xùn)練;多尺度分塊;目標(biāo)識(shí)別

中圖分類(lèi)號(hào):TP391.41文獻(xiàn)標(biāo)志碼:A英文標(biāo)題

0引言

對(duì)圖像中目標(biāo)的精確和魯棒識(shí)別是模式識(shí)別及人工智能領(lǐng)域的核心內(nèi)容,在道路監(jiān)控、戰(zhàn)場(chǎng)偵察、精確打擊等領(lǐng)域中有著重要的作用和廣泛的前景。近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)成為機(jī)器學(xué)習(xí)新的熱點(diǎn),基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的圖像識(shí)別算法因其較強(qiáng)的魯棒性和突出的識(shí)別率被學(xué)術(shù)界和工業(yè)界所重視。

Alex等[1]提出基于大型深層CNN的自然圖像識(shí)別算法,在ImageNet數(shù)據(jù)集上取得了很高的識(shí)別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運(yùn)算的方法在三維NORB數(shù)據(jù)集上取得了很好的識(shí)別效果。以上算法雖然都取得了較高的目標(biāo)識(shí)別率,但是由于算法采用有監(jiān)督的訓(xùn)練方式,需要大量標(biāo)簽數(shù)據(jù)對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行調(diào)整,當(dāng)數(shù)據(jù)量較小時(shí)會(huì)導(dǎo)致模型前幾層網(wǎng)絡(luò)無(wú)法得到充分訓(xùn)練,故只能針對(duì)含標(biāo)簽數(shù)據(jù)較多的大型數(shù)據(jù)集。針對(duì)此問(wèn)題,目前主流的解決方法是采用特征提取算法對(duì)CNN的濾波器集進(jìn)行非監(jiān)督的預(yù)訓(xùn)練。文獻(xiàn)[3]采用稀疏編碼提取訓(xùn)練圖像的基函數(shù)作為CNN的初始濾波器;文獻(xiàn)[4]將獨(dú)立成分分析(Independent Component Analysis,ICA)應(yīng)用于CNN的預(yù)訓(xùn)練階段,利用ICA訓(xùn)練濾波器集合,使識(shí)別率得到了一定提高。然而無(wú)論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應(yīng)用于預(yù)訓(xùn)練階段對(duì)算法識(shí)別率的提升也比較有限。所以如何更好地選擇濾波器的預(yù)訓(xùn)練算法仍是十分困難的問(wèn)題。

除了預(yù)訓(xùn)練外,影響CNN識(shí)別率和魯棒性的關(guān)鍵參數(shù)還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對(duì)輸入圖像局部特征的提取情況,文獻(xiàn)[5]證明濾波器尺寸對(duì)最終識(shí)別結(jié)果有很大影響,并給出了單層條件下相對(duì)最優(yōu)的濾波器尺寸。下采樣層主要負(fù)責(zé)對(duì)特征進(jìn)行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴(yán)重,模糊后的特征保持的全局空間信息就越少。文獻(xiàn)[6]證明當(dāng)采樣間隔較小時(shí),即使經(jīng)過(guò)2次卷積和2次最大下采樣(maxpooling),網(wǎng)絡(luò)輸出的激活值仍能重構(gòu)出與原始輸入看似相同的圖案。然而下采樣間隔過(guò)小會(huì)導(dǎo)致不變性喪失,過(guò)大則會(huì)損失大量細(xì)節(jié)信息,兩者均會(huì)導(dǎo)致識(shí)別率的下降。

針對(duì)以上問(wèn)題,本文提出基于多尺度分塊卷積神經(jīng)網(wǎng)絡(luò)(MultiScale Convolutional Neural Network, MSCNN)的圖像目標(biāo)識(shí)別算法。首先利用稀疏自動(dòng)編碼器(Sparse AutoEncoder,SAE)對(duì)卷積神經(jīng)網(wǎng)絡(luò)的濾波器進(jìn)行非監(jiān)督預(yù)訓(xùn)練,通過(guò)最小化重構(gòu)誤差獲得待識(shí)別圖像的隱層表示,進(jìn)而學(xué)習(xí)得到含有訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)特性的濾波器集合,預(yù)訓(xùn)練效果相比ICA更好。其次提出多尺度分塊的方法構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),為了增加魯棒性并減小下采樣對(duì)特征表示的影響,對(duì)輸入圖像進(jìn)行多尺度分塊形成多個(gè)通路,并設(shè)計(jì)相應(yīng)尺寸的濾波器進(jìn)行卷積運(yùn)算,將不同通路下采樣后的輸出進(jìn)行融合從而形成新的特征,輸入softmax分類(lèi)器完成圖像目標(biāo)的識(shí)別。最后通過(guò)大量實(shí)驗(yàn)對(duì)比MSCNN算法與經(jīng)典算法在通用圖像識(shí)別任務(wù)中的識(shí)別率和魯棒性差異,從而驗(yàn)證算法的有效性。

4仿真實(shí)驗(yàn)及分析

本文使用STL10公開(kāi)數(shù)據(jù)集以及從全色波段的QuiekBird遙感衛(wèi)星和GoogleEarth軟件中截取的遙感飛機(jī)圖像數(shù)據(jù)集進(jìn)行測(cè)試實(shí)驗(yàn),將所有圖片變?yōu)?4×64像素的RGB圖。選擇STL10數(shù)據(jù)集的原因是因?yàn)槠浜胁话瑯?biāo)簽的訓(xùn)練集,可用于本文的非監(jiān)督預(yù)訓(xùn)練算法,且圖像中包含更多類(lèi)內(nèi)變化。STL10共10類(lèi)目標(biāo),本文選用其中的4類(lèi)目標(biāo)進(jìn)行實(shí)驗(yàn)。選擇遙感飛機(jī)圖像數(shù)據(jù)則是為了驗(yàn)證本文算法在遙感圖像解譯方面的可用性。該數(shù)據(jù)集包含5類(lèi)遙感飛機(jī),共400幅。實(shí)驗(yàn)時(shí)隨機(jī)選取遙感飛機(jī)圖像庫(kù)中50%的圖像作為訓(xùn)練樣本,其余作為測(cè)試樣本。本文的實(shí)驗(yàn)環(huán)境為CPU2.8GHz、內(nèi)存3GB的計(jì)算機(jī),實(shí)現(xiàn)算法的軟件為Matlab(2011a)。

4.1算法識(shí)別率對(duì)比測(cè)試

MSCNN的各通路尺寸參數(shù)設(shè)置如圖4所示,每個(gè)通道使用300個(gè)濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動(dòng)編碼器預(yù)訓(xùn)練得到。編碼器設(shè)定為3層,稀疏參數(shù)ρ設(shè)定為0.05,訓(xùn)練周期為400。卷積神經(jīng)網(wǎng)絡(luò)的下采樣方式采用最大下采樣(max pooling)。

按照上述參數(shù)設(shè)置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓(xùn)練周期均為50。傳統(tǒng)CNN參數(shù)設(shè)定與通路1參數(shù)設(shè)定相同,同樣使用300個(gè)濾波器,濾波器初始值通過(guò)隨機(jī)初始化得到。輸出特征維度為2700。實(shí)驗(yàn)結(jié)果如表1所示。

從表1可看出,加入LCN的CNN較未加入的CNN對(duì)兩種數(shù)據(jù)集的識(shí)別率有一定的提高,說(shuō)明了加入LCN對(duì)目標(biāo)識(shí)別率是有一定的貢獻(xiàn)的;在兩種數(shù)據(jù)集上MSCNN相比原始CNN都擁有更高的識(shí)別率。MSCNN通路1雖然參數(shù)設(shè)置與CNN相同,但在相同訓(xùn)練周期下識(shí)別率較加入LCN的CNN又有一定提高,說(shuō)明了非監(jiān)督預(yù)訓(xùn)練對(duì)識(shí)別率提高的有效性。對(duì)于STL10數(shù)據(jù)集,可看出通路2的識(shí)別率在3個(gè)通路中最高,通路3則最低,這是因?yàn)橥?輸入的圖像尺寸最小,而STL10類(lèi)內(nèi)變化很大且目標(biāo)不全在圖像中心,故識(shí)別率有所下降。通路之間進(jìn)行兩兩累加后識(shí)別率都有所提高,在3個(gè)通路共同作用時(shí)識(shí)別率最高,達(dá)到83.5%。對(duì)于遙感飛機(jī)圖像集而言,可看出3個(gè)通路中通路2的識(shí)別率最高,這是因?yàn)檫b感飛機(jī)圖像集均為飛機(jī)圖像,不同類(lèi)別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機(jī)類(lèi)別。通路3由于輸入尺寸較小,識(shí)別率稍有下降。同樣的,不同通路之間的疊加都讓識(shí)別率有所提升,最終MSCNN三通路特征融合后的識(shí)別率達(dá)到了96.5%,完全滿足對(duì)于可見(jiàn)光遙感圖像目標(biāo)識(shí)別的需求。

從表1還可看出,本文算法在3個(gè)通路CNN的情況下的識(shí)別率較1個(gè)通路或2個(gè)通路的CNN的識(shí)別率高,由此可以推斷3個(gè)通路CNN所提取的特征具有較強(qiáng)的泛化能力和魯棒性。此外3個(gè)通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。

4.2算法魯棒性實(shí)驗(yàn)

為驗(yàn)證MSCNN的魯棒性,在數(shù)據(jù)集中選取不同類(lèi)別的圖像對(duì)其進(jìn)行平移、尺度、旋轉(zhuǎn)變換,然后計(jì)算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據(jù)距離的大小可以衡量輸出特征對(duì)于目標(biāo)變化的魯棒性,歐氏距離越小就說(shuō)明特征對(duì)于目標(biāo)變化越不敏感,魯棒性就越好。對(duì)于STL10選取四類(lèi)目標(biāo)進(jìn)行實(shí)驗(yàn),對(duì)比算法為CNN;對(duì)于遙感飛機(jī)圖像集隨機(jī)選取10幅進(jìn)行實(shí)驗(yàn),并取距離的平均值,對(duì)比算法為ICA和CNN。測(cè)試結(jié)果如圖6~7所示。

圖6中虛線表示傳統(tǒng)CNN算法得到的結(jié)果,實(shí)線則表示MSCNN得到的結(jié)果,從圖6可看出:無(wú)論是面對(duì)平移、尺度還是旋轉(zhuǎn)變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。

從圖7也可看出:本文算法對(duì)于遙感飛機(jī)圖像集的平移、尺度、旋轉(zhuǎn)均表現(xiàn)出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標(biāo)圖像微小的變化就導(dǎo)致了特征較大的改變。本文算法魯棒性較好首先是因?yàn)镸SCNN采用非監(jiān)督的預(yù)訓(xùn)練方式,訓(xùn)練得到的濾波器含有更多圖像不變性特征;其次是因?yàn)镸SCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當(dāng)于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對(duì)比度標(biāo)準(zhǔn)化,對(duì)于亮度變化較大和存在噪聲的目標(biāo)圖像魯棒性明顯增強(qiáng)。

另外,本文算法采用了多通路多尺度分塊的方法,必然會(huì)使網(wǎng)絡(luò)參數(shù)增加,從而會(huì)使訓(xùn)練時(shí)間比較耗時(shí);但在測(cè)試階段,輸入樣本的計(jì)算僅包含一些簡(jiǎn)單的卷積和下采樣,算法復(fù)雜度并沒(méi)有因?yàn)橥ǖ赖脑黾佣黾?,因此在測(cè)試階段的實(shí)時(shí)性較傳統(tǒng)的CNN并沒(méi)有太大變化。

5結(jié)語(yǔ)

本文提出了MSCNN算法在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過(guò)非監(jiān)督預(yù)訓(xùn)練濾波器的方法解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)前幾層無(wú)法得到有效訓(xùn)練的問(wèn)題。針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對(duì)于復(fù)雜背景圖像識(shí)別率不高的問(wèn)題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時(shí)不至于喪失目標(biāo)的細(xì)節(jié)信息,有效提升了識(shí)別率和魯棒性。與經(jīng)典算法的對(duì)比實(shí)驗(yàn)結(jié)果表明:該方法能夠有效識(shí)別可見(jiàn)光自然圖像和遙感圖像,并對(duì)平移、尺度和旋轉(zhuǎn)變換具有較強(qiáng)的魯棒性。

參考文獻(xiàn):

[1]

ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.

[2]

DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.

[3]

KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.

[4]

KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.

[5]

COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.

[6]

ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.

[7]

BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.

[8]

HAYKIN S.神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機(jī)械工業(yè)出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.

[10]

LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[11]

DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.

[12]

GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.

[13]

JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.

[14]

BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.

Background

This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).

ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.

卷積神經(jīng)網(wǎng)絡(luò)的算法范文第2篇

(江蘇科技大學(xué)電子信息學(xué)院,江蘇鎮(zhèn)江212003)

摘要:在實(shí)際交通環(huán)境中,由于運(yùn)動(dòng)模糊、背景干擾、天氣條件以及拍攝視角等因素,所采集的交通標(biāo)志的圖像質(zhì)量往往不高,這就對(duì)交通標(biāo)志自動(dòng)識(shí)別的準(zhǔn)確性、魯棒性和實(shí)時(shí)性提出了很高的要求。針對(duì)這一情況,提出一種基于深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法。該方法采用深層卷積神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)模型,直接將采集的交通標(biāo)志圖像經(jīng)二值化后作為輸入,通過(guò)卷積和池采樣的多層處理,來(lái)模擬人腦感知視覺(jué)信號(hào)的層次結(jié)構(gòu),自動(dòng)地提取交通標(biāo)志圖像的特征,最后再利用一個(gè)全連接的網(wǎng)絡(luò)實(shí)現(xiàn)交通標(biāo)志的識(shí)別。實(shí)驗(yàn)結(jié)果表明,該方法利用卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)能力,自動(dòng)地提取交通標(biāo)志的特征,避免了傳統(tǒng)的人工特征提取,有效地提高了交通標(biāo)志識(shí)別的效率,具有良好的泛化能力和適應(yīng)范圍。

關(guān)鍵詞 :交通標(biāo)志;識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)

中圖分類(lèi)號(hào):TN911.73?34;TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004?373X(2015)13?0101?06

收稿日期:2015?01?09

基金項(xiàng)目:國(guó)家自然科學(xué)基金面上項(xiàng)目(61371114)

0 引言

隨著智能汽車(chē)的發(fā)展,道路交通標(biāo)志的自動(dòng)識(shí)別[1?3]作為智能汽車(chē)的基本技術(shù)之一,受到人們的高度關(guān)注。道路交通標(biāo)志識(shí)別主要包括兩個(gè)基本環(huán)節(jié):首先是交通標(biāo)志的檢測(cè),包括交通標(biāo)志的定位、提取及必要的預(yù)處理;其次是交通標(biāo)志的識(shí)別,包括交通標(biāo)志的特征提取和分類(lèi)。

如今,交通標(biāo)志的識(shí)別方法大多數(shù)都采用人工智能技術(shù),主要有下述兩類(lèi)形式[4]。一種是采用“人工特征+機(jī)器學(xué)習(xí)”的識(shí)別方法,如基于淺層神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)的特征識(shí)別等。在這種方法中,主要依靠先驗(yàn)知識(shí),人工設(shè)計(jì)特征,機(jī)器學(xué)習(xí)模型僅負(fù)責(zé)特征的分類(lèi)或識(shí)別,因此特征設(shè)計(jì)的好壞直接影響到整個(gè)系統(tǒng)性能的性能,而要發(fā)現(xiàn)一個(gè)好的特征,則依賴(lài)于研究人員對(duì)待解決的問(wèn)題的深入理解。另一種形式是近幾年發(fā)展起來(lái)的深度學(xué)習(xí)模型[5],如基于限制波爾茲曼機(jī)和基于自編碼器的深度學(xué)習(xí)模型以及卷積神經(jīng)網(wǎng)絡(luò)等。在這種方法中,無(wú)需構(gòu)造任何的人工特征,而是直接將圖像的像素作為輸入,通過(guò)構(gòu)建含有多個(gè)隱層的機(jī)器學(xué)習(xí)模型,模擬人腦認(rèn)知的多層結(jié)構(gòu),逐層地進(jìn)行信息特征抽取,最終形成更具推廣性和表達(dá)力的特征,從而提升識(shí)別的準(zhǔn)確性。

卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)模型之一,是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它利用一系列的卷積層、池化層以及一個(gè)全連接輸出層構(gòu)建一個(gè)多層的網(wǎng)絡(luò),來(lái)模仿人腦感知視覺(jué)信號(hào)的逐層處理機(jī)制,以實(shí)現(xiàn)視覺(jué)特征信號(hào)的自動(dòng)提取與識(shí)別。本文將深層卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于道路交通標(biāo)志的識(shí)別,通過(guò)構(gòu)建一個(gè)由二維卷積和池化處理交替組成的6層網(wǎng)絡(luò)來(lái)逐層地提取交通標(biāo)志圖像的特征,所形成的特征矢量由一個(gè)全連接輸出層來(lái)實(shí)現(xiàn)特征的分類(lèi)和識(shí)別。實(shí)驗(yàn)中將加入高斯噪聲、經(jīng)過(guò)位移、縮放和旋轉(zhuǎn)處理的交通標(biāo)志圖像以及實(shí)際道路采集交通標(biāo)志圖像分別構(gòu)成訓(xùn)練集和測(cè)試集,實(shí)驗(yàn)結(jié)果表明,本文所采用的方法具有良好的識(shí)別率和魯棒性。

1 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及原理

1.1 深度學(xué)習(xí)

神經(jīng)科學(xué)研究表明,哺乳動(dòng)物大腦皮層對(duì)信號(hào)的處理沒(méi)有一個(gè)顯示的過(guò)程[5],而是通過(guò)信號(hào)在大腦皮層復(fù)雜的層次結(jié)構(gòu)中的遞進(jìn)傳播,逐層地對(duì)信號(hào)進(jìn)行提取和表述,最終達(dá)到感知世界的目的。這些研究成果促進(jìn)了深度學(xué)習(xí)這一新興研究領(lǐng)域的迅速發(fā)展。

深度學(xué)習(xí)[4,6?7]的目的就是試圖模仿人腦感知視覺(jué)信號(hào)的機(jī)制,通過(guò)構(gòu)建含有多個(gè)隱層的多層網(wǎng)絡(luò)來(lái)逐層地對(duì)信號(hào)特征進(jìn)行新的提取和空間變換,以自動(dòng)學(xué)習(xí)到更加有效的特征表述,最終實(shí)現(xiàn)視覺(jué)功能。目前深度學(xué)習(xí)已成功地應(yīng)用到語(yǔ)音識(shí)別、圖像識(shí)別和語(yǔ)言處理等領(lǐng)域。在不同學(xué)習(xí)框架下構(gòu)建的深度學(xué)習(xí)結(jié)構(gòu)是不同的,如卷積神經(jīng)網(wǎng)絡(luò)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型。

1.2 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及原理

卷積神經(jīng)網(wǎng)絡(luò)受視覺(jué)系統(tǒng)的結(jié)構(gòu)啟發(fā)而產(chǎn)生,第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)計(jì)算模型是在Fukushima 的神經(jīng)認(rèn)知機(jī)中提出的[8],基于神經(jīng)元之間的局部連接和分層組織圖像轉(zhuǎn)換,將有相同參數(shù)的神經(jīng)元應(yīng)用于前一層神經(jīng)網(wǎng)絡(luò)的不同位置,得到一種平移不變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形式。后來(lái),LeCun 等人在該思想的基礎(chǔ)上,用誤差梯度設(shè)計(jì)并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)[9?10],在一些模式識(shí)別任務(wù)上得到優(yōu)越的性能。

卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一種有監(jiān)督的深度學(xué)習(xí)算法,無(wú)需事先知道輸入與輸出之間精確的數(shù)學(xué)表達(dá)式,只要用已知的模式對(duì)卷積神經(jīng)網(wǎng)絡(luò)加以訓(xùn)練,就可以學(xué)習(xí)到輸入與輸出之間的一種多層的非線性關(guān)系,這是非深度學(xué)習(xí)算法不能做到的。卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)是由一系列的卷積和池化層以及一個(gè)全連接的輸出層組成,可以采用梯度下降法極小化誤差函數(shù)對(duì)網(wǎng)絡(luò)中的權(quán)值和閾值參數(shù)逐層反向調(diào)節(jié),以得到網(wǎng)絡(luò)權(quán)值和閾值的最優(yōu)解,并可以通過(guò)增加迭代次數(shù)來(lái)提高網(wǎng)絡(luò)訓(xùn)練的精度。

1.2.1 前向傳播

在卷積神經(jīng)網(wǎng)絡(luò)的前向傳播中,輸入的原始圖像經(jīng)過(guò)逐層的卷積和池化處理后,提取出若干特征子圖并轉(zhuǎn)換成一維特征矢量,最后由全連接的輸出層進(jìn)行分類(lèi)識(shí)別。

在卷積層中,每個(gè)卷積層都可以表示為對(duì)前一層輸入圖像的二維卷積和非線性激勵(lì)函數(shù),其表達(dá)式可用式(1)表示:

式中:Yj 表示輸出層中第j 個(gè)輸出;Y l + 1i 是前一層(l + 1層)

的輸出特征(全連接的特征向量);n 是輸出特征向量的長(zhǎng)度;Wij 表示輸出層的權(quán)值,連接輸入i 和輸出j ;bj表示輸出層第j 個(gè)輸出的閾值;f (?) 是輸出層的非線性

1.2.2 反向傳播

在反向傳播過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法采用類(lèi)似于BP神經(jīng)網(wǎng)絡(luò)的梯度最速下降法,即按極小化誤差的方法反向傳播調(diào)整權(quán)值和閾值。網(wǎng)絡(luò)反向傳播回來(lái)的誤差是每個(gè)神經(jīng)元的基的靈敏度[12],也就是誤差對(duì)基的變化率,即導(dǎo)數(shù)。下面將分別求出輸出層、池采樣層和卷積層的神經(jīng)元的靈敏度。

(1)輸出層的靈敏度

對(duì)于誤差函數(shù)式(6)來(lái)說(shuō),輸出層神經(jīng)元的靈敏度可表示為:

在前向傳播過(guò)程中,得到網(wǎng)絡(luò)的實(shí)際輸出,進(jìn)而求出實(shí)際輸出與目標(biāo)輸出之間的誤差;在反向傳播過(guò)程中,利用誤差反向傳播,采用式(17)~式(20)來(lái)調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,極小化誤差;這樣,前向傳播和反向傳播兩個(gè)過(guò)程反復(fù)交替,直到達(dá)到收斂的要求為止。

2 深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法

2.1 應(yīng)用原理

交通標(biāo)志是一種人為設(shè)計(jì)的具有特殊顏色(如紅、黃、白、藍(lán)、黑等)和特殊形狀或圖形的公共標(biāo)志。我國(guó)的交通標(biāo)志主要有警告、禁令、指示和指路等類(lèi)型,一般采用顏色來(lái)區(qū)分不同的類(lèi)型,用形狀或圖形來(lái)標(biāo)示具體的信息。從交通標(biāo)志設(shè)計(jì)的角度來(lái)看,屬于不同類(lèi)型(不同顏色)的交通標(biāo)志在形狀或圖形上有較大的差異;屬于相同類(lèi)型(相同顏色)的標(biāo)志中同類(lèi)的指示信息標(biāo)志在形狀或圖形上比較接近,如警告標(biāo)志中的平面交叉路口標(biāo)志等。因此,從機(jī)器視覺(jué)的角度來(lái)分析,同類(lèi)型中同類(lèi)指示信息的標(biāo)志之間會(huì)比不同類(lèi)型的標(biāo)志之間更易引起識(shí)別錯(cuò)誤。換句話說(shuō),相比于顏色,形狀或圖形是正確識(shí)別交通標(biāo)志的關(guān)鍵因素。

因此,在應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志時(shí),從提高算法效率和降低錯(cuò)誤率綜合考慮,將交通標(biāo)志轉(zhuǎn)換為灰度圖像并作二值化處理后作為卷積神經(jīng)網(wǎng)絡(luò)的輸入圖像信息。圖2給出了應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志的原理圖。該網(wǎng)絡(luò)采用了6層交替的卷積層和池采樣層來(lái)逐層提取交通標(biāo)志的特征,形成的特征矢量由一個(gè)全連接的輸出層進(jìn)行識(shí)別。圖中:W1i(i=1,2,…,m1),W1(j j=1,2,…,m2),…,W1k(k=1,2,…,m(n?1))分別表示卷積層L1,L3,…,Ln - 1 的卷積核;Input表示輸入的交通標(biāo)志圖像;

Pool表示每個(gè)池采樣層的采樣池;map表示逐層提取的特征子圖;Y 是最終的全連接輸出。

交通標(biāo)志識(shí)別的判別準(zhǔn)則為:對(duì)于輸入交通標(biāo)志圖像Input,網(wǎng)絡(luò)的輸出矢量Y = [y1,y2 ,…,yC ],有yj = Max{y1,y2 ,…,yC},則Input ∈ j,即判定輸入的交通標(biāo)志圖像Input為第j 類(lèi)交通標(biāo)志。

2.2 交通標(biāo)志識(shí)別的基本步驟

深層神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志主要包括交通標(biāo)志的訓(xùn)練與識(shí)別,所以將交通標(biāo)志識(shí)別歸納為以下4個(gè)步驟:(1) 圖像預(yù)處理:利用公式Gray= 0.299R +0.587G + 0.114B 將彩色交通標(biāo)志圖像轉(zhuǎn)換為灰度圖像,再利用鄰近插值法將交通標(biāo)志圖像規(guī)格化,最后利用最大類(lèi)間方差將交通標(biāo)志圖像二值化。

(2)網(wǎng)絡(luò)權(quán)值和閾值的初始化:利用隨機(jī)分布函數(shù)將權(quán)值W 初始化為-1~1之間的隨機(jī)數(shù);而將閾值b 初始化為0。

(3)網(wǎng)絡(luò)的訓(xùn)練:利用經(jīng)過(guò)預(yù)處理的交通標(biāo)志圖像構(gòu)成訓(xùn)練集,對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過(guò)網(wǎng)絡(luò)前向傳播和反向傳播的反復(fù)交替處理,直到滿足識(shí)別收斂條件或達(dá)到要求的訓(xùn)練次數(shù)為止。

(4)交通標(biāo)志的識(shí)別:將實(shí)際采集的交通標(biāo)志圖像經(jīng)過(guò)預(yù)處理后,送入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行交通標(biāo)志特征的提取,然后通過(guò)一個(gè)全連接的網(wǎng)絡(luò)進(jìn)行特征分類(lèi)與識(shí)別,得到識(shí)別結(jié)果。

3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)主要選取了我國(guó)道路交通標(biāo)志的警告標(biāo)志、指示標(biāo)志和禁令標(biāo)志三類(lèi)中較常見(jiàn)的50幅圖像??紤]到在實(shí)際道路中采集到的交通標(biāo)志圖像會(huì)含有噪聲和出現(xiàn)幾何失真以及背景干擾等現(xiàn)象,因此在構(gòu)造網(wǎng)絡(luò)訓(xùn)練集時(shí),除了理想的交通標(biāo)志以外,還增加了加入高斯噪聲、經(jīng)過(guò)位移、旋轉(zhuǎn)和縮放處理和實(shí)際采集到的交通標(biāo)志圖像,因此最終的訓(xùn)練樣本為72個(gè)。其中,加入的高斯噪聲為均值為0,方差分別為0.1,0.2,0.3,圖像的位移、旋轉(zhuǎn)、縮放的參數(shù)分別隨機(jī)的分布在±10,±5°,0.9~1.1的范圍內(nèi)。圖3給出了訓(xùn)練集中的交通標(biāo)志圖像的示例。圖4是在實(shí)際道路中采集的交通標(biāo)志圖像構(gòu)成的測(cè)試集的示例。

在實(shí)驗(yàn)中構(gòu)造了一個(gè)輸入為48×48個(gè)神經(jīng)元、輸出為50 個(gè)神經(jīng)元的9 層網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入是像素為48 × 48 的規(guī)格化的交通標(biāo)志圖像,輸出對(duì)應(yīng)于上述的50種交通標(biāo)志的判別結(jié)果。網(wǎng)絡(luò)的激活函數(shù)采用S型函數(shù),如式(2)所示,其輸出范圍限制在0~1之間。

圖6是交通標(biāo)志的訓(xùn)練總誤差EN 曲線。在訓(xùn)練開(kāi)始的1 500次,誤差能迅速地下降,在迭代2 000次以后是一個(gè)平穩(wěn)的收斂過(guò)程,當(dāng)?shù)?0萬(wàn)次時(shí),總誤差EN可以達(dá)到0.188 2。

在交通標(biāo)志的測(cè)試實(shí)驗(yàn)中,為了全面檢驗(yàn)卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別性能,分別針對(duì)理想的交通標(biāo)志,加入高斯噪聲、經(jīng)過(guò)位移、旋轉(zhuǎn)和比例縮放以及采集的交通標(biāo)志圖像進(jìn)行實(shí)驗(yàn),將以上測(cè)試樣本分別送入到網(wǎng)絡(luò)中識(shí)別,表2給出了測(cè)試實(shí)驗(yàn)結(jié)果。

綜合分析上述實(shí)驗(yàn)結(jié)果,可以得到以下結(jié)論:(1)在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)過(guò)程中,整個(gè)網(wǎng)絡(luò)的誤差曲線快速平穩(wěn)的下降,體現(xiàn)出卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)具有良好的收斂性。

(2)經(jīng)逐層卷積和池采樣所提取的特征具有比例縮放和旋轉(zhuǎn)不變性,因此對(duì)于旋轉(zhuǎn)和比例縮放后的交通標(biāo)志能達(dá)到100%的識(shí)別率。

(3)與傳統(tǒng)的BP網(wǎng)絡(luò)識(shí)別方法[11]相比較,卷積神經(jīng)網(wǎng)絡(luò)能夠達(dá)到更深的學(xué)習(xí)深度,即在交通標(biāo)志識(shí)別時(shí)能夠得到更高的所屬類(lèi)別概率(更接近于1),識(shí)別效果更好。

(4)卷積神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)際采集的交通標(biāo)志圖像的識(shí)別率尚不能達(dá)到令人滿意的結(jié)果,主要原因是實(shí)際道路中采集的交通標(biāo)志圖像中存在著較嚴(yán)重的背景干擾,解決的辦法是增加實(shí)際采集的交通標(biāo)志訓(xùn)練樣本數(shù),通過(guò)網(wǎng)絡(luò)的深度學(xué)習(xí),提高網(wǎng)絡(luò)的識(shí)別率和魯棒性。

4 結(jié)論

本文將深層卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于道路交通標(biāo)志的識(shí)別,利用卷積神經(jīng)網(wǎng)絡(luò)的深層結(jié)構(gòu)來(lái)模仿人腦感知視覺(jué)信號(hào)的機(jī)制,自動(dòng)地提取交通標(biāo)志圖像的視覺(jué)特征并進(jìn)行分類(lèi)識(shí)別。實(shí)驗(yàn)表明,應(yīng)用深層卷積神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志取得了良好的識(shí)別效果。

在具體實(shí)現(xiàn)中,從我國(guó)交通標(biāo)志的設(shè)計(jì)特點(diǎn)考慮,本文將經(jīng)過(guò)預(yù)處理二值化的圖像作為網(wǎng)絡(luò)的輸入,主要是利用了交通標(biāo)志的形狀信息,而基本略去了顏色信息,其優(yōu)點(diǎn)是在保證識(shí)別率的基礎(chǔ)上,可以簡(jiǎn)化網(wǎng)絡(luò)的結(jié)構(gòu),降低網(wǎng)絡(luò)的計(jì)算量。在實(shí)際道路交通標(biāo)志識(shí)別中,將形狀信息和顏色信息相結(jié)合,以進(jìn)一步提高識(shí)別率和對(duì)道路環(huán)境的魯棒性,是值得進(jìn)一步研究的內(nèi)容。

此外,本文的研究沒(méi)有涉及到道路交通標(biāo)志的動(dòng)態(tài)檢測(cè),這也是今后可以進(jìn)一步研究的內(nèi)容。

參考文獻(xiàn)

[1] 劉平華,李建民,胡曉林,等.動(dòng)態(tài)場(chǎng)景下的交通標(biāo)識(shí)檢測(cè)與識(shí)別研究進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào),2013,18(5):493?503.

[2] SAHA S K,DULAL C M,BHUIYAN A A. Neural networkbased sign recognition [J]. International Journal of ComputerApplication,2012,50(10):35?41.

[3] STALLKAMP J,SCHLIOSING M,SALMENA J,et al. Man vs.computer:benchmarking machine learning algorithms for traf?fic sign recognition [J]. Neural Network,2012,32(2):323?332.

[4] 中國(guó)計(jì)算機(jī)學(xué)會(huì).深度學(xué)習(xí):推進(jìn)人工智能夢(mèng)想[EB/OL].[2013?06?10].http://ccg.org.cn.

[5] 鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào),2014,19(2):175?184.

[6] FUKUSHIMA K. Neocognition:a self ? organizing neural net?work model for a mechanism of pattern recognition unaffectedby shift in position [J]. Biological Cybernetics,1980,36(4):193?202.

[7] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient ? basedlearning applied to document recognition [J]. IEEE Journal andMagazines,1989,86(11):2278?2324.

[8] LECUN Y,BOTTOU L,BENGIO Y,et al. Backpropagationapplied to handwritten zip code recognition [J]. Neural Compu?tation,1989,1(4):541?551.

[9] CIRESAN D,MEIER U,MAsci J,et al. Multi?column deepneural network for traffic sign classification [J]. Neural Net?works,2012,32(2):333?338.

[10] NAGI J,DUCATELLE F,CARO D,et al. Max?pooling con?volution neural network for vision?based hand gesture recogni?tion [C]// 2011 IEEE International Conference on Signal andImage Processing Application. Kuala Lumpur:IEEE,2011,342?347.

[11] 楊斐,王坤明,馬欣,等.應(yīng)用BP神經(jīng)網(wǎng)絡(luò)分類(lèi)器識(shí)別交通標(biāo)志[J].計(jì)算機(jī)工程,2003,29(10):120?121.

[12] BUVRIE J. Notes on convolutional neural networks [EB/OL].[2006?11?12]. http://cogprints.org/5869/.

[13] 周開(kāi)利,康耀紅.神經(jīng)網(wǎng)絡(luò)模型及其Matlab 仿真設(shè)計(jì)[M].北京:清華大學(xué)出版社,2005.

[14] 孫志軍,薛磊,許陽(yáng)明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806?2810.

[15] 劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2014(7):1921?1930.

卷積神經(jīng)網(wǎng)絡(luò)的算法范文第3篇

關(guān)鍵詞:模式識(shí)別卷積神經(jīng)網(wǎng)絡(luò) google earth 應(yīng)用

中圖分類(lèi)號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007—3973(2012)009—087—02

隨著科技的進(jìn)步,許多發(fā)明、電子產(chǎn)品使人們的生活更加方便。生活經(jīng)常見(jiàn)到的有:筆記本電腦的指紋鎖、數(shù)碼相機(jī)的人像識(shí)別功能、電腦手寫(xiě)板、語(yǔ)音錄入設(shè)備、門(mén)禁中的虹膜識(shí)別技術(shù)等等,這些設(shè)備與技術(shù)中都包含了模式識(shí)別技術(shù)。這些看似抽象的技術(shù)與算法正與其他技術(shù)一起悄然的改變?nèi)藗兊纳睢?/p>

1 什么是模式識(shí)別

人們的許多感官功能看似簡(jiǎn)單,但用人工的辦法實(shí)現(xiàn)卻比較困難。人與人見(jiàn)面相互打招呼。在看見(jiàn)對(duì)方的面部后,人能夠很快的認(rèn)定這張臉是個(gè)人臉,而且我認(rèn)識(shí)他,應(yīng)該和他打招呼。這個(gè)看似簡(jiǎn)單的過(guò)程其實(shí)并不簡(jiǎn)單,我們不僅僅要識(shí)別五官,還要掃描輪廓,而且還要判斷是否認(rèn)識(shí)等等。可見(jiàn),很多看似簡(jiǎn)單的認(rèn)知過(guò)程,如果試圖用某一方法描述確實(shí)不宜。對(duì)人臉進(jìn)行模式識(shí)別就可以解決這個(gè)看似簡(jiǎn)單的問(wèn)題。

模式識(shí)別(Pattern Recognition)是指通過(guò)用計(jì)算機(jī)對(duì)事物或現(xiàn)象的各種形式的(光信息,聲信息,生物信息)信息進(jìn)行處理和和判讀,以對(duì)事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類(lèi)和解釋的過(guò)程,是人工智能的和信息捕獲的重要組成部分?,F(xiàn)在被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué),自然語(yǔ)言處理,生物特征識(shí)別,互聯(lián)網(wǎng)搜索等領(lǐng)域。

2 模式識(shí)別與google earth衛(wèi)星照片

在衛(wèi)星圖片中識(shí)別特定的目標(biāo),如道路,湖泊,森林等等,往往要運(yùn)用模式識(shí)別技術(shù),現(xiàn)在較為主流的是神經(jīng)網(wǎng)絡(luò)識(shí)別。上一代的技術(shù)室根據(jù)RGB提取的,在提取森林或湖泊的時(shí)候,有很多干擾顏色,對(duì)衛(wèi)星照片精度有很高要求。根據(jù)RGB提取效果不是十分理想,而且計(jì)算量大,對(duì)硬件有一定要求。

隨著神經(jīng)網(wǎng)絡(luò)識(shí)別技術(shù)的發(fā)展,現(xiàn)在計(jì)算機(jī)可自動(dòng)識(shí)別目標(biāo)。不必使用特殊的衛(wèi)星波段影像,小型機(jī)計(jì)算,只要從GOOGLE EARTH獲取的普通衛(wèi)星影像就可以自動(dòng)識(shí)別了。

Google Earth是Google公司開(kāi)發(fā)推出的一款虛擬地球儀軟件,它把衛(wèi)星照片、航空照相布置在一個(gè)地球的三維模型上,是一款全球地圖集成軟件。Google Earth與模式識(shí)別技術(shù)的綜合運(yùn)用,使其衛(wèi)星圖片在道路規(guī)劃,通信線路管理,土地勘察,遙感探測(cè)等等行業(yè)有著很大的運(yùn)用。

在實(shí)際情況下對(duì)衛(wèi)星圖片進(jìn)行模式識(shí)別,實(shí)現(xiàn)起來(lái)有許多困難,光線條件、大地背景、大氣云層情況影響以及由于拍攝角度或空氣密度等原因?qū)е抡掌谋徽瘴矬w的幾何變形等都會(huì)對(duì)識(shí)別效果有直接影響。這些都對(duì)識(shí)別算法要求很高。本文選用的神經(jīng)網(wǎng)絡(luò)識(shí)別方法,具有識(shí)別率高、對(duì)不規(guī)則物體識(shí)別效果好等優(yōu)點(diǎn),被廣泛運(yùn)用在許多領(lǐng)域。本文使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)對(duì)google earth 衛(wèi)星圖片進(jìn)行處理,幾乎不用對(duì)照片進(jìn)行預(yù)處理。這大大節(jié)省了運(yùn)算時(shí)間,而且避免了二次處理后對(duì)原始文件的污染,大量原始信號(hào)被最大程度地保留。

3 模式識(shí)別與卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)是近年發(fā)展起來(lái)并引起廣泛重視的一種高效識(shí)別方法。神經(jīng)網(wǎng)絡(luò)是受動(dòng)物神經(jīng)系統(tǒng)啟發(fā),利用大量簡(jiǎn)單處理單元互聯(lián)而構(gòu)成的復(fù)雜系統(tǒng),以解決復(fù)雜模式識(shí)別與行為控制問(wèn)題。目前,CNN已經(jīng)成為國(guó)內(nèi)外科學(xué)家研究的重點(diǎn)方向,特別是在模式識(shí)別領(lǐng)域。它的優(yōu)點(diǎn)是不需要對(duì)圖像進(jìn)行復(fù)雜的預(yù)處理,成為大家廣為使用的方法。CNN的基本結(jié)構(gòu)一般包括兩層:(1)特征提取層。每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,與其他特征間的位置關(guān)系也隨之確定下來(lái)。(2)特征映射層。網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。

4 卷積神經(jīng)網(wǎng)絡(luò)在衛(wèi)星圖片識(shí)別中的應(yīng)用

為提高google earth衛(wèi)星照片中目標(biāo)的識(shí)別率,創(chuàng)造性使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模式識(shí)別,其主要部分基本設(shè)計(jì)結(jié)構(gòu)如圖1所示。

圖1中,整個(gè)結(jié)構(gòu)模仿動(dòng)物的神經(jīng)結(jié)構(gòu),大量的單一識(shí)別單元被關(guān)聯(lián)成一個(gè)網(wǎng)路。 C層則是由復(fù)雜(complex)神經(jīng)元組成的神經(jīng)層,它的輸入連接是固定的,不可修改,顯示接收信心被激勵(lì)位置的近似變化。網(wǎng)絡(luò)中C層的最后一層為識(shí)別層,顯示模式識(shí)別的結(jié)果。S層為簡(jiǎn)單(simple)神經(jīng)元組成的神經(jīng)層,完成主要信息提取,其輸入連接是不是固定的,可在訓(xùn)練的過(guò)程中不斷修改。這個(gè)系統(tǒng)進(jìn)過(guò)不斷的訓(xùn)練,輸入照片的格式和大小會(huì)自動(dòng)地被識(shí)別,大大節(jié)省了前期的工作時(shí)間,提高了識(shí)別速度。

在訓(xùn)練集中同時(shí)需要常規(guī)積極樣本和消極樣本,樣本包括衛(wèi)星圖片中房屋和道路的1000個(gè)圖像目標(biāo)積極訓(xùn)練集。大多數(shù)基于學(xué)習(xí)方法的目標(biāo)物體識(shí)別使用一個(gè)大約為10?0的最小輸入窗口,好處是可以做到不遺漏任何重要信息。為了達(dá)到穩(wěn)定的效果,對(duì)所有原有的訓(xùn)練樣進(jìn)行色彩轉(zhuǎn)換和對(duì)比還原轉(zhuǎn)換,得到的積極樣本訓(xùn)練集有2400個(gè)目標(biāo)樣本。

5 實(shí)驗(yàn)結(jié)果

分兩個(gè)步驟進(jìn)行試驗(yàn),第一步對(duì)衛(wèi)星圖片進(jìn)行定位和裁剪等預(yù)處理,第二步選取合格衛(wèi)星圖片200個(gè)樣本圖片訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練后得到各層3個(gè)主要數(shù)據(jù):閾值、權(quán)值及神經(jīng)元細(xì)胞平面數(shù),然后使用優(yōu)化后的神經(jīng)網(wǎng)絡(luò)識(shí)別機(jī)對(duì)200個(gè)測(cè)試樣本進(jìn)行檢查,其正確的識(shí)別率達(dá)到97%。實(shí)驗(yàn)要注意訓(xùn)練的時(shí)間,系統(tǒng)過(guò)度訓(xùn)練后,識(shí)別率會(huì)不斷提高,但訓(xùn)練時(shí)間的不斷增加,測(cè)試失敗率到最小值后出現(xiàn)及其微細(xì)震蕩,造成識(shí)別率的小幅波動(dòng)。(見(jiàn)圖2)

實(shí)驗(yàn)表明,卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于衛(wèi)星圖片目標(biāo)識(shí)別是完全可行的,訓(xùn)練樣本越豐富則則識(shí)別率越高。與傳統(tǒng)模式識(shí)別方法相比有更高的識(shí)別率和抗干擾性。本文采用一種改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別機(jī)制對(duì)衛(wèi)星照片中的目標(biāo)物體進(jìn)行識(shí)別。該識(shí)別方法通過(guò)對(duì)目標(biāo)物體圖片的學(xué)習(xí),優(yōu)化了系統(tǒng)中的關(guān)鍵參數(shù)的權(quán)值。大大提高了目標(biāo)物體的識(shí)別率。

參考文獻(xiàn):

[1] 高雋.智能信息處理方法導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2004.

[2] 高雋.人工神經(jīng)網(wǎng)絡(luò)原理及仿真實(shí)例[M].北京:機(jī)械工業(yè)出版社,2003.

[3] 邊肇祺.模式識(shí)別[M].北京:清華大學(xué)出版社,1987.

卷積神經(jīng)網(wǎng)絡(luò)的算法范文第4篇

關(guān)鍵詞:物聯(lián)網(wǎng);人臉識(shí)別;視頻網(wǎng)絡(luò)

1物聯(lián)網(wǎng)及人臉識(shí)別視頻網(wǎng)絡(luò)技術(shù)的發(fā)展

1.1物聯(lián)網(wǎng)視頻網(wǎng)絡(luò)技術(shù)的發(fā)展?fàn)顩r

最近幾年,隨著物聯(lián)網(wǎng)技術(shù)、圖像處理技術(shù)以及數(shù)據(jù)傳輸技術(shù)的快速發(fā)展,視頻網(wǎng)絡(luò)技術(shù)應(yīng)運(yùn)而生并取得了長(zhǎng)足的發(fā)展。當(dāng)前,視頻網(wǎng)絡(luò)系統(tǒng)作為一種模擬數(shù)字控制系統(tǒng),其具有非常成熟和穩(wěn)定的性能,已廣泛應(yīng)用于實(shí)際工程中。雖然數(shù)字系統(tǒng)發(fā)展迅速,但尚未完全形成相應(yīng)的體系,因此,混合數(shù)字和模擬應(yīng)用程序逐漸遷移到數(shù)字系統(tǒng)將成為未來(lái)發(fā)展的主要趨勢(shì)之一。當(dāng)前,國(guó)內(nèi)外市場(chǎng)上主流的產(chǎn)品主要有兩種,即模擬視頻數(shù)字網(wǎng)絡(luò)系統(tǒng)、數(shù)字視頻網(wǎng)絡(luò)系統(tǒng)。前者技術(shù)先進(jìn),性能穩(wěn)定,被廣泛應(yīng)用于實(shí)際工程應(yīng)用中,特別是大中型視頻網(wǎng)絡(luò)項(xiàng)目。后者作為一種新興技術(shù),是一種通過(guò)以計(jì)算機(jī)技術(shù)和視頻壓縮為核心的新型視頻網(wǎng)絡(luò)系統(tǒng),其有效的避免了模擬系統(tǒng)所存在的一些弊端,但未來(lái)仍需要進(jìn)行不斷的改進(jìn)和發(fā)展。外部集成、視頻數(shù)字化、視頻網(wǎng)絡(luò)連接、系統(tǒng)集成是未來(lái)視頻網(wǎng)絡(luò)系統(tǒng)發(fā)展的重要研究方向。數(shù)字化是網(wǎng)絡(luò)的前提,而網(wǎng)絡(luò)是系統(tǒng)集成的基礎(chǔ)。因此,視頻網(wǎng)絡(luò)領(lǐng)域的兩個(gè)最大發(fā)展特征是:數(shù)字化和網(wǎng)絡(luò)化。

1.2人臉識(shí)別視頻網(wǎng)絡(luò)的發(fā)展?fàn)顩r

人臉識(shí)別技術(shù)作為模式識(shí)別領(lǐng)域中的一項(xiàng)前沿課題,截止目前,已有三十多年的研究歷史。人臉識(shí)別目前是模式識(shí)別和人工智能的研究熱點(diǎn),目前主要采用AdaBoost分類(lèi)器進(jìn)行人臉區(qū)域的檢測(cè),人臉識(shí)別研究的內(nèi)容大致分為以下內(nèi)容:(1)人臉檢測(cè):其指的是在不同場(chǎng)景下的人臉檢測(cè)及其位置。人臉檢測(cè)是通過(guò)在整個(gè)輸入的圖像中找到一個(gè)合適的人臉區(qū)域?yàn)槟康模⒃搱D像分為人臉區(qū)域和非人臉區(qū)域兩部分。在實(shí)際的某些理想情況下,由于可以人為手動(dòng)控制拍攝環(huán)境,因此,可以輕松確定人臉的位置;但是在大多數(shù)情況下,由于場(chǎng)景更加復(fù)雜,因此,人臉的位置是未知的。因而在實(shí)際的人臉識(shí)別視頻網(wǎng)絡(luò)過(guò)程中,首先必須確定識(shí)別場(chǎng)景中是否有人臉的存在,如果存在人臉,再進(jìn)一步確定圖像中人臉的具體區(qū)域。(2)人臉識(shí)別:將系統(tǒng)檢測(cè)到的人臉特征信息與系統(tǒng)數(shù)據(jù)庫(kù)中存在的已知人臉信息進(jìn)行充分識(shí)別與匹配,以此獲取相關(guān)信息,該過(guò)程的本質(zhì)是選擇正確的人臉模型和匹配策略。在實(shí)際生活的應(yīng)用當(dāng)中,由于成人的面部模型處于不斷變化當(dāng)中,且容易受到時(shí)間、光線、相機(jī)角度等方面的差異,因而很難用一張圖紙表達(dá)同一個(gè)人的面部圖像,這使得提取特征變得困難,由于大量的原始灰度圖像數(shù)據(jù),神經(jīng)元的數(shù)量通常很大并且訓(xùn)練時(shí)間很長(zhǎng)。除此之外,完全依賴(lài)于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法具有當(dāng)前計(jì)算機(jī)系統(tǒng)固有的局限性,盡管神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的感應(yīng)能力,但是隨著樣本數(shù)量的增加,其性能可能會(huì)大大降低。簡(jiǎn)而言之,由于年齡,表情,傾斜度和其他表征對(duì)象的因素的多樣性,很難進(jìn)行人臉識(shí)別,因此,識(shí)別該對(duì)象的效果仍遠(yuǎn)未達(dá)到現(xiàn)實(shí)。目前,普遍采用AdaBoost算法來(lái)對(duì)出現(xiàn)在視頻中的人臉區(qū)域進(jìn)行檢測(cè),以此達(dá)到實(shí)時(shí)獲取人臉圖像的目的,AdaBoost算法的原理是通過(guò)訓(xùn)練得到多個(gè)不同的弱分類(lèi)器并將這些弱分類(lèi)器通過(guò)疊加、級(jí)聯(lián)得到強(qiáng)分類(lèi)器,AdaBoost算法流程如圖1所示。(3)表情分析:即對(duì)面部表情信息(幸福,悲傷,恐懼,驚奇等)進(jìn)行分析和分類(lèi)。當(dāng)前,由于問(wèn)題的復(fù)雜性,正在對(duì)面部表情的分析進(jìn)行研究,它仍處于起步階段。心理學(xué)表明,至少有六種與不同面部表情相關(guān)的情緒:幸福,悲傷,驚奇,恐懼,憤怒和惡心。即與沒(méi)有表情的面部特征相比,這六個(gè)表情的面部特征具有相對(duì)獨(dú)特的運(yùn)動(dòng)規(guī)則。(4)生理分類(lèi):分析已知面孔的生理特征,并獲得相關(guān)信息,例如種族、年齡、性別和職業(yè)。顯然,此過(guò)程需要大量知識(shí),通常非常困難和復(fù)雜。

2物聯(lián)網(wǎng)卷積神經(jīng)網(wǎng)絡(luò)人臉識(shí)別方法分析

卷積神經(jīng)網(wǎng)絡(luò)是專(zhuān)門(mén)設(shè)計(jì)用于識(shí)別二維形狀的多層感知器。通常,可以使用梯度下降和反向傳播算法來(lái)訓(xùn)練網(wǎng)絡(luò)。從結(jié)構(gòu)上講,卷積神經(jīng)網(wǎng)絡(luò)包含三個(gè)概念:局部感受野、權(quán)重共享和下采樣,使其在平移,縮放,傾斜或其他形式的變形中相當(dāng)穩(wěn)定。當(dāng)前,卷積神經(jīng)網(wǎng)絡(luò)被廣泛用于模式識(shí)別,圖像處理和其他領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于提取目標(biāo)人臉圖像的特征。訓(xùn)練網(wǎng)絡(luò)后,將先前測(cè)試的模型用作面部分類(lèi)器,微調(diào)可以縮短網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間。卷積神經(jīng)網(wǎng)絡(luò)的基本體系結(jié)構(gòu)是輸入層,卷積層(conv),歸約層(字符串),完全連接層和輸出層(分類(lèi)器)。通常有多個(gè)卷積層+速記層,此程序?qū)崿F(xiàn)的CNN模型是LeNet5,并且有兩個(gè)“卷積+下采樣層”LeNetConvPoolLayer。完全連接的層等效于MLP(多層感知器)中的HiddenLayer。輸出層是一個(gè)分類(lèi)器,通常使用softmax回歸(有些人稱(chēng)為直接邏輯回歸,它實(shí)際上是多類(lèi)邏輯回歸)。LogisticRegression也直接提供了該軟件。人臉圖像在視頻監(jiān)控中實(shí)時(shí)發(fā)送到計(jì)算機(jī),并且面部區(qū)域部分由AdaBoost算法確定。在預(yù)處理之后,將臉部圖像注入到新訓(xùn)練的預(yù)訓(xùn)練模型中進(jìn)行識(shí)別。該過(guò)程如圖2所示。

3物聯(lián)網(wǎng)人臉識(shí)別視頻網(wǎng)絡(luò)多目標(biāo)算法優(yōu)化

多目標(biāo)優(yōu)化問(wèn)題的實(shí)質(zhì)是協(xié)調(diào)并在各個(gè)子目標(biāo)之間達(dá)成折衷,以便使不同的子目標(biāo)功能盡可能地最佳。工程優(yōu)化的大多數(shù)實(shí)際問(wèn)題都是多用途優(yōu)化問(wèn)題,目標(biāo)通常相互沖突。長(zhǎng)期以來(lái),多目標(biāo)優(yōu)化一直受到人們的廣泛關(guān)注,現(xiàn)在已經(jīng)開(kāi)發(fā)出更多的方法來(lái)解決多目標(biāo)優(yōu)化問(wèn)題。如果多標(biāo)準(zhǔn)優(yōu)化沒(méi)有最差的解決方案,那么通常會(huì)有無(wú)限多的解決方案,這并不是最差的解決方案。解決面部強(qiáng)調(diào)時(shí),人們不能直接應(yīng)用許多次等解決方案。作為最后的決定,我們只能選擇質(zhì)量不是最低,最能滿足我們要求的解決方案。找到最終解決方案的方法主要有三種。因此,只有通過(guò)找到大量有缺陷的解決方案以形成有缺陷的解決方案的子集,然后根據(jù)我們的意圖找到最終的解決方案?;诖耍嗄繕?biāo)算法是通過(guò)將多準(zhǔn)則問(wèn)題轉(zhuǎn)變?yōu)橐粋€(gè)關(guān)鍵問(wèn)題,這種方法也可以視為輔助手段。這種方法的棘手部分是如何獲取實(shí)際體重信息,至于面部特征,我們將建議一種基于權(quán)重的多功能優(yōu)化算法,該算法可以更好地反映臉部的特征。我們將人臉的每個(gè)特征都視為多個(gè)目標(biāo),并且在提取面部特征時(shí),面部特征會(huì)受到外界的強(qiáng)烈影響,例如位置,光照條件和強(qiáng)度的變化,并且所有部位和每個(gè)部位都會(huì)受到影響。因此,我們可以使用加權(quán)方法從每個(gè)受影響的分?jǐn)?shù)中提取不同的權(quán)重。通過(guò)開(kāi)展試驗(yàn)測(cè)試,結(jié)果表明,在有多目標(biāo)優(yōu)化的算法的作用下,比在沒(méi)有多目標(biāo)優(yōu)化的算法作用下人臉識(shí)別效果有所提高,大約提高了5—10個(gè)百分點(diǎn)。

4結(jié)論

鑒于多準(zhǔn)則優(yōu)化算法在科學(xué)研究的各個(gè)領(lǐng)域中的廣泛使用,本文提出了一種多準(zhǔn)則優(yōu)化算法來(lái)對(duì)復(fù)雜的多準(zhǔn)則人臉圖像上的各種面部特征進(jìn)行特征提取的多準(zhǔn)則優(yōu)化,以達(dá)到提高人臉識(shí)別率的目標(biāo)、提高整個(gè)人臉識(shí)別視頻網(wǎng)絡(luò)系統(tǒng)的性能。

參考文獻(xiàn)

[1]江斌,桂冠.基于物聯(lián)網(wǎng)的人臉識(shí)別視頻網(wǎng)絡(luò)的優(yōu)化方法研究[C]//物聯(lián)網(wǎng)與無(wú)線通信-2018年全國(guó)物聯(lián)網(wǎng)技術(shù)與應(yīng)用大會(huì)論文集.2018.

[2]余雷.基于物聯(lián)網(wǎng)的遠(yuǎn)程視頻監(jiān)控優(yōu)化方法研究[J].科技通報(bào),2014(6).

[3]張勇.遠(yuǎn)程視頻監(jiān)控系統(tǒng)的傳輸技術(shù)的實(shí)現(xiàn)[D].電子科技大學(xué),2011(9)

卷積神經(jīng)網(wǎng)絡(luò)的算法范文第5篇

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);反向傳播算法;仿射變換;sloth;python;theano

中圖分類(lèi)號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)04-0096-02

隨著環(huán)保壓力的增大,各國(guó)已經(jīng)開(kāi)始利用攝像頭來(lái)監(jiān)控漁船的捕撈活動(dòng),并運(yùn)用機(jī)器學(xué)習(xí)技術(shù)來(lái)對(duì)漁船捕獲的魚(yú)類(lèi)圖像進(jìn)行自動(dòng)的識(shí)別與分類(lèi)從而扼制非法的捕撈。

目前計(jì)算機(jī)性能的飛速發(fā)展、圖像數(shù)據(jù)采集設(shè)備的廉價(jià)與普及促進(jìn)了機(jī)器學(xué)習(xí)理論與方法的發(fā)展,數(shù)據(jù)科學(xué)家已經(jīng)可以構(gòu)建復(fù)雜的機(jī)器學(xué)習(xí)模型并利用從廉價(jià)的數(shù)碼攝像頭設(shè)備采集到大量的數(shù)據(jù)快速的訓(xùn)練模型。吳一全等[1]采用了手動(dòng)選擇特征的方法, 基于支持向量機(jī)對(duì)5種魚(yú)進(jìn)行識(shí)別,各類(lèi)魚(yú)的識(shí)別精度平均為83.33%。萬(wàn)鵬等[2]計(jì)算魚(yú)的長(zhǎng)軸方向各段的平均寬度與長(zhǎng)度的比值并將其作為特征參數(shù),利用3層BP(back propagation)神經(jīng)網(wǎng)絡(luò)對(duì)鯽魚(yú)和鯉魚(yú)進(jìn)行識(shí)別,識(shí)別精度為92.50%。但是這些方法都是基于手動(dòng)選擇特征的機(jī)器學(xué)習(xí)方法,手動(dòng)選擇特征的方法基于人的經(jīng)驗(yàn)選擇特征, 會(huì)導(dǎo)致遺漏重要的特征, 導(dǎo)致分類(lèi)準(zhǔn)確率低。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)能在訓(xùn)練過(guò)程中自動(dòng)學(xué)到“好”特征,避免了手動(dòng)選擇特征。本次研究采用了基于VGG16的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)進(jìn)行魚(yú)類(lèi)分類(lèi),并運(yùn)用了數(shù)據(jù)集擴(kuò)增方法,dropout方法, batch normalization方法來(lái)降低模型的過(guò)擬合。但是原始數(shù)據(jù)集背景干擾很大,船上的人、物體和甲板上捕獲的魚(yú)類(lèi)糅合在一起,直接采用原始數(shù)據(jù)集訓(xùn)練會(huì)導(dǎo)致訓(xùn)練出的模型穩(wěn)定性不好。

基于上述分析,本文從原始數(shù)據(jù)出發(fā),設(shè)計(jì)了一種目標(biāo)檢測(cè)方法,即在原始訓(xùn)練數(shù)據(jù)已經(jīng)有魚(yú)類(lèi)類(lèi)別標(biāo)簽的基礎(chǔ)上,再標(biāo)注上一層表示魚(yú)類(lèi)在圖片中坐標(biāo)位置的標(biāo)簽,然后利用這些二次標(biāo)注過(guò)的數(shù)據(jù)訓(xùn)練模型,就可得到一個(gè)既能預(yù)測(cè)魚(yú)在圖片中的坐標(biāo)位置又能預(yù)測(cè)魚(yú)的分類(lèi)的糅合模型。因?yàn)檫@兩種預(yù)測(cè)網(wǎng)絡(luò)在卷積層共同訓(xùn)練一套濾波器,所以在訓(xùn)練濾波器預(yù)測(cè)魚(yú)的坐標(biāo)位置時(shí),訓(xùn)練完成的濾波器便能在另一方面輔助預(yù)測(cè)魚(yú)的分類(lèi),使特征提取只專(zhuān)注于魚(yú)的坐標(biāo)區(qū)域,這樣就有效的排除了背景干擾。實(shí)驗(yàn)結(jié)果顯示此模型具有很高的識(shí)別精度和魯棒性,能在背景干擾很強(qiáng)的圖片數(shù)據(jù)集上準(zhǔn)確的完成魚(yú)類(lèi)的識(shí)別和分類(lèi)。

1 模型構(gòu)建

實(shí)驗(yàn)數(shù)據(jù)來(lái)源于某組織舉辦的圖像識(shí)別競(jìng)賽。數(shù)據(jù)通過(guò)固定在漁船某個(gè)位置的攝像頭采集,通過(guò)采集甲板上捕獲的魚(yú)類(lèi)照片,共采集到3777張共8個(gè)分類(lèi)的照片作為訓(xùn)練樣本,分別為長(zhǎng)鰭金槍魚(yú)、大眼金槍魚(yú)、黃鰭金槍魚(yú)、鰍魚(yú)、月魚(yú)、鯊魚(yú)、其他、無(wú)魚(yú)類(lèi)(表示沒(méi)有魚(yú)出現(xiàn)在照片里)。按一定比例做分層采樣,其中2984張用作訓(xùn)練集,394張用作驗(yàn)證集,399張用作測(cè)試集。訓(xùn)練集用經(jīng)過(guò)錯(cuò)切幅度值為0.15的仿射變換作數(shù)據(jù)集擴(kuò)增來(lái)降低過(guò)擬合,因?yàn)樵趶脑紨?shù)據(jù)集上分層采樣得來(lái)的小樣本數(shù)據(jù)集上驗(yàn)證顯示當(dāng)錯(cuò)切幅度值等于0.15時(shí),模型在測(cè)試集上的分類(lèi)精度最高。

在訓(xùn)練集上采用sloth@款圖片標(biāo)注工具手動(dòng)標(biāo)注魚(yú)類(lèi)在圖片中的位置,并把這些標(biāo)注結(jié)果和已有的魚(yú)類(lèi)分類(lèi)標(biāo)注結(jié)果當(dāng)做輸入數(shù)據(jù)和圖片數(shù)據(jù)一起傳給模型訓(xùn)練。

本次研究的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。卷積層采用了被廣泛使用在圖像分類(lèi)任務(wù)中的VGG模型的卷積濾波器的權(quán)重[3],并在其模型上作微調(diào)來(lái)實(shí)現(xiàn)本次研究的目標(biāo)。

輸入層將不同尺寸的圖片統(tǒng)一轉(zhuǎn)換成244*244大小。

匯合層(max pooling)是指取一小塊像素區(qū)域的像素最大值,作用是可減少數(shù)據(jù)量,控制過(guò)擬合。

全連接層的權(quán)重采用反向傳播算法(back propagation)訓(xùn)練,參數(shù)尋優(yōu)采用隨機(jī)梯度下降方法。動(dòng)態(tài)學(xué)習(xí)率設(shè)定方法采用了 Adam方法,可根據(jù)損失函數(shù)在迭代訓(xùn)練中產(chǎn)生的信息自動(dòng)調(diào)整學(xué)習(xí)率。

激活層函數(shù)采用RELU方法,公式為。最后一層預(yù)測(cè)魚(yú)類(lèi)分類(lèi)的激活曾需要把對(duì)應(yīng)于各個(gè)分類(lèi)的分?jǐn)?shù)值轉(zhuǎn)換成總和為1的對(duì)應(yīng)于各個(gè)分類(lèi)的概率值,所以激活函數(shù)采用Softmax方法,公式如下

由于卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)強(qiáng)大的表示能力,為了降低模型的過(guò)擬合以及加快模型的訓(xùn)練速度,本次工作在激活曾后面再依次加入一層dropout層和batch normalization層。dropout層是指隨機(jī)的舍棄一部分激活曾神經(jīng)元的值,并將其置為0[4]。batch normalization層是指規(guī)范化每層激活層的輸出,并加入4個(gè)規(guī)范化參數(shù)來(lái)抑制模型訓(xùn)練過(guò)程中的反規(guī)范化現(xiàn)象[5]。

2 程序?qū)崿F(xiàn)

具體的軟件實(shí)現(xiàn)采用python編程語(yǔ)言和keras框架平臺(tái)。keras底層采用輕量易用的theano框架,并依賴(lài)計(jì)算機(jī)的顯卡來(lái)進(jìn)行更快速的訓(xùn)練工作。整個(gè)圖像分類(lèi)的軟件框架主要由4部分組成,分別是輸入圖像數(shù)據(jù)處理、模型各個(gè)網(wǎng)絡(luò)層的實(shí)現(xiàn)及拼接、模型編譯、模型訓(xùn)練及預(yù)測(cè)。下面按數(shù)據(jù)在模型中流動(dòng)的順序具體的闡述各個(gè)部分的程序?qū)崿F(xiàn)。

2.1 輸入圖像數(shù)據(jù)處理

五常市| 鲜城| 鄢陵县| 温宿县| 兴安县| 谢通门县| 稻城县| 手机| 大同县| 遵义市| 锦州市| 宜宾市| 宁强县| 棋牌| 吉水县| 丘北县| 上林县| 南京市| 泗洪县| 本溪| 革吉县| 永年县| 昭觉县| 台东市| 紫云| 承德县| 丰原市| 邵阳县| 武清区| 巴彦淖尔市| 都昌县| 平原县| 繁昌县| 刚察县| 衡东县| 乌恰县| 周至县| 台北市| 金沙县| 皋兰县| 屯昌县|