前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的核心范文,相信會(huì)為您的寫作帶來(lái)幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);古玩圖片;圖像識(shí)別
DOIDOI:10.11907/rjdk.162768
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005017405
0引言
隨著電子商務(wù)的發(fā)展,大批藝術(shù)品交易網(wǎng)站隨之興起,藏品交易規(guī)模也越來(lái)越大。而當(dāng)前的古玩網(wǎng)上交易平臺(tái)還不能夠?qū)崿F(xiàn)對(duì)現(xiàn)有藏品圖片的自動(dòng)分類,客戶在尋找目標(biāo)藏品時(shí)不得不在眾多圖片中一一瀏覽。因此需要一種有效的方法來(lái)完成面向圖像內(nèi)容的分類。
在基于內(nèi)容的圖像檢索領(lǐng)域,常使用人工設(shè)計(jì)的特征-如根據(jù)花瓶、碗、盤子的不同形態(tài)特征:目標(biāo)輪廓的圓度、質(zhì)心、寬高比等[1],繼而使用BP神經(jīng)網(wǎng)絡(luò)、SVM分類器等對(duì)特征進(jìn)行學(xué)習(xí)分類。文獻(xiàn)[2]基于植物葉片的形狀特征,如葉片形狀的狹長(zhǎng)度、矩形度、球狀性、圓形度、偏心率、周長(zhǎng)直徑比等,利用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)植物葉片進(jìn)行分類。文獻(xiàn)[3]研究印品圖像的各類形狀缺陷,利用圖像缺陷形狀的輪廓長(zhǎng)度、面積和圓形度等幾何特征,導(dǎo)入SVM分類器進(jìn)行訓(xùn)練,得到分類器模型實(shí)現(xiàn)分類。文獻(xiàn)[4]提出了一種基于Zernike矩的水果形狀分類方法,通過提取圖像中具有旋轉(zhuǎn)不變性的Zernike矩特征,并運(yùn)用PCA方法確定分類需要的特征數(shù)目,最后將這些特征輸入到SVM分類器中,完成水果形狀的分類。上述方法都要求對(duì)目標(biāo)形狀分割的準(zhǔn)確性,而分割過程中由于存在目標(biāo)陰影、目標(biāo)分割不完整問題,會(huì)影響到人工特征的準(zhǔn)確選取。除了上述人工特征外,最常用的特征是HOG[5,6]、SIFT[7,8]等。HOG的核心思想是所檢測(cè)的局部物體外形能夠被光強(qiáng)梯度或邊緣方向的分布所描述。HOG表示的是邊緣結(jié)構(gòu)特征,因此可以描述局部形狀信息。SIFT在圖像的空間尺度中尋找極值點(diǎn),并提取出其位置、尺度、旋轉(zhuǎn)不變量。SIFT特征對(duì)于旋轉(zhuǎn)、尺度縮放、亮度變化保持不變。但是,這兩種特征在實(shí)際應(yīng)用中,描述子生成過程冗長(zhǎng)、計(jì)算量太大。而且在上述方法征設(shè)計(jì)需要啟發(fā)式的方法和專業(yè)知識(shí),很大程度上依靠個(gè)人經(jīng)驗(yàn)。
卷積神經(jīng)網(wǎng)絡(luò)不需要手動(dòng)設(shè)計(jì)提取特征,可以直接將圖片作為輸入,隱式地學(xué)習(xí)多層次特征,進(jìn)而實(shí)現(xiàn)分類[9]。相比目前常用的人工設(shè)計(jì)特征然后利用各分類器,具有明顯的優(yōu)勢(shì)。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)已成為語(yǔ)音、圖像識(shí)別領(lǐng)域研究熱點(diǎn)。它的權(quán)值共享特點(diǎn)使得網(wǎng)絡(luò)復(fù)雜度降低,權(quán)值數(shù)量減少。而且,卷積神經(jīng)網(wǎng)絡(luò)直接將圖片作為輸入,避免了復(fù)雜的特征設(shè)計(jì)和提取,具有一定的平移、縮放和扭曲不變性[10]。本文采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)古玩圖片進(jìn)行分類。首先,將背景分離后的圖片作為網(wǎng)絡(luò)的輸入,相比原圖作為輸入,此方法的網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單。然后,卷積層通過不同的卷積核對(duì)輸入圖片進(jìn)行卷積得到不同特征圖,采樣層進(jìn)一步對(duì)特征圖進(jìn)行二次提取,最終提取到合適的特征輸入分類器進(jìn)行分類,而在卷積層、采樣層征圖的大小、數(shù)目都會(huì)影響到網(wǎng)絡(luò)的分類能力。因此,本文通過優(yōu)化網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)達(dá)到較好的分類效果。
1卷積神經(jīng)網(wǎng)絡(luò)
1989年,LECUN等[11]提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN),CNN是一種帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),一般至少有2個(gè)非線性可訓(xùn)練的卷積層、2個(gè)非線性的固定采樣層和1個(gè)全連接層,一共至少5個(gè)隱含層[12]。百度于2012年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于自然圖像OCR識(shí)別和人臉識(shí)別,此后深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識(shí)別和理解。從百度經(jīng)驗(yàn)來(lái)看,深度學(xué)習(xí)應(yīng)用于圖像識(shí)別不但大大提升了準(zhǔn)確性,而且避免了人工特征抽取的時(shí)間消耗,從而大大提高了在線計(jì)算效率[13]。
卷積神經(jīng)網(wǎng)絡(luò)作為一種高效的深度學(xué)習(xí)方法[14],在許多圖像識(shí)別方面取得了很好的成效[1519]。該網(wǎng)絡(luò)作為一種多隱層神經(jīng)網(wǎng)絡(luò),可以提取圖像的多層次特征進(jìn)行識(shí)別。
卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積層和采樣層,卷積層通過可學(xué)習(xí)的卷積核對(duì)輸入圖片進(jìn)行卷積得到特征圖,卷積操作即加強(qiáng)了輸入圖片的某種特征,并且降低噪聲。卷積之后的結(jié)果通過激活函數(shù)(通常選擇Sigmoid函數(shù)或Tanh函數(shù))作用輸出構(gòu)成該層的特征圖。特征圖上的每一個(gè)神經(jīng)元只與輸入圖片的一個(gè)局部區(qū)域連接,每個(gè)神經(jīng)元提取的是該局部區(qū)域的特征,所有神經(jīng)元綜合起來(lái)就得到了全局特征,與神經(jīng)元相連接的局部區(qū)域即為局部感受野[20]。而在卷積層中一般存在多張?zhí)卣鲌D,同一張?zhí)卣鲌D使用相同的卷積核,不同特征圖使用不同的卷積核[21],此特點(diǎn)稱為權(quán)值共享,即同一張?zhí)卣鲌D上的所有神經(jīng)元通過相同的卷積核連接局部感受野。卷積神經(jīng)網(wǎng)絡(luò)的局部感受野和嘀倒蠶硤氐憒蟠蠹跎倭送絡(luò)訓(xùn)練的參數(shù)個(gè)數(shù),降低了網(wǎng)絡(luò)模型的復(fù)雜度。
采樣層對(duì)卷積層提取到的特征圖進(jìn)行局部非重疊采樣,即把特征圖分為互不重疊的N×N個(gè)子區(qū)域,對(duì)每個(gè)子區(qū)域進(jìn)行采樣。卷積神經(jīng)網(wǎng)絡(luò)的采樣方式一般有兩種:最大值采樣和均值采樣。最大值采樣即選取區(qū)域內(nèi)所有神經(jīng)元的最大值作為采樣值,均值采樣為區(qū)域內(nèi)所有神經(jīng)元的平均值作為采樣值。最大值采樣偏向于提取目標(biāo)的特征信息,而均值采樣偏向于提取背景的特征信息[22]。采樣后的特征平面在保留了區(qū)分度高特征的同時(shí)大大減少了數(shù)據(jù)量,它對(duì)一定程度的平移、比例縮放和扭曲具有不變性。
卷積神經(jīng)網(wǎng)絡(luò)通過卷積層和采樣層的循環(huán)往復(fù)提取到圖像由低層次到高層次的特征,最后一般通過全連接層將所有特征圖展開得到一維向量,然后輸入到分類器進(jìn)行分類。
卷積神經(jīng)網(wǎng)絡(luò)在處理二維圖像時(shí),卷積層中每個(gè)神經(jīng)元的輸入與上一層的局部感受野相連接,并提取該局部的特征,權(quán)值共享特點(diǎn)又使得各神經(jīng)元保持了原來(lái)的空間關(guān)系,將這些感受不同局部區(qū)域的神經(jīng)元綜合起來(lái)就得到了全局信息。采樣層對(duì)特征圖進(jìn)行局部特征提取,不會(huì)改變神經(jīng)元之間的空間關(guān)系,即二維圖像經(jīng)過卷積層、采樣層仍然保持二維形式。因此,卷積神經(jīng)網(wǎng)絡(luò)有利于提取形狀方面的特征。雖然卷積神經(jīng)網(wǎng)絡(luò)的局部感受野、權(quán)值共享和子采樣使網(wǎng)絡(luò)大大減少了需要訓(xùn)練參數(shù)的個(gè)數(shù),但是該網(wǎng)絡(luò)作為多隱層神經(jīng)網(wǎng)絡(luò)還是十分復(fù)雜的。對(duì)于不同的數(shù)據(jù)庫(kù),為了達(dá)到比較好的分類效果,網(wǎng)絡(luò)的層數(shù)、卷積層特征圖個(gè)數(shù)以及其它參數(shù)的設(shè)置都需要探究。
2基于卷積神經(jīng)網(wǎng)絡(luò)的古玩圖片分類
2.1特征提取及傳遞
不同古玩的主要區(qū)別在于形狀不同,而花瓶、盤子和碗在古玩中最常見,因此將這3類圖片作為實(shí)驗(yàn)對(duì)象,對(duì)于其它種類的古玩圖片的分類,該網(wǎng)絡(luò)同樣適用。卷積神經(jīng)網(wǎng)絡(luò)采用如下圖所示的5層網(wǎng)絡(luò)結(jié)構(gòu),并對(duì)網(wǎng)絡(luò)各層的特征圖數(shù)目、大小均作了修改。對(duì)于網(wǎng)絡(luò)的輸入,先將原圖像進(jìn)行目標(biāo)與背景分割,然后進(jìn)行灰度化、統(tǒng)一分辨率的處理,最后輸入到卷積神經(jīng)網(wǎng)絡(luò)。由于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的根本目的是提取不同古玩的特征,而背景不是目標(biāo)的一部分,對(duì)古玩識(shí)別來(lái)說(shuō)并不提供任何有用的信息,反而對(duì)特征的提取造成干擾,所以去除背景噪聲后,網(wǎng)絡(luò)結(jié)構(gòu)會(huì)更加簡(jiǎn)單,同時(shí)也利于網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)。但是因?yàn)檫M(jìn)行了去背景的預(yù)處理,網(wǎng)絡(luò)也失去了對(duì)復(fù)雜背景下圖片的識(shí)別能力,所以使用該網(wǎng)絡(luò)進(jìn)行古玩圖片分類前都要進(jìn)行目標(biāo)分割的預(yù)處理過程。
卷積神經(jīng)網(wǎng)絡(luò)對(duì)古玩圖片的特征提取過程如下:
(1)輸入網(wǎng)絡(luò)的圖片為100×100大小的預(yù)處理圖,卷積神經(jīng)網(wǎng)絡(luò)的輸入層之后為卷積層,卷積層通過卷積核與輸入圖像進(jìn)行卷積得到特征平面,卷積核大小為5×5。如圖2所示,特征平面上每個(gè)神經(jīng)元與原圖像5×5大小的局部感受野連接。卷積核移動(dòng)步長(zhǎng)為1個(gè)像素,因此卷積層C1的特征平面大小為96×96。這種卷積操作在提取到輸入圖像的某一方面特征時(shí),必然會(huì)損失掉圖像的其他特征,而采取多個(gè)卷積核卷積圖像得到多個(gè)特征平面則會(huì)一定程度上彌補(bǔ)這個(gè)缺陷。因此,在卷積層C1中使用了6個(gè)不同的卷積核與輸入圖像進(jìn)行卷積,得到6種不同的特征平面圖。如圖3所示,同一張?zhí)卣鲌D上的所有神經(jīng)元共享一個(gè)卷積核(權(quán)值共享),圖中連接到同一個(gè)特征圖的連接線表示同一個(gè)卷積核,6個(gè)不同的卷積核卷積輸入圖片得到6張不同的特征平面圖。卷積之后的結(jié)果并非直接儲(chǔ)存到C1層特征圖中,而是通過激活函數(shù)將神經(jīng)元非線性化,從而使網(wǎng)絡(luò)具有更強(qiáng)的特征表達(dá)能力。激活函數(shù)選擇Sigmoid函數(shù)。
卷積層中所使用的卷積核尺寸若過小,就無(wú)法提取有效表達(dá)的特征,過大則提取到的特征過于復(fù)雜。對(duì)于卷積層征圖個(gè)數(shù)的設(shè)置,在一定范圍內(nèi),特征圖的個(gè)數(shù)越多,卷積層提取到越多有效表達(dá)原目標(biāo)信息的特征,但是特征圖個(gè)數(shù)如果過多,會(huì)使提取到的特征產(chǎn)生冗余,最終使分類效果變差。卷積層的各平面由式(1)決定: Xlj=f(∑i∈MjXl-1j*klij+blj)(1)
式(1)中,Mj表示選擇輸入的特征圖集合,l是當(dāng)前層數(shù),f是激活函數(shù),klij表示不同輸入特征圖對(duì)應(yīng)的卷積核,blj為輸出特征圖對(duì)應(yīng)的加性偏置。
(2)卷積層C1后的采樣層S1由6個(gè)特征平面組成,采樣層對(duì)上一層特征圖進(jìn)行局部平均和二次特征提取。采樣過程如圖4所示,特征平面上的每個(gè)神經(jīng)元與上一層4×4大小的互不重合的鄰域連接進(jìn)行均值采樣,最終每個(gè)平面的大小為24×24。采樣層的各平面由式(2)決定:
Xlj=f(βljdown(Xl-1j)+blj)(2)
式(2)中,down(.)表示一個(gè)下采樣函數(shù),l是當(dāng)前層數(shù),f是激活函數(shù),βlj表示輸出特征圖對(duì)應(yīng)的乘性偏置,blj為輸出特征圖對(duì)應(yīng)的加性偏置。
(3)卷積層C2與C1層操作方式一樣,唯一區(qū)別的是C2層每個(gè)特征圖由6個(gè)不同的卷積核與上一層6個(gè)特征圖分別卷積求和得到,因此C2層一共有6×6個(gè)不同的卷積核,卷積核大小為5×5,C2層每個(gè)平面大小為20×20,共6個(gè)特征平面。
(4)采樣層S2與S1層操作一樣,對(duì)上一層4×4大小鄰域進(jìn)行均值采樣,輸出6個(gè)5×5大小的特征平面。本文所用的網(wǎng)絡(luò)共包括2個(gè)卷積層、2個(gè)采樣層、1個(gè)全連接層,由于輸入圖片已經(jīng)過背景分離的預(yù)處理,采樣層S2特征圖大小為5×5,所以圖1所示5層網(wǎng)絡(luò)已經(jīng)有很好的表達(dá)能力。如果直接將原圖作為輸入,那么網(wǎng)絡(luò)的層數(shù)以及特征圖的個(gè)數(shù)將比圖1所示的網(wǎng)絡(luò)更加復(fù)雜。
(5)全連接層將上一層6個(gè)5×5大小的二維平面展開成為1×150大小的一維向量輸入Softmax[23]分類器,輸出層一共有3個(gè)神經(jīng)元(即分類的種類數(shù)目),分類器將提取到的特征向量映射到輸出層的3個(gè)神經(jīng)元上,即實(shí)現(xiàn)分類。
2.2網(wǎng)絡(luò)訓(xùn)練
訓(xùn)練方式為有監(jiān)督地訓(xùn)練,網(wǎng)絡(luò)對(duì)盤子、花瓶和碗共三類圖片進(jìn)行分類,所以分類器輸出一個(gè)3維向量,稱為分類標(biāo)簽。在分類標(biāo)簽的第k維中1表示分類結(jié)果,否則為0。訓(xùn)練過程主要分為兩個(gè)階段:
第一階段:向前傳播A段。
將預(yù)處理過的圖片輸入卷積神經(jīng)網(wǎng)絡(luò)計(jì)算得到分類標(biāo)簽。
第二階段:向后傳播階段。
計(jì)算輸出的分類標(biāo)簽和實(shí)際分類標(biāo)簽之間的誤差。根據(jù)誤差最小化的原則調(diào)整網(wǎng)絡(luò)中的各個(gè)權(quán)值。分類個(gè)數(shù)為3,共有N個(gè)訓(xùn)練樣本。那么第n個(gè)樣本的誤差為:
En=12∑3k=1(tnk-ynk)2(3)
式(3)中,tn表示第n個(gè)樣本的網(wǎng)絡(luò)輸出標(biāo)簽,tnk對(duì)應(yīng)標(biāo)簽的第k維,yn表示第n個(gè)樣本的實(shí)際分類標(biāo)簽,ynk對(duì)應(yīng)標(biāo)簽的第k維。為了使誤差變小,利用權(quán)值更新公式(4)更新各層神經(jīng)元的權(quán)值,一直訓(xùn)練直到網(wǎng)絡(luò)誤差曲線收斂。
W(t+1)=W(t)+η?δ(t)?X(t)(4)
式(4)中,W(t)表示算第n個(gè)樣本時(shí)的權(quán)值,W(t+1)表示計(jì)算第n+1個(gè)樣本的權(quán)值,η為學(xué)習(xí)速率,選取經(jīng)驗(yàn)值,δ為神經(jīng)元的誤差項(xiàng),X表示神經(jīng)元的輸入。
3實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)在MatlabR2012a平臺(tái)上完成,CPU 2.30GHz,內(nèi)存4GB,所采用的圖像由相關(guān)古玩網(wǎng)站提供,分辨率統(tǒng)一格式化為100×100。由于盤子、花瓶和碗在各種古玩種類中它們之間的形狀差別比較明顯,本文實(shí)驗(yàn)對(duì)這三類古玩圖片進(jìn)行分類。對(duì)古玩圖片進(jìn)行了水平翻轉(zhuǎn)處理,增加圖片數(shù)據(jù)量,以加強(qiáng)網(wǎng)絡(luò)對(duì)古玩圖片分類的魯棒性。實(shí)驗(yàn)數(shù)據(jù)如表1所示,圖5列出了3類圖片的部分樣本,實(shí)驗(yàn)所用圖片均與圖5所示圖片類似,背景比較單一,少數(shù)圖片下方有類似陰影。
為了形象表示網(wǎng)絡(luò)各層提取的不同特征,圖6展示了當(dāng)網(wǎng)絡(luò)輸入為盤子時(shí)的各層特征圖。卷積層C1中6張?zhí)卣鲌D分別提取到了輸入圖片的不同特征,而由于權(quán)值共享,同一張?zhí)卣鲌D中神經(jīng)元的空間關(guān)系保持不變,所以6張?zhí)卣鲌D都抓住了盤子的圓形特征。采樣層S1對(duì)C1進(jìn)行均值采樣,相當(dāng)于模糊濾波,所以S1層各特征圖看起來(lái)模糊了一些。卷積層C2中每張?zhí)卣鲌D由6個(gè)不同的卷積核卷積S1層各特征圖疊加而成,S2層與S1層處理方式相同。
為了說(shuō)明將背景分離后的圖片作為輸入的網(wǎng)絡(luò)與原圖輸入的網(wǎng)絡(luò)之間的差異,設(shè)計(jì)了如表3所示的兩種網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)CNN4只需要4層網(wǎng)絡(luò)層就可以達(dá)到0.19%的錯(cuò)誤率,而原圖作為輸入的CNN8共6層網(wǎng)絡(luò)層,在網(wǎng)絡(luò)達(dá)到收斂的情況下,錯(cuò)誤率為5.24%。由此可以說(shuō)明,將背景分離后圖片作為輸入的網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單。
網(wǎng)絡(luò)的訓(xùn)練采用了批量訓(xùn)練方式,即將樣本分多批,當(dāng)一批樣本前向傳播完之后才進(jìn)行權(quán)值更新,每批大小為100,訓(xùn)練集共2 200張圖片,網(wǎng)絡(luò)迭代次數(shù)為1時(shí)共進(jìn)行22次權(quán)值更新,所以權(quán)值更新的計(jì)算次數(shù)與迭代次數(shù)有如下關(guān)系:
計(jì)算次數(shù)=22×迭代次數(shù)(5)
圖7為網(wǎng)絡(luò)在訓(xùn)練集上的誤差曲線圖,橫坐標(biāo)為誤差反向傳播的計(jì)算次數(shù),縱坐標(biāo)為訓(xùn)練集上的均方誤差。可以看出,當(dāng)網(wǎng)絡(luò)訓(xùn)練次數(shù)達(dá)到270次(計(jì)算次數(shù)約6 000)時(shí),訓(xùn)練集誤差趨于平緩,網(wǎng)絡(luò)已經(jīng)基本擬合。訓(xùn)練好的網(wǎng)絡(luò)可以用來(lái)對(duì)測(cè)試集圖片進(jìn)行分類,表4為不同迭代次數(shù)下訓(xùn)練的網(wǎng)絡(luò)在測(cè)試集上的分類錯(cuò)誤率,可以看出迭代次數(shù)在達(dá)到270次后,網(wǎng)絡(luò)在測(cè)試集的錯(cuò)誤率收斂,此時(shí)只有2張圖片出現(xiàn)分類錯(cuò)誤。
表5給出了圖像分類算法中常用的人工特征+BP神經(jīng)網(wǎng)絡(luò)、人工特征+SVM分類器以及Hog特征+SVM分類器與CNN方法的性能比較。人工設(shè)計(jì)的特征包括圖片中目標(biāo)輪廓的最大長(zhǎng)寬比、質(zhì)心、圓度等特征。從準(zhǔn)確率方面來(lái)看,CNN方法的準(zhǔn)確率高于其他方法,Hog特征方法的準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于人工特征的方法,說(shuō)明了特征的好壞對(duì)圖像分類效果有著很大程度上的影響,CNN提取到的特征比Hog和人工設(shè)計(jì)的特征更具代表性。從測(cè)試時(shí)間來(lái)看,Hog方法與CNN方法相差不多,采用人工特征的方法時(shí)間最長(zhǎng)。綜合兩個(gè)方面,CNN方法在測(cè)試時(shí)間和HOG方法相近的情況下,準(zhǔn)確率最高。
4結(jié)語(yǔ)
針對(duì)網(wǎng)上古玩圖片分類問題,為了克服現(xiàn)有算法中人工設(shè)計(jì)特征困難以及往往依賴個(gè)人專業(yè)經(jīng)驗(yàn)的不足,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法。將背景分離后的目標(biāo)圖片作為網(wǎng)絡(luò)輸入,可以實(shí)現(xiàn)自動(dòng)提取特征進(jìn)行分類,背景分離后圖片作為網(wǎng)絡(luò)輸入使得網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單,并且設(shè)置了合適的特征圖個(gè)數(shù)以使網(wǎng)絡(luò)在古玩圖片集上取得較好的分類準(zhǔn)確率。實(shí)驗(yàn)數(shù)據(jù)表明,該方法能夠解決網(wǎng)上古玩圖片的分類問題,并且分類準(zhǔn)確率達(dá)到99%,其準(zhǔn)確率優(yōu)于常用的Hog特征以及人工特征方法。另外該方法不僅可以應(yīng)用于網(wǎng)上古玩圖片,還可應(yīng)用于鞋類、服裝等其它商品圖像的分類。
參考文獻(xiàn)參考文獻(xiàn):
[1]K KAVITHA,M.V.SUDHAMANI.Object based image retrieval from database using combined features[C].in Signal and Image Processing (ICSIP),2014.
[2]董紅霞,郭斯羽,一種結(jié)合形狀與紋理特征的植物葉片分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(23):185188.
[3]舒文娉,劉全香,基于支持向量機(jī)的印品缺陷分類方法[J].包裝工程,2014,35(23):138142.
[4]應(yīng)義斌,桂江生,饒秀勤,基于Zernike矩的水果形狀分類[J].江蘇大學(xué)學(xué)報(bào):自然科學(xué)版,2007,28(1):3639.
[5]ZHU Q,YEH M C,CHENG K T,et al.Fast human detection using acascade of histograms of oriented gradients[C].Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.
[6]M VILLAMIZAR,J SCANDALIANS,A SANFELIU bining colorbased invariant gradient detector with Hog descriptors for robust image detection in scenes under cast shadows[C].In Robotics and Automation,ICRA IEEE International Conference on.Barcelona,Spain:IEEE,2009.
[7]CHEN J,LI Q,PENG Q,et al.CSIFT based localityconstrained linear coding for image classification[J].Formal Pattern Analysis & Applications,2015,18(2):441450.
[8]AHMAD YOUSEF K M,ALTABANJAH M,HUDAIB E,et al.SIFT based automatic number plate recognition[C].International Conference on Information and Communication Systems.IEEE,2015.
[9]LAWRENCE S,GLIES C L,TSOI A C,et al.Face recognition:a convolutional neuralnetwork approach[J].IEEE Transactions on Neural Networks,1997,8(1):98113.
[10]TREVOR HASTIE,ROBERT TIBSHIRANI,J FRIEDMAN.The elements of statistical learning[M].New York:Springer,2001.
[11]Y LECUN,L BOUOU,Y BENGIO.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
[12]DAHL J V,KOCH K C,KLEINHANS E,et al.Convolutional networks and applications in vision[C].International Symposium on Circuits and Systems (ISCAS 2010),2010:253256.
[13]余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013(09):17991804.
[14]MAIRAL J,KONIUSZ P,HARCHAOUI Z,et al.Convolutional kernel networks[DB/OL].http:///pdf/1406.3332v2.pdf.
[15]Z世杰,楊東坡與劉金環(huán),基于卷積神經(jīng)網(wǎng)絡(luò)的商品圖像精細(xì)分類[J].山東科技大學(xué)學(xué)報(bào):自然科學(xué)版,2014(6):9196.
[16]程文博等,基于卷積神經(jīng)網(wǎng)絡(luò)的注塑制品短射缺陷識(shí)別[J].塑料工業(yè),2015(7):3134,38.
[17]鄧柳,汪子杰,基于深度卷積神經(jīng)網(wǎng)絡(luò)的車型識(shí)別研究[J].計(jì)算機(jī)應(yīng)用研究,2016(4):14.
[18]T JONATAN,S MURPHY,Y LECUN,et al.Realtime continuous pose recovery of human hands using convolutional networks[J].ACM Transaction on Graphics,2014,33(5):3842.
[19]S SKITTANON,A C SURENARAN,J C PLATT,et al.Convolutional networks for speech detection[C].Interspeech.Lisbon,Portugal:ISCA,2004.
[20]HUBEL D H,WIESEL T N.Integrative action in the cat's lateral geniculate body[J].Journal of Physiology,1961,155(2):385398.
[21]JAKE BOUVRIE.Notes on convolutional neural networks[DB/OL].http:///5869/1/cnn_tutorial.pdf.
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);自動(dòng)編碼器;非監(jiān)督訓(xùn)練;多尺度分塊;目標(biāo)識(shí)別
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)志碼:A英文標(biāo)題
0引言
對(duì)圖像中目標(biāo)的精確和魯棒識(shí)別是模式識(shí)別及人工智能領(lǐng)域的核心內(nèi)容,在道路監(jiān)控、戰(zhàn)場(chǎng)偵察、精確打擊等領(lǐng)域中有著重要的作用和廣泛的前景。近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)成為機(jī)器學(xué)習(xí)新的熱點(diǎn),基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的圖像識(shí)別算法因其較強(qiáng)的魯棒性和突出的識(shí)別率被學(xué)術(shù)界和工業(yè)界所重視。
Alex等[1]提出基于大型深層CNN的自然圖像識(shí)別算法,在ImageNet數(shù)據(jù)集上取得了很高的識(shí)別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運(yùn)算的方法在三維NORB數(shù)據(jù)集上取得了很好的識(shí)別效果。以上算法雖然都取得了較高的目標(biāo)識(shí)別率,但是由于算法采用有監(jiān)督的訓(xùn)練方式,需要大量標(biāo)簽數(shù)據(jù)對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行調(diào)整,當(dāng)數(shù)據(jù)量較小時(shí)會(huì)導(dǎo)致模型前幾層網(wǎng)絡(luò)無(wú)法得到充分訓(xùn)練,故只能針對(duì)含標(biāo)簽數(shù)據(jù)較多的大型數(shù)據(jù)集。針對(duì)此問題,目前主流的解決方法是采用特征提取算法對(duì)CNN的濾波器集進(jìn)行非監(jiān)督的預(yù)訓(xùn)練。文獻(xiàn)[3]采用稀疏編碼提取訓(xùn)練圖像的基函數(shù)作為CNN的初始濾波器;文獻(xiàn)[4]將獨(dú)立成分分析(Independent Component Analysis,ICA)應(yīng)用于CNN的預(yù)訓(xùn)練階段,利用ICA訓(xùn)練濾波器集合,使識(shí)別率得到了一定提高。然而無(wú)論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應(yīng)用于預(yù)訓(xùn)練階段對(duì)算法識(shí)別率的提升也比較有限。所以如何更好地選擇濾波器的預(yù)訓(xùn)練算法仍是十分困難的問題。
除了預(yù)訓(xùn)練外,影響CNN識(shí)別率和魯棒性的關(guān)鍵參數(shù)還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對(duì)輸入圖像局部特征的提取情況,文獻(xiàn)[5]證明濾波器尺寸對(duì)最終識(shí)別結(jié)果有很大影響,并給出了單層條件下相對(duì)最優(yōu)的濾波器尺寸。下采樣層主要負(fù)責(zé)對(duì)特征進(jìn)行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴(yán)重,模糊后的特征保持的全局空間信息就越少。文獻(xiàn)[6]證明當(dāng)采樣間隔較小時(shí),即使經(jīng)過2次卷積和2次最大下采樣(maxpooling),網(wǎng)絡(luò)輸出的激活值仍能重構(gòu)出與原始輸入看似相同的圖案。然而下采樣間隔過小會(huì)導(dǎo)致不變性喪失,過大則會(huì)損失大量細(xì)節(jié)信息,兩者均會(huì)導(dǎo)致識(shí)別率的下降。
針對(duì)以上問題,本文提出基于多尺度分塊卷積神經(jīng)網(wǎng)絡(luò)(MultiScale Convolutional Neural Network, MSCNN)的圖像目標(biāo)識(shí)別算法。首先利用稀疏自動(dòng)編碼器(Sparse AutoEncoder,SAE)對(duì)卷積神經(jīng)網(wǎng)絡(luò)的濾波器進(jìn)行非監(jiān)督預(yù)訓(xùn)練,通過最小化重構(gòu)誤差獲得待識(shí)別圖像的隱層表示,進(jìn)而學(xué)習(xí)得到含有訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)特性的濾波器集合,預(yù)訓(xùn)練效果相比ICA更好。其次提出多尺度分塊的方法構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),為了增加魯棒性并減小下采樣對(duì)特征表示的影響,對(duì)輸入圖像進(jìn)行多尺度分塊形成多個(gè)通路,并設(shè)計(jì)相應(yīng)尺寸的濾波器進(jìn)行卷積運(yùn)算,將不同通路下采樣后的輸出進(jìn)行融合從而形成新的特征,輸入softmax分類器完成圖像目標(biāo)的識(shí)別。最后通過大量實(shí)驗(yàn)對(duì)比MSCNN算法與經(jīng)典算法在通用圖像識(shí)別任務(wù)中的識(shí)別率和魯棒性差異,從而驗(yàn)證算法的有效性。
4仿真實(shí)驗(yàn)及分析
本文使用STL10公開數(shù)據(jù)集以及從全色波段的QuiekBird遙感衛(wèi)星和GoogleEarth軟件中截取的遙感飛機(jī)圖像數(shù)據(jù)集進(jìn)行測(cè)試實(shí)驗(yàn),將所有圖片變?yōu)?4×64像素的RGB圖。選擇STL10數(shù)據(jù)集的原因是因?yàn)槠浜胁话瑯?biāo)簽的訓(xùn)練集,可用于本文的非監(jiān)督預(yù)訓(xùn)練算法,且圖像中包含更多類內(nèi)變化。STL10共10類目標(biāo),本文選用其中的4類目標(biāo)進(jìn)行實(shí)驗(yàn)。選擇遙感飛機(jī)圖像數(shù)據(jù)則是為了驗(yàn)證本文算法在遙感圖像解譯方面的可用性。該數(shù)據(jù)集包含5類遙感飛機(jī),共400幅。實(shí)驗(yàn)時(shí)隨機(jī)選取遙感飛機(jī)圖像庫(kù)中50%的圖像作為訓(xùn)練樣本,其余作為測(cè)試樣本。本文的實(shí)驗(yàn)環(huán)境為CPU2.8GHz、內(nèi)存3GB的計(jì)算機(jī),實(shí)現(xiàn)算法的軟件為Matlab(2011a)。
4.1算法識(shí)別率對(duì)比測(cè)試
MSCNN的各通路尺寸參數(shù)設(shè)置如圖4所示,每個(gè)通道使用300個(gè)濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動(dòng)編碼器預(yù)訓(xùn)練得到。編碼器設(shè)定為3層,稀疏參數(shù)ρ設(shè)定為0.05,訓(xùn)練周期為400。卷積神經(jīng)網(wǎng)絡(luò)的下采樣方式采用最大下采樣(max pooling)。
按照上述參數(shù)設(shè)置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓(xùn)練周期均為50。傳統(tǒng)CNN參數(shù)設(shè)定與通路1參數(shù)設(shè)定相同,同樣使用300個(gè)濾波器,濾波器初始值通過隨機(jī)初始化得到。輸出特征維度為2700。實(shí)驗(yàn)結(jié)果如表1所示。
從表1可看出,加入LCN的CNN較未加入的CNN對(duì)兩種數(shù)據(jù)集的識(shí)別率有一定的提高,說(shuō)明了加入LCN對(duì)目標(biāo)識(shí)別率是有一定的貢獻(xiàn)的;在兩種數(shù)據(jù)集上MSCNN相比原始CNN都擁有更高的識(shí)別率。MSCNN通路1雖然參數(shù)設(shè)置與CNN相同,但在相同訓(xùn)練周期下識(shí)別率較加入LCN的CNN又有一定提高,說(shuō)明了非監(jiān)督預(yù)訓(xùn)練對(duì)識(shí)別率提高的有效性。對(duì)于STL10數(shù)據(jù)集,可看出通路2的識(shí)別率在3個(gè)通路中最高,通路3則最低,這是因?yàn)橥?輸入的圖像尺寸最小,而STL10類內(nèi)變化很大且目標(biāo)不全在圖像中心,故識(shí)別率有所下降。通路之間進(jìn)行兩兩累加后識(shí)別率都有所提高,在3個(gè)通路共同作用時(shí)識(shí)別率最高,達(dá)到83.5%。對(duì)于遙感飛機(jī)圖像集而言,可看出3個(gè)通路中通路2的識(shí)別率最高,這是因?yàn)檫b感飛機(jī)圖像集均為飛機(jī)圖像,不同類別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機(jī)類別。通路3由于輸入尺寸較小,識(shí)別率稍有下降。同樣的,不同通路之間的疊加都讓識(shí)別率有所提升,最終MSCNN三通路特征融合后的識(shí)別率達(dá)到了96.5%,完全滿足對(duì)于可見光遙感圖像目標(biāo)識(shí)別的需求。
從表1還可看出,本文算法在3個(gè)通路CNN的情況下的識(shí)別率較1個(gè)通路或2個(gè)通路的CNN的識(shí)別率高,由此可以推斷3個(gè)通路CNN所提取的特征具有較強(qiáng)的泛化能力和魯棒性。此外3個(gè)通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。
4.2算法魯棒性實(shí)驗(yàn)
為驗(yàn)證MSCNN的魯棒性,在數(shù)據(jù)集中選取不同類別的圖像對(duì)其進(jìn)行平移、尺度、旋轉(zhuǎn)變換,然后計(jì)算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據(jù)距離的大小可以衡量輸出特征對(duì)于目標(biāo)變化的魯棒性,歐氏距離越小就說(shuō)明特征對(duì)于目標(biāo)變化越不敏感,魯棒性就越好。對(duì)于STL10選取四類目標(biāo)進(jìn)行實(shí)驗(yàn),對(duì)比算法為CNN;對(duì)于遙感飛機(jī)圖像集隨機(jī)選取10幅進(jìn)行實(shí)驗(yàn),并取距離的平均值,對(duì)比算法為ICA和CNN。測(cè)試結(jié)果如圖6~7所示。
圖6中虛線表示傳統(tǒng)CNN算法得到的結(jié)果,實(shí)線則表示MSCNN得到的結(jié)果,從圖6可看出:無(wú)論是面對(duì)平移、尺度還是旋轉(zhuǎn)變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。
從圖7也可看出:本文算法對(duì)于遙感飛機(jī)圖像集的平移、尺度、旋轉(zhuǎn)均表現(xiàn)出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標(biāo)圖像微小的變化就導(dǎo)致了特征較大的改變。本文算法魯棒性較好首先是因?yàn)镸SCNN采用非監(jiān)督的預(yù)訓(xùn)練方式,訓(xùn)練得到的濾波器含有更多圖像不變性特征;其次是因?yàn)镸SCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當(dāng)于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對(duì)比度標(biāo)準(zhǔn)化,對(duì)于亮度變化較大和存在噪聲的目標(biāo)圖像魯棒性明顯增強(qiáng)。
另外,本文算法采用了多通路多尺度分塊的方法,必然會(huì)使網(wǎng)絡(luò)參數(shù)增加,從而會(huì)使訓(xùn)練時(shí)間比較耗時(shí);但在測(cè)試階段,輸入樣本的計(jì)算僅包含一些簡(jiǎn)單的卷積和下采樣,算法復(fù)雜度并沒有因?yàn)橥ǖ赖脑黾佣黾?,因此在測(cè)試階段的實(shí)時(shí)性較傳統(tǒng)的CNN并沒有太大變化。
5結(jié)語(yǔ)
本文提出了MSCNN算法在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過非監(jiān)督預(yù)訓(xùn)練濾波器的方法解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)前幾層無(wú)法得到有效訓(xùn)練的問題。針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對(duì)于復(fù)雜背景圖像識(shí)別率不高的問題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時(shí)不至于喪失目標(biāo)的細(xì)節(jié)信息,有效提升了識(shí)別率和魯棒性。與經(jīng)典算法的對(duì)比實(shí)驗(yàn)結(jié)果表明:該方法能夠有效識(shí)別可見光自然圖像和遙感圖像,并對(duì)平移、尺度和旋轉(zhuǎn)變換具有較強(qiáng)的魯棒性。
參考文獻(xiàn):
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機(jī)械工業(yè)出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
由于在移動(dòng)數(shù)碼設(shè)備(例如智能手機(jī)、掌上電腦、學(xué)習(xí)機(jī)等)以及平板電腦(Tablet PC)上的巨大應(yīng)用價(jià)值,聯(lián)機(jī)手寫漢字
>> 聯(lián)機(jī)手寫漢字/詞組識(shí)別的研究及其應(yīng)用 基于聯(lián)機(jī)手寫漢字字塊特征碼提取的研究 用VB實(shí)現(xiàn)聯(lián)機(jī)手寫漢字的筆劃端點(diǎn)提取 藏文聯(lián)機(jī)手寫識(shí)別的研究與實(shí)現(xiàn)索 基于多重卷積神經(jīng)網(wǎng)絡(luò)的大模式聯(lián)機(jī)手寫文字識(shí)別 聯(lián)機(jī)手寫維文字符的預(yù)處理和特征提取方法 基于過拆分和合并的聯(lián)機(jī)手寫英文單詞分割技術(shù) 對(duì)脫機(jī)手寫相似漢字識(shí)別方法的研究 基于神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫識(shí)別系統(tǒng)的研究和實(shí)現(xiàn) 立足細(xì)化處理解析脫機(jī)手寫漢字識(shí)別 BP神經(jīng)網(wǎng)絡(luò)探析脫機(jī)手寫漢字識(shí)別 脫機(jī)手寫數(shù)字識(shí)別技術(shù)研究 一種改進(jìn)的脫機(jī)手寫漢字四角特征粗分類方法 基于字型特征的手寫體漢字多分類識(shí)別的研究 脫機(jī)手寫體簽名識(shí)別的小波包隱馬爾可夫模型 基于GABP神經(jīng)網(wǎng)絡(luò)的脫機(jī)手寫藏文識(shí)別方法 基于置信度分析的脫機(jī)手寫數(shù)字識(shí)別算法 手寫漢字識(shí)別系統(tǒng)的研究與應(yīng)用 手寫數(shù)字識(shí)別的原理及應(yīng)用 手寫漢字的特性與生命力 常見問題解答 當(dāng)前所在位置:l,運(yùn)行時(shí)需要Java Runtime Environment 1.5以上版本的支持),已經(jīng)能較好地識(shí)別筆順無(wú)關(guān)的手寫體漢字。目前該系統(tǒng)還沒有加上虛擬筆劃等一些草書識(shí)別技術(shù)及先進(jìn)的結(jié)合聯(lián)機(jī)及脫機(jī)識(shí)別引擎的多分類器集成技術(shù),我們將來(lái)在適當(dāng)時(shí)候會(huì)利用Java平臺(tái)實(shí)現(xiàn)這些技術(shù)并在該頁(yè)面上公布。
我們還構(gòu)想了一個(gè)聯(lián)機(jī)手寫識(shí)別技術(shù)在計(jì)算機(jī)輔助漢字書寫學(xué)習(xí)中的嶄新應(yīng)用――漢字聽寫學(xué)習(xí),初步的原型網(wǎng)頁(yè)見218.192.168.156:8080/ call/dictation.asp,(該頁(yè)面同樣用Java平臺(tái)實(shí)現(xiàn),運(yùn)行時(shí)需要JRE支持)。 使用者可以進(jìn)行在線漢字聽寫,然后系統(tǒng)利用聯(lián)機(jī)識(shí)別技術(shù)自動(dòng)評(píng)判使用者書寫的字符是否正確,并給出反饋。該技術(shù)已經(jīng)集成到我們正在設(shè)計(jì)的一個(gè)對(duì)外漢語(yǔ)書寫教學(xué)網(wǎng)站之中。近年來(lái),隨著中國(guó)社會(huì)經(jīng)濟(jì)建設(shè)的飛速發(fā)展,漢語(yǔ)教學(xué)在世界各地受到越來(lái)越多的重視,國(guó)外的漢語(yǔ)學(xué)習(xí)者日益增多,盡管目前國(guó)內(nèi)外有不少漢語(yǔ)教學(xué)網(wǎng)站或軟件,但我們的學(xué)習(xí)系統(tǒng)利用低存儲(chǔ)量的活動(dòng)漢字編碼技術(shù)及動(dòng)態(tài)反走樣還原顯示技術(shù)、基于聯(lián)機(jī)識(shí)別的漢字聽寫技術(shù)以及漢字書寫質(zhì)量評(píng)價(jià)技術(shù),具有特色和創(chuàng)新。
六、結(jié)束語(yǔ)
我們認(rèn)為,高自由度的草書識(shí)別及無(wú)約束的手寫詞組的識(shí)別是構(gòu)造更自然、更快捷、更流暢的手寫輸入方式的核心技術(shù),相信通過國(guó)內(nèi)外同行的努力,在不遠(yuǎn)的將來(lái),手寫輸入法會(huì)變得更實(shí)用、更高效、更具競(jìng)爭(zhēng)力;此外,手寫漢字/詞組識(shí)別技術(shù)在計(jì)算機(jī)教育、智能機(jī)器人等領(lǐng)域中還可帶來(lái)更多的創(chuàng)新應(yīng)用。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人臉識(shí)別;大樣本;對(duì)抗生成網(wǎng)絡(luò)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2017)07-00-04
0 引 言
近幾年,基于大量訓(xùn)練數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在目標(biāo)檢測(cè)、目標(biāo)識(shí)別、顯著性檢測(cè)、行為識(shí)別、人臉識(shí)別和對(duì)象分割等計(jì)算機(jī)視覺領(lǐng)域取得了舉世矚目的成果。這些令人鼓舞的成績(jī)主要?dú)w功于以下幾點(diǎn):
(1)將大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集,學(xué)習(xí)出具有百萬(wàn)參數(shù)的模型,從而使卷積神經(jīng)網(wǎng)絡(luò)能夠有效提取對(duì)象的本質(zhì)特征;
(2)不斷改進(jìn)性能優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu),如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;
(3)各種并行計(jì)算硬件設(shè)備(如GPU)的支持,大大提高了CNN訓(xùn)練模型的效率。其中,將標(biāo)簽的大量數(shù)據(jù)作為訓(xùn)練集起著至關(guān)重要的作用。
本文以人臉識(shí)別為例,討論和綜述多樣本算法的研究現(xiàn)狀和發(fā)展方向。
有效的特征是目標(biāo)識(shí)別的關(guān)鍵,對(duì)人臉識(shí)別問題來(lái)說(shuō)亦如此。傳統(tǒng)的主成分分析(Principal Component Analysis,PCA)[4,5],線性區(qū)分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不錯(cuò)的成績(jī)?;趥鹘y(tǒng)特征的人臉識(shí)別受限于環(huán)境,此類特征作用在復(fù)雜或者背景多變的人臉圖像時(shí),其識(shí)別性能往往大幅下降,如在LFW數(shù)據(jù)集上其識(shí)別率驟然下降[9]。
采用CNN作為特征提取模型,主要考慮到該模型的所有處理層,包括像素級(jí)別的輸入層,均可從數(shù)據(jù)中學(xué)習(xí)到可調(diào)節(jié)的參數(shù)。即CNN能自喲喲笫據(jù)中學(xué)習(xí)特征,無(wú)需人工設(shè)計(jì)特征。合理有效的特征需從大量數(shù)據(jù)和大量參數(shù)中自動(dòng)學(xué)習(xí)獲取,從而達(dá)到優(yōu)秀的識(shí)別性能?;诰矸e神經(jīng)網(wǎng)絡(luò)的世界領(lǐng)先方法均使用了上百萬(wàn)的數(shù)據(jù),其中最具有代表性的如VGG-Face網(wǎng)絡(luò)需要260萬(wàn)個(gè)人臉圖像樣本進(jìn)行訓(xùn)練[10],F(xiàn)acebook的DeepFace網(wǎng)絡(luò)需要440萬(wàn)個(gè)有標(biāo)簽的人臉圖像樣本訓(xùn)練[11]。而Google更使用了2億樣本數(shù)據(jù)來(lái)訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。
1 多樣本獲取現(xiàn)狀
如引言所述,有效合理的特征是目標(biāo)識(shí)別的關(guān)鍵,而CNN能從大量有標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí)圖像的本質(zhì)特征。獲得圖像特征的關(guān)鍵因素是有標(biāo)簽的大數(shù)據(jù)。因此許多研究的前提工作均聚焦在人工獲取數(shù)據(jù)和給數(shù)據(jù)加標(biāo)簽方面。然而,獲取百萬(wàn)級(jí)的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標(biāo)簽,耗費(fèi)大量的人力物力。雖然也有一些公開免費(fèi)的數(shù)據(jù)集,且收集該類數(shù)據(jù)相對(duì)比較容易,如CASIA-WebFace[13],有49萬(wàn)個(gè)圖像,但遠(yuǎn)少于Facebook和Google的數(shù)據(jù)集。在這種情況下,缺乏大量樣本直接阻礙了深度學(xué)習(xí)方法的使用,成為阻礙提高檢測(cè)率和識(shí)別率的瓶頸。除了深度學(xué)習(xí)技術(shù)提取特征需要大量樣本外,已有研究證明[14-19],基于傳統(tǒng)方法的技術(shù)同樣需要大量樣本作為支撐。在這種形勢(shì)下,通過圖像處理與機(jī)器學(xué)習(xí)技術(shù)自動(dòng)增加樣本集已成為必要手段。
無(wú)論基于傳統(tǒng)方法的識(shí)別問題,還是基于深度學(xué)習(xí)的識(shí)別問題,大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集在算法中起著舉足輕重的作用。如果樣本不足,算法往往過擬合,無(wú)法提高算法的性能。為了獲得更多樣本,一些研究工作從網(wǎng)絡(luò)上獲取數(shù)據(jù),例如在IMDb上,已經(jīng)把9萬(wàn)有標(biāo)簽的數(shù)據(jù)集擴(kuò)大到了26萬(wàn) [10]。除此之外,F(xiàn)acebook獲取了440萬(wàn)個(gè)有標(biāo)簽的人臉進(jìn)行DeepFace網(wǎng)絡(luò)訓(xùn)練[11],而Google使用2億個(gè)數(shù)據(jù)訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。
目前獲取方法具有如下局限:
(1)現(xiàn)有方法耗時(shí)耗力,需要經(jīng)費(fèi)支持。獲取百萬(wàn)級(jí)的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標(biāo)簽,耗費(fèi)大量的人力物力。這種情況下,只有像Facebook和Google這樣的大公司會(huì)收集大量有標(biāo)簽的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練。而大多數(shù)情況下的數(shù)據(jù)收集涉及個(gè)人隱私與財(cái)力物力等問題,對(duì)于一般的小公司或科研院所而言,收集數(shù)據(jù)普遍難度較大。
(2)收集特殊圖片困難。對(duì)于一些特殊的圖像,如醫(yī)學(xué)圖像,遙感圖像,現(xiàn)實(shí)中數(shù)量本身就少,加之無(wú)法直接從網(wǎng)上獲取,因此小樣本很容易導(dǎo)致過擬合。
2 樣本集擴(kuò)大算法研究現(xiàn)狀
2.1 基于傳統(tǒng)方法的多樣本算法研究現(xiàn)狀
對(duì)于傳統(tǒng)的樣本生成算法,如果數(shù)據(jù)集中有足夠的訓(xùn)練樣本,均可得到比較滿意的識(shí)別結(jié)果,但在現(xiàn)實(shí)的人臉數(shù)據(jù)庫(kù)中,人臉的數(shù)據(jù)樣本卻是有限的。文獻(xiàn)[20]表明,增加圖像樣本的數(shù)量可以較大幅度提高識(shí)別的準(zhǔn)確率。
為了增加樣本數(shù)量,提高識(shí)別準(zhǔn)確率,科研工作者已做了大量工作。其中,借助原始樣本產(chǎn)生虛擬樣本是一種有效的增加數(shù)據(jù)集方法。這種方法大致分為如下幾類:
(1)通過人臉圖像的對(duì)稱性來(lái)得到原始樣本的虛擬樣本,如Xu[14,15]和Liu等[21]提出借助原始圖像的“對(duì)稱臉”和“鏡像臉”產(chǎn)生虛擬樣本,從而擴(kuò)大數(shù)據(jù)集并提高人臉識(shí)別的正確率,Song[22]也提出相應(yīng)的算法來(lái)改進(jìn)人臉識(shí)別的性能;
(2)通過改變圖像的光照、姿勢(shì)和表情等來(lái)產(chǎn)生虛擬樣本,例如Boom等用一種稱為VIG的方法對(duì)未知光照情況進(jìn)行建模[16],Abdolali[17]和Ho[18]等提出了類似的算法擴(kuò)大數(shù)據(jù)集;
(3)基于人臉圖像自身的特征生成虛擬樣本,Ryu等根據(jù)原始樣本的分布來(lái)產(chǎn)生虛擬樣本[19],Liu等也根據(jù)圖像本身特性來(lái)產(chǎn)生虛擬樣本[23]。
(4)基于數(shù)學(xué)的多樣本產(chǎn)生方法,如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。
圖1 借助圖像合成方法生成新樣本
除了借助圖像處理方法獲得原始樣本的新樣本外,還可以利用圖像合成算法獲取多樣本,本研究做了相關(guān)實(shí)驗(yàn),其結(jié)果如圖1所示。假設(shè)數(shù)據(jù)集中有c類人臉圖像,每類有ni個(gè)樣本,令表示第i類中的第j個(gè)樣本,這里i=1,2,…,c,j=1,2,…,ni,h和w分別代表樣本xij的高和寬(均為像素值)。用X=[X1,X2,…,Xc]代表所有樣本,則Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i類樣本。則有:
其中, P(Xi)代表所生成的第i類新樣本, f(g)表示圖像處理函數(shù),代表多個(gè)樣本的串聯(lián),即將多個(gè)樣本聯(lián)合起來(lái)得到一個(gè)類別的新樣本。
2.2 基于深度學(xué)習(xí)的多樣本生成算法研究現(xiàn)狀
大量有標(biāo)簽的訓(xùn)練數(shù)據(jù)是機(jī)器學(xué)習(xí)成功的關(guān)鍵,尤其對(duì)于強(qiáng)大的深度學(xué)習(xí)技術(shù),大數(shù)據(jù)集能提高CNN的性能,防止過擬合[25]。為了擴(kuò)充數(shù)據(jù)集,已有一些工作在不改變圖像語(yǔ)義的情況下進(jìn)行,如水平鏡像[26]、不同尺度的剪裁[27,28]、旋轉(zhuǎn)[29]和光照變化[27]等傳統(tǒng)方法。
DeepID[30]采取了增大數(shù)據(jù)集手法來(lái)訓(xùn)練網(wǎng)絡(luò),只有大的數(shù)據(jù)集才能使得卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得更加充分,該研究采用兩種方法增大數(shù)據(jù)集:
(1)選擇采集好的數(shù)據(jù),即映入CelebFaces數(shù)據(jù)集。
(2)將原始數(shù)據(jù)集中的圖片多尺度、多通道、多區(qū)域的切分,然后分別進(jìn)行訓(xùn)練,再把得到的向量串聯(lián)起來(lái),即得到最后的向量。
以上方法僅局限于相對(duì)簡(jiǎn)單的圖像處理技術(shù),該類方法生成的多樣本具有一定的局限性。比如,真正意義上的旋轉(zhuǎn)應(yīng)按一定的角度進(jìn)行3D旋轉(zhuǎn),而不僅僅是圖像本身的角度旋轉(zhuǎn)。合成數(shù)據(jù)能一定程度上解決以上問題,如Shotton等通過隨機(jī)森林合成3D深度數(shù)據(jù)來(lái)估計(jì)人體姿勢(shì),Jaderberg等使用合成數(shù)據(jù)來(lái)訓(xùn)練CNN模型識(shí)別自然場(chǎng)景下的文字[31]。這些研究的結(jié)果均優(yōu)于使用剪裁,旋轉(zhuǎn)等傳統(tǒng)方法。但使用3D合成圖像比較復(fù)雜,需要較多的前期工作。
近年來(lái),借助生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)來(lái)生成原始樣本的方法吸引了很多學(xué)者。2014年6月,Goodfellow 等發(fā)表了論文《Generative Adversarial Nets》[32],文中詳盡介紹了GANs的原理、優(yōu)點(diǎn)及其在圖像生成方面的應(yīng)用,標(biāo)志著GANs的誕生。早期的GANs模型存在許多問題,如GANs網(wǎng)絡(luò)不穩(wěn)定,甚至有時(shí)該網(wǎng)絡(luò)永遠(yuǎn)不會(huì)開始學(xué)習(xí),生成的結(jié)果無(wú)法令人滿意。文獻(xiàn)[32]中生成器生成的圖片十分模糊,針對(duì)此問題,Denton等提出一個(gè)被稱為 LAPGANs的模型[33],該模型用多個(gè)卷積神經(jīng)網(wǎng)絡(luò)連續(xù)生成圖像,這些新圖像的清晰度不斷提高,最終得到高分辨率圖像。GANs除了基于圖像生成圖像外,還可以通過文字生成圖像,如文獻(xiàn)[34]搭起了文本到圖像的橋梁,通過GANs將文本直接轉(zhuǎn)換成對(duì)的圖像。文獻(xiàn)[35]將GAN應(yīng)用于超分辨率中,該文獻(xiàn)提出了全新的損失函數(shù),使得 GANs 能對(duì)大幅降采樣后的圖像恢復(fù)其生動(dòng)紋理和小顆粒細(xì)節(jié)。另外,Radford 等提出了名為DCGANs的網(wǎng)絡(luò)[36],該文獻(xiàn)指出,用大數(shù)據(jù)集訓(xùn)練出的 GANs 能學(xué)習(xí)一整套層級(jí)的特征,并具有比其他無(wú)監(jiān)督學(xué)習(xí)模型更好的效果。以上方法均為基于一大類原始樣本生成另一大類圖像。
基于GAN生成樣本的過程如圖2所示。首先將同類別的原始圖像輸入到生成對(duì)抗網(wǎng)絡(luò)GAN的生成器網(wǎng)絡(luò)G中,生成“假冒”圖像G1和G2,接著借助判別器D來(lái)判斷輸入的圖像是真實(shí)圖像還是“假冒”圖像。生成器G努力生成類似原始樣本的圖像,力爭(zhēng)判別器D難以區(qū)分真假;而判別器D應(yīng)不斷提高自身性能,有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價(jià)值函數(shù)如下:
生成器G最小化log(1-D(G(z))),判別器D最大化logD(x),使得最大概率按照訓(xùn)練樣本的標(biāo)簽分類, 生成模型G隱式定義了一個(gè)概率分布Pg,希望Pg 收斂到數(shù)據(jù)真實(shí)分布Pdata。
圖2 GAN生成新樣本示意圖
3 結(jié) 語(yǔ)
綜上所述,基于原始樣本的多樣本生成算法是一個(gè)值得深入研究探索的問題,具備清晰而明確的理論意義和現(xiàn)實(shí)應(yīng)用意義。雖然研究人員已經(jīng)對(duì)相關(guān)問題進(jìn)行了一些研究,取得了一系列成果,但是多樣本的產(chǎn)生方法缺乏全面、深入的理解,尚未出現(xiàn)具有里程碑意義的研究成果。具體而言,本文認(rèn)為,基于原始樣本的多樣本生成問題需要在如下幾個(gè)方面展開深入的研究:
(1)在研究多樣本生成算法時(shí),保留原始樣本的本質(zhì)特征,如在人臉識(shí)別中,拋棄不必要信息(光照、表情和姿勢(shì))的影響是一項(xiàng)十分有意義的工作。
(2)在合成新樣本時(shí),設(shè)計(jì)合理有效的構(gòu)造元素,使合成的新表示更接近自然亦是一個(gè)值得研究的方向。
(3)基于生成對(duì)抗網(wǎng)絡(luò),研究某一類對(duì)象的生成新樣本的核心算法是一項(xiàng)有意義的工作。
參考文獻(xiàn)
[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.
[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.
[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.
[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.
[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.
[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.
[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.
[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.
[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.
[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.
[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.
[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.
[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.
[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.
[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.
[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.
[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.
[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.
[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.
[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.
[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.
[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.
[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.
[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.
[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.
[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.
[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.
[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.
[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.
[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.
[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.
[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.
[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.
AI從誕生到現(xiàn)在已經(jīng)有60年的時(shí)間,期間經(jīng)歷兩輪起落,呈階梯式進(jìn)化,走到今天進(jìn)入第三個(gè)黃金期。如果按照其智能科技水平劃分,今天的人工智能尚處在狹義智能向廣義智能進(jìn)階的階段,還是一名不折不扣的“少年”,未來(lái)?yè)碛袩o(wú)限的可能和巨大的上升空間。
AI是一門交叉的學(xué)科:人工智能由不同的技術(shù)領(lǐng)域組成,如機(jī)器學(xué)習(xí)、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等。而同時(shí),它也是一門交叉學(xué)科,屬于自然科學(xué)和社會(huì)科學(xué)的交叉,涉及到哲學(xué)和認(rèn)知科學(xué)、數(shù)學(xué)、神經(jīng)生理學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)、信息論、控制論、不定性論等學(xué)科。人工智能領(lǐng)域的技術(shù)壁壘是比較高的,并且會(huì)涉及到多學(xué)科協(xié)作的問題,對(duì)任何公司來(lái)說(shuō),想做好人工智能將是一門大工程。未來(lái)不大可能出現(xiàn)一個(gè)公司能包攬整個(gè)人工智能產(chǎn)業(yè)每一個(gè)部分的工作,更可能的模式將是一個(gè)公司專注于一個(gè)相對(duì)細(xì)分的領(lǐng)域,通過模塊化協(xié)作的形式實(shí)現(xiàn)人工智能領(lǐng)域的不同應(yīng)用。
進(jìn)化史呈階梯狀,以階段突破式為成長(zhǎng)模式:人工智能的發(fā)展經(jīng)歷了兩次黃金和低谷期,
現(xiàn)在正經(jīng)歷著第三個(gè)黃金期。1956年,麥卡賽、明斯基、羅切斯特和申農(nóng)等年輕科學(xué)家在達(dá)特茅斯一起聚會(huì),并首次提出了“人工智能”這一術(shù)語(yǔ),標(biāo)志著人工智能的誕生。第二年,由 Rosenblatt 提出 Perceptron 感知機(jī),標(biāo)志著第一款神經(jīng)網(wǎng)絡(luò)誕生。1970年,因?yàn)橛?jì)算能力沒能突破完成大規(guī)模數(shù)據(jù)訓(xùn)練,人工智能的第一個(gè)黃金期到此結(jié)束。
后直到1982年德普霍爾德神經(jīng)網(wǎng)絡(luò)的提出,人工智能進(jìn)入第二個(gè)黃金期,之后BP算法的出現(xiàn)使大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為可能,人工智能的發(fā)展又一次進(jìn)入。1990年,因?yàn)槿斯ぶ悄苡?jì)算機(jī)和DARPA沒能實(shí)現(xiàn),政府撤資,人工智能又一次進(jìn)入低估。2006年,隨著“深度學(xué)習(xí)”神經(jīng)網(wǎng)絡(luò)取得突破性進(jìn)展,人工智能又一次進(jìn)入黃金時(shí)期。
AI將由狹義智能向廣義智能進(jìn)化,雖然人工智能的誕生已經(jīng)有60年的時(shí)間但如果把它比喻成一個(gè)人的話,當(dāng)前的他應(yīng)該還未成年。按照人工智能的“智能”程度,可以將其分成狹義智能、廣義智能、超級(jí)智能三個(gè)大的發(fā)展階段,現(xiàn)階段的圖像與語(yǔ)音識(shí)別水平標(biāo)志著人類已經(jīng)基本實(shí)現(xiàn)狹義智能,正在向廣義智能的階段邁進(jìn)。
狹義智能:即當(dāng)前的技術(shù)已經(jīng)實(shí)現(xiàn)的智能水平,包括計(jì)算智能與感知智能兩個(gè)子階段,計(jì)算智能指的機(jī)器開始具備計(jì)算與傳遞信息的功能,感知智能指機(jī)器開始具備“眼睛”和“耳朵”,即具備圖像識(shí)別與語(yǔ)音識(shí)別的能力,并能以此為判斷采取一些行動(dòng)。
廣義智能:指的是機(jī)器開始具備認(rèn)知能力,能像人類一樣獲取信息后主動(dòng)思考并主動(dòng)采取行動(dòng)。在這個(gè)階段,機(jī)器可以全面輔助或代替人類工作。
超級(jí)智能:這個(gè)階段的機(jī)器幾乎在所有領(lǐng)域都比人類聰明,包括科學(xué)創(chuàng)新、通識(shí)和社交技能等。這個(gè)階段目前離我們還比較遙遠(yuǎn),到時(shí)候人類的文明進(jìn)步和跨越或許將有賴于機(jī)器,而機(jī)器人意識(shí)的倫理問題也許將在這個(gè)階段成為主要問題。
推薦引擎及協(xié)同過濾可以分析更多的數(shù)據(jù)
智能助手并不只局限于Siri等手機(jī)語(yǔ)音助手。微軟率先在win10 系統(tǒng)中加入個(gè)人智能助理Cortana,標(biāo)志著個(gè)人PC端智能助理的出現(xiàn);圖靈機(jī)器人以云服務(wù)的方式進(jìn)入海爾智能家居、博世m(xù)ySPIN車載系統(tǒng),預(yù)示著多場(chǎng)景人工智能解決方案的潮流。初步實(shí)現(xiàn)人機(jī)交互的智能助手系統(tǒng),已經(jīng)被應(yīng)用于智能客服、聊天機(jī)器人、家用機(jī)器人、微信管理平臺(tái)、車載系統(tǒng)、智能家居系統(tǒng)、智能手機(jī)助理等多個(gè)軟硬件領(lǐng)域。
垂直類網(wǎng)站及社交平臺(tái)可以借助智能助手系統(tǒng)打造高專業(yè)度的“在線專家”以提升平臺(tái)價(jià)值;企業(yè)可以借助以“語(yǔ)義識(shí)別”為基礎(chǔ)的智能助手系統(tǒng),打造智能客服,效率遠(yuǎn)高于傳統(tǒng)的以“關(guān)鍵詞對(duì)應(yīng)”為技術(shù)支持的客服系統(tǒng)。
推薦引擎,是主動(dòng)發(fā)現(xiàn)用戶當(dāng)前或潛在需求,并主動(dòng)推送信息給用戶的信息網(wǎng)絡(luò)。挖掘用戶的喜好和需求,主動(dòng)向用戶推薦其感興趣或者需要的對(duì)象。傳統(tǒng)推薦引擎通常利用用戶在平臺(tái)上的歷史記錄進(jìn)行推薦,效率低、匹配度不高。目前隨著大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的推進(jìn),推薦引擎及協(xié)同過濾可以分析更多的數(shù)據(jù),乃至全網(wǎng)數(shù)據(jù),并模擬用戶的需求,真正達(dá)到按需推薦。全球最大的正版流媒體音樂服務(wù)平臺(tái)Spotify也利用卷積神經(jīng)網(wǎng)絡(luò)參與建設(shè)其音樂推薦引擎;谷歌也提出利用深度學(xué)習(xí)方法來(lái)學(xué)習(xí)標(biāo)簽進(jìn)行推薦建設(shè)。出品紙牌屋的全球最大在線影片租賃公司Netflix 也利用深度學(xué)習(xí)網(wǎng)絡(luò)分析客戶消費(fèi)的大數(shù)據(jù),還計(jì)劃構(gòu)建一個(gè)在AWS云上的以GPU為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。
“餐廳推薦引擎”Nara,便是一個(gè)利用AI技術(shù)的推薦引擎。在上線之初,Nara 就取得了400萬(wàn)美元的投資。Nara 的數(shù)據(jù)庫(kù)中有超過100000家餐廳的信息,并利用特有的“Nara神經(jīng)網(wǎng)絡(luò)”,學(xué)習(xí)使用者的偏好,最終達(dá)到“電腦幫你點(diǎn)餐”的目的。
而今年3月22日,國(guó)內(nèi)AI領(lǐng)軍企業(yè)阿里巴巴旗下的阿里云數(shù)加啟動(dòng)“個(gè)性化推薦”引擎對(duì)外公測(cè),該引擎用于幫助創(chuàng)業(yè)者可以快速獲得媲美淘寶天貓的個(gè)性化服務(wù)能力。阿里云數(shù)加上的推薦引擎能夠以更低的成本完成開發(fā),節(jié)省程序量達(dá)到90%,推薦引擎的搭建時(shí)間將由幾個(gè)月縮短到幾天。
對(duì)于不了解算法的人,只能實(shí)現(xiàn)標(biāo)簽規(guī)則類的推薦,但如果要做成機(jī)械化、類似協(xié)同過濾的算法,創(chuàng)業(yè)公司需要配置大量的算法工程師,人力成本很高?,F(xiàn)在用了數(shù)加的推薦引擎,商家只需要做數(shù)據(jù)的ETL加工,推薦的結(jié)果集、訓(xùn)練集都不用處理,只需要調(diào)整參加即可得到推薦結(jié)果。
AI帶給人們新的視覺???
醫(yī)療:為健康診斷和藥品研發(fā)插上高飛的翅膀
健康診斷有望迎來(lái)新紀(jì)元,海量的病歷數(shù)據(jù)和醫(yī)學(xué)界的新研究成果,單靠人工很難及時(shí)篩選并利用,而引入人工智能技術(shù)將充分發(fā)揮這些信息的價(jià)值。例如著名的個(gè)人健康管理產(chǎn)品公司W(wǎng)elltok將 IBM的Watson功能融入旗下產(chǎn)品 CafeWell Concierge APP中,借助 Watson 的認(rèn)知計(jì)算能力理解人類語(yǔ)言,實(shí)現(xiàn)與用戶溝通的能力,從大量數(shù)據(jù)中進(jìn)行分析并為用戶提供健康管理相關(guān)的答案和建議,實(shí)現(xiàn)健康管理、慢病恢復(fù)訓(xùn)練、健康食譜等功能,這一領(lǐng)域的良好前景使 Wellltok公司近年的融資額連創(chuàng)新高。另外,2015年IBM斥資10億美元收購(gòu)醫(yī)療影像與臨床系統(tǒng)提供商Merge,將研究如何實(shí)現(xiàn) Watson的“辨讀”醫(yī)學(xué)影像功能。此外,AI 還可以從醫(yī)療中心獲得的健康數(shù)據(jù),通過大數(shù)據(jù)分析,實(shí)現(xiàn)根據(jù)分析患者行為來(lái)制定個(gè)性化治療方案的功能。
智能家居:天花板尚遠(yuǎn),AI有望成為核心
行業(yè)天花板尚遠(yuǎn),增速有望保持在 50%左右, 《鋼鐵俠》中的“Jarvis”作為智能管家,除了起到鋼鐵俠的小秘書的作用,還幫主人打理著日常生活,向我們展示了一個(gè)理想中的智能家居系統(tǒng)。雖然我們目前可能離那個(gè)無(wú)所不能的智能管家還很遙遠(yuǎn),但智能家居對(duì)我們生活的變革確實(shí)已經(jīng)開始了。根據(jù)《2012-2020 年中國(guó)智能家居市場(chǎng)發(fā)展趨勢(shì)及投資機(jī)會(huì)分析報(bào)告》的預(yù)測(cè),我國(guó)智能家居市場(chǎng)在 2016年將達(dá)到605.7億的規(guī)模,同比增長(zhǎng)50.15%,到2020年市場(chǎng)規(guī)模將達(dá)到3294億,年均增速將保持在50%左右,具備充足的向上延伸空間。而智能家居想達(dá)到“Jarvis”般的終極效果,必然需要引入AI技術(shù),實(shí)現(xiàn)家居的感應(yīng)式控制甚至自我學(xué)習(xí)能力。
AI有望成為智能家居的核心,實(shí)現(xiàn)家居自我學(xué)習(xí)與控制。按照智能家居的發(fā)展進(jìn)度,大致可以分為四個(gè)階段:手機(jī)控制、多控制結(jié)合、感應(yīng)式控制、系統(tǒng)自我學(xué)習(xí)。當(dāng)前的發(fā)展水平還處在手機(jī)控制向多控制結(jié)合的過度階段。而從多控制結(jié)合向感應(yīng)式控制甚至自我學(xué)習(xí)階段進(jìn)化時(shí),AI將發(fā)揮主要功能。到今天為止,家居的實(shí)體功能已經(jīng)較為全面,未來(lái)的發(fā)展重點(diǎn)可能在于如何使之升級(jí)改造,實(shí)現(xiàn)家居的自我行為及協(xié)作,因此未來(lái)AI在智能家居領(lǐng)域的應(yīng)用有望成為其核心價(jià)值。AI對(duì)智能家居的重構(gòu)可以深入到方方面面,包括:控制主機(jī)、照明系統(tǒng)、影音系統(tǒng)、環(huán)境監(jiān)控、防盜監(jiān)控、門窗控制、能源管理、空調(diào)系統(tǒng)、花草澆灌、寵物看管等等。
無(wú)人駕駛:政策漸萌芽,AI決定可靠性
優(yōu)點(diǎn)多、動(dòng)機(jī)足、政策漸萌芽。據(jù)麥肯錫的調(diào)查顯示,如果能解放駕駛員的雙手,一輛無(wú)人駕駛汽車內(nèi)的乘客通過移動(dòng)互聯(lián)網(wǎng)使用數(shù)字媒體服務(wù)的時(shí)間多一分鐘,每年全球數(shù)字媒體業(yè)務(wù)產(chǎn)生的利潤(rùn)將增加 50億歐元。此外,由于自動(dòng)泊車無(wú)須為乘客下車預(yù)留開門空間,使得停車位空間可縮減至少15%。
如果無(wú)人駕駛汽車以及ADAS系統(tǒng)能夠?qū)⑹鹿拾l(fā)生率降低90%,即可挽回全美每年的損失約1千900億美金。可以說(shuō)諸多的優(yōu)點(diǎn)使得無(wú)人駕駛技術(shù)的研發(fā)動(dòng)機(jī)還是相當(dāng)充分的,因此未來(lái)無(wú)人駕駛推行的力度應(yīng)該還會(huì)保持在一個(gè)比較高的水平。美國(guó)勒克斯研究公司曾預(yù)計(jì)無(wú)人駕駛汽車的市場(chǎng)規(guī)模在2030年將達(dá)到870億美元。
到目前為止,各國(guó)政府對(duì)于無(wú)人駕駛技術(shù)在政策上的支持正逐步放開,美國(guó)政府在年初剛剛宣布了40億美元的資助計(jì)劃;英國(guó)目前已經(jīng)不需要獲得額外批準(zhǔn)和履約保證即可進(jìn)行實(shí)際道路的無(wú)人駕駛汽車測(cè)試;而德國(guó)也在去年宣布將計(jì)劃設(shè)立無(wú)人駕駛汽車測(cè)試路段,供安裝有駕駛輔助系統(tǒng)或全自動(dòng)駕駛系統(tǒng)車輛行駛;歐盟總部正在就如何修改現(xiàn)行有關(guān)駕駛的法律法規(guī)從而支持自動(dòng)駕駛的發(fā)展展開討論和研究工作;日本也提出要在2020年之前實(shí)現(xiàn)自動(dòng)駕駛汽車方面的立法,并將自動(dòng)駕駛作為 2016年9月七國(guó)集團(tuán)交通部長(zhǎng)會(huì)議的議題。
“無(wú)人汽車大腦”AI的智能程度決定了無(wú)人駕駛的可靠性。由于無(wú)人駕駛完全交由汽車的內(nèi)置程序負(fù)責(zé),因此AI就是無(wú)人汽車的大腦,而測(cè)距儀、雷達(dá)、傳感器、GPS等。設(shè)備都是AI的“眼睛”。AI的智能程度直接決定了無(wú)人駕駛汽車在不同的路況、不同的天氣、甚至一些探測(cè)設(shè)備出現(xiàn)故障的突況下能否及時(shí)做出正確的判斷并靈活調(diào)整行駛策略,最終決定了無(wú)人駕駛汽車當(dāng)前最亟待突破的可靠性。
NVIDIA 在2016年的 CES大會(huì)上了“Drive PX 2”車載計(jì)算機(jī),以及一套與之搭配的具有學(xué)習(xí)功能的自動(dòng)駕駛系統(tǒng)。該系統(tǒng)的亮點(diǎn)在于“自我學(xué)習(xí)”,通過讓車輛自行分析路面狀況,而不是在數(shù)據(jù)庫(kù)中尋找預(yù)先儲(chǔ)存的策略實(shí)現(xiàn)自動(dòng)駕駛,系統(tǒng)背后連接著名為NVIDIA DIGITS的深度學(xué)習(xí)訓(xùn)練平臺(tái),最終連接到NVIDIA DRIVENET神經(jīng)網(wǎng)絡(luò),為車輛的自我學(xué)習(xí)和完善提供支持。并且由于它是通過判斷物體的行進(jìn)軌跡而不是物體本身去計(jì)算路徑,因此在駕駛時(shí)受天氣影響較小。
AI 成必爭(zhēng)之地
目前全球AI主戰(zhàn)場(chǎng)依舊在歐美。Venture Scanner的統(tǒng)計(jì)顯示,根據(jù)從事 AI相關(guān)業(yè)務(wù)的公司數(shù)量來(lái)看,目前全球 AI的主戰(zhàn)場(chǎng)還是集中在北美和西歐地區(qū)。美國(guó)數(shù)量最多,達(dá)到450家左右的水平。而中國(guó)從事相關(guān)業(yè)務(wù)的公司數(shù)量還比較少,和俄羅斯、澳洲、部分歐洲國(guó)家及非洲南部國(guó)家水平接近,相比起歐美國(guó)家的AI公司數(shù)量,還有很大的提高空間。
Google:投資未來(lái)的人工智能帝國(guó)
建立Alphabet帝國(guó),具備品牌背書效應(yīng)。2015年,谷歌成立母公司 Alphabet, 搜索、廣告、地圖、App、Youtube、安卓以及與之相關(guān)的技術(shù)基礎(chǔ)部門”仍屬于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都將獨(dú)立出來(lái),成為 Alphabet 旗下的獨(dú)立公司。通過建立 Alphabet集團(tuán),谷歌將不同業(yè)務(wù)的研發(fā)獨(dú)立出來(lái),以子公司的形式進(jìn)行業(yè)務(wù)開展,保留在Google這個(gè)品牌下的基本都是原有的傳統(tǒng)強(qiáng)勢(shì)業(yè)務(wù)。
而其它公司負(fù)責(zé)在各自的領(lǐng)域“打頭陣”,一旦業(yè)務(wù)研發(fā)成功,母公司連帶著google這個(gè)品牌都可以受益,而如果研發(fā)失敗,也不會(huì)公司的品牌造成多大的不良影響,建立了良好的品牌背書效應(yīng)。將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到所有產(chǎn)品之中,我們不難發(fā)現(xiàn),谷歌近年幾乎將人工智能滲透到了旗下的各類產(chǎn)品中,可謂是全線鋪開。正應(yīng)了谷歌 CEO的那句話:“我們將小心謹(jǐn)慎地將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到我們所有的產(chǎn)品之中?!备鶕?jù)當(dāng)前Alphabet 的集團(tuán)架構(gòu),我們將涉及到AI應(yīng)用的子公司情況以及相應(yīng)的業(yè)務(wù)開展情況羅列如下:
Nest:從事智能家居生態(tài)系統(tǒng)建設(shè)。2014 年谷歌以32億美元收購(gòu) Nest。Nest 生產(chǎn)智能恒溫器,它能夠?qū)W習(xí)用戶的行為習(xí)慣,并且根據(jù)他們的喜好去調(diào)節(jié)溫度。同時(shí),Nest 也提供火警探測(cè)器和家庭安全攝像頭等智能家居。
Google X:谷歌各類創(chuàng)新技術(shù)的“孵化池”。Google X開展的與AI有關(guān)的項(xiàng)目有:無(wú)人駕駛汽車、Project Wing 無(wú)人機(jī)送貨項(xiàng)目、對(duì)抗帕金森氏癥的 Liftware“反抖”湯匙、用于疾病預(yù)警和健康監(jiān)控的可穿戴設(shè)備、Project Titan 太陽(yáng)能無(wú)人機(jī)項(xiàng)目、以及 Replicant 團(tuán)隊(duì)負(fù)責(zé)的機(jī)器人項(xiàng)目等。
Verily:從事生命科學(xué)業(yè)務(wù),即原來(lái)的 Google Life Science。代表產(chǎn)品有可以收集佩戴者體溫和血液酒精含量等生物數(shù)據(jù)的智能隱形眼鏡,以及監(jiān)控血液中納米粒子的智能腕表。
DeepMind:深度學(xué)習(xí)算法公司。2014年谷歌以4億美元收購(gòu)了DeepMind。
DeepMind的算法源于兩種機(jī)器學(xué)習(xí)方法的結(jié)合:第一種是深度學(xué)習(xí),是受人腦啟發(fā)的一種結(jié)構(gòu)。深度學(xué)習(xí)系統(tǒng)能夠從大量的非結(jié)構(gòu)數(shù)據(jù)中獲取復(fù)雜信息。第二種是增強(qiáng)學(xué)習(xí),靈感源自動(dòng)物大腦中的神經(jīng)遞質(zhì)多巴胺獎(jiǎng)勵(lì)系統(tǒng),算法不斷通過試錯(cuò)來(lái)進(jìn)行學(xué)習(xí)。目前,DeepMind在深度學(xué)習(xí)上面的研究成果已經(jīng)開始用在谷歌的機(jī)器人項(xiàng)目中。