前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)綜述范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);年齡分類
0引言
人臉作為人類個(gè)體鮮明顯著的生物特征之一,包含著豐富的個(gè)人信息。隨著計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,相關(guān)的人臉識(shí)別等技術(shù)已成為這些項(xiàng)目任務(wù)的熱點(diǎn)課題,并在法醫(yī)、電子化客戶關(guān)系管理、安防、生物識(shí)別和娛樂影音等諸多領(lǐng)域中得到廣泛應(yīng)用。人臉除了可進(jìn)行身份認(rèn)證和識(shí)別外,還可以提取出性別、種族和年齡等信息,特別是可以將年齡及分布特征用于人機(jī)交互和商業(yè)智能等應(yīng)用中,因此年齡估計(jì)研究具有重要的科學(xué)意義和實(shí)用價(jià)值。
相對(duì)于人臉識(shí)別,人臉?biāo)鼙碚鞯哪挲g信息要受到很多因素的影響,例如不同個(gè)體的基因差異、生活習(xí)慣、環(huán)境、抗壓能力、健康情況和種族差別等有很大的關(guān)系。同時(shí),相同個(gè)體因發(fā)型、化妝和表情的不同也會(huì)影響年齡的估計(jì)。因此,如果要基于傳統(tǒng)的分類算法(如支持向量機(jī))并利用人臉圖像信息來進(jìn)行年齡分類將很難得到理想的結(jié)果。針對(duì)這些問題,目前的研究還相對(duì)不足,如果能有效解決上述問題,對(duì)大部分潛在的應(yīng)用領(lǐng)域也都將帶來深刻的影響。
1相關(guān)工作
年齡分類的主要流程是先根據(jù)人臉圖像獲取特征,再通過機(jī)器學(xué)習(xí)方法構(gòu)建模型,通過把年齡分為多個(gè)年齡區(qū)段,即每個(gè)年齡段對(duì)應(yīng)一個(gè)類別(比如未成年或成年人等)。因此可以把年齡分類看成是一個(gè)二分類或者多分類的分類問題來進(jìn)行求解。1994年,Kwon和Lobo則從人臉圖像中獲取年齡分類,把人分為3種不同的類別,也就是兒童、青年人和老年人,強(qiáng)調(diào)重要特征點(diǎn)的選擇。2002年Lanitis等人提出了能自動(dòng)對(duì)年齡實(shí)現(xiàn)估計(jì)的年齡量化方法。而且,王先梅等的綜述中也整體梳理了相關(guān)年齡估計(jì)技術(shù)的研究發(fā)展。王紹宇等人還基于SMV采用生物特征對(duì)人進(jìn)行分類,分為小孩和成人。此外在2016年,董遠(yuǎn)等人更將遷移學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)用于人的年齡和性別分類。
基金項(xiàng)目:甘肅省自然科學(xué)基金資助項(xiàng)目(1014RJZA009);甘肅省教育廳碩士生導(dǎo)師基金資助項(xiàng)目(0803-07)。
作者簡(jiǎn)介:王燕(1971-),女,甘肅蘭州人,副教授,碩士,主要研究方向:模式識(shí)別、圖像處理、智能信息處理; 公維軍(1987-),男,甘肅張掖人,碩士研究生,主要研究方向:模式識(shí)別。
文章編號(hào):1001-9081(2011)07-1822-03doi:10.3724/SP.J.1087.2011.01822
(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院, 蘭州 730050)
()
摘 要:提出了一種基于雙閾值的兩級(jí)級(jí)聯(lián)分類器的人臉檢測(cè)加速方法。該方法首先應(yīng)用Gabor濾波器提取經(jīng)模板匹配保留的似人臉樣本特征,經(jīng)主成分分析(PCA)降維后的特征作為第一級(jí)BP神經(jīng)網(wǎng)絡(luò)輸入進(jìn)行檢測(cè),在輸出端應(yīng)用雙閾值對(duì)人臉/非人臉進(jìn)行粗檢測(cè),然后把介于雙閾值之間的人臉/非人臉模塊作為第二級(jí)AdaBoost算法設(shè)計(jì)的輸入并再次進(jìn)行精檢測(cè),從而在提高檢測(cè)速度的同時(shí)達(dá)到提高檢測(cè)率和降低誤檢率的目的。實(shí)驗(yàn)表明,應(yīng)用雙閾值進(jìn)行級(jí)聯(lián)分類加速檢測(cè)后,該方法的檢測(cè)精度要優(yōu)于基于簡(jiǎn)單閾值的分類器。
關(guān)鍵詞:人臉檢測(cè);雙閾值;分類器;級(jí)聯(lián);加速
中圖分類號(hào):TP391.4文獻(xiàn)標(biāo)志碼:A
Accelerated algorithm of face detection based on
dual-threshold cascade classifiers
WANG Yan,GONG Wei-jun
(School of Computer and Communication, Lanzhou University of Technology, Lanzhou Gansu 730050, China)
Abstract: The paper proposed an accelerating way of face detection based on dual-threshold cascade classifiers. First, it applied Gabor filter to extract the face-like features that were retained by template matching, then put eigenvectors extracted by the way of Principal Component Analysis (PCA) into the BP neural network as first classifier, then used dual-threshold to decide face or non-face on output end, and put the face or non-face of midway between up and down threshold into the AdaBoost classifier as the second classifier to decide. In this way, it can improve the detection rate and reduce the false rate while speeding up the detection speed. The experimental results prove that the precision of cascade classifier of face detection based on dual-threshold is superior to the classifier of single threshold.
Key words: face detection; dual-threshold; classifier; cascade; acceleration
0 引言
人臉作為人類視覺中常見而復(fù)雜的模式,它所表現(xiàn)的信息在人與人的交流及人機(jī)交互領(lǐng)域都有著重要的意義。對(duì)人臉進(jìn)行檢測(cè)在安保視頻監(jiān)控,目標(biāo)身份檢測(cè)、門禁系統(tǒng)、智能人機(jī)接口和偵查犯罪等諸多領(lǐng)域都有著廣泛的應(yīng)用背景。人臉檢測(cè)可描述為對(duì)一幅給定的圖像(靜態(tài)或者視頻),采用一定的方法和策略對(duì)其進(jìn)行搜索以確定其中是否含有人臉以及人臉在圖像中出現(xiàn)的位置。
人臉是一類非剛性的自然形體,雖然具有很強(qiáng)的共性,但由于個(gè)體表情、光照、遮掩以及成像角度等因素的影響,使得人臉具有比較復(fù)雜而細(xì)致的模式變化。如果能夠很好地提取關(guān)鍵特征及設(shè)計(jì)良好的分類器,將為解決后續(xù)跟蹤識(shí)別及相似的復(fù)雜模式檢測(cè)問題提供有益的指導(dǎo),所以人臉檢測(cè)是當(dāng)前模式識(shí)別領(lǐng)域的一個(gè)熱點(diǎn)研究課題。
之前不少學(xué)者提出了各種綜合算法以及一些改進(jìn)算法,Rowley等人[1]提出了使用神經(jīng)網(wǎng)絡(luò)算法設(shè)計(jì)的人臉檢測(cè)模型,Viola等人[2]等人提出了用簡(jiǎn)單特征訓(xùn)練級(jí)聯(lián)人臉檢測(cè)器的AdaBoost方法,這之后又有學(xué)者在此基礎(chǔ)上提出了改進(jìn)算法,如Lienhart等人提出的擴(kuò)展特征的旋轉(zhuǎn)人臉檢測(cè)[3]、支持向量機(jī)[4]等。還有學(xué)者提出各種模型算法,如膚色模型的人臉檢測(cè)[5-6]等。上述基于單一分類器的人臉檢測(cè)在一定程度上提高了檢測(cè)精度,但是由于自身特點(diǎn)的局限性,并且分類閾值的單一性等造成了進(jìn)一步提升精度和降低報(bào)警率的困難。本文通過級(jí)聯(lián)分類這種粗細(xì)檢測(cè)的原則,提出了一種基于雙閾值的級(jí)聯(lián)分類器的加速人臉檢測(cè)方法。與以往級(jí)聯(lián)的方法不同,本方法結(jié)合基于知識(shí)與統(tǒng)計(jì)的方法[7],先應(yīng)用模板匹配將大量背景去除,只將其中很少的似人臉?biāo)腿氲谝患?jí)BP神經(jīng)網(wǎng)絡(luò)構(gòu)成的分類器進(jìn)行雙閾值初檢,將介于上下閾值的人臉/非人臉?biāo)腿霊?yīng)用Haar特征的AdaBoost算法的第二級(jí)分類器進(jìn)行精確判別。實(shí)驗(yàn)證明該方法能夠有效提高檢測(cè)率,降低誤檢率并提高檢測(cè)速度。
1 兩級(jí)分類器的構(gòu)建
1.1 基于Gabor小波的BP神經(jīng)網(wǎng)絡(luò)分類器
1.1.1 Gabor小波特征提取
Gabor小波變換(加窗傅里葉變換)由于其小波核函數(shù)具有和人腦大腦皮層簡(jiǎn)單細(xì)胞的二維反射區(qū)相類似的特性,使其在空間頻率、方向選擇及空間位置的局部信息上有著良好的采集和分辨能力,因此在以生物學(xué)和視覺特性為背景的圖像學(xué)和人臉檢測(cè)等多方面得到了廣泛的應(yīng)用。
二維Gabor濾波器函數(shù)形式為:
Gj(w)exp(-)[exp(ikjw)-exp(-)](1)
其中:kj,φuu?,w(x,y);δ為高斯窗口的尺度因子,控制濾波器的帶寬和尺度;φu與ωv控制濾波器的調(diào)制方向和頻率。只要選擇合適的δ、φu和ωv,就可以使Gabor小波濾波器構(gòu)成Gabor濾波器組來一同作用于圖像,從而實(shí)現(xiàn)目標(biāo)圖像的Gabor小波分解,得到我們所要的特征。在本文中通過檢測(cè)窗口與Gabor濾波器組卷積即可得到我們所要提取的特征。
1.1.2 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種基于誤差修正學(xué)習(xí)規(guī)則的網(wǎng)絡(luò),它實(shí)現(xiàn)一種由輸入到輸出的非線性空間的一種映射,它的模型一般由輸入層、隱層、輸出層組成,隱層可以由一層或多層組成。該算法學(xué)習(xí)的目的是對(duì)網(wǎng)絡(luò)的連接權(quán)值進(jìn)行調(diào)整,使得對(duì)任意輸入都能得到所謂期望的輸出[8],它采用了優(yōu)化的梯度下降算法,直到調(diào)整的誤差滿足需求為止。
1.2 基于AdaBoost算法的人臉檢測(cè)分類器
1.2.1 Haar特征模板和積分圖像
應(yīng)用AdaBoost學(xué)習(xí)算法的特征級(jí)聯(lián)人臉檢測(cè)方法是由Viola和Jones提出來的,該方法采用一種“積分圖像”的表示方法,能快速?gòu)娜四樦杏?jì)算出所用到的人臉特征。
Haar型特征是Viola等人提出的一種簡(jiǎn)單的矩形矩陣。Haar型特征的值是指圖像上兩個(gè)或者多個(gè)形狀大小相同的矩形內(nèi)部所有像素灰度值之和的差值。這些以圖像灰度值為自變量的矩形特征在邊緣檢測(cè)方面有著很好的表現(xiàn)能力,對(duì)人臉臉部的各種特征有很好的提取和編碼能力,檢測(cè)速度很快。
Haar型特征的計(jì)算是通過引入積分圖像實(shí)現(xiàn)的,見圖1。對(duì)于一個(gè)灰度圖像I,它的積分圖像i的定義為圖像中(x,y)點(diǎn)左上部分所有像素點(diǎn)的累加:
I(x,y)∑x′≤x,y′≤yi(x′,y′)(2)
圖1 積分圖像
這時(shí),1、2、3、4的積分圖的值分別為A、A+B、A+C、A+B+C+D,D點(diǎn)的矩形特征可以通過4+1-(2+3)計(jì)算得出,這樣,只要對(duì)圖像遍歷一次,就可以得到積分圖,就可以在恒定的時(shí)間內(nèi)得到任意尺度下的圖像的特征。
1.2.2 AdaBoost學(xué)習(xí)算法
AdaBoost學(xué)習(xí)算法選擇少量而又非常重要的矩形特征來構(gòu)造一系列弱分類器,然后將這些弱分類器級(jí)聯(lián)起來構(gòu)成一個(gè)強(qiáng)分類器。算法通過選擇最能區(qū)分正負(fù)樣本的矩形特征。對(duì)于每一個(gè)特征,弱分類器給定一個(gè)最優(yōu)的分類函數(shù)的閾值,使得最少的樣本被錯(cuò)誤分類。一個(gè)弱分類器hj(x)包含矩形特征fj,閾值θj和用于控制不等式方向的pj:
hj(x)1, pjfj(x)≤pjθj
0, 其他 (3)
具體學(xué)習(xí)算法如下:
設(shè)(X1,Y1)、(X2,Y2)、…、(Xn,Yn)為具體輸入的圖像,用Yj0,1來標(biāo)記正負(fù)樣本,T為循環(huán)次數(shù)。
1)初始化權(quán)值w1,對(duì)正樣本(Yj1)和負(fù)樣本(Yj0)有I1/(2m),1/(2n)。
2)當(dāng)t1,2,…,T時(shí):
①標(biāo)準(zhǔn)化權(quán)值,wt,i
②對(duì)每一個(gè)特征j,訓(xùn)練相應(yīng)的分類器hj使該分類器對(duì)該特征進(jìn)行分類,誤差為εj∑Tt1wt|hj(x)-yi|。
③選擇最小誤差分類的分類器。
④更新權(quán)值wt+1,twt,jβ1-eit,若Xi被正確地分類,則ei0;反之,ei1,βt(1-ei)/t。
⑤最終的強(qiáng)分類器為:
h(x)1, ∑Tt1αtht(x)≥∑Tt1αt
0, 其他 (4)
其中αtlb (1/βt)。
2 基于雙閾值的級(jí)聯(lián)分類器的加速算法
2.1 系統(tǒng)構(gòu)造框架
為了解決基于傳統(tǒng)的檢測(cè)方法中無論是單分類器還是級(jí)聯(lián)分類器均由單一閾值造成漏檢與誤檢之間的矛盾,本文在兼顧速度的同時(shí)通過利用雙閾值設(shè)置檢測(cè)緩沖區(qū),達(dá)到提高檢測(cè)率與降低誤檢率和漏檢率的目的。具體流程如圖2所示。
圖2 人臉檢測(cè)系統(tǒng)框架
2.2 樣本選取和圖像預(yù)處理
該系統(tǒng)所用的人臉訓(xùn)練樣本來自MIT、ORL訓(xùn)練圖庫(kù)。為了便于訓(xùn)練,統(tǒng)一將其裁剪為21×18的樣本圖像進(jìn)行相應(yīng)的分類器訓(xùn)練,在訓(xùn)練當(dāng)中可以根據(jù)后期檢測(cè)結(jié)果適時(shí)添加一些非人臉樣本,減少一定的盲目性。
無論在訓(xùn)練還是在檢測(cè)前,為了減少圖像由于光照、背景以及采集設(shè)備等造成的影響,都將進(jìn)行一定的預(yù)處理。在本系統(tǒng)中,我們采用了連續(xù)性能更好的Gamma光照補(bǔ)償,這樣當(dāng)原始圖像分布不均勻,并且主要集中在較低范圍灰度級(jí)時(shí),經(jīng)過均衡處理后,圖像的灰度動(dòng)態(tài)范圍變大,對(duì)比度增強(qiáng),人臉特征更加突出。這樣可以進(jìn)一步減少光照等因素帶來的影響,從而更有利于提取人臉特征。
2.3 系統(tǒng)加速算法設(shè)計(jì)
傳統(tǒng)基于滑動(dòng)窗的檢測(cè)方法在待測(cè)圖像中依次滑動(dòng),通過將每一個(gè)窗口送入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行判別,而經(jīng)實(shí)驗(yàn)測(cè)試一張21×18的圖片在本文所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分類器中運(yùn)行時(shí)間為0.07s左右,若進(jìn)行全部窗口測(cè)試,計(jì)算量相當(dāng)大,這也是時(shí)間復(fù)雜度相對(duì)較高的原因之一。基于此,本文對(duì)基于歐氏距離的模板匹配算法[9]進(jìn)行模板改進(jìn),去除眼睛模板,在應(yīng)用多尺度壓縮的圖像金字塔方法的測(cè)試圖片上進(jìn)行整體模板匹配[10],通過保留與人臉相似度大的窗口位置進(jìn)行神經(jīng)網(wǎng)絡(luò)分類器測(cè)試進(jìn)而將大量背景去除,通過這種加速處理方法來提高前期算法的效率。
2.4 雙閾值級(jí)聯(lián)分類器
第一級(jí)分類器我們采用神經(jīng)網(wǎng)絡(luò)的方法[11-12]。它是通過主成分分析(Principal Component Analysis,PCA)降維[13]后進(jìn)行BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的分類器,由于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)在應(yīng)用時(shí)存在一些問題,如容易形成局部最小問題、收斂速度問題而不能保證全局最小結(jié)果[14],因此本文在訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)時(shí)采用具有自適應(yīng)能力的動(dòng)量項(xiàng)對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化設(shè)計(jì)。對(duì)隱層的神經(jīng)元來說:
Δwji(n)αΔwji(n-1)+ηδj(n)yj(n)(5)
對(duì)于輸出層來說:
Δwji(n)αΔwji(n-1)+ηδk(n)yj(n)(6)
在式(5)和式(6)中,α為動(dòng)量因子,調(diào)節(jié)范圍在(0,1),其中式中第二項(xiàng)相當(dāng)于ηδ(n)y(n)-η,可以根據(jù)這一項(xiàng)來判斷誤差曲面的趨勢(shì)以進(jìn)行自適應(yīng)調(diào)整,從而不至于過大造成過沖或過小造成收斂速度慢,從而起到一定的穩(wěn)定作用。根據(jù)具體實(shí)驗(yàn)效果,得出了以下自適應(yīng)因子數(shù)據(jù)參照表,見表1。
表1 自適應(yīng)因子參照表
通過自適應(yīng)因子來調(diào)節(jié)學(xué)習(xí)速度進(jìn)而控制反饋回路。通過應(yīng)用優(yōu)化設(shè)計(jì)的BP網(wǎng)絡(luò),其收斂速度和魯棒性得到了很大的提高。
將達(dá)到一定程度的匹配模塊經(jīng)過Gabor特征提取輸入第一級(jí)分類器,在應(yīng)用神經(jīng)網(wǎng)絡(luò)進(jìn)行粗檢測(cè)時(shí),如果高于雙閾值中的上閾值則直接判別為人臉,不再送入細(xì)檢測(cè)分類器;而低于下閾值的直接判別為非人臉,直接剔除;而由于訓(xùn)練集范圍的有限性及光照,遮掩等各種原因,在介于高閾值和低閾值之間的范疇中,有存在人臉的可能性。因此,把介于這兩個(gè)閾值之間的人臉與部分非人臉圖像塊再輸入基于Haar特征的AdaBoost分類算法的第二級(jí)分類器進(jìn)行再次判別,由于只檢測(cè)第一級(jí)分類器輸出介于雙閾值之間的人臉或非人臉的小尺寸圖像,所以在此進(jìn)一步進(jìn)行加速檢測(cè)。
由于第二級(jí)分類器采用灰度級(jí)上的積分特征提取,所以能夠快速地對(duì)介于雙閾值中的人臉/非人臉從灰度級(jí)上進(jìn)行確認(rèn)。最后通過這兩級(jí)級(jí)聯(lián)分類器的最終確認(rèn)并合并人臉中心位置以確定最終位置,從而得到檢測(cè)后最終的人臉圖像。
2.5 算法描述
根據(jù)粗細(xì)檢測(cè)的原則,對(duì)檢測(cè)圖片進(jìn)行分類器級(jí)聯(lián)檢測(cè),由第一級(jí)神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行粗檢測(cè),在與第二級(jí)分類器級(jí)聯(lián)時(shí),通過設(shè)置雙閾值接口算法來進(jìn)行細(xì)檢測(cè)從而達(dá)到既降低計(jì)算復(fù)雜度又提高精度的目的。具體算法描述如下:
1)初始化分類器,預(yù)處理測(cè)試集圖片
2)FOR i1:n//n為測(cè)試集圖片數(shù)
Input classifier_gabor&bp( )//進(jìn)入第一級(jí)分類器
FOR j1:m //m為第一級(jí)分類器初檢圖像塊數(shù)
IF wj>Threshold_up
yj+1 accept//加入到人臉集
ELSE IF
(wjThreshold_down)
Input classifier_adaboost( )//進(jìn)入第二級(jí)分類器
IF (wj>Threshold_adaboost)
yj+1 accept//再次確認(rèn)加入到人臉集
ELSE discard
ELSE discard
END
END
Threshold_up與Threshold_down為系統(tǒng)第一級(jí)分類器的上下閾值。
3 系統(tǒng)測(cè)試結(jié)果與分析
為了驗(yàn)證該算法的加速性能與檢測(cè)率,采用2組實(shí)驗(yàn)進(jìn)行檢測(cè),第一組采用一張320×240的標(biāo)準(zhǔn)視頻的一幀靜態(tài)多人臉圖像進(jìn)行速度檢測(cè),驗(yàn)證本文算法的加速性能;第二組進(jìn)行識(shí)別率檢測(cè),首先對(duì)CMU實(shí)驗(yàn)室的CMU_PIE中的gallery圖庫(kù)中的68張簡(jiǎn)單背景正面人臉進(jìn)行檢測(cè),由于背景單一且為單人臉,檢測(cè)率最高達(dá)到了100%,同時(shí)為了進(jìn)一步驗(yàn)證算法設(shè)計(jì)的有效性,我們對(duì)部分MIT+CMU的測(cè)試圖片以及室外收集的部分圖片進(jìn)行了測(cè)試(包含120張圖片,235個(gè)人臉,其中包括部分不超過±20°的側(cè)面人臉),并對(duì)單一使用AdaBoost算法檢測(cè)人臉與BP神經(jīng)網(wǎng)絡(luò)、Gabor+BP神經(jīng)網(wǎng)絡(luò)人臉檢測(cè)方法做了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)1和實(shí)驗(yàn)2的結(jié)果如下所示,圖4為應(yīng)用雙閾值級(jí)聯(lián)分類器的對(duì)比效果。
表2 不同算法檢測(cè)速度和檢測(cè)率
圖3 部分測(cè)試圖片檢測(cè)效果
圖4 雙閾值級(jí)聯(lián)分類效果對(duì)比
通過以上實(shí)驗(yàn)結(jié)果表明,本文提出的算法在精確度和魯棒性上有了明顯的提高,從表2的檢測(cè)速度上來看,雖然本文提出的算法相比AdaBoost算法較慢,但比傳統(tǒng)算法有很大幅度的提高,有進(jìn)一步提升的潛力;同時(shí)從圖4中可以清晰地看出,應(yīng)用雙閾值粗細(xì)檢測(cè)方法能進(jìn)一步降低誤檢率,精度有相對(duì)較大的提升。
4 結(jié)語(yǔ)
本文提出了一種基于雙閾值的兩級(jí)級(jí)聯(lián)分類器的人臉加速檢測(cè)方法,通過模板匹配方法來降低在分類器中的計(jì)算時(shí)間,同時(shí)在兩級(jí)級(jí)聯(lián)分類器之間設(shè)置雙閾值接口進(jìn)行級(jí)聯(lián)檢測(cè),并在第一級(jí)分類器的收斂性上做了一定的改進(jìn),在加速的同時(shí)更加提高了精度。通過應(yīng)用雙閾值級(jí)聯(lián)分類器的加速算法判斷人臉/非人臉,解決了基于傳統(tǒng)閾值分類器在檢測(cè)當(dāng)中的矛盾問題,速度也有相應(yīng)的提高,誤檢率進(jìn)一步降低,系統(tǒng)整體性能得到了提升。
參考文獻(xiàn):
[1] ROWLEY H A, BALUJA S, KANADA T. Neural network-based face detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(1):23-38.
[2] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2001:511-518.
[3] LIENHART R, MAYDT J. An extended set of haar-like features for rapid object detection[C]// Proceedings of the International Conference in Image Processing. New York:IEEE, 2002:900-903.
[4] HEISELE B, SERRE T, POGGIO T. A component-based framework for face detection and identification[J]. International Journal of Computer Vision, 2007, 74(2):167-181.
[5] HSU R L, ABDEL-MOTTALEB M, JAIN A K. Face detection in color images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5):696-706.
[6] 月書仁,梁昔明,葉吉祥,等.基于臉部信息和支持向量機(jī)的人臉檢測(cè)[J].計(jì)算機(jī)應(yīng)用,2006,26(5):1032-1034.
[7] 梁路宏,艾海舟,徐光佑,等.人臉檢測(cè)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2002,25(5) :449-458.
[8] 王志良,孟秀艷.人臉工程學(xué)[M].北京:機(jī)械工業(yè)出版社,2008.
[9] 梁路宏,艾海舟,徐光佑,等.基于模板匹配與人工神經(jīng)網(wǎng)確認(rèn)的人臉檢測(cè)[J].電子學(xué)報(bào),2001,29(6):744-747.
[10] 林宇生,楊靜宇. 基于Gabor濾波特征和支持向量機(jī)的人臉檢測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2007, 43(1):33-34.
[11] 聶祥飛,郭軍.基于Gabor小波的人臉檢測(cè)[J].計(jì)算機(jī)工程,2006,32(21):44-46.
[12] 頊改燕,徐華,翟忠武,等.基于Gabor濾波器和BP神經(jīng)網(wǎng)絡(luò)的人臉皮膚皺紋區(qū)域自動(dòng)識(shí)別[J].計(jì)算機(jī)應(yīng)用,2010,30(2):430-432.
關(guān)鍵詞:辛烷值;快速檢測(cè)方法;氣相色譜法;紅外光譜法;拉曼光譜法
中圖分類號(hào):TB 文獻(xiàn)標(biāo)識(shí)碼:A doi:10.19311/ki.1672-3198.2016.07.092
辛烷值是表征車用汽油抗爆性的重要指標(biāo),1926年美國(guó)科學(xué)家埃得將辛烷值引入汽油性能指標(biāo)。汽油在燃燒過程中,抵抗爆震的能力叫作抗爆性,辛烷值就是表示汽油抗爆性的指標(biāo)。辛烷值越高,其抗爆性能越好,汽油在汽缸中燃燒越充分,燃燒效率越高,尾氣排放中的一氧化碳、碳?xì)浠衔锖吭降停瑢?duì)環(huán)境的危害相應(yīng)越小。
馬達(dá)法辛烷值和研究法辛烷值是汽油的辛烷值的傳統(tǒng)測(cè)量方法,方法用樣品量大,時(shí)間長(zhǎng)、費(fèi)用高,不適于生產(chǎn)控制的在線測(cè)試。本文對(duì)近幾年出現(xiàn)的幾種辛烷值測(cè)量的快速分析方法進(jìn)行總結(jié)和綜述,介紹相關(guān)方法的應(yīng)用進(jìn)展。
1 拉曼光譜法
拉曼分析方法作為一種光譜檢測(cè)技術(shù),不僅樣品預(yù)處理簡(jiǎn)單、分析速度快、效率高、重現(xiàn)性好,另外還具有受水分干擾小、樣品無損、可進(jìn)行微量樣品探測(cè)、檢測(cè)頻帶寬、可快速跟蹤反應(yīng)過程等特點(diǎn);即便是非極性基團(tuán)如c=c,c=c等紅外吸收較弱的官能團(tuán),在拉曼光譜中也可以得到很強(qiáng)的吸收譜帶。因此,特別適合用于對(duì)含碳、氫基團(tuán)較高的汽油樣品的辛烷值檢測(cè)。
康健爽等2010年提出了一種使用拉曼分析測(cè)定汽油辛烷值的方法,并設(shè)計(jì)了辛烷值拉曼光譜在線檢測(cè)系統(tǒng)。這種辛烷值在線監(jiān)控系統(tǒng)能夠?qū)崟r(shí)監(jiān)控乙醇汽油中的組分變化,并給出對(duì)應(yīng)的拉曼分析曲線;根據(jù)光柵型和傅立葉變換型光譜儀各自特點(diǎn),選用光柵型拉曼光譜儀應(yīng)用于辛烷值在線檢測(cè)。以Lambert-Beer定律為基礎(chǔ),采用化學(xué)計(jì)量學(xué)方法,將檢測(cè)數(shù)據(jù)和采用標(biāo)準(zhǔn)方法測(cè)得的屬性數(shù)據(jù)之間關(guān)聯(lián),建立分析模型,在具體算法實(shí)現(xiàn)過程中,分別采用PCA和PLS兩種方法建立關(guān)聯(lián)分析模型,并用于乙醇汽油辛烷值的快速預(yù)測(cè),指導(dǎo)實(shí)際調(diào)和過程。實(shí)踐證明,相對(duì)傳統(tǒng)的檢測(cè)手段,該系統(tǒng)具有測(cè)試速度快、分析時(shí)間短、檢測(cè)費(fèi)用低、經(jīng)濟(jì)效益高等特點(diǎn)。
2 氣相色譜法
李長(zhǎng)秀等2003年建立了一種新方法,該方法將氣相色譜結(jié)果關(guān)聯(lián)建模用以計(jì)算汽油樣品的辛烷值。對(duì)汽油的組成采用高分辨毛細(xì)管柱進(jìn)行測(cè)定,根據(jù)汽油單體烴組分的含量和純組分辛烷值乘積的大小,將單體烴組分分為兩組,每一組為一個(gè)變量,建立實(shí)測(cè)辛烷值與兩個(gè)變量間的回歸模型。實(shí)際分析時(shí),根據(jù)樣品的類型帶入相應(yīng)的模型進(jìn)行關(guān)聯(lián)計(jì)算即可得到樣品的辛烷值。該方法與采用標(biāo)準(zhǔn)方法測(cè)定催化裂化汽油辛烷值的結(jié)果相比,測(cè)定結(jié)果的偏差約0.5個(gè)單位。該方法因?yàn)椴僮飨鄬?duì)簡(jiǎn)單,樣品量耗費(fèi)少,且建模過程快速、簡(jiǎn)便,適于穩(wěn)定工藝過程中的汽油辛烷值的在線監(jiān)測(cè)。
于愛東等采用毛細(xì)管氣相色譜法對(duì)汽油單體烴類進(jìn)行分離,用PONA汽油組成軟件對(duì)汽油單體烴進(jìn)行定性、定量、Pona組成計(jì)算.將汽油單體烴分為37組,建立實(shí)測(cè)辛烷值與37個(gè)變量之間的回歸模型,計(jì)算汽油辛烷值。該模型計(jì)算辛烷值與實(shí)測(cè)辛烷值的極差為0.26個(gè)單位,適用辛烷值在88~92之間的油品。辛烷值的計(jì)算公式能夠較好地反映汽油單體烴與辛烷值之間的關(guān)系。方法操作簡(jiǎn)單,樣品用量少,結(jié)果準(zhǔn)確,適合于煉廠蒸餾、催化過程中汽油辛烷值的實(shí)時(shí)監(jiān)測(cè)。
3 近紅外光譜法
近紅外光譜分析方法是一種間接分析方法,它先利用一組汽油標(biāo)準(zhǔn)樣品,在汽油的近紅外光譜數(shù)據(jù)間和汽油辛烷值建立數(shù)據(jù)關(guān)聯(lián)分析模型,再用該模型預(yù)測(cè)未知汽油樣品的辛烷值。測(cè)量精度除受儀器精度影響外,還受所建分析模型精度影響。
韓言正等介紹了一種自主開發(fā)研制的汽油辛烷值近紅外光譜在線分析儀。該分析儀包括近紅外光譜在線測(cè)量、光譜預(yù)處理和實(shí)時(shí)建模等部分。對(duì)于原始的近紅外光譜數(shù)據(jù),采用多項(xiàng)式卷積算法進(jìn)行光譜平滑、基線校正和標(biāo)準(zhǔn)歸一化;通過模式分類與偏最小二乘進(jìn)行實(shí)時(shí)建模。該分析儀已成功應(yīng)用于某煉油廠生產(chǎn)過程的辛烷值在線監(jiān)測(cè)。
汽油辛烷值預(yù)測(cè)體系具有非線性的特點(diǎn),史月華等據(jù)此提出主成分回歸殘差神經(jīng)網(wǎng)絡(luò)校正算法(PCRRANN)用于近紅外測(cè)定汽油辛烷值的預(yù)測(cè)模型校正。該方法結(jié)合了主成分回歸算法(PC),與PLS(PartialLeastSquare),PCR,PLS(NPLS,Non lin-earPLS)等經(jīng)典校正算法相比,預(yù)測(cè)能力有明顯的提高。
1圖像特征表示方法概述
設(shè)計(jì)圖像的特征表示是計(jì)算機(jī)視覺中一項(xiàng)非?;镜难芯?jī)?nèi)容,圖像的分類、檢索、標(biāo)注等工作都是以提取圖像特征為初始步驟,好的特征表示可以在相關(guān)圖像分析中取得更佳的效果.因此,圖像特征的設(shè)計(jì)與構(gòu)造,直接影響算法的性能.而如何定義一個(gè)好的圖像特征卻是非常困難的:一方面,設(shè)計(jì)的圖像特征對(duì)于同一類別下圖像之間的變化(比如尺度、光照變化、對(duì)象位置變化等)要有足夠的魯棒性;另一方面,設(shè)計(jì)的圖像特征要具備足夠的判別性來處理不同類別間圖像的變化.近年來,研究者提出了大量的底層特征用于各種圖像分析任務(wù),其中最具有代表性的是基于梯度朝向直方圖的SIFT(scale-invariantfeaturetransform)[1]和HOG(histogramoforientedgradient)[2].盡管這類特征取得了一定意義的成功,但研究者發(fā)現(xiàn),這類單一的底層特征并不足以在某些應(yīng)用上達(dá)到更好的效果,因此提出了一類中間層的圖像特征表示方法.其中,BoW(bagofwords)[3]是這類圖像特征表示方法的典型代表,該方法在場(chǎng)景分類中獲得了較好的性能.BoW算法生成圖像特征表示分為3個(gè)過程:圖像底層特征的獲取、學(xué)習(xí)過完備字典和計(jì)算圖像的碼字直方圖表示.然而,BoW方式并沒有考慮特征向量在圖像空間上的位置關(guān)系,使得其特征描述能力并沒有達(dá)到最大化.為了彌補(bǔ)這一缺陷,空間金字塔匹配(spatialpyramidmatching,簡(jiǎn)稱SPM)[4]方法通過在一幅圖像的不同層次上計(jì)算碼字直方圖,形成了一個(gè)BoW多層特征,將BoW模型與圖像空間進(jìn)行合理融合.然而,由于SPM方法利用直方圖交核函數(shù)來度量?jī)煞鶊D像間的相似度,導(dǎo)致無法產(chǎn)生低維度的圖像特征表示,而且需要完整計(jì)算訓(xùn)練集圖像間相似度的Gram矩陣,因此,其算法復(fù)雜度為O(n2)(其中,n為訓(xùn)練集中圖像的個(gè)數(shù)).為了解決這一問題,有效匹配核算法(efficientmatchkernel,簡(jiǎn)稱EMK)[5]在碼字間相似性的基礎(chǔ)上構(gòu)造了一個(gè)低維特征映射空間,整個(gè)圖像的特征可以表示為碼字映射在這個(gè)低維特征空間后的平均,且可以采用線性SVM方法訓(xùn)練分類器,在圖像分類應(yīng)用中獲得了非常不錯(cuò)的效果.然而,有效匹配核算法仍然依賴于人為定義的圖像局部特征(如SIFT或HOG),只不過是通過計(jì)算有限維空間的局部線性特征表示來推出整體圖像的線性特征.
Bo等人擴(kuò)展了有效匹配核算法并提出了核描述子(kerneldescriptor,簡(jiǎn)稱KD)[6]方法.這種方法只需定義任意兩個(gè)局部圖像塊之間的相似性,且該相似性函數(shù)滿足核函數(shù)定義.由于每個(gè)核函數(shù)都隱性定義了一個(gè)映射,它將圖像塊映射為再生核希爾伯特空間(reproducingkernelHilbertspace,簡(jiǎn)稱RKHS)中一個(gè)非常高維的向量,這樣,核函數(shù)可以表示為RKHS中兩個(gè)高維向量的內(nèi)積,通過核主成分分析(kernelprincipalcomponentanalysis,簡(jiǎn)稱KPCA)[7]算法,可以由核函數(shù)推出圖像塊特征的有限維線性表示.這種低維空間中的表示就稱為核描述子,并且采用EMK算法將其推廣到整個(gè)圖像的特征表示.盡管核描述子方法的設(shè)計(jì)思想較為新穎,但仍然存在計(jì)算復(fù)雜度過高這一缺陷,限制了其在大規(guī)模圖像數(shù)據(jù)庫(kù)上的應(yīng)用.事實(shí)上,在KPCA方法的離線階段,所有聯(lián)合基向量對(duì)之間的相似性都需要計(jì)算,這是非常耗時(shí)的.更重要的是:在線階段計(jì)算一個(gè)新圖像塊的特征映射時(shí),該圖像塊與所有聯(lián)合基向量之間的相似性也是需要計(jì)算的,而這實(shí)際上是不需要的.Xie等人[8]通過使用不完整Cholesky分解替代KPCA算法,成功地解決了這個(gè)問題,并且通過迭代,應(yīng)用不完整Cholesky分解算法表示整個(gè)圖像特征[9].但文獻(xiàn)[8,9]中,通過不完整Cholesky分解得到的標(biāo)志聯(lián)合基向量并沒有對(duì)應(yīng)實(shí)際的圖像塊,因此,其產(chǎn)生的特征判別能力并沒有最大化地得到利用.
Wang等人提出了有監(jiān)督的核描述子方法[10],該方法利用訓(xùn)練集中的圖像類標(biāo)來輔助設(shè)計(jì)底層圖像塊特征.盡管他們利用該特征取得了不錯(cuò)的分類效果,但這個(gè)算法運(yùn)行過程中需要大量有類標(biāo)的圖像,并且對(duì)象優(yōu)化函數(shù)求解過程復(fù)雜,時(shí)間復(fù)雜度過高.除了上述生成圖像底層特征表示的方法以外,另外一類構(gòu)成圖像特征的方法基于深度學(xué)習(xí)理論.2006年,Hinton等人[11,12]提出了用于深度信任網(wǎng)絡(luò)(deepbeliefnetwork,簡(jiǎn)稱DBN)的無監(jiān)督學(xué)習(xí)算法,DBN的多層結(jié)構(gòu),使得它能夠?qū)W習(xí)得到層次化的特征表示,實(shí)現(xiàn)自動(dòng)特征抽象,文獻(xiàn)[12]將DBN模型成功用于手寫數(shù)字識(shí)別應(yīng)用上.Bengio等人在文獻(xiàn)[13]中提出了基于自編碼器(auto-encoder)[14]的深度學(xué)習(xí)網(wǎng)絡(luò),在手寫數(shù)字識(shí)別圖像數(shù)據(jù)庫(kù)上得到了類似的實(shí)驗(yàn)結(jié)果.另外,文獻(xiàn)[1517]提出了一系列基于稀疏編碼的深層學(xué)習(xí)網(wǎng)絡(luò),在圖像應(yīng)用中取得了一定的成功.LeCun等人用誤差梯度設(shè)計(jì)并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,簡(jiǎn)稱CNN),其在圖像分類,特別是手寫體字符識(shí)別應(yīng)用中得到優(yōu)越的性能.在此基礎(chǔ)上,Krizhevsky等人[21]將CNN模型應(yīng)用到分類大規(guī)模ImageNet圖像數(shù)據(jù)庫(kù),更加充分地顯示了深度學(xué)習(xí)模型的表達(dá)能力.盡管在深度學(xué)習(xí)模型下獲得的圖像特征有很強(qiáng)的判別表示能力,但其要求計(jì)算機(jī)硬件條件較高,單機(jī)環(huán)境下很難實(shí)現(xiàn).除此之外,更加詳細(xì)地介紹圖像特征描述子領(lǐng)域的綜述可以參考文獻(xiàn)[23].本文在大數(shù)據(jù)時(shí)代背景下,為了能夠快速得到圖像塊的線性特征表示,提出了有效圖像塊描述子(efficientpatch-leveldescriptor,簡(jiǎn)稱EPLd)方法.該方法在不完整Cholesky分解基礎(chǔ)上,可以自動(dòng)地進(jìn)行圖像塊篩選,對(duì)于求解新圖像塊的線性特征表示,只需計(jì)算它和一小部分基圖像塊的相似性就足夠了.有了圖像塊的特征表示之后,一幅圖像就對(duì)應(yīng)著一個(gè)圖像塊特征的集合,該集合可以看作是特征空間中基于某個(gè)分布的樣本集,這樣,兩幅圖像之間的差異可以看作兩個(gè)分布的距離.本文采用基于高維概率分布的MMD距離[24]進(jìn)行估算,進(jìn)而計(jì)算兩幅圖像間的相似性.本文首先介紹核描述子方法,然后給出有效圖像塊描述子算法的具體實(shí)現(xiàn)過程以及如何利用MMD距離計(jì)算兩幅圖像的相似性,并在幾個(gè)著名的圖像分類數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),最后給出工作的結(jié)論和展望.
2核描述子方法簡(jiǎn)介
核描述子方法是對(duì)圖像像素點(diǎn)屬性(梯度/形狀/顏色+位置)基礎(chǔ)上生成的聯(lián)合基向量應(yīng)用KPCA方法,從而計(jì)算新圖像塊的有限維特征表示.為了方便敘述,本文采用像素點(diǎn)的梯度屬性來介紹核描述子方法.通過公式(2)可以看到,核描述子方法的主要缺陷有以下3點(diǎn):(1)算法計(jì)算復(fù)雜度高,因?yàn)樾枰獙?duì)dodp維的聯(lián)合基向量形成的Gram矩陣計(jì)算特征值分解,如果聯(lián)合基向量的維度過高或者個(gè)數(shù)過多,KPCA算法甚至無法實(shí)施;(2)對(duì)聯(lián)合基向量進(jìn)行KPCA獲得的tij并不是稀疏的,這也就意味著在計(jì)算新圖像塊的特征表示時(shí),需要和所有的聯(lián)合基向量進(jìn)行在線計(jì)算,所以算法需要存儲(chǔ)全部的聯(lián)合基向量;(3)算法無法進(jìn)行特征選擇,即,并不知道聯(lián)合基向量中哪些樣本最具代表性.
3有效圖像塊描述子算法
針對(duì)核描述子方法的3點(diǎn)不足之處,文獻(xiàn)[8]解決了其主要缺陷的第一、第二兩點(diǎn),但是文獻(xiàn)[8]在本質(zhì)上仍然使用聯(lián)合基向量,所以沒有明確地進(jìn)行特征選擇,即,找出哪些圖像塊是最具代表性的,使得其特征表示能力并沒有達(dá)到最大化.為了更加完善地解決核描述子方法的缺陷,本文提出了一種新的圖像塊特征表示方法,稱為有效圖像塊描述子.該方法基于對(duì)圖像塊相似度矩陣執(zhí)行不完整Cholesky分解。總體上來說,有效圖像塊描述子算法由兩部分構(gòu)成:1)首先從訓(xùn)練圖像集中均勻抽取足夠的圖像塊,然后在這些圖像塊形成的Gram矩陣上執(zhí)行不完整Cholesky分解算法.如果設(shè)定N代表圖像塊的個(gè)數(shù),M代表分解后矩陣的秩,通常情況下,M<<N.這樣做的好處有兩點(diǎn):首先,在分解過程中只需要按需計(jì)算O(MN)個(gè)Gram矩陣元素的值;其次,對(duì)Gram矩陣執(zhí)行Cholesky分解的時(shí)間復(fù)雜度為O(M2N),遠(yuǎn)遠(yuǎn)低于KPCA算法的O(N3).2)經(jīng)過第1步分解步驟之后,選擇出了M個(gè)最具代表性的基圖像塊,新圖像塊的特征表示僅僅通過O(M)次計(jì)算就可以得到.算法的具體步驟將在以下部分詳細(xì)介紹.
3.1Gram矩陣的低秩近似半正定的Gram矩陣K可以分解為GGT,所以不完整Cholesky分解的目標(biāo)就是找到一個(gè)矩陣G,其大小為NM,使得TGG在M足夠小的情況下近似K.在執(zhí)行不完整Cholesky分解算法的過程中,選擇出M個(gè)最具代表性的基圖像塊,利用所有圖像塊和這M個(gè)基圖像塊之間的相似性,可以近似恢復(fù)Gram矩陣K.這里,M的值是可以通過算法在線確定的,由算法中提前給定的近似精度參數(shù)來控制.關(guān)于不完整Cholesky分解的詳細(xì)執(zhí)行過程可以參考文獻(xiàn)[26],其中,作為輸入?yún)?shù)的Gram矩陣K實(shí)際上是按需計(jì)算的,即,算法執(zhí)行過程中需要用到哪兩個(gè)訓(xùn)練圖像塊間的相似度,就按照公式(1)計(jì)算得到.算法執(zhí)行后,就得到了一些具有代表性的基圖像塊,用向量P保存基圖像塊的索引序號(hào),同時(shí)得到了矩陣G,使得.TGGK
3.2構(gòu)造圖像塊特征映射算法一旦獲得了NM的矩陣G,新圖像塊的特征(有效圖像塊描述子)就可以由G構(gòu)造.其中,新圖像塊特征維度大小由M確定,每一維度i的值可由新圖像塊與P(i)所指示的基圖像塊間相似性K(newpatch,P(i))恢復(fù)得到。通過算法1可以看到:選擇出的M個(gè)最具代表性的基圖像塊可以看成是一系列局部圖像塊的非線性濾波器,將每個(gè)新圖像塊和這些基圖像塊進(jìn)行相似性度量的過程,也可看成是對(duì)這個(gè)新圖像塊進(jìn)行特征提取的過程.另外,針對(duì)圖像塊相似度矩陣執(zhí)行不完整Cholesky分解往往可以保證獲得精度非常高的低秩近似,且分解過程中只與某些訓(xùn)練樣本(圖像塊)有關(guān).也就是說,利用這些訓(xùn)練樣本就可以很好地近似恢復(fù)相似度矩陣,所以訓(xùn)練集中的圖像塊具有不同程度的重要性.因此,我們稱重要性最高的前M個(gè)圖像塊為“最具代表性”的基圖像塊.為了更加形象地展示這些重要的基圖像塊,我們?cè)赟cene-15圖像庫(kù)上提取了最重要的前16個(gè)基圖像塊,如圖1所示(每個(gè)圖像塊由其像素點(diǎn)的梯度幅值來表示).可以看到,每個(gè)圖像塊都包含了豐富的邊緣和紋理信息.本文提出的有效圖像塊描述子算法不只繼承了文獻(xiàn)[8]的有效性,而且很好地解決了核描述子算法中的第3點(diǎn)缺陷,最大限度地發(fā)揮了圖像塊特征的判別能力.
4利用MMD距離計(jì)算圖像間的相似性
基于算法1,每一個(gè)圖像塊都可以用有效圖像塊描述子來表示.一幅圖像通過稠密采樣確定很多關(guān)鍵點(diǎn),每一個(gè)關(guān)鍵點(diǎn)都對(duì)應(yīng)著一個(gè)局部的圖像塊,因此,一幅圖像就對(duì)應(yīng)著一個(gè)局部特征的集合.假定圖像I1包含m個(gè)圖像塊,則其特征集合可以表示為Fp(patchp1,patchp2,…,patchpm),圖像I2包含n個(gè)圖像塊,其特征集合表示為Fq(patchq1,patchq2,…,patchqn).Fp可以看作特征空間中來自分布p的一個(gè)樣本集,同樣,Fq也可以看作是來自分布q的樣本集.這樣,圖像I1與I2之間的差異性就可以由p和q兩個(gè)分布的距離表示.當(dāng)然,這兩個(gè)概率分布之間的距離只能通過這兩個(gè)樣本集進(jìn)行估算.為此,本文采用基于高維概率分布的MaximumMeanDiscrepancy(MMD)距離[24]進(jìn)行估算.MMD距離可以看作是將兩個(gè)概率分布,通過非線性核函數(shù)映射到再生核希爾伯特空間(RKHS)后均值的距離.對(duì)于上述分布p和q的MMD距離估計(jì)可由公式(3)計(jì)算。單純地利用公式(3),并沒有考慮局部特征在整幅圖像上的空間分布信息.為了解決這個(gè)問題,本文首先采用空間金字塔方法將整幅圖像進(jìn)行逐層劃分;然后,在兩幅圖像每個(gè)層次對(duì)應(yīng)的小圖像上計(jì)算它們之間的MMD距離;最終,將所有層次的MMD距離按照其對(duì)應(yīng)層次的權(quán)重進(jìn)行匯總求和,然后度量?jī)煞鶊D像I1與I2之間的差異性.
5實(shí)驗(yàn)
本文使用像素點(diǎn)的梯度、形狀和顏色屬性分別構(gòu)造基于梯度的有效圖像塊描述子(EPLd-G)、基于形狀的有效圖像塊描述子(EPLd-S)和基于顏色的有效圖像塊描述子(EPLd-C).為了測(cè)試有效圖像塊描述子算法的性能,分別在3個(gè)著名的圖像分類數(shù)據(jù)庫(kù)(Scene-15,Caltech-101[28]和UIUC-8[29])上做了實(shí)驗(yàn).在接下來的實(shí)驗(yàn)中,計(jì)算3個(gè)不同類型的有效圖像塊描述子都是首先將圖像按照固定比率縮放到不超過300300像素點(diǎn);特別地,在計(jì)算EPLd-G和EPLd-S時(shí),將縮放后的圖像中的像素點(diǎn)的灰度值標(biāo)準(zhǔn)化為[0,1]范圍.圖像塊通過每隔8個(gè)像素點(diǎn)的稠密采樣方式從訓(xùn)練集圖像中進(jìn)行抽取,大小為1616像素點(diǎn).EPLd-All是將EPLd-G,EPLd-S和EPLd-C這3個(gè)描述子串接起來形成的.訓(xùn)練線性SVM分類器使用LIBLINEAR[30],其中,圖像間的相似性利用MMD距離來定義.在計(jì)算MMD時(shí),將圖像按照11,22和33分為3個(gè)層次來匯總求和,尺度參數(shù)在不同的數(shù)據(jù)庫(kù)上利用交叉驗(yàn)證方法確定.所有的實(shí)驗(yàn)均重復(fù)10次,每次的訓(xùn)練集和測(cè)試集都隨機(jī)抽取確定,將10次分類準(zhǔn)確率的平均值和方差記錄下來.實(shí)驗(yàn)中的其他參數(shù)從公平比較的角度考慮,與文獻(xiàn)[6,8]設(shè)置相同.
5.1Scene-15Scene-15場(chǎng)景數(shù)據(jù)庫(kù)包含4485張圖片,這些圖片分屬15個(gè)類別,有室內(nèi)場(chǎng)景和室外場(chǎng)景,每一個(gè)類別包含200張~400張圖片不等.按照慣例,從每個(gè)類別中隨機(jī)抽取100張圖片作為訓(xùn)練,剩余圖片作為測(cè)試.在算法中設(shè)置Pivots的個(gè)數(shù)為200,即,利用不完整Cholesky分解選出200個(gè)最具代表性的基圖像塊來構(gòu)造維度為200的有效圖像塊描述子.實(shí)驗(yàn)結(jié)果列在表1中(其中,KD代表核描述子方法[6],EKD代表有效核描述子方法[8],EPLd代表本文提出的有效圖像塊描述子方法),EPLd方法獲得在這個(gè)數(shù)據(jù)庫(kù)上的最佳分類準(zhǔn)確率(87.0%).另外,EPLd方法在所有4種不同情況(梯度、形狀、顏色和上述3種屬性的匯總)下的性能均超過了文獻(xiàn)[6,8].在實(shí)驗(yàn)中,除了測(cè)試分類準(zhǔn)確率來體現(xiàn)EPLd的判別能力,還通過不同維度下測(cè)試分類準(zhǔn)確率來體現(xiàn)EPLd的有效性.我們發(fā)現(xiàn),在特征維度只有50維的情況下也獲得了接近最優(yōu)分類準(zhǔn)確率的性能,這充分體現(xiàn)出EPLd算法的有效性和健壯性.事實(shí)上,通過表2可以看到:特征維度從50維增加到300維,分類準(zhǔn)確率并沒有得到明顯的提升.造成這一現(xiàn)象的原因是,不完整Cholesky分解容易獲得高質(zhì)量的低秩近似.表2中的數(shù)據(jù)表明:即使是50維的低秩近似也足以體現(xiàn)Gram矩陣中的關(guān)鍵信息,而這些關(guān)鍵信息直接決定了分類的性能.在后面的實(shí)驗(yàn)中,從算法效率的角度考慮都使用了100維的特征表示.
5.2Caltech-101Caltech-101圖像數(shù)據(jù)庫(kù)包含9144張圖片.這9144張圖片隸屬于101個(gè)對(duì)象類別外加一個(gè)背景類別,每個(gè)類別中的圖片在31張~800張不等.表3中,將EPLd與其他有代表性的描述子算法進(jìn)行了對(duì)比.同樣根據(jù)慣例,每個(gè)類別隨機(jī)挑出30張圖片進(jìn)行訓(xùn)練,從剩余圖片中挑選不超過50張進(jìn)行測(cè)試.可以看到:EPLd算法達(dá)到了最佳的分類準(zhǔn)確率(77.1%),甚至在僅僅使用梯度屬性的情況下(EPLd-G)也達(dá)到了非常不錯(cuò)的分類效果(73.7%).
5.3UIUC-8UIUC-8圖像數(shù)據(jù)庫(kù)包含1579張圖片,這1579張圖片隸屬于8個(gè)運(yùn)動(dòng)類別,每個(gè)類別下包含圖片137張~250張不等.按照慣例,隨機(jī)從每個(gè)類別中抽取70張圖片進(jìn)行訓(xùn)練,從剩余圖片中挑選60張進(jìn)行測(cè)試.分類準(zhǔn)確率結(jié)果列于表4中.通過表4可以看到,EPLd-All非常接近最佳分類準(zhǔn)確率(87.2%vs.87.23%).在實(shí)驗(yàn)部分的最后,本文對(duì)比了構(gòu)造3種不同描述子(EPLdvs.KDvs.EKD)的計(jì)算效率.其中,最耗時(shí)的是形狀特征,一幅標(biāo)準(zhǔn)圖像(最大300300分辨率,圖像塊大小為1616像素點(diǎn),圖像塊間隔8個(gè)像素點(diǎn))上的EPLd-S與EKD-S描述子在Matlab環(huán)境下計(jì)算需要耗時(shí)2s,而KD-S需要耗時(shí)2.5s.對(duì)于梯度特征,EPLd-G與EKD-G描述子耗時(shí)0.9s,KD-G耗時(shí)1s.以上對(duì)比結(jié)果列在表5中.表5中的對(duì)比結(jié)果是在生成100維特征情況下得到的,如果提高特征的維度,EPLd與EKD的計(jì)算效率提升相對(duì)于KD會(huì)表現(xiàn)得更加明顯.另外一點(diǎn)需要指出的是:EPLd與EKD的計(jì)算耗時(shí)雖然基本相同,但EPLd描述子的特征判別能力相對(duì)于EKD描述子要強(qiáng)很多,這一點(diǎn)通過在3個(gè)圖像數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)對(duì)比結(jié)果可以得到印證.所以,綜合考慮,EPLd描述子無論在計(jì)算效率還是在判別能力上都要優(yōu)于EKD和KD描述子.
6結(jié)束語(yǔ)