前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇計(jì)算機(jī)視覺研究方向范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
在我國市場(chǎng)經(jīng)濟(jì)不斷發(fā)展的盛況下,我國科技發(fā)展水平也緊隨其后,成為世界上的科技強(qiáng)國之一。在計(jì)算機(jī)水平的不斷提高下,計(jì)算機(jī)視覺技術(shù)應(yīng)運(yùn)而生。其中,計(jì)算機(jī)視覺技術(shù)被應(yīng)用與各個(gè)領(lǐng)域,并在各個(gè)領(lǐng)域都得到廣泛有效的應(yīng)用,比如軍事領(lǐng)域、醫(yī)療領(lǐng)域、工業(yè)領(lǐng)域等。本文針對(duì)計(jì)算機(jī)視覺技術(shù)在交通領(lǐng)域中的應(yīng)用進(jìn)行分析。
【關(guān)鍵詞】計(jì)算機(jī)視覺 交通領(lǐng)域 探究
近年來,隨著科技水平的提高,計(jì)算機(jī)視覺技術(shù)逐漸被人們熟知并廣泛應(yīng)用。相較于其他傳感器來說,視覺能獲得更多的信息。因此,在我國交通領(lǐng)域中,也對(duì)計(jì)算機(jī)視覺技術(shù)進(jìn)行研究完善,將計(jì)算機(jī)視覺技術(shù)應(yīng)用在交通領(lǐng)域各個(gè)方面中,并取得了顯著的成效。
1 計(jì)算機(jī)視覺的概述及基本體系結(jié)構(gòu)
1.1 計(jì)算機(jī)視覺概述
通過使用計(jì)算機(jī)和相關(guān)設(shè)備,對(duì)生物視覺進(jìn)行模擬的方式,就是計(jì)算機(jī)視覺。對(duì)采集到的圖片或視頻進(jìn)行相應(yīng)的技術(shù)處理,從而獲得相應(yīng)的三維信息場(chǎng)景,是計(jì)算機(jī)視覺的主要任務(wù)。
計(jì)算機(jī)視覺是一門學(xué)問,它就如何通過計(jì)算機(jī)和照相機(jī)的運(yùn)用,使人們獲得被拍攝對(duì)象的數(shù)據(jù)與信息所需等問題進(jìn)行研究。簡(jiǎn)單的說,就是讓計(jì)算機(jī)通過人們給其安裝上的“大腦”和“眼睛”,對(duì)周圍環(huán)境進(jìn)行感知。
計(jì)算機(jī)視覺是一門綜合性學(xué)科,在各個(gè)領(lǐng)域都有所作為,已經(jīng)吸引了各個(gè)領(lǐng)域的研究者對(duì)其研究。同時(shí),計(jì)算機(jī)視覺也是科學(xué)領(lǐng)域中一個(gè)具有重要挑戰(zhàn)性的研究。
1.2 計(jì)算機(jī)視覺領(lǐng)域基本體系結(jié)構(gòu)
提出第一個(gè)較為完善的視覺系統(tǒng)框架的是Marr,他從信息處理系統(tǒng)角度出發(fā),結(jié)合圖像處理、心理物理學(xué)等多領(lǐng)域的研究成果,提出被計(jì)算機(jī)視覺工作者基本接受的計(jì)算機(jī)視覺系統(tǒng)框架。在此基礎(chǔ)上,研究者們針對(duì)視覺系統(tǒng)框架的各個(gè)角度、各個(gè)階段、各個(gè)功能進(jìn)行分析研究,得出了計(jì)算機(jī)視覺系統(tǒng)的基本體系結(jié)構(gòu),如圖1。
2 計(jì)算機(jī)視覺在交通領(lǐng)域的應(yīng)用
2.1 牌照識(shí)別
車輛的唯一身份是車輛牌照。在檢測(cè)違規(guī)車輛、稽查被盜車輛和管理停車場(chǎng)工作中,車輛牌照的有效識(shí)別與檢測(cè)具有重要的作用和應(yīng)用價(jià)值。然而在實(shí)際應(yīng)用工作中,雖然車牌識(shí)別技術(shù)相對(duì)成熟,但是由于受到拍攝角度、光照、天氣等因素的影響,車牌識(shí)別技術(shù)仍需改善。車牌定位技術(shù)、車牌字符識(shí)別技術(shù)和車牌字符分割技術(shù)是組成車牌識(shí)別技術(shù)的重要部分。
2.2 車輛檢測(cè)
目前,城市交通路口處紅綠燈的間隔時(shí)間是固定不變的,但是受交通路口的位置不同、時(shí)間不同的影響,每個(gè)交通路口的交通流量也是持續(xù)變化的。此外,對(duì)于某些交通區(qū)域來說,公共資源的配備,比如交通警察、交通車輛的數(shù)量是有限的。如果能根據(jù)計(jì)算機(jī)視覺技術(shù),對(duì)交通路口的不同時(shí)間、不同位置的交通情況進(jìn)行分析計(jì)算,并對(duì)交通流量進(jìn)行預(yù)測(cè),有利于為交通警察縮短出警時(shí)間、為交通路口的紅綠燈根據(jù)實(shí)際情況設(shè)置動(dòng)態(tài)變化等技術(shù)提供支持。
2.3 統(tǒng)計(jì)公交乘客人數(shù)
城市公共交通的核心內(nèi)容是城市公交調(diào)度問題,一個(gè)城市如何合理的解決公交調(diào)度問題,是緩解城市運(yùn)力和運(yùn)量矛盾,緩解城市交通緊張的有效措施。城市公交調(diào)度問題,為公交公司與乘客的平衡利益,為公交公司的經(jīng)濟(jì)利益和社會(huì)效益的提高做出了巨大的貢獻(xiàn)。由于在不同的地域、不同的時(shí)間,公交客流會(huì)存在不均衡性,高峰時(shí)段的公交乘客過多,平峰時(shí)段的公交乘客過少,造成了公交調(diào)度不均衡問題,使有限資源浪費(fèi)嚴(yán)重。在計(jì)算機(jī)視覺智能公交系統(tǒng)中,自動(dòng)乘客計(jì)數(shù)技術(shù)是其關(guān)鍵技術(shù)。自動(dòng)乘客計(jì)數(shù)技術(shù),是對(duì)乘客上下車的時(shí)間和地點(diǎn)自動(dòng)收集的最有效的技術(shù)之一。根據(jù)其收集到的數(shù)據(jù),從時(shí)間和地點(diǎn)兩方面對(duì)客流分析,為城市公交調(diào)度進(jìn)行合理的安排。
2.4 對(duì)車道偏離程度和駕駛員工作狀態(tài)判斷
交通事故的發(fā)生率隨著車輛數(shù)量的增加而增加。引發(fā)交通事故的重要因素之一就是駕駛員疲勞駕駛。據(jù)相關(guān)數(shù)據(jù)顯示,因車道偏離導(dǎo)致的交通事故在40%以上。其中,駕駛員的疲勞駕駛就是導(dǎo)致車道偏離的主要原因。針對(duì)此種現(xiàn)象,為減少交通事故的發(fā)生,計(jì)算機(jī)視覺中車道偏離預(yù)警系統(tǒng)被研究開發(fā)并被廣泛應(yīng)用。針對(duì)駕駛員眨眼頻率,利用計(jì)算機(jī)視覺對(duì)駕駛員面部進(jìn)行圖像處理和分析,再根據(jù)疲勞駕駛關(guān)注度與眨眼頻率的關(guān)系,對(duì)駕駛員的工作狀態(tài)進(jìn)行判斷。此外,根據(jù)道路識(shí)別技術(shù),對(duì)車輛行駛狀態(tài)進(jìn)行檢測(cè),也是判斷駕駛員工作狀態(tài)的方法之一。這兩種方法,是目前基于計(jì)算機(jī)視覺的基礎(chǔ)上,檢測(cè)駕駛員疲勞狀態(tài)的有效方法。
2.5 路面破損檢測(cè)
最常見的路面損壞方式就是裂縫。利用計(jì)算機(jī)視覺,及時(shí)發(fā)現(xiàn)路面破損情況,并在其裂縫程度嚴(yán)重之前進(jìn)行修補(bǔ),有利于節(jié)省維護(hù)成本,也避免出現(xiàn)路面坍塌,車輛凹陷的情況發(fā)生。利用計(jì)算機(jī)視覺進(jìn)行路面檢測(cè),相較于之前人工視覺檢測(cè)相比,有效提高了視覺檢測(cè)的效率,增強(qiáng)了自動(dòng)化程度,提高了安全性,為市民的出行安全帶來了更高保障。
3 結(jié)論
本文從計(jì)算機(jī)視覺的概述,及計(jì)算機(jī)視覺基本體系結(jié)構(gòu),和計(jì)算機(jī)視覺在交通領(lǐng)域中的應(yīng)用三面進(jìn)行分析,可見計(jì)算機(jī)視覺在交通領(lǐng)域中的廣泛應(yīng)用,在交通領(lǐng)域中應(yīng)用的有效性、顯著性,以此可得計(jì)算機(jī)視覺在現(xiàn)展過程中的重要性。隨著計(jì)算機(jī)視覺技術(shù)的越來越成熟,交通領(lǐng)域的檢測(cè)管理一定會(huì)加嚴(yán)格,更加安全。
參考文獻(xiàn)
[1]段里仁.智能交通系境在我國道路空通管理中的應(yīng)用[J].北方工業(yè)時(shí)報(bào),2015(06).
[2]王豐元.計(jì)算機(jī)視覺在建筑區(qū)間的應(yīng)用實(shí)例分析[J].河北電力學(xué)報(bào),2015(04).
[3]李釗稱.主動(dòng)測(cè)距技術(shù)在計(jì)算機(jī)數(shù)據(jù)分析中的作用探析[J].計(jì)算機(jī)應(yīng)用,2015(08).
[4]馬良紅.三維物體影像的攝取與分析[J].中國公路學(xué)報(bào),2014(05).
[5]朱學(xué)君,沈睿.關(guān)于計(jì)算機(jī)視覺在交通領(lǐng)域中的探討[J].信息通信,2013(01):123.
[6]王大勇.關(guān)于計(jì)算機(jī)視覺在交通領(lǐng)域中的應(yīng)用分析[J].科技與企業(yè),2013(01):115.
作者簡(jiǎn)介
夏棟(1988-),男,湖北省孝感市人。現(xiàn)為同濟(jì)大學(xué)軟件學(xué)院在讀碩士。研究方向為計(jì)算機(jī)視覺。
摘要:研究基于計(jì)算機(jī)視覺的實(shí)時(shí)動(dòng)態(tài)手勢(shì)識(shí)別技術(shù),并利用OpenCV計(jì)算機(jī)視覺庫在VS2010平臺(tái)上設(shè)計(jì)一個(gè)基于該技術(shù)在多媒體教學(xué)中PPT演示控制方面的應(yīng)用。首先,利用背景差分法進(jìn)行手勢(shì)檢測(cè),在背景更新的基礎(chǔ)上,通過背景差分圖和顏色直方圖的反投影圖來檢測(cè)運(yùn)動(dòng)手勢(shì)區(qū)域,可以達(dá)到較為滿意的實(shí)時(shí)運(yùn)動(dòng)手勢(shì)檢測(cè)效果;其次,采用基于顏色直方圖的粒子跟蹤算法進(jìn)行手勢(shì)跟蹤,基本能滿足跟蹤的實(shí)時(shí)性;最后,在手勢(shì)識(shí)別階段,采用基于Hu不變矩的輪廓匹配算法,得到較好的手勢(shì)識(shí)別效果;使用六種手勢(shì),來實(shí)現(xiàn)演示文稿中的控制應(yīng)用。
關(guān)鍵詞:計(jì)算機(jī)視覺;背景差分;粒子跟蹤;手勢(shì)識(shí)別;Hu矩
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)識(shí)碼:A
1引言
隨著計(jì)算機(jī)軟硬件技術(shù)的發(fā)展,人機(jī)交互已經(jīng)由過去的鼠標(biāo)、鍵盤方式逐漸向更加靈活生動(dòng)的語音、姿勢(shì)等新穎交互方式發(fā)展。由于基于視覺方式具有便捷和開銷低等優(yōu)點(diǎn),因此,利用計(jì)算機(jī)視覺技術(shù)來使計(jì)算機(jī)理解用戶的命令,從而做出控制動(dòng)作,這一領(lǐng)域的研究得到越來越多的重視。其中,人的手勢(shì)作為日常生活中最為廣泛使用的一種交流方式;因此,國內(nèi)外許多研究機(jī)構(gòu)開始對(duì)手勢(shì)識(shí)別技術(shù)進(jìn)行研究,并已經(jīng)取得了一些階段性的成果。較早的有:Freeman和Roth等人提出的基于方向直方圖的手勢(shì)識(shí)別系統(tǒng);國內(nèi)的高文教授等人于1994年提出了一種靜態(tài)復(fù)雜背景手勢(shì)目標(biāo)的捕獲與識(shí)別。經(jīng)過二三十年的發(fā)展,
人們對(duì)運(yùn)動(dòng)目標(biāo)檢測(cè)及跟蹤進(jìn)行了大量深入的研究:美國MIT實(shí)驗(yàn)室通過提取左右手質(zhì)心的運(yùn)動(dòng)軌跡以及手勢(shì)形狀特征參數(shù),結(jié)合語法規(guī)則識(shí)別40個(gè)美國手語,準(zhǔn)確率達(dá)到97%;另外,Microsoft Korea的HyeonKyu Lee,采用HMM的閾值模型,識(shí)別9種動(dòng)態(tài)手勢(shì)命令,平均識(shí)別率高達(dá)98.19%;國內(nèi)的任海兵提出了基于DTW的手勢(shì)識(shí)別算法,該算法能準(zhǔn)確識(shí)別12種手勢(shì)。
現(xiàn)在,基于視覺的手勢(shì)識(shí)別技術(shù)更多的是應(yīng)用在娛樂、游戲方面,比如微軟前段時(shí)間推出的Xbox360游戲機(jī)體的體感外設(shè)Kinect及多款相配套的體感游戲,玩家可以通過手勢(shì)在游戲中進(jìn)行操作和互動(dòng),使得人機(jī)互動(dòng)娛樂進(jìn)入了一個(gè)新紀(jì)元。與此同時(shí),還沒有比較成熟的手勢(shì)識(shí)別技術(shù)應(yīng)用在現(xiàn)代教學(xué)系統(tǒng)中。因此,本文的研究重點(diǎn)是基于視覺的實(shí)時(shí)手勢(shì)識(shí)別技術(shù)在多媒體教學(xué)演示控制中的應(yīng)用。在基于視覺的手勢(shì)識(shí)別研究中,需要解決的問題主要有兩個(gè):一是實(shí)時(shí)檢測(cè)運(yùn)動(dòng)手勢(shì)的信息,二是識(shí)別運(yùn)動(dòng)手勢(shì)的信息并做出響應(yīng)。對(duì)運(yùn)動(dòng)手勢(shì)檢測(cè),本文采用背景差分結(jié)合改進(jìn)顏色直方圖特征的運(yùn)動(dòng)檢測(cè)方法[1];對(duì)運(yùn)動(dòng)手勢(shì)跟蹤,本文采用粒子濾波算法[2]結(jié)合改進(jìn)顏色直方圖信息的方法;手勢(shì)識(shí)別階段,本文采用了基于Hu不變矩特征[3]的輪廓匹配算法[4];本文研究基于計(jì)算機(jī)視覺的手勢(shì)識(shí)別系統(tǒng),實(shí)現(xiàn)了在播放控制中運(yùn)用手勢(shì)進(jìn)行開始、翻頁、退出等功能,極大的提高了課堂教學(xué)的靈活性。
2手勢(shì)檢測(cè)
實(shí)時(shí)視頻圖像中的運(yùn)動(dòng)手勢(shì)檢測(cè)所需要完成的任務(wù)是:能夠快且準(zhǔn)的檢測(cè)出手勢(shì)在實(shí)時(shí)圖像中的主要位置,并且能將位置所在的特定區(qū)域作為后續(xù)跟蹤、識(shí)別的感興趣區(qū)域。手勢(shì)檢測(cè)算法的好壞,直接影響整個(gè)系統(tǒng)的跟蹤以及識(shí)別的效果。
目前,運(yùn)動(dòng)目標(biāo)檢測(cè)[5]的算法比較常用的有三種方法:光流法、幀間差分法和背景差分法。本文考慮實(shí)現(xiàn)環(huán)境為固定攝像頭采集實(shí)時(shí)視頻圖像,背景基本不動(dòng),因此采用背景差分結(jié)合改進(jìn)顏色直方圖信息的運(yùn)動(dòng)檢測(cè)方法。
2.1背景差分法
本文研究中,選取攝像頭啟動(dòng)后的前10幀圖像的平均作為最初的背景圖像,把以后的實(shí)時(shí)序列圖像當(dāng)前幀和背景圖像相減,進(jìn)行背景消去??梢缘玫?,運(yùn)動(dòng)手勢(shì)區(qū)域的像素點(diǎn)的差分值比較大,背景區(qū)域的像素點(diǎn)的差分值比較小。另外,由于真實(shí)場(chǎng)景中的背景會(huì)因光線等外部條件產(chǎn)生微小的變化,長(zhǎng)期的誤差積累會(huì)造成最后得不到理想的手勢(shì)區(qū)域,因此背景需要進(jìn)行實(shí)時(shí)更新,從而能及時(shí)反映當(dāng)前幀的背景圖像,背景更新[6]的公式如下:
背景更新操作以后,對(duì)當(dāng)前幀進(jìn)行背景差分,大于閾值th1的圖像點(diǎn)即為運(yùn)動(dòng)手勢(shì)區(qū)域的點(diǎn),并將得到的運(yùn)動(dòng)手勢(shì)區(qū)域圖像進(jìn)行二值化操作,公式如下:
3手勢(shì)跟蹤
現(xiàn)在常用的一些跟蹤算法主要有:卡爾曼預(yù)測(cè)算法、粒子濾波算法、均值偏移算法以及Camshift跟蹤算法等??紤]到卡爾曼預(yù)測(cè)算法和均值偏移算法等都是線性跟蹤算法,不能很好的應(yīng)對(duì)目標(biāo)運(yùn)動(dòng)的隨機(jī)性,本文采用了粒子濾波算法。
3.1粒子濾波算法原理
粒子濾波法是指通過用一組帶有權(quán)值的隨機(jī)樣本,以及基于這些樣本的估算來表示動(dòng)態(tài)系統(tǒng)的后驗(yàn)概率密度。當(dāng)樣本很大的時(shí)候,這種估計(jì)就等同于后驗(yàn)概率密度。這些樣本就稱為“粒子”。假設(shè)在t=0時(shí)刻每個(gè)粒子都有一個(gè)解,每個(gè)解與真實(shí)解都有一定的相似度,這個(gè)相似度可以表示為權(quán)重,隨著時(shí)間的增加,相似度越大的粒子權(quán)重越大,而相似度越小的粒子權(quán)重就越小,最后趨于0,從而找到真實(shí)解(如圖2)。
3.2基于改進(jìn)顏色直方圖信息的粒子跟蹤
視頻圖像跟蹤方面,目標(biāo)的運(yùn)動(dòng)模型主要表現(xiàn)為目標(biāo)位置、速度隨時(shí)間改變的狀態(tài)轉(zhuǎn)移過程,目標(biāo)的觀測(cè)模型主要表現(xiàn)為每幀圖像中運(yùn)動(dòng)目標(biāo)的特征(如顏色、輪廓等)與真實(shí)目標(biāo)的相似度的似然過程。在粒子濾波算法中,運(yùn)動(dòng)模型可以稱為粒子傳播或者粒子采樣,它是一種隨機(jī)過程[11]。粒子在經(jīng)過傳播以后,狀態(tài)會(huì)發(fā)生改變,但權(quán)值沒有跟著改變,這就需要系統(tǒng)的觀測(cè)模型對(duì)當(dāng)前粒子的狀態(tài)進(jìn)行計(jì)算從而更新粒子的權(quán)值。本文的研究中,觀測(cè)值由目標(biāo)區(qū)域的顏色直方圖決定。
基于顏色直方圖信息的粒子濾波就是將圖像顏色特征的相似度作為粒子濾波算法要求解的后驗(yàn)概率,利用巴氏距離(Bhattacharyya)來計(jì)算相似度,得到粒子的權(quán)重。巴氏系數(shù)[12]如公式(9):
4.2識(shí)別算法過程
本文研究中,首先建立手勢(shì)模板庫,然后通過實(shí)時(shí)提取手勢(shì)幀,經(jīng)過前面第2部分的結(jié)合改進(jìn)顏色直方圖信息的手勢(shì)檢測(cè),然后再經(jīng)過形態(tài)學(xué)處理之后,得到效果良好手勢(shì)區(qū)域的二值圖,再用輪廓提取及跟蹤來得到手勢(shì)的輪廓圖,然后計(jì)算其7Hu矩特征,最后運(yùn)用歐氏距離將其與模板庫中定義的手勢(shì)進(jìn)行特征匹配,完成手勢(shì)識(shí)別。
輪廓提取就是要掏空內(nèi)部的點(diǎn):如果其八個(gè)相鄰的點(diǎn)都是黑色,則可以判定為內(nèi)部點(diǎn),然后刪除改點(diǎn)。
輪廓跟蹤方法:首先找出輪廓中最左下方的點(diǎn)作為搜索的起點(diǎn),然后按照一定規(guī)則來搜索手勢(shì)輪廓上的其他像素點(diǎn)。由于輪廓是連續(xù)的,因此每個(gè)輪廓上的點(diǎn)的位置都可以用其前一個(gè)點(diǎn)的所張的角度來表示。研究中采用如下跟蹤準(zhǔn)則,第一個(gè)點(diǎn)開始定義搜索方向?yàn)樽笊?,如果左上方的點(diǎn)是黑點(diǎn),則它也是輪廓上的點(diǎn);如果不是,那么順時(shí)針旋轉(zhuǎn),直到找到第一個(gè)黑點(diǎn),即輪廓上的下一個(gè)點(diǎn)。繼續(xù)同樣的方法搜索,直到返回最初的起點(diǎn),搜索結(jié)束。
下圖是輪廓跟蹤算法[15]的示意圖,搜索方向用箭頭表示。
5系統(tǒng)實(shí)現(xiàn)
本文的系統(tǒng)是在微軟的VS2010平臺(tái)上,使用C++語言進(jìn)行軟件開發(fā),在圖像處理相關(guān)方面是基于計(jì)算機(jī)視覺庫(OpenCV)進(jìn)行研究的。程序界面如下圖:
左邊底層區(qū)的按鈕可以觀察實(shí)時(shí)手勢(shì)跟蹤和識(shí)別效果的功能(如圖4和圖7)。
手勢(shì)識(shí)別的結(jié)果可以定義成一個(gè)變量,不同
的識(shí)別結(jié)果對(duì)應(yīng)的變量值不同,然后根據(jù)變量值調(diào)用不同的API接口函數(shù),這樣就可以實(shí)現(xiàn)實(shí)時(shí)手勢(shì)識(shí)別技術(shù)在演示控制中的應(yīng)用。本文研究在控制部分挑選了六種手勢(shì),分別控制PPT播放中的開始、退出、上下翻頁、跳轉(zhuǎn)首末頁等功能。手勢(shì)命令定義如下:手勢(shì)4控制開始播放;手勢(shì)3控制退出播放;手勢(shì)1控制跳轉(zhuǎn)首頁;手勢(shì)2為跳轉(zhuǎn)尾頁;手勢(shì)10為向下翻頁頁;手勢(shì)5控制向前翻頁。對(duì)電腦中某一PPT進(jìn)行實(shí)際的播放控制(列舉其中4個(gè)手勢(shì)的控制狀態(tài)),效果如下:
1)識(shí)別手勢(shì)4,開始播放:
2)識(shí)別手勢(shì)10,向下翻頁:
3)識(shí)別手勢(shì)1,跳轉(zhuǎn)到首頁:
4)識(shí)別手勢(shì)3,退出:
系統(tǒng)通過筆記本自帶30W像素的攝像頭,采用DirectShow技術(shù)進(jìn)行實(shí)時(shí)視頻的獲取,圖像尺寸是320*240,fps可以達(dá)到30-60幀/秒,可以很好的滿足實(shí)時(shí)性的要求。
6結(jié)語
本文通過研究設(shè)計(jì)了一個(gè)基于視覺的手勢(shì)識(shí)別技術(shù)在演示控制中的應(yīng)用系統(tǒng),可以看出背景差分結(jié)合顏色直方圖的運(yùn)動(dòng)檢測(cè)可以得到較好的手勢(shì)區(qū)域效果;采用的基于顏色直方圖的粒子跟蹤也能基本實(shí)現(xiàn)實(shí)時(shí)跟蹤的任務(wù);在識(shí)別過程中,基于Hu不變矩的輪廓匹配算法具有很好的魯棒性,可以得到較好手勢(shì)識(shí)別效果;在應(yīng)用階段,使用手勢(shì)來完成控制命令,基本實(shí)現(xiàn)了在播放控制中的應(yīng)用。
同時(shí),仍存在一些問題:對(duì)于光照和人臉微小晃動(dòng)等外部因素引起的噪聲,只能降低而無法消除,這對(duì)于手勢(shì)跟蹤與識(shí)別的效果還是有一定的影響,在應(yīng)用時(shí)會(huì)產(chǎn)生一定的誤操作。這些問題仍需繼續(xù)研究,才能使得基于視覺的手勢(shì)識(shí)別技術(shù)得到更成熟的應(yīng)用。
參考文獻(xiàn)
[1]吳曉陽.基于OpenCV的運(yùn)動(dòng)目標(biāo)檢測(cè)與跟蹤[D].杭州:浙江大學(xué),2008.
[2]CHO J U, JIN S H, PHAM X D. Object tracking circuit using particle filter with multiple features [C] / / SICE-ICASE: International Joint Conference. Las Vegas: IEEE, 2006: 1431-1436.
[3]甘志杰.基于Hu矩和支持向量機(jī)的靜態(tài)手勢(shì)識(shí)別及應(yīng)用[D].青島:青島科技大學(xué),2008.
[4]華斌,夏利娜.基于中值濾波和Hu矩向量的手語識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(2): 615- 618.
[5]伏思華,張小虎.基于序列圖像的運(yùn)動(dòng)目標(biāo)實(shí)時(shí)檢測(cè)方法[J].光學(xué)術(shù),2004,30(2): 215- 217.
[6]LINDEBERC T. Scale-space theory: a basic tool for analyzing structures at different scales [J]. Joumal of Applied Statistics. 1994, 21(2):224-270.
[7]于華平.視頻序列中的手勢(shì)檢測(cè)與跟蹤[D].南寧:廣西大學(xué),2010.
[8]QIN WEN, PENG QICONG. An improved particle filter algorithm based on neural network for visual tracking [C] / / International Conference on Communications, Circuits and Systems. Las Vegas: IEEE, 2007:765-768.
[9]龔翔. 基于粒子濾波的視覺跟蹤算法研究[D]. 南京:南京理工大學(xué),2009.
[10]YU JIAXIA, LIU WENJING, YANG Y. Improved particle filter algorithms based on partial systematic resambling [C]/ /IEEE International Conference on Intelligent Computing and Intelligent Systems. Las Vegas: IEEE, 2010: 483-487.
[11]朱志宇.粒子濾波算法及其應(yīng)用[M].北京:北京科學(xué)出版社,2010.
[12]FAZLI S, POUR H M, BOUZARI H. Particle filter based object tracking with sift and color feature [C] / / Second International Conference on Machine Vision. Las Vegas: IEEE, 2009:89-93.
[13]侯一明,郭雷,倫向敏,等.運(yùn)動(dòng)背景下基于粒子濾波的目標(biāo)跟蹤[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(8): 62- 64.
關(guān)鍵詞:計(jì)算機(jī);交通監(jiān)管系統(tǒng);視覺
中圖分類號(hào):TP277
近年來,道路交通安全問題因公路交通事業(yè)的快速發(fā)展而受到越來多關(guān)注。據(jù)2002年世界銀行統(tǒng)計(jì),全球平均每年死于道路交通事故高達(dá)117萬人。而在中國,據(jù)2008年公安部交通管理局公布的數(shù)據(jù)顯示,全國道路交通事故多達(dá)265204起,死亡人數(shù)為73484人。
全國道路交通事故防御工作隨公路里程、機(jī)動(dòng)車保有量、道路交通流量、駕駛?cè)藬?shù)的增加成遞增趨勢(shì)。而通過必要的技術(shù)手段構(gòu)建交通安全保障機(jī)制,降低交通事故是重中之重。若要好的為基礎(chǔ)的交通違規(guī)行為檢測(cè)技術(shù)的不斷更新,市場(chǎng)上已出現(xiàn)了自動(dòng)檢測(cè)與記錄的商業(yè)化產(chǎn)品,能實(shí)時(shí)記錄出闖紅燈、違規(guī)超車、違規(guī)停車、超速、逆行等違規(guī)行為。然而,我國高速交通監(jiān)控體系仍比較落后,大多在交叉路口設(shè)置電子警察系統(tǒng)以此檢測(cè)車輛闖紅燈的違規(guī)行為。交通管理部門并不能對(duì)出現(xiàn)違規(guī)行為的車輛進(jìn)行及時(shí)的交通管制和處理,概括來說管理與檢測(cè)仍處于管理誤區(qū)與盲目狀態(tài)。針對(duì)該現(xiàn)象,文本研究了基于計(jì)算機(jī)的交通監(jiān)管系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)。
1 智能交通管理系統(tǒng)簡(jiǎn)介
ITS系統(tǒng),該系統(tǒng)綜合先進(jìn)的現(xiàn)代計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、信息電子通訊技術(shù)、現(xiàn)代信息技術(shù)以及自動(dòng)控制技術(shù)等,并將其在整個(gè)交通運(yùn)輸管理體系進(jìn)行有效的運(yùn)用,為此建立起一種實(shí)時(shí)、有效、準(zhǔn)確、范圍廣的全方位發(fā)揮作用的交通運(yùn)輸控制體系和綜合管理系統(tǒng)。近幾年人流、車流隨著城市發(fā)展而猛增,交通職能部門對(duì)更加智能的交通管理系統(tǒng)的需求越來越急迫。所以,ITS成為21世紀(jì)地面交通管理、運(yùn)輸科技、運(yùn)營的主要研究方向,帶領(lǐng)著交通運(yùn)輸一場(chǎng)偉大的變革。北美、西歐、日本自上世紀(jì)80年代末就開始競(jìng)相發(fā)展智能運(yùn)輸系統(tǒng),并制定相應(yīng)的開發(fā)計(jì)劃加以實(shí)施,而發(fā)展中國家也開始對(duì)ITS系統(tǒng)的全面研究與開發(fā)。
2 認(rèn)識(shí)基于計(jì)算機(jī)視覺的智能交通監(jiān)控系統(tǒng)
2.1 計(jì)算機(jī)視覺技術(shù)
所謂計(jì)算機(jī)視覺,理解為使用可替代人眼的高清攝影機(jī)設(shè)備或其他現(xiàn)代高清電子影像攝錄裝備進(jìn)行觀察,實(shí)現(xiàn)對(duì)目標(biāo)的追蹤定位、圖像識(shí)別、模擬數(shù)據(jù)測(cè)量等,并對(duì)采集的視覺數(shù)據(jù)信息送達(dá)遠(yuǎn)端計(jì)算機(jī)服務(wù)器,通過計(jì)算機(jī)服務(wù)器的信號(hào)圖形圖像處理技術(shù)對(duì)視頻數(shù)據(jù)信息進(jìn)行進(jìn)一步加工,實(shí)現(xiàn)三維重現(xiàn)現(xiàn)實(shí)情景的計(jì)算機(jī)觀察呈現(xiàn)技術(shù)。
2.2 智能交通監(jiān)測(cè)系統(tǒng)
通過使用現(xiàn)有的、先進(jìn)的計(jì)算機(jī)智能化、視覺化、信息化科技對(duì)國內(nèi)各大路況交通運(yùn)輸實(shí)施監(jiān)測(cè),為工作于交通運(yùn)輸人員呈現(xiàn)數(shù)據(jù)信息的自動(dòng)化采集、分析、處理等的智能化服務(wù),且該交通管理系統(tǒng)存在一定自作能力和指揮能力,即為智能交通系統(tǒng)。隨著道路、車輛的飛速發(fā)展,人民生活水平及國民生產(chǎn)總值的不斷提高,智能交通系統(tǒng),在國內(nèi)外受到越來越多的青睞。近幾年,各道路關(guān)鍵路段、路口隨著道路監(jiān)控機(jī)制的普遍建立,也都基本完成了視頻監(jiān)控。
2.3 基于計(jì)算機(jī)視覺的智能交通監(jiān)控機(jī)制
根據(jù)前面2.1對(duì)計(jì)算機(jī)視覺技術(shù)和2.2對(duì)智能化交通監(jiān)控系統(tǒng)概念的解析與理解,可總結(jié)出以計(jì)算機(jī)視覺為基礎(chǔ)的智能化交通監(jiān)控機(jī)制,其是通過現(xiàn)代高端計(jì)算機(jī)對(duì)視覺信息收集、提取、處理、分析等技術(shù),實(shí)現(xiàn)對(duì)城市道路交通信息的實(shí)時(shí)監(jiān)控、視頻數(shù)據(jù)的收集、信息分析處理,并對(duì)城市交通狀況使用智能交通機(jī)制狀況,并通過視頻影像引導(dǎo)車輛行駛,以此降低或避免各種各樣交通事故發(fā)生的智能化交通監(jiān)控機(jī)制。
3 構(gòu)建以計(jì)算機(jī)視覺為基礎(chǔ)的智能交通監(jiān)控機(jī)制及配套措施
3.1 基于計(jì)算機(jī)視覺的智能交通監(jiān)控機(jī)制的構(gòu)建
監(jiān)控指揮系統(tǒng)、實(shí)時(shí)交通信息收集系統(tǒng)、高質(zhì)量信息傳輸系統(tǒng)是基于計(jì)算機(jī)視覺的智能交通監(jiān)控的三大系統(tǒng)。實(shí)時(shí)交通信息收集系統(tǒng)由多套信息收集裝置組成,通過這些信息采集裝置實(shí)時(shí)監(jiān)控不同位置交通現(xiàn)狀。實(shí)時(shí)交通信息收集系統(tǒng)不僅能進(jìn)行路段監(jiān)控與實(shí)時(shí)交通信息采集的工作,還能將收集數(shù)據(jù)信息,經(jīng)由高質(zhì)量信息傳輸系統(tǒng)實(shí)施輸送,或在服務(wù)器中存儲(chǔ)已處理的信息;一個(gè)中央數(shù)據(jù)庫與一個(gè)中央服務(wù)器是高質(zhì)量信息存儲(chǔ)傳輸系統(tǒng)核心部分,其中中央數(shù)據(jù)庫對(duì)獲取到的實(shí)時(shí)交通路況信息進(jìn)行存儲(chǔ)。而為了便于工作者能通過界面對(duì)中央數(shù)據(jù)庫實(shí)施提取、查詢、查看等操作,因此該界面就由中央服務(wù)器來提供,此外該服務(wù)器還能將已處理的實(shí)時(shí)路況數(shù)據(jù)通過高質(zhì)量的傳輸系統(tǒng)輸送到監(jiān)控指揮機(jī)制,達(dá)到對(duì)各路段的交通進(jìn)行管制、部署及指揮的目的。
3.2 專業(yè)技術(shù)人員的儲(chǔ)備
以計(jì)算機(jī)視覺技術(shù)為基礎(chǔ)的智能交通監(jiān)控機(jī)制是一個(gè)龐大的系統(tǒng),具有突出點(diǎn)的優(yōu)點(diǎn),該系統(tǒng)集自動(dòng)化、信息化、智能化為一體,只有專業(yè)的技術(shù)人才才能使該系統(tǒng)高效工作,因此開展培訓(xùn)儲(chǔ)備相關(guān)技術(shù)人員至關(guān)重要。實(shí)時(shí)交通信息借助于先進(jìn)的高清裝置的正常采集工作,所以儲(chǔ)備一批針對(duì)高清裝置安裝、檢測(cè)、調(diào)試及故障修復(fù)的技術(shù)人員極為重要。現(xiàn)代基于計(jì)算機(jī)視覺的智能交通監(jiān)控機(jī)制雖然本身具有一定的圖形圖像分析及處理能力,然而有些工作人是永遠(yuǎn)被替代的,所以培養(yǎng)儲(chǔ)備一批專業(yè)的圖形圖像處理技術(shù)人員也是重要的。儲(chǔ)備服務(wù)器維護(hù)技術(shù)工,每天以計(jì)算機(jī)視覺技術(shù)為基礎(chǔ)的智能交通監(jiān)控機(jī)制都會(huì)獲取大量的監(jiān)控信息數(shù)據(jù),然而只有大型的服務(wù)器才能存儲(chǔ)這些數(shù)據(jù),可想而知一旦服務(wù)器癱瘓就會(huì)引發(fā)整個(gè)機(jī)制的崩潰,造成嚴(yán)重的后果,因此專業(yè)服務(wù)器維護(hù)工作者的儲(chǔ)備與培養(yǎng)也尤為重要?;谟?jì)算機(jī)視覺技術(shù)的智能交通監(jiān)控機(jī)制并不能取代交通指揮員,其僅是用來采集實(shí)時(shí)交通信息的系統(tǒng),僅為了協(xié)助交通指揮員監(jiān)管及疏導(dǎo)城市交通,因此要求儲(chǔ)備一批高素質(zhì)、高質(zhì)量的交通指揮員也極為必要。
3.3 交通知識(shí)的宣傳
大城市的交通問題,并不是依靠單純的開發(fā)先進(jìn)的計(jì)算機(jī)視覺智能交通監(jiān)控系統(tǒng)就能處理解決,也不是單單要求市政建設(shè)增加公交數(shù)量、增鋪幾條公路或增開通幾條地鐵就能解決的,以上這些僅是輔助方法。關(guān)鍵在于開展交通知識(shí)的宣傳與教育工作,強(qiáng)化駕駛員的素質(zhì),倡導(dǎo)不酒駕、不逆行、不超速、限號(hào)行駛等,自覺遵守道路交通規(guī)則,提倡公交地鐵出行,減少私家車輛行駛,齊心協(xié)力共同打造和諧的交通環(huán)境。
3.4 獲取政府支持
市政建設(shè)的主要問題之一即是交通問題,政府的支持是萬萬不可缺失的。由于構(gòu)建以計(jì)算機(jī)視覺技術(shù)為基礎(chǔ)的智能交通管制機(jī)制,涉及面廣,包括道路勘測(cè)、先進(jìn)裝置的引進(jìn)、專業(yè)技術(shù)人員的儲(chǔ)備、裝備組織安裝與調(diào)試、后期維護(hù)等等多方面,這些都需要投入大量的人力、財(cái)力、物力,而對(duì)于任何一個(gè)單位、部門或幾個(gè)市政部門來說都無法獨(dú)自承擔(dān),由此可知政府的大力支持是必不可少的,以政府的力量為媒介,將各部門進(jìn)行協(xié)調(diào)、協(xié)作,只有這樣才能構(gòu)建成較健全的交通監(jiān)控體系。
4 結(jié)束語
道路交通雜、亂是國內(nèi)城市交通最突出的特點(diǎn)之一,對(duì)于我國的交通事業(yè)來說進(jìn)行行人識(shí)別勢(shì)在必行。而我國對(duì)于行人識(shí)別的研究仍處于起步階段,還較落后。且基于計(jì)算機(jī)的交通監(jiān)管系統(tǒng)設(shè)計(jì)較為復(fù)雜,涵蓋點(diǎn)較多,因此本文僅對(duì)設(shè)計(jì)進(jìn)行簡(jiǎn)要介紹,希望達(dá)到拋磚引玉的效果。
參考文獻(xiàn):
[1]康曉麗.無線網(wǎng)絡(luò)技術(shù)在交通管理中的應(yīng)用[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2011(21).
[2]鐘振,賴順橋,肖熠琳,張沛強(qiáng).RFID車輛智能管理系統(tǒng)[J].機(jī)電工程技術(shù),2011(02).
[3]文軍.視頻監(jiān)控系統(tǒng)軟件現(xiàn)狀與技術(shù)分析[J].金卡工程,2007(08).
[4]張玉風(fēng).簡(jiǎn)述視頻監(jiān)控系統(tǒng)的發(fā)展歷程[J].鐵道通信信號(hào)工程技術(shù),2006(06).
[5]馬伏花,朱青.基于射頻識(shí)別技術(shù)的車輛自動(dòng)識(shí)別系統(tǒng)的實(shí)現(xiàn)[J].中國儀器儀表,2006(11).
摘要:針對(duì)集成芯片制造中對(duì)定位、校準(zhǔn)的高精度、實(shí)時(shí)性要求,提出了用機(jī)器視覺技術(shù)解決芯片基板定位的方法,通過對(duì)幾種模板匹配算法的研究,采用基于OpenCV的圖像分析技術(shù)實(shí)現(xiàn)了對(duì)集成芯片基板的準(zhǔn)確定位,解決了傳統(tǒng)機(jī)械定位精度低、速度慢的問題。
關(guān)鍵詞:機(jī)器視覺;開放源代碼計(jì)算機(jī)視覺類庫;集成芯片基板;模板匹配
中圖分類號(hào):TP39文獻(xiàn)標(biāo)識(shí)碼:A
The Positioning Technology of Intergrated Chip Strip Based on OpenCV
LIU Hun-hai, HU Peng-hao,XIE Hu
(School of Instrument Science and Opto-electronics Engineering ,
HeFei University of Technology ,Hefei 230009 ,China)
Abstract: Because of the high requirement of position and speed in the process of integrated chips, A position method of integrated chip strip based on machine vision was proposed in this paper. By researching several template match algorithms, the accurate positioning of intergrated chip strip is implemented by using image processing technology based on OpenCV, and low precision and slow speed problem of traditional method is solved.
Keywords:machine vision; OpenCV; integrated chip strip; template match
引言
隨著現(xiàn)代半導(dǎo)體器件向微型化、集成化和高可靠性方向的發(fā)展,芯片生產(chǎn)和制造設(shè)備也朝著高速、高精度、智能化的全自動(dòng)化的方向發(fā)展。機(jī)器視覺在芯片生產(chǎn)過程中扮演著越來越重要的角色,其中最為廣泛的應(yīng)用是定位。
上海技美電子科技有限公司是一家生產(chǎn)集成芯片基板(如圖1)貼膜機(jī)的廠家,貼膜工序主要是將芯片貼在一層特殊的膜上,為下一步打斷芯片引線做好準(zhǔn)備,而為了提高切割效率,通常將三塊基板一起,但這樣存在相對(duì)位置的偏差。針對(duì)傳統(tǒng)的光電式傳感器定位精度低、速度慢的缺點(diǎn),開發(fā)了基于OpenCV的視覺定位系統(tǒng),系統(tǒng)結(jié)構(gòu)如圖2所示。當(dāng)機(jī)械手臂將基板搬運(yùn)到薄膜上之前,通過該系統(tǒng),對(duì)基板進(jìn)行定位,然后將結(jié)果反饋到控制單元進(jìn)行調(diào)整。
系統(tǒng)使用的CCD相機(jī)是型號(hào)為XC-ES50CE的SONY相機(jī),有效像素為752×582,圖像采集卡使用圖1集成芯片基板
的是比利時(shí)Euresys公司的產(chǎn)品,型號(hào)為Picolo Pro2。在整個(gè)系統(tǒng)中,最為關(guān)鍵的問題就是模板匹配。
1 基于灰度的模板匹配方法
本文主要比較了幾種基于灰度的圖像匹配算法:SSDA算法,金字塔算法,NCC算法等。
模板匹配的基本原理是通過相關(guān)函數(shù)的計(jì)算來找到它和被搜索圖的坐標(biāo)位置[1-2]。如圖3所示,設(shè)模板T(n×m像素點(diǎn))疊放在搜索圖S上移動(dòng),模板覆蓋下的那塊搜索圖為子圖 Sij,i,j為這塊子圖的左上角像點(diǎn)在S圖中的坐標(biāo)。比較T和Sij的內(nèi)容,若兩者一致,則T和S之差為零。測(cè)度方法:
1.1 SSDA算法
序貫相似性檢測(cè)算法(即SSDA算法)是對(duì)傳統(tǒng)模板匹配算法的改進(jìn)。SSDA算法計(jì)算子圖像和模板圖像之間的差值,求和時(shí)不需要計(jì)算所有像素,而是隨機(jī)抽取某幾點(diǎn)像素,只要其和超過設(shè)定的閾值,則說明當(dāng)前位置不匹配,進(jìn)行下個(gè)位置的計(jì)算。
但是該算法本身沒有抗干擾性,如果在外界有噪聲的情況下,算法的精確度不高[3]。
1.2 金字塔算法
金字塔算法也叫分層算法,是直接基于人眼的視覺特點(diǎn),先粗后細(xì)地觀看事物,步驟如下:
(1) 預(yù)處理。首先對(duì)模板和搜索圖進(jìn)行分層預(yù)處理。通過每2×2=4個(gè)像素平均為一個(gè)像素構(gòu)成二級(jí)圖像,然后將此圖像再用同樣的方法處理后得到一個(gè)分辨率更低的圖像。如此反復(fù),我們可以得到K個(gè)處理后的圖像。
(2) 先粗后細(xì)的匹配。先從低分辨率的圖像Sk和TK開始進(jìn)行匹配運(yùn)算,找到粗匹配位置(xK,yK),然后在較高分辨率的圖像Sk-1和Tk-1上的粗匹配位置進(jìn)行搜索,如此下去,一直到最高分辨率的SO和TO上找到匹配位置為止。
1.3 NCC算法
NCC算法就是歸一化互相關(guān)匹配算法,是一個(gè)經(jīng)典的匹配算法,它是通過計(jì)算模板圖像和待匹配圖像的互相關(guān)值來決定匹配的程度,方法如下:
這種算法簡(jiǎn)單,適用于尺寸較小的圖像匹配,且具有很強(qiáng)的抗白噪聲能力,在灰度變化及幾何畸變不大的情況下精度很高[3]。
2 基于OpenCV的模板匹配程序的 實(shí)現(xiàn)
2.1 程序流程及其實(shí)現(xiàn)
程序的流程如圖4所示,實(shí)驗(yàn)采用的算法是NCC算法,函數(shù)完成比較后,通過使用cvMinMaxLoc找全局最大值,然后將匹配結(jié)果在原圖的對(duì)應(yīng)位置標(biāo)記出來(如圖5所示)。
程序?qū)崿F(xiàn)主要利用OpenCV函數(shù)庫中的cvMatchTemplate函數(shù)[4],通過滑動(dòng)過整個(gè)待匹配圖像,用指定的NCC算法比較模板圖像與待匹配圖像尺寸為 w×h 的重疊區(qū)域,并且將比較結(jié)果保存起來。
2.2 OpenCV簡(jiǎn)介
開放源代碼的計(jì)算機(jī)視覺類庫OpenCV(Intel Open Source Computer Vision Library)由英特爾公司位于俄羅斯的研究實(shí)驗(yàn)室所基于IPL(Intel Image Processing Library)開發(fā),并與之兼容。具有良好的獨(dú)立性、跨平臺(tái)性、功能強(qiáng)大、處理速度快等特點(diǎn)[5]。
3 實(shí)驗(yàn)數(shù)據(jù)
采用的是一張640×484的原圖,以及一張64×74的模板圖,實(shí)驗(yàn)用電腦CPU為IntelCeleron
C PU420 1.6GHz ,內(nèi)存為1G。經(jīng)過實(shí)驗(yàn)得出,匹配的平均時(shí)間為100.128ms,且能找到準(zhǔn)確位置,能夠滿足廠家提出的2,000個(gè)/小時(shí)的技術(shù)要求。
4 結(jié) 論
綜上所述,利用OpenCV開發(fā)的模板匹配程序,擁有匹配準(zhǔn)確、執(zhí)行效率較高等特點(diǎn),對(duì)于個(gè)別處理器還進(jìn)行了優(yōu)化,適用于對(duì)實(shí)時(shí)性要求不太高的場(chǎng)合,能夠滿足該企業(yè)芯片基板的定位要求,目前該系統(tǒng)已在企業(yè)運(yùn)行。
參考文獻(xiàn)
[1] 張廣軍,機(jī)器視覺[M],科技出版社,2005: 7-03-014717-0.
[2] Kenneth R.Castleman,Digital Image Processing,Prentice Hall,1995:0132114674.
[3] 劉錦峰,圖像模板匹配快速算法研究[D].湖南長(zhǎng)沙:中南大學(xué),2007.
[4] IntelOpen Source Computer Vision Library Reference Manuals[EB/0L].2001.12.
[5] Intel Open Source Computer Vision Library HTML Reference.2003.2.
[6] 黎松,平西建,丁益洪.開放源代碼的計(jì)算機(jī)視覺類庫OpenCV的應(yīng)用[J],計(jì)算機(jī)應(yīng)用與軟件. 2005,22(8):134-136.
[7] 呂學(xué)剛,于明,劉翠響.數(shù)字圖像處理與計(jì)算機(jī)視覺編程的有力工具-IPL和OpenCV[J].現(xiàn)代計(jì)算機(jī),2002,147:69-71.
關(guān)鍵詞:視覺注視;移動(dòng)端;數(shù)據(jù)集;行為推測(cè)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)01-0254-03
Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.
Key words: visual gaze; mobile end; data set; behavior conjecture
1 概述
伴S著計(jì)算機(jī)軟硬件性能和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,大規(guī)模的并行計(jì)算技術(shù)突飛猛進(jìn),不斷地發(fā)展使各種現(xiàn)有技術(shù)變得越來越成熟,同時(shí)機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域也都得到了飛速發(fā)展。視覺技術(shù)的發(fā)展變得越來越重要,并且可以應(yīng)用到實(shí)際生活中的很多方面。人類大量的視覺信息現(xiàn)在可以利用計(jì)算機(jī)來輔助處理,并完成相關(guān)的一些工作。相對(duì)于生物信息識(shí)別技術(shù)這一計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)技術(shù)來說,也已廣泛應(yīng)用于日常生活中[1]。比如指紋識(shí)別器,人臉考勤器等平時(shí)在許多地方可以經(jīng)常見到,還有居民家用的攝像頭智能報(bào)警系統(tǒng)以及近期炒得火熱的運(yùn)用支付寶進(jìn)行刷臉而完成的支付技術(shù)等,這些都是運(yùn)用了生物信息識(shí)別技術(shù)。現(xiàn)實(shí)中的種種跡象已經(jīng)表明運(yùn)用生物信息識(shí)別的計(jì)算機(jī)技術(shù)已漸漸的滲透到人們的日常生活中并成為不可或缺的組成部分。時(shí)下發(fā)展較快也比較常見的生物特征有視網(wǎng)膜、指紋、人臉和人眼等。這些生物信息比如人臉具有個(gè)體差異性和自身穩(wěn)定性特點(diǎn),從用戶的角度來看該特征具有便攜和低侵入等一些優(yōu)點(diǎn)。而人眼作為人臉中最顯著的特征,又是人們獲取外界信息最直接最方便的途徑。都說眼是心靈的窗戶,因?yàn)檠劬χ刑N(yùn)含著表情、意圖等多種信息。因此,眼睛注視的行為預(yù)測(cè)受到了國內(nèi)外眾多學(xué)者的廣泛關(guān)注,同時(shí)在生物信息識(shí)別領(lǐng)域中也具有重要的研究意義[2]。
2 注視預(yù)測(cè)問題
2.1 問題的背景
在心理、認(rèn)知和用戶交互研究中的注視跟蹤最近已朝向移動(dòng)解決方案發(fā)展,因?yàn)樗鼈兪沟每梢灾苯釉u(píng)估用戶在自然環(huán)境中的視覺注意。 除了注意,注視還可以提供關(guān)于用戶的動(dòng)作和意圖的信息:用戶正在做什么以及接下來將做什么。然而,在自然狀態(tài)下非結(jié)構(gòu)化的任務(wù)中注視行為是相當(dāng)復(fù)雜的,并且不能使用在受控的實(shí)驗(yàn)室環(huán)境中創(chuàng)建的模型來得到令人滿意的解釋。自然條件下和實(shí)驗(yàn)室環(huán)境有著很大的不同。為了演化在自然環(huán)境中對(duì)注視行為的推斷,需要一種更加整體的方法,將從認(rèn)知科學(xué)到機(jī)器學(xué)習(xí)的許多學(xué)科結(jié)合在一起[3]。
從人機(jī)交互技術(shù)到醫(yī)學(xué)診斷到心理學(xué)研究再到計(jì)算機(jī)視覺,眼睛注視跟蹤在許多領(lǐng)域都有應(yīng)用。注視是外部可觀察的人類視覺注意的指標(biāo),許多人試圖記錄它。對(duì)于眼睛視線方面的研究可以追溯到十八世紀(jì)后期。而現(xiàn)如今已經(jīng)存在各種解決方案(其中許多是商業(yè)化的),但是所有的解決方案都具有以下一個(gè)或多個(gè)方面的問題:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在現(xiàn)實(shí)中的自然條件下,這些因素對(duì)實(shí)際的應(yīng)用會(huì)造成一些障礙影響,使得眼睛注視跟蹤不能成為任何具有合理的相機(jī)(例如,智能手機(jī)或網(wǎng)絡(luò)攝像頭)的人應(yīng)該可以使用的普及技術(shù)。如何才能使得這種技術(shù)普及并且得到應(yīng)用,提出了一種解決方案。
2.2問題的提出
研究中首先要解決的就是用戶的約束問題,也就是自然條件下使用過程中所受到的各種限制問題。到目前為止,基于注視數(shù)據(jù)推斷用戶動(dòng)作的研究受到許多的限制,特別是在自然環(huán)境中。限制因素可能包括可用的商業(yè)解決方案的昂貴性,其專有性和封閉性以及缺乏實(shí)時(shí)交互能力等方面。目前的注視跟蹤系統(tǒng),只是盡量在移動(dòng)設(shè)置中設(shè)置各種條件進(jìn)行補(bǔ)救。商業(yè)化定制化的解決方案都有其獨(dú)自的閉合性質(zhì),因此阻礙了注視跟蹤算法的發(fā)展,并且使得不同方法之間的客觀比較變得不可能[4]。此外,注視是一種復(fù)雜的現(xiàn)象,涉及認(rèn)知過程的相互作用。這些過程在設(shè)置計(jì)算上的建模是非常困難的,尤其是涉及一些未知因素,使得構(gòu)建實(shí)驗(yàn)設(shè)置成為一個(gè)很大的挑戰(zhàn)。此外,來自跟蹤實(shí)驗(yàn)的數(shù)據(jù)因?yàn)槠渖虡I(yè)化的原因很少共享,即使共享數(shù)據(jù)很大部分也是有其獨(dú)立的實(shí)驗(yàn)條件。這些方面的問題都阻礙了跨學(xué)科方法在分析和利用注視數(shù)據(jù)和實(shí)驗(yàn)的相關(guān)研究與發(fā)展。
2.3 解決問題的研究方向
對(duì)基于注視的推斷的個(gè)體貢獻(xiàn)通常保持孤立,不能形成更大的整體以促進(jìn)對(duì)注視動(dòng)作行為的研究。隨著這方面的技術(shù)發(fā)展和應(yīng)用,最近出現(xiàn)了一些開源的解決方案。雖然在不同的應(yīng)用和用戶界面中使用注視已經(jīng)相當(dāng)有限,但是移動(dòng)注視跟蹤的新穎應(yīng)用開始出現(xiàn)并得到了很快的發(fā)展。然而使用移動(dòng)注視跟蹤來推斷用戶動(dòng)作的問題是高度多學(xué)科的,需要深入理解各個(gè)研究領(lǐng)域,包括人眼的功能,數(shù)學(xué)建模,計(jì)算機(jī)視覺,機(jī)器學(xué)習(xí),信息技術(shù),認(rèn)知過程,用戶交互以及心理學(xué)。任何一個(gè)研究員或甚至任何研究小組都不可能擁有所有研究領(lǐng)域的專家,因此需要相互的協(xié)作共同推進(jìn)技術(shù)的發(fā)展[5]。
目前的研究主要是從以下幾個(gè)方面進(jìn)行:
1)研究移動(dòng)注視跟蹤的認(rèn)知方面,例如增強(qiáng)對(duì)任務(wù)中的注視行為的理解或識(shí)別不同任務(wù)的特征和階段;
2)開發(fā)用于從注視數(shù)據(jù)推斷用戶動(dòng)作的計(jì)算方法,諸如應(yīng)用機(jī)器學(xué)習(xí)用于行為推斷,優(yōu)選地實(shí)時(shí)地;
3)增強(qiáng)用于改善移動(dòng)注視跟蹤方法和性能的技術(shù)軟件/硬件解決方案,并使得設(shè)備更容易訪問;
4)發(fā)現(xiàn)注視數(shù)據(jù)在自然環(huán)境和虛擬和增強(qiáng)現(xiàn)實(shí)應(yīng)用中的潛在用途,以及定義任務(wù),其中注視可以是用戶動(dòng)作的有用的預(yù)測(cè)器。
3 解決方案
首先選擇移動(dòng)端進(jìn)行研究,因?yàn)槟壳氨容^普遍的移動(dòng)設(shè)備比如智能手機(jī)、平板電腦都有自己可靠的工作系統(tǒng),且不需要外部附件。移動(dòng)設(shè)備相對(duì)于其他平臺(tái)具有以下優(yōu)勢(shì):
1)使用的廣泛性。據(jù)估計(jì),到2019年,世界上超過三分之一的人口擁有智能手機(jī),遠(yuǎn)遠(yuǎn)超過臺(tái)式機(jī)/筆記本電腦用戶;
2)軟硬件技術(shù)升級(jí)的采用率較高。大部分的移動(dòng)設(shè)備具有允許使用擁有計(jì)算復(fù)雜數(shù)據(jù)方法的實(shí)時(shí)的最新軟硬件;
3)移動(dòng)設(shè)備上相機(jī)的大量使用已經(jīng)導(dǎo)致相機(jī)技術(shù)的快速開發(fā)和部署;
4)相機(jī)相對(duì)于屏幕的固定位置減少了未知參數(shù)的數(shù)量,潛在地允許開發(fā)高精度的校準(zhǔn)跟蹤應(yīng)用。
3.1 注視類型分析
注視估計(jì)方法可以分為基于模型或基于外觀[6]?;谀P偷姆椒ㄊ褂醚劬Φ膸缀文P停⑶铱梢员患?xì)分為基于角膜反射和基于形狀的方法。另一方面,基于形狀的方法從觀察到的眼睛形狀觀察注視方向。這些方法傾向于具有低的圖像質(zhì)量和可變的照明條件?;谕庥^的方法直接使用眼睛作為輸入,并可能在低分辨率圖像上工作。相比基于模型的方法,基于外觀的方法被認(rèn)為需要更大量的用戶特定的訓(xùn)練數(shù)據(jù)。通過使用深度學(xué)習(xí)和大規(guī)模數(shù)據(jù)不必依賴于視覺,以實(shí)現(xiàn)準(zhǔn)確的無校準(zhǔn)注視估計(jì)。這種方案提出建立一個(gè)基于外觀的數(shù)據(jù)模型,而不使用任何手工設(shè)計(jì)的功能,例如頭部姿勢(shì)或眼球中心位置。
3.2 技術(shù)方案
深度學(xué)習(xí)的最近成功在計(jì)算機(jī)視覺的各種領(lǐng)域中是顯而易見的,但是它對(duì)改善眼睛跟蹤性能的影響還是相當(dāng)有限。因?yàn)樯疃葘W(xué)習(xí)是需要大量的數(shù)據(jù)作為支持,而視線追蹤這方面的數(shù)據(jù)集還比較少,普通的研究所得到的稻菁比較有限,最大的數(shù)據(jù)集通常只是具有50個(gè)受試者左右,由于缺乏大規(guī)模數(shù)據(jù)的可用性,因此發(fā)展比較緩慢。因而提出了使用深度學(xué)習(xí)進(jìn)行研究的一套方案,就是構(gòu)造大規(guī)模的數(shù)據(jù)集。利用網(wǎng)絡(luò)資源構(gòu)造一個(gè)大規(guī)模的基于移動(dòng)的眼動(dòng)跟蹤數(shù)據(jù)集,它包含來自各種背景的大量的受試者,在可變照明條件和不受限制的頭部運(yùn)動(dòng)下記錄[7]。運(yùn)用現(xiàn)有的智能算法得到一個(gè)可以進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)端到端的注視預(yù)測(cè)的后臺(tái)決策網(wǎng)絡(luò)。不依賴任何預(yù)先存在的系統(tǒng),不需要頭部姿態(tài)估計(jì)或其他手動(dòng)設(shè)計(jì)的特征用于預(yù)測(cè)。使用只有雙眼和臉部的特征訓(xùn)練網(wǎng)絡(luò),在這個(gè)領(lǐng)域的性能優(yōu)于現(xiàn)有的眼睛跟蹤方法。雖然現(xiàn)在的決策網(wǎng)絡(luò)在精度方面實(shí)現(xiàn)了很先進(jìn)的性能,但是數(shù)據(jù)輸入的大小和參數(shù)的數(shù)量使得難以在移動(dòng)設(shè)備上實(shí)時(shí)使用。 為了解決這個(gè)問題,需要培養(yǎng)學(xué)習(xí)得到一個(gè)更小更快的網(wǎng)絡(luò),在移動(dòng)設(shè)備上實(shí)現(xiàn)實(shí)時(shí)性能,使得精度損失進(jìn)一步降低。
3.3 大規(guī)模數(shù)據(jù)集
為了達(dá)到這一方案的預(yù)測(cè)效果,首先要進(jìn)行的是數(shù)據(jù)集的建立。網(wǎng)絡(luò)上相關(guān)的研究中有許多公開的注視數(shù)據(jù)集[8]??偨Y(jié)對(duì)比這些相關(guān)的數(shù)據(jù)集,分析出有些早期的數(shù)據(jù)集不包含顯著性的頭部姿勢(shì)變化或具有粗略的注視點(diǎn)采樣密度。需要對(duì)這些數(shù)據(jù)進(jìn)行篩選,使得到的數(shù)據(jù)具有隨機(jī)分布特點(diǎn)。雖然一些現(xiàn)代數(shù)據(jù)集遵循類似的方法,但它們的規(guī)模(尤其是參與者的數(shù)量)相當(dāng)有限。大多數(shù)現(xiàn)有的眼動(dòng)追蹤數(shù)據(jù)集已經(jīng)由邀請(qǐng)實(shí)驗(yàn)室參與者的研究人員收集,這一過程導(dǎo)致數(shù)據(jù)缺乏變化,并且成本高且效率不高。因此需要大量的進(jìn)行數(shù)據(jù)收集和篩選分析。大規(guī)模數(shù)據(jù)可以通過卷積神經(jīng)網(wǎng)絡(luò)有效地識(shí)別人臉(他們的眼睛)上的細(xì)粒度差異,從而做出準(zhǔn)確的預(yù)測(cè)。
收集眼動(dòng)跟蹤數(shù)據(jù)應(yīng)該注意的方面:
1)可擴(kuò)展性。數(shù)據(jù)應(yīng)該是自然條件下的使得用戶具有靈活性;
2)可靠性。運(yùn)用現(xiàn)有的智能移動(dòng)設(shè)備真實(shí)的應(yīng)用圖像而非設(shè)計(jì)處理過的圖像;
3)變異性。盡量使數(shù)據(jù)具有較大的變異性,使得模型更加穩(wěn)健,適應(yīng)各種環(huán)境下的操作。
4 結(jié)束語
文章介紹了一種針對(duì)移動(dòng)設(shè)備的用戶注視行為推測(cè)解決方案。首先建立一個(gè)大規(guī)模眼動(dòng)跟蹤數(shù)據(jù)集,收集大量的注視數(shù)據(jù)。大型數(shù)據(jù)集的重要性,以及具有大量各種數(shù)據(jù)以能夠訓(xùn)練用于眼睛跟蹤的魯棒模型。然后,訓(xùn)練得到一個(gè)深層卷積神經(jīng)網(wǎng)絡(luò),用于預(yù)測(cè)注視。通過仔細(xì)的評(píng)估,利用深度學(xué)習(xí)可以魯棒地預(yù)測(cè)注視,達(dá)到一個(gè)較好的水平。此外,雖然眼睛跟蹤已經(jīng)存在了幾個(gè)世紀(jì),相信這種新方案的策略可以作為下一代眼動(dòng)跟蹤解決方案的關(guān)鍵基準(zhǔn)。希望能通過這方面的研究,使人機(jī)交互得到更好的發(fā)展。
參考文獻(xiàn):
[1] 崔耀 視控人機(jī)交互系統(tǒng)技術(shù)研究與實(shí)現(xiàn)[D].西安,西安電子科技大學(xué),2013.
[2] 遲健男, 王志良, 張闖.視線追蹤[M].北京: 機(jī)械工業(yè)出版社, 2011.
[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.
[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/
6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.
[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.
[6] 楊彩霞.基于近紅外光源的非接觸式視線跟蹤技術(shù)研究 [D].山東:山東大學(xué),2012.
計(jì)算機(jī)技術(shù) 計(jì)算機(jī)安全 計(jì)算機(jī)維護(hù) 計(jì)算機(jī)理論 計(jì)算機(jī)畢業(yè)論 計(jì)算機(jī)軟件 計(jì)算機(jī)病毒 計(jì)算機(jī)英語 計(jì)算機(jī)畢業(yè) 計(jì)算機(jī)網(wǎng)絡(luò) 紀(jì)律教育問題 新時(shí)代教育價(jià)值觀