前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇神經(jīng)網(wǎng)絡(luò)文本分類范文,相信會(huì)為您的寫作帶來(lái)幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
法,并介紹了在TMS320C540
>> 一種新的基于改進(jìn)的ADALINE神經(jīng)網(wǎng)絡(luò)的DTHF解碼器方案 AVS解碼器流水線控制機(jī)制的一種改進(jìn)設(shè)計(jì) 一種SoC架構(gòu)的AVS硬件解碼器設(shè)計(jì)方案 一種基于BP神經(jīng)網(wǎng)絡(luò)整定的PID控制器的算法改進(jìn) 一種基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)方法 基于一種改進(jìn)BP神經(jīng)網(wǎng)絡(luò)算法的教學(xué)質(zhì)量評(píng)價(jià)研究 一種基于ART2神經(jīng)網(wǎng)絡(luò)的算法改進(jìn) 一種基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)T/R組件溫度的方法 一種基于改進(jìn)神經(jīng)網(wǎng)絡(luò)的高效模糊聚類算法 一種基于模糊神經(jīng)網(wǎng)絡(luò)的印刷品字符識(shí)別器 一種基于遺傳神經(jīng)網(wǎng)絡(luò)文本分類器的研究 一種新的基于灰色關(guān)聯(lián)分析的BP神經(jīng)網(wǎng)絡(luò)剪枝算法 一種新的基于神經(jīng)網(wǎng)絡(luò)的IRT項(xiàng)目參數(shù)估計(jì)模型 一種基于短語(yǔ)統(tǒng)計(jì)機(jī)器翻譯的高效柱搜索解碼器 一種基于SOM神經(jīng)網(wǎng)絡(luò)的污水處理工藝方案比選方法 一種基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)控機(jī)床伺服系統(tǒng)控制器 一種改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法在入侵檢測(cè)中的應(yīng)用 一種改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)車牌識(shí)別算法的研究 一種改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法分析 一種ART2神經(jīng)網(wǎng)絡(luò)的改進(jìn)算法 常見問題解答 當(dāng)前所在位置:中國(guó) > 科技 > 一種新的基于改進(jìn)的ADALINE神經(jīng)網(wǎng)絡(luò)的DTHF解碼器方案 一種新的基于改進(jìn)的ADALINE神經(jīng)網(wǎng)絡(luò)的DTHF解碼器方案 雜志之家、寫作服務(wù)和雜志訂閱支持對(duì)公帳戶付款!安全又可靠! document.write("作者:未知 如您是作者,請(qǐng)告知我們")
申明:本網(wǎng)站內(nèi)容僅用于學(xué)術(shù)交流,如有侵犯您的權(quán)益,請(qǐng)及時(shí)告知我們,本站將立即刪除有關(guān)內(nèi)容。 摘 要:本文提出了一種新的基于改進(jìn)的AD址INE神經(jīng)網(wǎng)絡(luò)DTMF信號(hào)檢測(cè)算
法,并介紹了在TMS320C5402和TLV320AICl0上采用此算法的DTMF
關(guān)鍵詞:模糊神經(jīng)網(wǎng)絡(luò);蔬菜;病害;診斷
中圖分類號(hào):TP182;S435 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):0439-8114(2013)17-4224-04
Research on vegetables Disease Diagnosis Model Based on Fuzzy Neural Network
WEI Qing-feng,LUO Chang-shou,CAO Cheng-zhong,GUO Qiang
(Institute of Agriculture Science and Technology Information, Beijing Academy of Agriculture and Forestry Sciences, Beijing, 100097)
Abstract: To explore the effective method for the diagnosis of vegetables diseases, through reasonable division of symptoms, using input vector construction method which contained characteristics of symptoms and membership grade, a vegetables disease diagnosis of fuzzy neural network model was constructed. The experimental results showed that the input vector construction method had effectively expressed the disease diagnosis rule, the model had strong fault tolerant ability, and the average diagnostic accuracy was 85.5%.
Key words: fuzzy neural network; vegetable; disease; diagnosis
收稿日期:2013-01-30
基金項(xiàng)目:國(guó)家現(xiàn)代農(nóng)業(yè)科技城綜合信息“三農(nóng)”服務(wù)平臺(tái)建設(shè)項(xiàng)目(PT01);北京市自然科學(xué)基金項(xiàng)目(9093019);北京農(nóng)業(yè)科學(xué)院信息所
創(chuàng)新基金項(xiàng)目(SJJ201203)
作者簡(jiǎn)介:魏清鳳(1983-),女,湖北武漢人,助理研究員,碩士,主要從事農(nóng)業(yè)信息技術(shù)的研究工作,(電話)13439026360(電子信箱)
;通訊作者,羅長(zhǎng)壽,副研究員,(電話)010-51503387(電子信箱)。
病害是影響蔬菜優(yōu)質(zhì)生產(chǎn)的重要制約因素之一。我國(guó)農(nóng)村基層還相對(duì)缺乏有經(jīng)驗(yàn)的病害診斷專家,對(duì)蔬菜病害不能正確判斷,不但延誤了防治最佳時(shí)機(jī),還嚴(yán)重降低了蔬菜品質(zhì)。
當(dāng)前農(nóng)業(yè)病害診斷技術(shù)方法主要有圖像分析診斷[1-4]、專家系統(tǒng)診斷[5-7]以及人工神經(jīng)網(wǎng)絡(luò)診斷[8]等?;趫D像分析的病害診斷方法其圖像的獲取受環(huán)境光照的影響較大,且需要專業(yè)人員在室內(nèi)進(jìn)行數(shù)據(jù)分析和識(shí)別,時(shí)效性差,無(wú)法實(shí)時(shí)滿足具體生產(chǎn)實(shí)踐的要求?;趯<蚁到y(tǒng)的診斷方法,采用 IF-THEN產(chǎn)生式推理,存在診斷知識(shí)獲取有瓶頸、推理規(guī)則更新難、容錯(cuò)能力差、串行搜索運(yùn)行效率低等不足。近年基于人工神經(jīng)網(wǎng)絡(luò)的方法無(wú)需建立推理規(guī)則,具有自學(xué)習(xí)及并行處理能力,較引人注目,但存在對(duì)病害癥狀的典型性、非典型性模糊特點(diǎn)無(wú)法區(qū)分度量,樣本診斷規(guī)律學(xué)習(xí)不充分等問題。模糊神經(jīng)網(wǎng)絡(luò)可以將不確定的癥狀信息通過(guò)模糊隸屬集來(lái)表示,能解決診斷系統(tǒng)中的不確定性知識(shí)表示、并行推理等問題,對(duì)具有模糊性復(fù)雜性的蔬菜病害診斷非常適用。此文利用模糊系統(tǒng)和神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,在對(duì)病害特征模糊量化方法研究的基礎(chǔ)上,建立能夠?qū)嶋H應(yīng)用的蔬菜病害模糊神經(jīng)網(wǎng)絡(luò)診斷模型,為蔬菜病蟲害防治提供依據(jù)。
1 蔬菜病害診斷知識(shí)整理
一般研究中,將植株的發(fā)病部位劃分為根、莖、葉、花、果5個(gè)部分[9]。由于部分蔬菜病害(如猝倒病)在苗期即表現(xiàn)出典型癥狀,因此,為提高診斷的全面性和準(zhǔn)確性,將蔬菜植株發(fā)病表現(xiàn)最終劃分為根、莖蔓、葉、花、果、苗6個(gè)部分。表示如下:
S={Si | i=1,2,3,4,5,6}
式中,Si表示根、莖蔓、葉、花、果、苗6個(gè)部分中的1個(gè)。
以“北京農(nóng)業(yè)數(shù)字資源中心”中蔬菜病害數(shù)據(jù)庫(kù)的知識(shí)為基礎(chǔ),結(jié)合文獻(xiàn)資料、植保專家咨詢及案例分析,對(duì)病害特征知識(shí)根據(jù)根、莖蔓、葉、花、果、苗6個(gè)部分進(jìn)行分別提取,建立二維知識(shí)表。
2 病害癥狀重要性劃分及隸屬函數(shù)
不同癥狀對(duì)病害診斷的貢獻(xiàn)程度不同,一些特征明顯的癥狀表現(xiàn)往往是確定某種病害的重要依據(jù)。通常用模糊的自然語(yǔ)言來(lái)描述癥狀對(duì)于病害識(shí)別的重要程度,這里將其劃分為典型癥狀、主要癥狀、一般癥狀3個(gè)層次(表1)。
將癥狀重要性隸屬函數(shù)定義為模糊語(yǔ)言值,根據(jù)專家經(jīng)驗(yàn)法,確定不同層次的隸屬度如下:
L(Si)=1.0 Si∈a0.7 Si∈b0.4 Si∈c i={1,2,3,4,5,6}
L為Si的隸屬度,a、b、c為癥狀類型。
3 基于術(shù)語(yǔ)統(tǒng)一描述的病害癥狀向量構(gòu)建
一般方法中,直接利用診斷資料的原始文本,以癥狀表現(xiàn)部位為單元賦權(quán)值(或隸屬度)作為樣本分量構(gòu)建輸入向量[10],不僅存在向量攜帶信息量少、向量模長(zhǎng)短不一、診斷規(guī)律體現(xiàn)不明顯等問題,還容易產(chǎn)生相同的樣本向量對(duì)應(yīng)不同病害種類的錯(cuò)誤情況,不能較好地對(duì)病害原因進(jìn)行區(qū)分,這也勢(shì)必影響到診斷的準(zhǔn)確性。對(duì)此,本方法將原始資料的自然語(yǔ)言樣本映射到共同語(yǔ)義空間中,統(tǒng)一利用病狀病癥的相關(guān)術(shù)語(yǔ)對(duì)癥狀資料的原始文本進(jìn)行描述,并根據(jù)術(shù)語(yǔ)的定義值以及癥狀重要性隸屬度來(lái)確定語(yǔ)義樣本的樣本值,從而構(gòu)建輸入向量,能有效豐富向量信息承載量,充分表達(dá)診斷規(guī)律,具體如下。
3.1 自然語(yǔ)言癥狀的術(shù)語(yǔ)映射
本環(huán)節(jié)即是對(duì)原始自然語(yǔ)言病害癥狀資料在共同語(yǔ)義空間中利用相關(guān)術(shù)語(yǔ)進(jìn)行統(tǒng)一描述。根據(jù)植物學(xué)知識(shí),感病植株的外觀病態(tài)表現(xiàn)可分為病狀和病征兩大類。共同語(yǔ)義空間的病害癥狀術(shù)語(yǔ)如表2所示。
根據(jù)病害癥狀表,癥狀的自然語(yǔ)言描述轉(zhuǎn)化為術(shù)語(yǔ)描述。如辣椒枯萎病莖蔓部自然語(yǔ)言癥狀={水浸狀腐爛,后全株枯萎,病部白色霉?fàn)钗飣,經(jīng)語(yǔ)義空間映射后,S2={濕腐,枯死,霉?fàn)钗飣,其樣本定義值D(S2)為{0,0,2,2,0,1}。
3.2 輸入向量的構(gòu)建
綜合樣本定義值和癥狀重要性隸屬度,形成具有癥狀特征和癥狀重要性信息的向量。為了降低輸入向量維度,對(duì)矩陣中同列均為0值的列進(jìn)行簡(jiǎn)約,形成最終輸入向量矩陣。輸入向量表示為:
Xi={D(S1)×L(S1),D(S2)×L(S2),……,D(Si)×L(Si)}
其中,D(Si)為Si癥狀的樣本定義值,L(Si)為Si癥狀的重要性隸屬度。
4 蔬菜病害診斷模型建立
蔬菜病害診斷神經(jīng)網(wǎng)絡(luò)模型采用模糊BP神經(jīng)網(wǎng)絡(luò)構(gòu)建(圖1)。模糊系統(tǒng)和神經(jīng)網(wǎng)絡(luò)按串聯(lián)方式連接,用模糊系統(tǒng)對(duì)原始知識(shí)進(jìn)行前處理,用神經(jīng)網(wǎng)絡(luò)進(jìn)行病害診斷。
第一層為輸入層,其每一個(gè)節(jié)點(diǎn)代表一個(gè)輸入變量,它將樣本定義值傳遞到模糊層。
第二層為模糊層,基于癥狀樣本定義值和癥狀隸屬度構(gòu)建輸入向量。
第三層為隱含層,實(shí)現(xiàn)輸入變量模糊值到輸出變量模糊值映射。隱含層節(jié)點(diǎn)數(shù)確定方法如下:
l=■+a 0
式中,l為隱含層神經(jīng)元個(gè)數(shù),n為輸入層神經(jīng)元個(gè)數(shù),m為輸出層神經(jīng)元個(gè)數(shù),a為取值0~10之間的常數(shù)。
第四層為輸出層,輸出向量采用“n中取1”的二進(jìn)制編碼法。其中n為編碼長(zhǎng)度,即病害總數(shù)。每組編碼中僅有1位為1,其余n-1位為0,表示某一種病害。診斷過(guò)程中,最大向元值對(duì)應(yīng)著可疑病害。該最大值若接近0, 則表示發(fā)生相對(duì)應(yīng)病害的可能性很小;若接近1,則表明發(fā)生相對(duì)應(yīng)病害的可能性極大。
5 診斷測(cè)試分析
以番茄白絹病、番茄猝倒病、番茄根霉果腐病、番茄青枯病等19種病害為例,經(jīng)上文方法構(gòu)建20維輸入向量(部分輸入如表3),19維輸出向量(部分輸出向量如表4)。設(shè)隱層單元15個(gè),目標(biāo)誤差0.000 1,循環(huán)1 000次,采用Levenberg-Marquardt 算法進(jìn)行訓(xùn)練,并開發(fā)系統(tǒng)界面,對(duì)訓(xùn)練好的模型從診斷容錯(cuò)性和診斷準(zhǔn)確性兩個(gè)角度進(jìn)行分析。
5.1 模型診斷容錯(cuò)性測(cè)試
在實(shí)際應(yīng)用過(guò)程中,用戶提供的病害癥狀無(wú)法與樣本完全一致,病害典型癥狀被選的可能性最大,但部分主要癥狀和一般癥狀存在A-誤選(提供癥狀與樣本癥狀不一致)、B-多選(提供癥狀多于樣本癥狀)、C-少選(提供癥狀少于樣本癥狀)、A+B-多選及誤選、A+C-少選及誤選的情況,據(jù)此選取用戶5組具有代表性測(cè)試數(shù)據(jù)(表5),以番茄潰瘍病為例來(lái)檢驗(yàn)?zāi)P偷娜蒎e(cuò)性,輸出結(jié)果如表6。
樣本輸出向量中第17位為向元最大值,則表明該輸出結(jié)果為番茄潰瘍病。在5組具有代表性的用戶測(cè)試數(shù)據(jù)中,輸出向量的向元最大值始終在第17位,說(shuō)明診斷模型具有較強(qiáng)的容錯(cuò)能力。同時(shí),當(dāng)用戶“誤選”、“多選”,以及“多選+誤選”時(shí),輸出向量第17位向元值分別為0.999 9、0.987 6、0.921 6,接近樣本模擬值1;當(dāng)用戶“少選”以及“少選+誤選”時(shí),輸出向量第17位向元值分別為0.778 6、0.594 6,較之其他組測(cè)試數(shù)據(jù),較遠(yuǎn)離樣本模擬值1,說(shuō)明用戶提供的病害癥狀信息越多,進(jìn)行正確診斷的可能性越大。
5.2 模型診斷準(zhǔn)確性測(cè)試
將本研究與一般方法中直接利用癥狀權(quán)值作為輸入向量的一般神經(jīng)網(wǎng)絡(luò)診斷模型進(jìn)行準(zhǔn)確性比較。測(cè)試數(shù)據(jù)包括兩類,即實(shí)驗(yàn)室根據(jù)田間數(shù)據(jù)資料生成的數(shù)據(jù),以及涉農(nóng)用戶根據(jù)實(shí)際生產(chǎn)情況進(jìn)行癥狀選擇操作生成的數(shù)據(jù)。經(jīng)植保專家驗(yàn)證,獲得測(cè)試結(jié)果平均值見表7。
統(tǒng)計(jì)結(jié)果顯示,室內(nèi)室外測(cè)試中,基于模糊神經(jīng)網(wǎng)絡(luò)的診斷方法較一般神經(jīng)網(wǎng)絡(luò)在正確率方面均有所提高,說(shuō)明本研究的思路方案是有效的。其中,實(shí)驗(yàn)室所利用的田間數(shù)據(jù)資料測(cè)試結(jié)果好于農(nóng)戶實(shí)際應(yīng)用。其原因在于,實(shí)驗(yàn)室所使用的田間數(shù)據(jù)資料較接近文獻(xiàn)資料中的診斷知識(shí),且基于模糊神經(jīng)網(wǎng)絡(luò)的蔬菜病害模型具有較好的容錯(cuò)性,因此診斷正確率較高。外部基層農(nóng)戶則完全按照自己在生產(chǎn)中見到的癥狀表現(xiàn)進(jìn)行選擇操作而形成測(cè)試數(shù)據(jù),更為真實(shí)地反映了模型的實(shí)際應(yīng)用情況。由于實(shí)際生產(chǎn)中存在多個(gè)病害夾雜同時(shí)表現(xiàn)的復(fù)雜情況,這一定程度上影響了診斷正確率,因此也說(shuō)明在該方面努力能進(jìn)一步提高模型的實(shí)用性。
6 小結(jié)
利用基于術(shù)語(yǔ)統(tǒng)一描述的病害癥狀量化方法,能構(gòu)建既能描述癥狀特征又能反映癥狀重要性的輸入向量,更能有效地體現(xiàn)病害診斷規(guī)律。經(jīng)過(guò)誤選、多選、少選、多選+誤選、少選+誤選的5組測(cè)試中,診斷結(jié)果仍然能指向正確的病害,模型容錯(cuò)推理能力較強(qiáng)。將模糊數(shù)學(xué)方法引入神經(jīng)網(wǎng)絡(luò)中,結(jié)合基于術(shù)語(yǔ)統(tǒng)一描述的病害癥狀量化方法,建立基于模糊神經(jīng)網(wǎng)絡(luò)的蔬菜病害診斷模型,較之一般基于神經(jīng)網(wǎng)絡(luò)的病害模型,診斷準(zhǔn)確性得到了有效提高。
由于農(nóng)業(yè)生產(chǎn)中病害作用的復(fù)雜性,今后將在多個(gè)病害同時(shí)作用的診斷方面進(jìn)一步努力探索,以提高模型的生產(chǎn)實(shí)用性。同時(shí),隨著移動(dòng)網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展以及移動(dòng)設(shè)備終端的日益普及,將進(jìn)行蔬菜病害診斷系統(tǒng)的研究,以期為蔬菜病蟲害防治咨詢提供更加便捷、靈活、有效的服務(wù)。
參考文獻(xiàn):
[1] LAI J C, MING B, LI S K, et al. An image-based diagnostic expert system for corn diseases[J]. Agricultural Sciences in China,2010(8):1221-1229.
[2] 李 旺,唐少先.基于圖像處理的農(nóng)作物病害識(shí)別研究現(xiàn)狀[J].湖南農(nóng)機(jī)(學(xué)術(shù)版),2012,39(1):176-178.
[3] 劉連忠,張 武,朱 誠(chéng). 基于改進(jìn)顏色特征的小麥病害圖像識(shí)別技術(shù)研究[J]. 安徽農(nóng)業(yè)科學(xué),2010,40(26):12877-12879.
[4] 鄒修國(guó). 基于計(jì)算機(jī)視覺的農(nóng)作物病蟲害識(shí)別研究現(xiàn)狀[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(6):238-242.
[5] MANSINGH G, REICHGELT H, BRYSON K O. CPEST: An expert system for the management of pests and diseases in the Jamaican coffee industry[J]. Expert Systems with Applications,2007,32(1):184-192.
[6] 林 瀟,李紹穩(wěn),張友華,等.基于本體的水稻病害診斷專家系統(tǒng)研究[J].數(shù)字技術(shù)與應(yīng)用,2010(11):109-111.
[7] GHOSH I, SAMANTA R K. Teapest:An expert system for insect pest management in tea[J].Applied Engineering in Agriculture,2003,19(5):619-625.
[8] 王軍英.基于BP神經(jīng)網(wǎng)絡(luò)的葡萄病害診斷方法研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2010(6):21-23,36.
1、首先打開趣頭條APP,切換到“任務(wù)”頁(yè)面。
2、然后向下滑動(dòng)屏幕,即可看到“走路賺金幣”選項(xiàng)。用戶點(diǎn)擊該選項(xiàng)后,頁(yè)面就會(huì)顯示當(dāng)天的行走步數(shù)。一般情況下,50步數(shù)等于1金幣,連續(xù)兌換7天就會(huì)有500金幣。
“趣頭條”是一款上海基分文化傳播有限公司開發(fā)的APP。團(tuán)隊(duì)致力通過(guò)大數(shù)據(jù)算法和云計(jì)算等技術(shù),為用戶提供內(nèi)容及服務(wù)。趣頭條致力于打造一款新形式的資訊閱讀軟件,以平臺(tái)、媒體和共贏的方式。以移動(dòng)應(yīng)用為載體進(jìn)行內(nèi)容創(chuàng)造、資訊閱讀,提供更多有用、有趣、有益的內(nèi)容給大家。
[關(guān)鍵詞]搜索引擎 主題爬行 爬行策略 爬行算法
[分類號(hào)]TP391
搜索引擎技術(shù)自誕生之日起就成為互聯(lián)網(wǎng)中最吸引人的技術(shù)之一,各種商業(yè)化的搜索引擎已經(jīng)成了人們使用互聯(lián)網(wǎng)時(shí)不可缺少的工具。傳統(tǒng)搜索引擎的工作原理是服務(wù)提供商利用網(wǎng)絡(luò)爬蟲(Web crawler,也被稱作網(wǎng)絡(luò)蜘蛛(Web spider)或網(wǎng)絡(luò)機(jī)器人(robot),通過(guò)一些種子站點(diǎn)按照深度優(yōu)先或者廣度優(yōu)先的搜索策略對(duì)可以爬行到的資源進(jìn)行掃描、下載,并將下載的信息以快照或全文方式存儲(chǔ)在數(shù)據(jù)庫(kù)中,建立相關(guān)索引,當(dāng)用戶在搜索引擎的用戶界面中輸入搜索關(guān)鍵字后,搜索引擎訪問數(shù)據(jù)庫(kù),返回?cái)?shù)據(jù)庫(kù)中與搜索關(guān)鍵字匹配的紀(jì)錄。隨著互聯(lián)網(wǎng)中網(wǎng)頁(yè)資源的快速增長(zhǎng),傳統(tǒng)的搜索引擎在某些方面的缺陷也越來(lái)越明顯:①搜索結(jié)果不夠全面。傳統(tǒng)搜索引擎希望鏡像整個(gè)Web世界,搜索引擎追求的是盡量多的處理及存儲(chǔ)網(wǎng)絡(luò)爬蟲爬回的網(wǎng)頁(yè),但不同的搜索引擎由于受到服務(wù)器位置、網(wǎng)絡(luò)帶寬、爬行算法、服務(wù)器容量等因素的影響,服務(wù)器中存儲(chǔ)的資源是有限的,任何一個(gè)搜索引擎不可能存儲(chǔ)并索引網(wǎng)絡(luò)上所有的網(wǎng)頁(yè)信息。即使是全球最大的搜索引擎Google,其索引的頁(yè)面數(shù)量也僅占Web總量的40%左右。②搜索周期增加,影響信息的實(shí)效性。隨著Web資源的快速增長(zhǎng),傳統(tǒng)搜索引擎網(wǎng)絡(luò)爬蟲的爬行周期不斷增加,數(shù)據(jù)庫(kù)更新時(shí)間越來(lái)越長(zhǎng)。每一個(gè)網(wǎng)頁(yè)都有自己的生命周期,網(wǎng)頁(yè)的更新速度可能會(huì)快于搜索引擎數(shù)據(jù)庫(kù)的更新速度,當(dāng)搜索引擎把數(shù)據(jù)庫(kù)中已經(jīng)過(guò)期的信息反饋給用戶時(shí),用戶可能根本無(wú)法打開相關(guān)鏈接或者打開的是過(guò)期的網(wǎng)頁(yè)。③搜索結(jié)果的針對(duì)性不強(qiáng)。用戶輸入一個(gè)關(guān)鍵字后返回很多結(jié)果,但存在大量重復(fù),很多結(jié)果并不是用戶需要的。通過(guò)對(duì)歐洲和美國(guó)9個(gè)主要的搜索引擎日志的統(tǒng)計(jì)分析,認(rèn)為用戶對(duì)于搜索結(jié)果的查看呈減少趨勢(shì)。普通用戶僅僅會(huì)察看搜索引擎返回的前若干條數(shù)據(jù),對(duì)于其他搜索結(jié)果,很多用戶沒有耐性全部看完。不同專業(yè)背景的人,對(duì)于同一個(gè)關(guān)鍵詞的理解可能大相徑庭,同樣的“蘋果”一詞,有人可能理解成為食品,有人可能理解成為蘋果公司或者其IT產(chǎn)品。
鑒于傳統(tǒng)搜索引擎的這些缺陷,一些學(xué)者提出了垂直式搜索引擎的概念,即該搜索引擎不以爬行所有的Web頁(yè)面為目標(biāo),僅僅在互聯(lián)網(wǎng)中快速爬行某一部分Web頁(yè)面并存儲(chǔ),這樣的搜索引擎既可以節(jié)約網(wǎng)絡(luò)帶寬資源,又可以縮短搜索引擎數(shù)據(jù)庫(kù)的更新周期,使搜索引擎得到實(shí)時(shí)性更好的網(wǎng)頁(yè)。De Bra等最先提出的主題爬行(topic crawling)搜索引擎通過(guò)限定爬行主題,提高了搜索精度,成為垂直式搜索引擎的代表。主題爬行技術(shù)的核心是爬行策略與算法,本文從主題爬行技術(shù)的基本原理出發(fā),對(duì)其策略進(jìn)行分類,沿著爬行策略及算法的改進(jìn),分析了主題爬行策略與算法的研究熱點(diǎn),為主題爬行技術(shù)的進(jìn)一步研究提供參考。
1 主題爬行原理
主題爬行是在傳統(tǒng)網(wǎng)絡(luò)爬行技術(shù)基礎(chǔ)上,加入文本分類、聚類以及Web挖掘等相關(guān)技術(shù)用于捕獲特定主題的Web信息。主題爬行技術(shù)的應(yīng)用可以提高搜索精度,降低搜索引擎對(duì)網(wǎng)絡(luò)資源的占用,縮短搜索引擎數(shù)據(jù)庫(kù)的更新周期?;谥黝}爬行技術(shù)的搜索引擎與傳統(tǒng)搜索引擎最大的區(qū)別在于:該搜索引擎的網(wǎng)絡(luò)爬蟲是面向主題的。傳統(tǒng)搜索引擎的網(wǎng)絡(luò)爬蟲在爬行過(guò)程中采用的是“通吃”策略,不分類別、不分內(nèi)容全部爬行并下載;基于主題的網(wǎng)絡(luò)爬蟲在爬行前或者爬行過(guò)程中根據(jù)已經(jīng)爬行的結(jié)果有選擇性的進(jìn)行預(yù)測(cè)下一步爬行并下載。
主題爬行過(guò)程通常由三部分構(gòu)成:①分類器(clas―sifter),主要對(duì)已抓取網(wǎng)頁(yè)的元素進(jìn)行計(jì)算,判斷其主題相關(guān)度,確定是否對(duì)該網(wǎng)頁(yè)中所包含的超級(jí)鏈接進(jìn)一步抓??;②提取器(distilIer),該模塊存儲(chǔ)待下載隊(duì)列,并確定待下載隊(duì)列的優(yōu)先級(jí);③爬行器(crawler),該模塊在分類器和提取器的指導(dǎo)下,執(zhí)行網(wǎng)頁(yè)抓取工作。主題爬蟲的爬行過(guò)程為爬行器根據(jù)不同的爬行策略執(zhí)行爬行操作,抓取網(wǎng)頁(yè)送人分類器中,分類器對(duì)已經(jīng)抓取的網(wǎng)頁(yè)進(jìn)行處理,根據(jù)設(shè)定主題及其域值判斷該網(wǎng)頁(yè)的主題相關(guān)性,結(jié)合其他參數(shù),確定是否對(duì)該網(wǎng)頁(yè)包含的超級(jí)鏈接進(jìn)一步爬行。如果爬行,則送入提取器中的隊(duì)列,由提取器根據(jù)隊(duì)列規(guī)則確定其爬行優(yōu)先極。Chakrabarti等人 1999年正式提出了個(gè)性化主題搜索引擎的概念,該搜索引擎不以傳統(tǒng)的關(guān)鍵詞作為搜索內(nèi)容,而是在某一限定范圍內(nèi),通過(guò)計(jì)算Web頁(yè)面內(nèi)容與主題的相關(guān)性,決定主題爬蟲是否值得進(jìn)一步搜索。其中,主題是由一些范例文檔來(lái)確定的,該主題爬蟲實(shí)時(shí)查找與文檔詞典有相關(guān)性的網(wǎng)頁(yè),保證了搜索頁(yè)面的時(shí)效性與針對(duì)性。
2 主題爬行基本爬行策略與算法
主題爬行技術(shù)的核心是爬行的策略與算法,由于主題爬蟲與傳統(tǒng)網(wǎng)絡(luò)爬蟲在爬行目標(biāo)上有很大差別,因此,除了采用傳統(tǒng)網(wǎng)絡(luò)爬蟲的爬行策略之外,主題爬蟲在爬行過(guò)程中還要采用有效爬行策略與算法盡快爬到并抓取與主題相關(guān)的網(wǎng)頁(yè)。Sotiris Batsakis等人將主題爬行策略分成三類:經(jīng)典主題爬行策略、改進(jìn)的主題爬行策略、基于語(yǔ)義的主題爬行策略。經(jīng)典爬行策略主要指主題爬行的“魚群搜索策略”(fish search),改進(jìn)的主題爬行策略主要指“鯊魚搜索策略”(sharksearch)、“最優(yōu)最先(best first)搜索策略”等。
魚群搜索策略是以“魚群搜索算法”(fish algo―rithm)為基礎(chǔ)的主題爬行策略,魚群搜索算法是一種基于群體動(dòng)物行為的智能優(yōu)化算法,該算法模仿魚群在覓食和繁殖時(shí)的表現(xiàn),動(dòng)態(tài)調(diào)整種群的個(gè)數(shù)。在魚群搜索策略中,每個(gè)網(wǎng)頁(yè)相當(dāng)于一條魚,如果遇到滿足給定條件的相關(guān)網(wǎng)頁(yè),則該魚繁殖小魚,并對(duì)該網(wǎng)頁(yè)發(fā)出的鏈接進(jìn)一步探索;否則食物減少,如果一條魚的食物減為零,則該魚將停止尋食并放棄對(duì)該鏈接的爬行。魚群搜索策略中某一超級(jí)鏈接是否放人提取器中待下載,取決于該鏈接的父鏈接與主題的相關(guān)性。關(guān)于待下載鏈接與主題的相關(guān)性,De Bra L”提出了通過(guò)比較已下載網(wǎng)頁(yè)內(nèi)容與主題關(guān)鍵字是否匹配,引入二元分類方法(1代表相關(guān),O代表不相關(guān))來(lái)計(jì)量相關(guān)性。
改進(jìn)的主題爬行策略是基于魚群搜索策略基礎(chǔ)的改進(jìn),Hersoviei M”。提出采用向量空間模型(vectorspace model)來(lái)計(jì)量相關(guān)性,向量空間模型不以整數(shù)0、1來(lái)計(jì)量相關(guān)性,而是通過(guò)多個(gè)參數(shù)比較,采用O一1之間的實(shí)數(shù)來(lái)計(jì)量。該方法除了用已下載網(wǎng)頁(yè)內(nèi)容和主題關(guān)鍵詞是否簡(jiǎn)單匹配來(lái)判斷相關(guān)性,還通過(guò)計(jì)算
錨文本(anchor)等其他參數(shù)與主題的相關(guān)性來(lái)計(jì)量。這種改進(jìn)的搜索策略比魚群搜索策略在爬行的準(zhǔn)確率(precision rate)和召回率(recall rate)上有很大的進(jìn)步,該搜索策略被稱之為“鯊魚搜索策略”(shark search)。在“鯊魚搜索策略”中,已下載網(wǎng)頁(yè)中頁(yè)面內(nèi)容、錨文本內(nèi)容、鏈接內(nèi)容(URL)及父頁(yè)(指向包含鏈接頁(yè)面的Web頁(yè))的相關(guān)性等都作為主要參數(shù)用來(lái)計(jì)量待下載網(wǎng)頁(yè)與主題的相關(guān)性,通過(guò)計(jì)算確定待下載網(wǎng)頁(yè)是否進(jìn)人提取器隊(duì)列中。關(guān)于參數(shù)向量的選擇,Cho J等提出了重要度向量,該重要度向量由幾個(gè)部分構(gòu)成:①已下載頁(yè)面逆文獻(xiàn)頻率法(inverse document frequency,IDF)的關(guān)鍵詞相關(guān)度;②已下載Web頁(yè)的重要鏈接指向個(gè)數(shù)(backlink count);③已下載頁(yè)面指向鏈接的重要度值(pagerank);⑧URL位置矩陣(10cation metrics)等四個(gè)參數(shù)作為衡量相關(guān)性的向量。
隨著研究的不斷深入,“鯊魚搜索策略”也不斷完善,該方法中向量空間模型的參數(shù)越多,相關(guān)性計(jì)量越準(zhǔn)確,但參數(shù)增加使計(jì)算量也隨之增加,因此,過(guò)多的參數(shù)對(duì)爬行速度有一定影響。但Zhumin Chen等”。對(duì)各種主題爬蟲的運(yùn)行時(shí)間進(jìn)行了實(shí)驗(yàn)分析比較,該學(xué)者認(rèn)為,相對(duì)于網(wǎng)絡(luò)中的下載等待時(shí)間來(lái)說(shuō),相關(guān)性計(jì)算的時(shí)間很少,有時(shí)甚至不到下載時(shí)間的十分之一,因此頁(yè)面相關(guān)性的計(jì)算對(duì)爬行速度的影響是可以忽略的。在“鯊魚搜索策略”的基礎(chǔ)上,Menczer F等提出了“最優(yōu)最先”(best first)搜索策略,這一策略通過(guò)計(jì)算向量空間的相關(guān)性,把相關(guān)性“最好”的頁(yè)面放入最優(yōu)先下載的隊(duì)列,另外,“最優(yōu)最先”搜索策略采用了術(shù)語(yǔ)頻度(TF)值計(jì)算文本相似度,減少了部分計(jì)算量。根據(jù)文獻(xiàn),由于只選擇與主題相關(guān)性很大的鏈接,而忽略某些當(dāng)前相關(guān)性不高但下級(jí)鏈接中包含很高相關(guān)性鏈接的網(wǎng)頁(yè),最優(yōu)最先算法具有很大的貪婪性,該算法只能找到局部范圍內(nèi)的最優(yōu)解,難以得到全局范圍內(nèi)的最優(yōu)解。因此,該搜索策略只適用于小范圍內(nèi)的主題爬行,對(duì)于大范圍的主題爬行,容易過(guò)早地陷入Web空間中局部最優(yōu)子空間的陷阱。
作為一種有效表現(xiàn)概念層次結(jié)構(gòu)和語(yǔ)義的模型,本體論(ontology)被廣泛地應(yīng)用到計(jì)算機(jī)科學(xué)的眾多領(lǐng)域。美國(guó)斯坦福大學(xué)的知識(shí)系統(tǒng)實(shí)驗(yàn)室學(xué)者TomGruber提出了本體是概念化的顯式表示,Studer在Gruber的基礎(chǔ)上擴(kuò)展了本體的概念,提出本體是共享概念模型的明確形式化規(guī)范說(shuō)明。本體具有良好的概念層次結(jié)構(gòu)和對(duì)邏輯推理的支持,可以解決信息源之間結(jié)構(gòu)和語(yǔ)義的異構(gòu),W3C在2004年提出了Web本體語(yǔ)言(Web ontology language,OWL)的標(biāo)準(zhǔn)。基于本體的網(wǎng)絡(luò)爬蟲認(rèn)為概念上使用相似術(shù)語(yǔ)的頁(yè)面應(yīng)具有一定的相關(guān)性。M.Ehrig等學(xué)者將本體應(yīng)用于主題爬蟲的分離器中,首先通過(guò)定義術(shù)語(yǔ)的相關(guān)性,建立本體術(shù)語(yǔ)集合,通過(guò)對(duì)已下載網(wǎng)頁(yè)處理并對(duì)本體庫(kù)的比較分析,計(jì)算其相關(guān)性,確定是否將待下載鏈接放入分離器,提高了主題爬行的準(zhǔn)確度與召回率。Jason J.Jung提出基于語(yǔ)義主題爬行的開放式?jīng)Q策支持系統(tǒng),該開放系統(tǒng)主要包括基于上下文語(yǔ)義的主題爬蟲通過(guò)域內(nèi)鏈接進(jìn)行區(qū)域內(nèi)知識(shí)發(fā)現(xiàn)及知識(shí)的處理,為開放式?jīng)Q策支持系統(tǒng)迅速提供知識(shí)?;谡Z(yǔ)義的主題爬行技術(shù)中,本體庫(kù)的構(gòu)建及完善是一項(xiàng)復(fù)雜的工作,因此應(yīng)用范圍有限。
3 爬行策略與爬行算法的改進(jìn)
雖然魚群搜索策略、鯊魚搜索策略、最優(yōu)最先搜索策略是主題爬蟲常用的搜索策略,但由于互聯(lián)網(wǎng)中網(wǎng)站結(jié)構(gòu)的多樣性及復(fù)雜性,很多學(xué)者在主題爬行算法中嘗試采用其他的搜索算法實(shí)現(xiàn)較高準(zhǔn)確率與召回率。相繼提出了采用模糊算法、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗集理論等方法指導(dǎo)主題爬蟲的爬行過(guò)程。
作為最優(yōu)最先搜索策略的改進(jìn),李學(xué)勇等采用模擬退火算法作為爬行的啟發(fā)式搜索算法,與爬行中的“隧道技術(shù)”結(jié)合改進(jìn)主題爬蟲。模擬退火算法從某一較高初溫出發(fā),伴隨溫度參數(shù)的不斷下降,結(jié)合概率突跳特性在解空間中隨機(jī)尋找目標(biāo)函數(shù)的全局最優(yōu)解。該算法在選擇優(yōu)化解方面具有非貪婪性,在爬蟲搜索過(guò)程中,每次除了選擇評(píng)價(jià)值最優(yōu)的鏈接,還以一定概率有限度地接收評(píng)價(jià)值次優(yōu)的鏈接,確保有一定價(jià)值的鏈接有機(jī)會(huì)被選中?!八淼兰夹g(shù)”使爬蟲有機(jī)會(huì)穿過(guò)相關(guān)性低的區(qū)域進(jìn)入相關(guān)性高的區(qū)域,當(dāng)頁(yè)面內(nèi)容的相關(guān)度低于設(shè)定的閾值時(shí),通過(guò)擴(kuò)大主題范圍,使更多的相關(guān)鏈接加入到鏈接優(yōu)先級(jí)隊(duì)列,提高相關(guān)網(wǎng)頁(yè)的召回率。模擬退火算法是一種隨機(jī)算法,雖然可以比較快地找到問題的近似最優(yōu)解,但不一定能找到全局的最優(yōu)解。因此,將模擬退火算法應(yīng)用于最優(yōu)最先搜索策略并不能完全保證主題爬行的魯棒性。
遺傳算法(genetic algorithm)是模擬生物進(jìn)化論與遺傳學(xué)結(jié)合的計(jì)算模型,在最優(yōu)解搜索領(lǐng)域具有一定優(yōu)勢(shì),自從密西根大學(xué)的Holland教授提出該算法后,由于其魯棒性、自組織性強(qiáng)等優(yōu)點(diǎn),在很多方面有廣泛的應(yīng)用。Jialun Qin等學(xué)者采用遺傳算法實(shí)現(xiàn)主題爬蟲在特定域內(nèi)的爬行,通過(guò)初始化、內(nèi)容分析選擇、鏈接分析雜交、變異等幾個(gè)步驟實(shí)現(xiàn)主題爬蟲在特定域內(nèi)的爬行。根據(jù)文獻(xiàn),該算法的應(yīng)用在某些Web頁(yè)的主題爬行中具有較好的準(zhǔn)確率與召回率。遺傳算法應(yīng)用于主題爬行技術(shù)中存在編碼方式的確定、適應(yīng)性函數(shù)的確定等問題,由于網(wǎng)站結(jié)構(gòu)、網(wǎng)頁(yè)類型的不同需要采取不同的標(biāo)準(zhǔn)。遺傳算法也存在局部最優(yōu)陷阱問題,單純使用遺傳算法進(jìn)行主題爬行時(shí)也會(huì)存在無(wú)法穿越隧道的問題。
隱馬爾柯夫模型(HMM)作為一種統(tǒng)計(jì)分析模型,在信號(hào)識(shí)別等領(lǐng)域有廣泛的應(yīng)用,隱馬爾柯夫鏈在相關(guān)性評(píng)估應(yīng)用中具有一定優(yōu)勢(shì)。Hongyu Liu等提出基于隱馬爾柯夫模型的算法來(lái)評(píng)估待下載頁(yè)面與主題之間的相關(guān)性。該系統(tǒng)包括三個(gè)步驟:①進(jìn)行數(shù)據(jù)收集;②依據(jù)相關(guān)性模式建模;③根據(jù)模型對(duì)待下載頁(yè)面評(píng)估并進(jìn)行主題爬行。該算法的應(yīng)用可以提高主題爬蟲在分離器中的處理精度,但由于計(jì)算量的增加,會(huì)降低處理效率。
人工神經(jīng)網(wǎng)絡(luò)近來(lái)日益受到人們的關(guān)注,因?yàn)樗赜械姆蔷€性、自適應(yīng)性、自學(xué)習(xí)性為解決復(fù)雜問題提供了一種相對(duì)比較有效的簡(jiǎn)單方法。Hai-Tao Zhengr提出采用基于本體的人工神經(jīng)網(wǎng)絡(luò)(ANN)實(shí)現(xiàn)自學(xué)習(xí)爬行,系統(tǒng)框架分為三個(gè)步驟:①進(jìn)行數(shù)據(jù)準(zhǔn)備;②通過(guò)現(xiàn)有的數(shù)據(jù)集對(duì)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)l練;③將訓(xùn)練過(guò)的主題爬蟲應(yīng)用于實(shí)際爬行,取得較高的準(zhǔn)確率與召回率。人工神經(jīng)網(wǎng)絡(luò)存在訓(xùn)練時(shí)間長(zhǎng)、學(xué)習(xí)算法的通用性低等缺點(diǎn),所以,將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于主題爬行中,也存在樣本學(xué)習(xí)時(shí)間長(zhǎng),學(xué)習(xí)算法不具有通用性等缺點(diǎn)。因此,人工神經(jīng)網(wǎng)絡(luò)僅僅適用于小范圍的主題爬行。
除以上算法的改進(jìn),很多學(xué)者還嘗試采用其他計(jì)
算方法改善主題爬蟲的搜索性能,Suman Saha等。應(yīng)用粗集理論對(duì)未下載的Web頁(yè)面進(jìn)行預(yù)測(cè),判斷其與主題相關(guān)性,該方法提高了爬行頁(yè)面的準(zhǔn)確率,降低了噪聲。Huaxiang Zhang等提出利用Q學(xué)習(xí)及在線半監(jiān)督學(xué)習(xí)理論在待訪問的URL列表中選擇與主題最相關(guān)的URL,相關(guān)值的計(jì)算基于模糊理論及Q值理論。
雖然很多學(xué)者嘗試通過(guò)不同的軟計(jì)算方法改進(jìn)主題爬蟲,但由于互聯(lián)網(wǎng)中網(wǎng)站結(jié)構(gòu)與網(wǎng)站內(nèi)容多樣復(fù)雜,這些算法往往應(yīng)用于某些網(wǎng)站時(shí)具有較高的準(zhǔn)確率與召回率,但是應(yīng)用于另一些網(wǎng)站時(shí)準(zhǔn)確率與召回率會(huì)下降。主題爬蟲的準(zhǔn)確率與召回率除了受網(wǎng)站結(jié)構(gòu)、主題爬蟲的爬行策略與算法等因素的影響,還受爬行入口位置、Web服務(wù)器性能等其他相關(guān)因素影響。
4 主題爬行策略與算法的研究熱點(diǎn)
鑒于主題爬行技術(shù)的不斷發(fā)展,主題爬行策略及算法也在不斷完善。目前關(guān)于主題爬行策略與算法的研究主要集中于以下幾個(gè)方面:①爬行策略與爬行算法的通用性研究?;ヂ?lián)網(wǎng)中不同類型網(wǎng)站的網(wǎng)頁(yè)間組織形式相差很大,如何從已經(jīng)下載的網(wǎng)頁(yè)中高效、準(zhǔn)確地判斷待下載頁(yè)面與主題的相關(guān)性,并根據(jù)相關(guān)性修改下載隊(duì)列,是主題爬行技術(shù)能否成功的關(guān)鍵。目前主要通過(guò)修改爬行策略及利用各種軟計(jì)算方法來(lái)實(shí)現(xiàn),但很多時(shí)候?qū)τ谀承┚W(wǎng)站具有很高的召回率和準(zhǔn)確率的方法,對(duì)于另一些網(wǎng)站可能并不適用。主題爬行的準(zhǔn)確率與召回率有時(shí)候與種子URL的起始位置等其他相關(guān)因素有很大關(guān)系。②“隧道技術(shù)”的研究。很多時(shí)候主題爬蟲需要穿過(guò)若干個(gè)與爬行主題相關(guān)性很低的頁(yè)面后才會(huì)發(fā)現(xiàn)一組與主題相關(guān)性很高的頁(yè)面群,穿越中間相關(guān)性很低的頁(yè)面需要隧道技術(shù),如何實(shí)現(xiàn)隧道穿越、提高主題爬行準(zhǔn)確度是目前很多學(xué)者研究的內(nèi)容。③對(duì)于深度Web(deep Web)資源爬行策略的研究。許多深度Web資源存放在數(shù)據(jù)庫(kù)中,這些數(shù)據(jù)庫(kù)的訪問需要用戶名、密碼等信息,目前常采用半人工輔助方法使主題爬蟲訪問數(shù)據(jù)庫(kù),如何快速、自動(dòng)地發(fā)現(xiàn)這些數(shù)據(jù)庫(kù)并訪問這些深度Web資源,也是當(dāng)前主題爬行技術(shù)的研究熱點(diǎn)。
關(guān)鍵詞:文本分類;遺傳算法;適應(yīng)度函數(shù)
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2011)22-5425-02
The Technology of Text Classification Based on Genetic Algorithm
WU Mou-shuo
(Compute and Experiment Center, South Central University for Nationality, Wuhan 430074, China)
Abstract: For the puzzle of parameter ascertainment in text classification, this paper proposed genetic algorithm. In the period of encoding, we used float encoding. In the period of population initiation, fitness function and stop criterion, we optimized several parameters and strategies to obtain better result. Experiments of three text classifications showed that our method performed the best.
Key words: text classification; genetic algorithm; fitness function
人們需要從海量信息中快速、準(zhǔn)確地獲取有用信息。文本分類在自然語(yǔ)言處理與理解、信息組織與管理、內(nèi)容信息過(guò)濾等領(lǐng)域都有廣泛的應(yīng)用?,F(xiàn)在主流的文本分類方法是基于機(jī)器學(xué)習(xí)的方法, 此方法首先使用訓(xùn)練樣本進(jìn)行特征選擇和分類器訓(xùn)練, 然后把特征形式化,待分類樣本輸人到分類器進(jìn)行類別判定, 最終得到輸人樣本的類別。文本分類的方法有很多種,如Rocchio 方法[1] 早就提出了、K-近鄰(K-Nearest Neighbours)方法[2] 早就提出了、貝葉斯(Naive Bayes)方法[3] 早就提出了、而且支持向量機(jī)(Support Vector Machine, SVM)算法[4]、還有決策樹(Decision Tree)方法[5]和以及神經(jīng)網(wǎng)絡(luò)(Neural Networks)方法[6]等都已經(jīng)有了。
文本分類中的許多問題,如果進(jìn)行適當(dāng)?shù)霓D(zhuǎn)換,可以看作優(yōu)化問題。本文將遺傳算法引入文本分類的過(guò)程中,在種群的初始化、適應(yīng)度函數(shù)和遺傳算法的停止標(biāo)準(zhǔn)等方面進(jìn)行優(yōu)化,得到更好的文本分類結(jié)果。
本文第二部分詳細(xì)描述了基于遺傳算法的文本分類技術(shù),第三部分是本文的實(shí)驗(yàn)與結(jié)果分析部分,第四部分是結(jié)論與將來(lái)的工作。
1 基于遺傳算法的文本分類算法
文本特征表示時(shí)經(jīng)常是采用向量空間模型方法來(lái)表示文本,對(duì)文本的特征進(jìn)行刻畫。文本特征權(quán)重計(jì)算的前提是進(jìn)行文本特征抽取。
相似性的計(jì)算公式有相關(guān)系數(shù)法,還有距離函數(shù)法等。本文相似度仍然采用向量夾角余弦公式來(lái)計(jì)算。具體計(jì)算公式如下:
(1)
用遺傳算法進(jìn)行分類時(shí),要考慮遺傳因子、適應(yīng)度函數(shù)和遺傳算法的停止標(biāo)準(zhǔn)等關(guān)鍵因素。
在種群初始化的時(shí)候,我們并不采用隨機(jī)數(shù)生成算法,而是通過(guò)隨機(jī)選擇樣本點(diǎn),避免了隨機(jī)數(shù)生成法必須人為確定隨機(jī)數(shù)上下限的缺點(diǎn)。
如果類中心已經(jīng)確定,那類的劃分算法可以采用最鄰近算法進(jìn)行計(jì)算。
我們將遺傳算法的適應(yīng)度函數(shù)定義如下:
(2)
選擇策略對(duì)遺傳算法的效果有比較重的影響。第i文本Indi可以按照概率Ps(Indi)選擇出來(lái),這樣可以提高種群的適應(yīng)度。第i文本Ps(Indi)可以用下面的公式進(jìn)行計(jì)算。
(3)
在遺傳算法中,當(dāng)文本類別劃分不再發(fā)生變化,或者是迭代次數(shù)達(dá)到最大值時(shí)停止。
2 實(shí)驗(yàn)結(jié)果與分析
為了使本文提出的文本分類技術(shù)得到的結(jié)果具有可比性,本文將Naive Bayes分類方法和支持向量機(jī)算法引入,進(jìn)行對(duì)比實(shí)驗(yàn)。
Naive Bayes算法可以說(shuō)是一種有效的分類方法。假設(shè)在某種語(yǔ)境環(huán)境里,文檔之間是相互獨(dú)立的。令di為文檔標(biāo)志,該文檔di包含于文檔類別集合C={c1, c2,…, ck}中間的某一個(gè)類別cj里面。根據(jù)Naive Bayes算法有下面公式:
(4)
(5)
在這種情況下,需要計(jì)算在di已經(jīng)知道的情況下的條件概率,取最后概率值最大的類別作為di所在的類別,也就是:
(6)
采用多項(xiàng)式模型進(jìn)行計(jì)算,則在文檔類別情況已經(jīng)知道的情況下文檔di的概率計(jì)算公式為:
(7)
但是,上面的概率可能會(huì)出現(xiàn)0,所以使用+1平滑技術(shù)對(duì)其進(jìn)行處理。
幾種常用的文本分類評(píng)價(jià)指標(biāo)包括準(zhǔn)確率、召回率、F-measure,用這三個(gè)參數(shù)對(duì)系統(tǒng)進(jìn)行客觀評(píng)測(cè),這三個(gè)參數(shù)具體含義如下:
準(zhǔn)確率的定義。對(duì)于一個(gè)文檔集i和一個(gè)分類j, 假設(shè)N為在文檔集i中屬于類別j的數(shù)目, M為文檔集i中所有文檔的數(shù)目,則準(zhǔn)確率P定義為:
P = N/M(8)
召回率的定義。對(duì)于一個(gè)文檔集i和一個(gè)分類j, 假設(shè)N為在文檔集i中屬于分類j的數(shù)目, K為分類j中所有文檔的數(shù)目,則召回率R定義為:
R = N/K(9)
準(zhǔn)確率P衡量的是所有被分到類別j的文檔中,正確文檔的比率; 召回率R衡量的是所有實(shí)際屬于類別j的文檔被分到該類別中的比率。只用其中之一進(jìn)行評(píng)價(jià)可能有失偏頗,F(xiàn)-measure指標(biāo)是上述召回率和準(zhǔn)確率的綜合,能正確反映文本分類在召回率和準(zhǔn)確率平衡方面的效果,其具體計(jì)算公式可以表達(dá)成:
(10)
對(duì)于中文語(yǔ)料的實(shí)驗(yàn),我們從新浪、騰訊等網(wǎng)站上下載了2000個(gè)網(wǎng)頁(yè),從中提取出2000篇文檔,根據(jù)語(yǔ)料主題分為10類:軍事(200篇) 、體育(200篇) 、政治(200篇) 、環(huán)境(200篇) 、交通(200篇) 、藝術(shù)( 200篇) 、醫(yī)藥 (200篇) 、經(jīng)濟(jì)(200篇) 、教育(200篇) 、健康(200篇)。實(shí)驗(yàn)結(jié)果如表1所示。
3 結(jié)論與將來(lái)的工作
文本分類是文本挖掘中的一個(gè)重要工具,應(yīng)用非常廣泛,針對(duì)常用的文本分類算法參數(shù)難以確定的問題,本文引入遺傳算法,在編碼方案、種群的初始化、適應(yīng)度函數(shù)和停止標(biāo)準(zhǔn)等方面進(jìn)行優(yōu)化,得到更好的文本分類結(jié)果。通過(guò)三種文本分類算法的對(duì)比實(shí)驗(yàn),本文提出的算法效果最好。
在下一步的工作中,我們將繼續(xù)研究不同環(huán)境下適應(yīng)度函數(shù)的合適表達(dá)方式,同時(shí),進(jìn)一步研究和分析選擇策略,讓遺傳算法的收斂速度更快,效果更好。
參考文獻(xiàn):
[1] Joachims T.A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization.Proc of ICML'97,1997.
[2] Yang Y.Expert network: Effective and efficient learning from human decisions in text categorization and retrieval.Proc of SIGIR'94,1994:13-22.
[3] Baker L D,Mccallum A K.Distributional clustering of words for text categorization.Proc of SIGIR'98,1998:96-103.
[4] Cortes C,Vapnik V.Sup of event models for naive port vector networks.Machine Learning,1995(20):1-25.
[5] Lewis D D,Ringuette parison of two learning algorithms for text categorization.Proc of SDAIR,1994:81-93.
神經(jīng)科研究 神經(jīng)內(nèi)科論文 神經(jīng)網(wǎng)絡(luò)論文 神經(jīng)外科論文 神經(jīng)網(wǎng)絡(luò)技術(shù) 紀(jì)律教育問題 新時(shí)代教育價(jià)值觀
部級(jí)期刊 審核時(shí)間1-3個(gè)月
中山大學(xué)腫瘤防治中心;中國(guó)抗癌協(xié)會(huì)神經(jīng)腫瘤專業(yè)委員會(huì)