前言:本站為你精心整理了農(nóng)業(yè)科技搜索引擎原理分析范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
1系統(tǒng)設(shè)計(jì)與關(guān)鍵技術(shù)
1.1旱區(qū)農(nóng)業(yè)領(lǐng)域本體構(gòu)建
領(lǐng)域本體為搜索引擎提供知識組織,是基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎的核心模塊。建立針對西北旱區(qū)的農(nóng)業(yè)領(lǐng)域本體,可以提高搜索引擎的專業(yè)性和查準(zhǔn)率。農(nóng)業(yè)領(lǐng)域本體庫的建立分為創(chuàng)建領(lǐng)域術(shù)語集、創(chuàng)建領(lǐng)域本體和本體存儲等模塊。本文使用基于包裝器的信息抽取技術(shù),從相關(guān)網(wǎng)站抽取與西北旱區(qū)農(nóng)業(yè)相關(guān)的論文題目、摘要和關(guān)鍵詞作為領(lǐng)域語料,經(jīng)過分詞和篩選得到領(lǐng)域術(shù)語,利用參考文獻(xiàn)中提出的面向文本的知識發(fā)現(xiàn)技術(shù)來構(gòu)建領(lǐng)域本體的方法并對其加以改進(jìn),設(shè)計(jì)了領(lǐng)域本體創(chuàng)建方法。步驟如下:Step1從網(wǎng)絡(luò)中抽取相關(guān)論文,通過分詞和篩選得到領(lǐng)域術(shù)語集合。Step2運(yùn)用方法對領(lǐng)域術(shù)語集進(jìn)行領(lǐng)域相關(guān)度判斷,篩選出相關(guān)度較高的術(shù)語,從而得到領(lǐng)域概念集合。Step3對所得到的領(lǐng)域概念進(jìn)行基于共現(xiàn)的關(guān)聯(lián)分析。Step3.1基于共現(xiàn)分析理論來計(jì)算兩兩領(lǐng)域概念的共現(xiàn)頻次,得到共現(xiàn)矩陣。Step3.2利用Jaccard系數(shù)來計(jì)算領(lǐng)域概念間的相關(guān)度,得到領(lǐng)域概念的相關(guān)矩陣。Step3.根據(jù)領(lǐng)域概念的相關(guān)矩陣,利用Cosine相似度求出每兩個(gè)領(lǐng)域概念的相似度,從而得到相似度矩陣。Step4結(jié)合傳統(tǒng)凝聚層次聚類算法和K-means算法,使用基于K-means的層次聚類算法發(fā)現(xiàn)領(lǐng)域概念間關(guān)系。Step5構(gòu)建農(nóng)業(yè)領(lǐng)域本體并存儲在關(guān)系數(shù)據(jù)庫MySQL中。
1.2信息采集和過濾
旱區(qū)農(nóng)業(yè)垂直搜索引擎的應(yīng)用是面向西北旱區(qū)農(nóng)業(yè),需要采集旱區(qū)農(nóng)業(yè)相關(guān)信息,過濾掉無關(guān)信息。領(lǐng)域相關(guān)信息過濾是保證搜索準(zhǔn)確度的關(guān)鍵因素。為了保證采集的網(wǎng)頁信息和西北旱區(qū)農(nóng)業(yè)緊密相關(guān),本文采用主題蜘蛛和本體結(jié)合的方法按照鏈接過濾、信息獲取、頁面分析和主題相關(guān)性,判定4個(gè)部分從網(wǎng)絡(luò)中采集并過濾西北旱區(qū)農(nóng)業(yè)信息,處理流程如圖2所示。首先,獲取URL地址并過濾掉一些無效和重復(fù)的鏈接;其次,下載有效URL對應(yīng)的網(wǎng)頁,對網(wǎng)頁內(nèi)容進(jìn)行解析,采用分析DOM樹的信息抽取方法,清理無關(guān)Html標(biāo)記,獲取網(wǎng)頁正文和新的URL;再次,對網(wǎng)頁正文進(jìn)行特征詞提取;最后,進(jìn)行基于本體的網(wǎng)頁主題相關(guān)度判定,若網(wǎng)頁與西北旱區(qū)農(nóng)業(yè)主題關(guān),則對該網(wǎng)頁構(gòu)建索引,否則拋棄。對于新的URL,則跳轉(zhuǎn)到URL鏈接過濾步驟,循環(huán)進(jìn)行信息采集和過濾。
由于主題相關(guān)性判定部分是決定網(wǎng)頁信息采集質(zhì)量的關(guān)鍵因素,因此本部分著重介紹主題相關(guān)性判定算法。目前,頁面與主題相關(guān)性判定主要有5類方法,即根據(jù)元數(shù)據(jù)的判定、根據(jù)擴(kuò)展元數(shù)據(jù)的判定、根據(jù)鏈接分析的判定、根據(jù)頁面內(nèi)容語義判定和基于特征詞的向量空間模型算法。本文采用基于特征詞的向量空間模型算法,但是這種方法已被證實(shí)精確度不夠高,因而結(jié)合旱區(qū)農(nóng)業(yè)領(lǐng)域本體對該算法進(jìn)行改進(jìn),提高采集網(wǎng)頁信息的正確率。利用領(lǐng)域本體概念及概念間結(jié)構(gòu)關(guān)系對特征詞進(jìn)行語義豐富,判定網(wǎng)頁與主題的相關(guān)性,從而在一定程度上實(shí)現(xiàn)了網(wǎng)頁與主題在語義層面上的相關(guān)性判定。算法描述如下:Step1信息采集之前,對西北旱區(qū)農(nóng)業(yè)相關(guān)的網(wǎng)頁正文提取關(guān)鍵詞,通過學(xué)習(xí)獲取西北旱區(qū)農(nóng)業(yè)主題的特征詞集合其中,ωi表示特征詞αi在主題特征向量中的權(quán)值。Step2運(yùn)用本體概念間的關(guān)系獲取特征詞集合中每個(gè)特征詞αi上位詞、同位詞和下位詞,并存儲在數(shù)組Ti中。Step3對采集到網(wǎng)頁P(yáng)進(jìn)行分詞,對每個(gè)名詞s進(jìn)行判斷。若s在數(shù)組Ti中,則將s替換為αi;然后,統(tǒng)計(jì)αi對應(yīng)的“信息項(xiàng)頻率”tf和“文檔頻率”df來表示每個(gè)信息項(xiàng)的分布權(quán)重,并運(yùn)用TF*IDF算法。
1.3信息檢索
用戶檢索接口是旱區(qū)農(nóng)業(yè)垂直搜索引擎與用戶交互的關(guān)鍵,用戶的查詢請求往往難以通過幾個(gè)關(guān)鍵詞表達(dá)。因而,本文采用查詢擴(kuò)展技術(shù)來提高查全率,依據(jù)相關(guān)度的高低對結(jié)果進(jìn)行排序,并根據(jù)本體的上下位關(guān)系向用戶推薦相關(guān)詞。
1.3.1查詢擴(kuò)展
一般的檢索方法是通過關(guān)鍵字進(jìn)行語法上的匹配,從而丟失了關(guān)鍵字的語義信息。因此需要對關(guān)鍵詞進(jìn)行擴(kuò)展查詢。本研究利用農(nóng)業(yè)領(lǐng)域本體良好的概念層次結(jié)構(gòu)進(jìn)行邏輯推理,對用戶的檢索進(jìn)行上位、平行和下位3種模式的查詢擴(kuò)展。具體查詢擴(kuò)展步驟如下:Step1對用戶輸入的查詢詞進(jìn)行分詞處理,得到有意義的查詢關(guān)鍵詞。Step2基于農(nóng)業(yè)領(lǐng)域本體的關(guān)鍵詞擴(kuò)展。Step2.1使用關(guān)鍵詞在本體庫中進(jìn)行匹配查詢,通過匹配查詢得到一個(gè)概念集合,若沒有得到匹配結(jié)果,進(jìn)入Step3。Step2.2使用概念集合中的每一個(gè)概念對本體庫中的三元組進(jìn)行遍歷,得到對應(yīng)的上位、下位和平行領(lǐng)域概念,把得到的概念放入關(guān)鍵詞集合。Step3所有的關(guān)鍵詞進(jìn)入索引庫進(jìn)行搜索查找,得到查詢結(jié)果。
1.3.2結(jié)果排序
查詢結(jié)果需要按照相關(guān)程度形成由高到低的有序隊(duì)列,提高查詢的準(zhǔn)確性和效率。傳統(tǒng)的網(wǎng)頁排序算法是計(jì)算網(wǎng)頁和關(guān)鍵詞的匹配程度,由于本文對用戶關(guān)鍵詞進(jìn)行擴(kuò)展查詢,因此初始關(guān)鍵詞和擴(kuò)展關(guān)鍵詞之間的相關(guān)度對結(jié)果排序也會造成影響。網(wǎng)頁與關(guān)鍵詞的匹配程度可以利用網(wǎng)頁和關(guān)鍵詞的相關(guān)度進(jìn)行綜合運(yùn)算;初始關(guān)鍵詞和擴(kuò)展關(guān)鍵詞的相關(guān)程度就是不同領(lǐng)域概念間的關(guān)聯(lián)程度,可以通過領(lǐng)域概念的相似度來進(jìn)行計(jì)算。本文將上述兩個(gè)因素各賦予50%的權(quán)重進(jìn)行計(jì)算,實(shí)現(xiàn)了查詢結(jié)果的排序。
1.3.3相關(guān)詞推薦
由于自然語言和計(jì)算機(jī)系統(tǒng)在解析語義上有著巨大差異,雖然進(jìn)行了查詢擴(kuò)展,用戶仍有可能對查詢結(jié)果不滿意。為了提高用戶二次檢索結(jié)果的質(zhì)量,本文向用戶推薦搜索相關(guān)詞,通用的搜索引擎相關(guān)詞推薦往往是利用信息聚類、同義詞的識別和挖掘技術(shù)向用戶推薦相似度較高的詞語。本文結(jié)合本體的上下位關(guān)系分別向用戶推薦上位詞、同位詞、下位詞和相關(guān)詞等4種不同模式的相關(guān)搜索。
2系統(tǒng)試驗(yàn)與分析
2.1系統(tǒng)試驗(yàn)
基于以上研究,本文構(gòu)建了基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎平臺,從萬方數(shù)據(jù)知識服務(wù)平臺獲取2007-2011年5年內(nèi)2036篇旱區(qū)農(nóng)業(yè)相關(guān)論文的關(guān)鍵詞和摘要作為領(lǐng)域語料,進(jìn)行農(nóng)業(yè)術(shù)語的分詞和清洗,通過共現(xiàn)分析和聚類得到農(nóng)業(yè)領(lǐng)域本體;運(yùn)用垂直搜索引擎的原理進(jìn)行改造,將本體作為網(wǎng)頁采集過濾、查詢擴(kuò)展、結(jié)果排序和相關(guān)詞推薦的標(biāo)準(zhǔn)。通過采集和過濾,對7823個(gè)農(nóng)業(yè)網(wǎng)頁構(gòu)建了索引和基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎。如圖3所示為基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎的某個(gè)搜索界面。該平臺集成了農(nóng)業(yè)領(lǐng)域本體的構(gòu)建、Web網(wǎng)絡(luò)信息的獲取過濾和基于本體的農(nóng)業(yè)信息搜索等功能。
2.2系統(tǒng)分析
查準(zhǔn)率和查全率是評價(jià)傳統(tǒng)的搜索引擎的兩個(gè)重要參數(shù):查準(zhǔn)率是檢索出的相關(guān)記錄數(shù)與檢索出的網(wǎng)頁總數(shù)的比率;查全率是指檢索出的記錄數(shù)和網(wǎng)頁集中所有的相關(guān)網(wǎng)頁數(shù)目的比率。由于查全率通常不成問題且難以比較,因此在對本文構(gòu)建的基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎進(jìn)行性能測試時(shí),選用查準(zhǔn)率作為評價(jià)參數(shù),分別使用“小麥”、“蘋果價(jià)格”和“農(nóng)田灌溉技術(shù)”作為關(guān)鍵詞進(jìn)行檢索,查準(zhǔn)率如圖4所示。從圖3和表1可以發(fā)現(xiàn),通用搜索引擎百度查準(zhǔn)率最低,主要原因是由于很多商家用"蘋果"注冊了非農(nóng)業(yè)商品的商標(biāo);農(nóng)搜的查準(zhǔn)率也相對遜色一些,因?yàn)槌宋鞅备珊档貐^(qū),其他地區(qū)也種植蘋果;基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎的搜索農(nóng)業(yè)農(nóng)業(yè)信息查準(zhǔn)率最高。
3結(jié)語
1)本文在分析研究通用搜索引擎工作原理和本體論相關(guān)技術(shù)的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎模型。將本體的相關(guān)技術(shù)應(yīng)用到網(wǎng)絡(luò)信息的采集及過濾、查詢擴(kuò)展、結(jié)果排序和相關(guān)關(guān)詞推薦等功能中,提高了農(nóng)業(yè)信息檢索的查準(zhǔn)率,優(yōu)化了檢索結(jié)果,方便了西北旱區(qū)用戶檢索農(nóng)業(yè)信息,推廣了農(nóng)業(yè)科技。2)本文對基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎進(jìn)行了初步研究和實(shí)驗(yàn),但農(nóng)業(yè)本體庫中概念數(shù)目不多,農(nóng)業(yè)信息的深度采集和信息增量更新等方面沒有涉及。今后可以考慮在動(dòng)態(tài)頁面和異構(gòu)信息的信息采集、信息增量更新和索引策略等方面進(jìn)行研究。
作者:王超李書琴肖紅單位:西北農(nóng)林科技大學(xué)
農(nóng)業(yè)概論 農(nóng)業(yè)期刊 農(nóng)業(yè)工作意見 農(nóng)業(yè)機(jī)械 農(nóng)業(yè)水利 農(nóng)業(yè)畢業(yè) 農(nóng)業(yè)保險(xiǎn) 農(nóng)業(yè)建設(shè) 農(nóng)業(yè)經(jīng)濟(jì)期刊 農(nóng)業(yè)科普教育 紀(jì)律教育問題 新時(shí)代教育價(jià)值觀