在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 正文

農業(yè)網站規(guī)則算法的應用

前言:本站為你精心整理了農業(yè)網站規(guī)則算法的應用范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

農業(yè)網站規(guī)則算法的應用

1基于關聯(lián)規(guī)則的APRIORI算法

APRIORI算法是一種最有影響的挖掘關聯(lián)規(guī)則頻繁項集的算法[3]。關聯(lián)規(guī)則的挖掘分為兩個過程[4]:找出所有頻繁項集,這些項集出現(xiàn)的頻繁性至少和預定義的最小支持記數(shù)一樣;由頻繁項集產生強關聯(lián)規(guī)則,根據(jù)強關聯(lián)規(guī)則定義,這些規(guī)則必須滿足最小支持度和最小置信度。Apriori算法挖掘頻繁項集,算法使用逐層搜索的迭代方法,k_項集用于探索(k+1)_項集。首先,找出頻繁l_項集的集合,該集合稱作L1。L1用于找出頻繁2_項集的集合L2,L2用于找L3,如此找下去,直到不能找到頻繁k_項集。找每個Lk需要一次數(shù)據(jù)庫掃描。為提高頻繁項集逐層產生的效率,通常使用Apriori性質壓縮搜索空間??梢?,頻繁項集的所有非空了集都必須也是頻繁的。根據(jù)定義,如果項集I不滿足最小支持度min_sup,則I不是頻繁的,即P(I)<min_aup。如果項A添加到I,則結果項集(I∪A)不可能比I更頻繁出現(xiàn)。因此,IA也不是頻繁的,即P(I∪A)<min_sup。Apriori性質屬于一種特殊的分類,稱作反單調,意指如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。Apriori算法由兩步組成:(1)連接步:為找Lk,通過Lk-1與自己產生候選k_項集。該候選項集的集合計作Ck。設l1和l2是Lk-1中的項集。假定事務或項集中的項按字典次序排列。記號li[j]表示l1的第j項。執(zhí)行連接(Lk-1聯(lián)合Lk-1),其中Lk-1的元素是可連接的。如果它們前(k-2)個項相同。即是,Lk-1的元素l1和l2是可連接的,如果(l1[1]=∧l2[1])(l1[2]=l2[2])…(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-1]),條件(l1[k=1]<l2[k-1])是簡單保證不產生重復。l1和l2連接產生的結果項集是l1[1]l1[2]…l1[k-1]l2[k-1]。(2)剪枝步:Ck是Lk的超集;即是,它的成員可以是也可以不是頻繁的,但所有的頻繁k_項集都包含在Ck中。掃描數(shù)據(jù)庫,確定Ck中每個候選的計數(shù),從而確定Lk。然而Ck可能很大,為壓縮Ck,可以使用Apriori性質,如果一個候選k_項集的(k-1)_子集不在LK-1中,則該候選也不可能是頻繁的,從而可以由Ck中刪除。

2APRIORI算法在農業(yè)網站日志中的應用

APRIORI算法針對不同的應用,不同的問題規(guī)模,應選擇不同的優(yōu)化方法,甚至在需要準確性的情況下,可以考慮犧牲性能。如選樣的優(yōu)化方法在問題規(guī)模很大的情況下,可以大大地提高性能,但可能會遺漏重要的規(guī)則。如上面描述的挖掘網站資源的關聯(lián)上,在進行了概念分層處理后,問題規(guī)模大大減小,我們就可以不考慮采用選樣的優(yōu)化方法。本文采用數(shù)據(jù)挖掘的權威軟件SAS。SAS的數(shù)據(jù)挖掘方法論稱作SEMMA(抽樣、探索、修改、建模、評估)。SAS/EM集成了數(shù)據(jù)獲取工具、數(shù)據(jù)取樣工具、數(shù)據(jù)篩選工具、數(shù)據(jù)變量轉換工具、數(shù)據(jù)挖掘數(shù)據(jù)庫、數(shù)據(jù)挖掘過程、多種形式的回歸工具,為建立決策樹的數(shù)據(jù)剖分工具、決策樹瀏覽工具、人工神經元網絡、數(shù)據(jù)挖掘的評價工具??衫肧AS/EM中具有明確代表意義的圖形化的模塊將這些數(shù)據(jù)挖掘的工具單元組成一個處理流程圖,并依此來組織用戶的數(shù)據(jù)挖掘的過程。這一過程在任何時候均可根據(jù)具體情況的需要進行修改、更新并將適合用戶需要的模式存儲起來,以便此后重新調出來使用。對數(shù)據(jù)集中的變量進行模型元類型的更改,將包含IP地址的字段設置為ID元類型、包含URL用戶訪問頁面地址的字段設置為Target元類型,然后進行關聯(lián)規(guī)則算法挖掘。

2.1算法分析

結果窗口,Rules頁面包含了每條規(guī)則的信息。認為規(guī)則BoardID=37(農產品加工)==>BoardID=21(畜產品加工)是網站用戶一次升錄同時訪問的2個欄目,其他的參數(shù)解釋如下:Support(9.6%)forBoardID=37(農產品加工)==>BoardID=21(畜產品加工),支持度反映模式的實用性,關聯(lián)模式的支持度是模式為真的任務相關元組(或事務)所占的百分比。Confidence(62.47%)forBoardID=37(農產品加工)==>BoardID=21(畜產品加工),置信度反映模式的確定性,每個發(fā)現(xiàn)的模式都應該有一個表示其確定性的度量。因此,此關聯(lián)規(guī)則挖掘訪問網站欄目的用戶一次訪問同時要訪問的哪些欄目的假定數(shù)據(jù)組成。一個置信度為62.47%的關聯(lián)規(guī)則“BoardID=37(農產品加工)==>BoardID=21(畜產品加工)”意味訪問BoardID=37(農產品加工)的用戶62.47%也要訪問BoardID=21(畜產品加工)欄目。一個支持度為9.3%的關聯(lián)規(guī)則BoardID=37(農產品加工)==>BoardID=21(畜產品加工)表示訪問網站的全部用戶的9.3%同時訪問了BoardlD=37(農產品加工)和BoardID=21(畜產品加工)兩個欄目。關聯(lián)規(guī)則如下:規(guī)則1:BoardID=84(供求信息)==>BoardID=90(供求信息),支持度Support(21.65%),置信度Confidence(65.97%)。規(guī)則2:BoardID=90(供求信息)==>BoardID=84(供求信息),支持度Support(21.65%),置信度Confidence(57.52%)。規(guī)則3:BoardID=37(農產品加工)==>BoardID=21(畜產品加工),支持度Support(9.60%),置信度Confidence(62.47%)。規(guī)則4:BoardID=21(畜產品加工)==>BoardID=37(農產品加工),支持度Support(9.60%),置信度Confidence(80.077%)。規(guī)則5:BoardID=37(農產品加工)==>BoardID=12(國外農業(yè)),支持度Support(9.48%),置信度Confidence(61.40%)。規(guī)則6:BoardID=12(國外農業(yè)==>BoardID=37(農產品加工),支持度Support(9.48%),置信度Confidence(76.52%)。規(guī)則7:BoardID=37(農產品加工)==>BoardID=23(食品科學),支持度Support(9.35%),置信度Confidence(60.86%)。規(guī)則8:BoardID=23(食品科學)==>BoardID=37(農產品加工),支持度Support(9.35%),置信度Confidence(83.24%)。

2.2模式評價

在評價版塊欄目之間聯(lián)系時,如果支持度過小(通常為5%)時,則沒有強規(guī)則被發(fā)現(xiàn),說明網站版塊欄目的獨立性較強,版塊欄目之間聯(lián)系較小、緊密性不強,訪問者只對某個版塊欄目感興趣。農業(yè)專家在線現(xiàn)有咨詢欄目40余個,通過關聯(lián)規(guī)則挖掘,發(fā)現(xiàn)了以上8條規(guī)則,農產品加工與畜產品加工、農產品加工與國外農業(yè)、農產品加工與食品科學等咨詢欄目存在關聯(lián),這也反映了網站用戶迫切需要這方面的農業(yè)知識,農業(yè)專家在線將利用挖掘的結果加大此類論壇的專家力量、更改論壇導航等內容方便廣大用戶訪問,其他農業(yè)類網站也可以利用這個挖掘結果把網站內容多多關注此類信息。

2.3挖掘農業(yè)網站

由于農業(yè)專家在線咨詢欄目以論壇形式進行組織的,用戶訪問論壇欄目跳轉的次數(shù)用線條的粗細進行表示,其中農產品加工(BoaidID=37)、植物病害(BoardID=39)、蔬菜(BoaadID=41)、農業(yè)機械(BoaadID=85)是這個時間段用戶頻繁訪問的欄目。圖2為詳細路徑模式,可以清楚看出線條代表用戶訪問網站具體的序列。它是通過論壇主頁(index.asp),依次訪問農產品加工(BoardID=37)、植物病害(BoardID=39)、蔬菜(BoaadID=41)、農業(yè)機械(BoaidID=85)等欄目的。在詳細路徑圖單代表了整體用戶訪問模式。在圖中,可以看到最頻繁訪問的URLs集中在中間部分,由厚厚的紅色和藍色點點組成。頻繁訪問URLs也顯示用戶是在這些頁面進入或離開此網站的??梢酝ㄟ^LINK分析挖掘出任意2個欄目的最短訪問路徑,以下是用戶從大豆遺傳育種(BoaadID=1)到農業(yè)機械(BoaadID=85)用戶訪問的最短路徑。一共這一時間段中共有92人選擇了經過畜禽傳染病防治(BoardID=31)欄目進行路徑選擇。

3結語

本文研究了關聯(lián)規(guī)則算法及算法改進措施,采用SAS軟件數(shù)據(jù)挖掘模塊,利用關聯(lián)規(guī)則、鏈接分析等過程挖掘農業(yè)專家在線網站日志及信息構建。通過挖掘發(fā)現(xiàn)農產品加工與畜產品加工、農產品加工與國外農業(yè)、農產品加工與食品科學等咨詢欄目存在關聯(lián),農業(yè)用戶頻繁訪問的農業(yè)欄目為網站首頁,依次訪問農產品加工、植物病害、蔬菜、農業(yè)機械等欄目,為網站改進及相關農業(yè)網站建設必將起到重要指導性作用。

抚宁县| 朝阳区| 黄龙县| 仲巴县| 白山市| 阳春市| 青浦区| 星座| 贵港市| 东安县| 公安县| 凯里市| 达拉特旗| 奉贤区| 抚松县| 吉木萨尔县| 梅河口市| 莎车县| 临桂县| 福鼎市| 霍林郭勒市| 长泰县| 沂南县| 唐河县| 石台县| 高青县| 西充县| 潮州市| 济宁市| 连云港市| 东丰县| 神农架林区| 平潭县| 额敏县| 巫溪县| 信丰县| 武强县| 华阴市| 福安市| 方城县| 岳池县|