前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)挖掘技術(shù)研究范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。
關(guān)鍵詞:Web應(yīng)用;數(shù)據(jù)挖掘技術(shù);互聯(lián)網(wǎng);研究
中圖分類(lèi)號(hào):TP393.09
隨著互聯(lián)網(wǎng)的產(chǎn)生,其網(wǎng)絡(luò)上各種不同服務(wù)也正在快速產(chǎn)生而得到發(fā)展,很多公司急切需要通過(guò)利用互聯(lián)網(wǎng)巨大的信息源對(duì)客戶行為進(jìn)行分析,搜尋最佳商機(jī)。Web數(shù)據(jù)挖掘技術(shù)就是從該種商業(yè)角度進(jìn)行考慮,它是在二十世紀(jì)八十年代末的時(shí)候被研發(fā)出來(lái),該數(shù)據(jù)挖掘技術(shù)是在Web網(wǎng)絡(luò)原有的基礎(chǔ)上納入挖掘數(shù)據(jù)的方法與思想。在Web網(wǎng)絡(luò)中通過(guò)該方法解決遇到出現(xiàn)的問(wèn)題,以此形成Web的數(shù)據(jù)挖掘,基于Web網(wǎng)絡(luò)的數(shù)據(jù)挖掘,它是數(shù)據(jù)挖掘中的一個(gè)全新的研究領(lǐng)域與方向,能夠滿足對(duì)未來(lái)電子商務(wù)的發(fā)展趨勢(shì)的需求。
1 Web數(shù)據(jù)庫(kù)及數(shù)據(jù)挖掘的特點(diǎn)
在對(duì)大量的網(wǎng)絡(luò)信息進(jìn)行認(rèn)真分析研究的基礎(chǔ)上,我們才可以進(jìn)行Web數(shù)據(jù)的挖掘活動(dòng),在這個(gè)過(guò)程中一定要注意使用最佳的方式來(lái)進(jìn)行,在具體的模式可使用過(guò)程中,必須要進(jìn)行數(shù)據(jù)信息的提煉、信息選擇、信息調(diào)整、數(shù)據(jù)挖掘和模式分析,然后再進(jìn)行歸納總結(jié),對(duì)使用者的習(xí)慣以及細(xì)化哦進(jìn)行推測(cè),以實(shí)現(xiàn)合理地信息數(shù)據(jù)管理,將可能存在的安全性問(wèn)題的發(fā)現(xiàn)進(jìn)行防御。Web數(shù)據(jù)挖掘所包含的內(nèi)容及其寬泛,除了對(duì)信息數(shù)據(jù)進(jìn)行的處理,還涉及計(jì)算機(jī)胡網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)儲(chǔ)、人工智能、信息檢索、可視化、自然語(yǔ)言理解等多方面的內(nèi)容。
從海量的信息中找到一個(gè)有意思的模式就是信息數(shù)據(jù)的挖掘,這些數(shù)據(jù)可以存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它信息存儲(chǔ)中,從學(xué)科方面來(lái)說(shuō)它已經(jīng)具有了跨學(xué)科的性質(zhì),比方說(shuō)數(shù)據(jù)庫(kù)體系、信息儲(chǔ)備中心、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、信息提取和高性能計(jì)算。
2 Web數(shù)據(jù)挖掘技術(shù)的概念與類(lèi)型
所謂的Web數(shù)據(jù)挖掘技術(shù),它是在挖掘數(shù)據(jù)技術(shù)的基礎(chǔ)之上,針對(duì)網(wǎng)絡(luò)數(shù)據(jù)中的服務(wù)日志文件與Web文檔進(jìn)行分析數(shù)據(jù)、歸納與匯總,并且在當(dāng)中發(fā)掘與索取有用潛在的知識(shí)及信息的技術(shù)。應(yīng)用Web挖掘技術(shù)能夠發(fā)現(xiàn)更多的隱藏信息資源或者其他潛在的有趣應(yīng)用模式,同時(shí)在信息過(guò)濾技術(shù)的協(xié)助下使客戶獲取層次更高的知識(shí)和規(guī)律。按照有關(guān)技術(shù)原理,可把Web數(shù)據(jù)挖掘技術(shù)分如下幾大類(lèi):
2.1 Web的結(jié)構(gòu)挖掘
結(jié)構(gòu)挖掘是指在Web挖掘中運(yùn)用Web構(gòu)造組織之間的鏈接關(guān)聯(lián),從而對(duì)網(wǎng)頁(yè)系統(tǒng)里具有實(shí)用價(jià)值的形式進(jìn)行計(jì)算。在海量的Web超鏈接數(shù)據(jù)中,為Web網(wǎng)頁(yè)面創(chuàng)造出足夠的合適的數(shù)據(jù)信息資料,它可以對(duì)文檔當(dāng)中的引用、從屬及包含關(guān)系聚集地反映出來(lái),同時(shí)經(jīng)由對(duì)Web文檔當(dāng)中信息資料體系進(jìn)行分析,能夠有效地處理掉存在的任何問(wèn)題,以有便于搜尋到權(quán)威性的網(wǎng)頁(yè)面。
在Web結(jié)構(gòu)挖掘范圍內(nèi),HITS和PageRank算法是應(yīng)用最多的算法,這兩個(gè)方面都是通過(guò)固定的計(jì)算手段進(jìn)行測(cè)算的,在這種情況下可以對(duì)網(wǎng)頁(yè)超鏈接的質(zhì)量進(jìn)行有效保護(hù),比方說(shuō):在百度中搜索方式的使用可以提高計(jì)算水平。
2.2 Web的內(nèi)容挖掘
內(nèi)容挖掘主要是在Web挖掘中搜集有利的Web資源信息(例如:內(nèi)容、數(shù)據(jù)及文檔等)。Web包括許多不同種類(lèi)的資源信息,現(xiàn)在絕大部分網(wǎng)絡(luò)資源信息基本上均都是從www資源信息當(dāng)中獲得,這除了這些可以個(gè)體可以直接檢索得到并加以使用達(dá)到目標(biāo)的信息資源以外,還有一些信息數(shù)據(jù)是通過(guò)加密的普通個(gè)體是無(wú)法檢索得到的,要向獲得這些信息數(shù)據(jù)必須對(duì)其采取Web挖掘的手段來(lái)進(jìn)行。
2.3 Web的使用挖掘
使用挖掘是在Web挖掘中實(shí)施挖掘網(wǎng)頁(yè)面中的對(duì)應(yīng)站點(diǎn)信息數(shù)據(jù)與日志文件,從而去對(duì)相應(yīng)的站點(diǎn)進(jìn)行有效地訪問(wèn)。這是因?yàn)樵诰W(wǎng)頁(yè)面的信息訪問(wèn)中,質(zhì)量具有很重要的作用、復(fù)雜的信息,而每個(gè)資源信息在服務(wù)器的上面,都存在一個(gè)形式化的日志訪問(wèn)頁(yè)面,當(dāng)用戶提出了訪問(wèn)頁(yè)面的要求以后,訪問(wèn)服務(wù)器會(huì)自覺(jué)地將所需的數(shù)據(jù)進(jìn)行記錄。因此對(duì)Web不同的使用的日志訪問(wèn)進(jìn)行分析,有助于掌控Web結(jié)構(gòu)與客戶的動(dòng)態(tài)行為,更加有利于使網(wǎng)站的工作效率得到有效提升。
3 數(shù)據(jù)挖掘工作流程
3.1 定義問(wèn)題
先對(duì)信息挖掘體系的主要目的進(jìn)行評(píng)論,明確其具備的具體價(jià)值以及將會(huì)帶來(lái)的實(shí)際效果進(jìn)行分析。
3.2 形成數(shù)據(jù)挖掘庫(kù)
對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)數(shù)據(jù)挖掘體系是最重要的一個(gè)關(guān)鍵點(diǎn),我們可以通過(guò)相關(guān)信息資料的搜集來(lái)證實(shí),對(duì)數(shù)據(jù)體系的行程內(nèi)容進(jìn)行研究,生成“數(shù)據(jù)表述報(bào)告”,將信息資料庫(kù)中所有的信息進(jìn)行合理地整合,把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)并到同一個(gè)數(shù)據(jù)庫(kù)中,讓沖突的以及不一致的數(shù)據(jù)統(tǒng)一化。建好數(shù)據(jù)挖掘庫(kù)以后應(yīng)該安排專門(mén)的人員對(duì)它進(jìn)行定期的檢查管理,防止任何安全隱患的存在,在對(duì)它的安全性進(jìn)行維護(hù)的過(guò)程中,需要定期備份,監(jiān)視它的性能,還需要根據(jù)實(shí)際的需要不斷地?cái)U(kuò)大它的存放空間,對(duì)那些專門(mén)用來(lái)存放復(fù)雜數(shù)據(jù)的系統(tǒng)中心,必須要將這項(xiàng)工作交給專業(yè)的工作人員來(lái)完成。
3.3 清理分析數(shù)據(jù)挖掘庫(kù)
不正確的信息數(shù)據(jù)都是廣泛地存在的,所以說(shuō)對(duì)于很大的信息數(shù)據(jù)儲(chǔ)存中心來(lái)說(shuō)保證數(shù)據(jù)的正確性。所以,一定要采取有效的措施對(duì)其進(jìn)行合理的管理,將數(shù)據(jù)保存與使用中可能會(huì)出現(xiàn)的機(jī)械性錯(cuò)誤率降到最低,處理好模型與整個(gè)數(shù)據(jù)體系的完整性。
3.4 探索分析數(shù)據(jù)挖掘庫(kù)
這樣做主要是為了對(duì)信息數(shù)據(jù)的模型進(jìn)行管理。主要包括選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn)換變量、探索分析。
3.5 創(chuàng)立數(shù)據(jù)挖掘模型
做好這項(xiàng)工作對(duì)于信息數(shù)據(jù)的高效保存有很重要的作用,為了讓模型更加合理,具有正確性與穩(wěn)定性,我們必須要從宏觀上來(lái)對(duì)這個(gè)模型所需的材料進(jìn)行處理,讓模型能為后續(xù)的數(shù)據(jù)保存工作提供一個(gè)依據(jù)與參考標(biāo)準(zhǔn)。
4 基于Web的數(shù)據(jù)挖掘應(yīng)用
4.1 數(shù)據(jù)控掘在高校教學(xué)中的應(yīng)用
使用該種體系有利于對(duì)學(xué)生學(xué)習(xí)生活的實(shí)際狀況進(jìn)行客觀有效地分析,掌握學(xué)生的實(shí)際學(xué)習(xí)狀況,為教師的教學(xué)活動(dòng)提供詳細(xì)的信息,提高教學(xué)效率的同時(shí)提高學(xué)生的學(xué)習(xí)效率,幫助學(xué)生在最短的時(shí)間內(nèi)提高學(xué)習(xí)成績(jī);端正學(xué)生的學(xué)習(xí)態(tài)度,提高學(xué)習(xí)方法。
4.2 數(shù)據(jù)控掘在電子商冬中的應(yīng)用
對(duì)于現(xiàn)代市場(chǎng)營(yíng)銷(xiāo)來(lái)說(shuō),網(wǎng)絡(luò)方式引進(jìn)就是其信息化的最有利的證明,隨著我們的商務(wù)活動(dòng)的不斷完善,網(wǎng)絡(luò)營(yíng)銷(xiāo)將會(huì)成為營(yíng)銷(xiāo)業(yè)的全新發(fā)展趨勢(shì)。因此我們可以看到,將這一技術(shù)充分地應(yīng)用到電子商務(wù)活動(dòng)中,能夠幫助企業(yè)進(jìn)行客觀的市場(chǎng)發(fā)展?fàn)顩r的分析,確定有效的發(fā)展目標(biāo),找到最佳發(fā)展方式。
5 結(jié)束語(yǔ)
總而言之,Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用有利于企業(yè)編制具有遠(yuǎn)見(jiàn)性的營(yíng)銷(xiāo)戰(zhàn)略,促使企業(yè)可以在市場(chǎng)激烈競(jìng)爭(zhēng)中掌控更加有利的發(fā)展時(shí)機(jī)。隨著迅速發(fā)展的電子商務(wù),Web數(shù)據(jù)挖掘技術(shù)在未來(lái)的發(fā)展空間將變得更加廣闊及前途無(wú)量。
參考文獻(xiàn):
[1]柴文光,周寧.網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘技術(shù)的整合研究[J].情報(bào)理論與實(shí)踐,2009(03):97-101.
[2]范建中,王福慶.基于Web的數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用[J].電腦編程技巧與維護(hù),2009(12):32-33+42.
[3]居曉琴,周學(xué)全.Web數(shù)據(jù)挖掘技術(shù)探索與應(yīng)用[J].山東紡織經(jīng)濟(jì),2009(06):144-147.
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫(kù);預(yù)處理技術(shù)
中圖分類(lèi)號(hào):TP311.131
隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業(yè)甚至在計(jì)算機(jī)應(yīng)用的基礎(chǔ)上,提出了無(wú)紙化辦公的理念,在實(shí)際應(yīng)用的過(guò)程中,計(jì)算機(jī)需要存儲(chǔ)大量的數(shù)據(jù),對(duì)于企業(yè)用戶來(lái)說(shuō),很多數(shù)據(jù)具有私密性,如果這些數(shù)據(jù)泄露出去,將會(huì)給企業(yè)的發(fā)展帶來(lái)嚴(yán)重的影響,甚至造成巨大的經(jīng)濟(jì)損失。受到特殊的歷史因素影響,我國(guó)的經(jīng)濟(jì)和科技起步較晚,與西方發(fā)達(dá)國(guó)家相比,存在較大的差距,雖然經(jīng)過(guò)了多年改革開(kāi)放的發(fā)展,我國(guó)已經(jīng)成為了世界第二大經(jīng)濟(jì)體,計(jì)算機(jī)的應(yīng)用水平也有了很大的提高,但是在尖端的數(shù)據(jù)挖掘等領(lǐng)域中,研究的還比較少,而數(shù)據(jù)挖掘等技術(shù),能夠在很大程度上影響數(shù)據(jù)的利用效率,對(duì)于實(shí)際的工作來(lái)說(shuō),具有非常重要的作用。
1 數(shù)據(jù)挖掘的預(yù)處理技術(shù)簡(jiǎn)析
1.1 數(shù)據(jù)挖掘預(yù)處理技術(shù)的概念
數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫(kù)的發(fā)展,逐漸形成的一門(mén)學(xué)科,在計(jì)算機(jī)出現(xiàn)的早期,受到其性能和體積的限制,能夠存儲(chǔ)的數(shù)據(jù)很少,不需要考慮數(shù)據(jù)的利用效率,但是隨著晶體管和集成電路的使用,計(jì)算機(jī)的性能得到了極大的提高,相應(yīng)的存儲(chǔ)設(shè)備也有了很大的進(jìn)步,計(jì)算機(jī)能夠處理的任務(wù)越來(lái)越復(fù)雜,存儲(chǔ)的數(shù)據(jù)越來(lái)越多,現(xiàn)在我國(guó)建成了多個(gè)大型數(shù)據(jù)存儲(chǔ)中心,存儲(chǔ)的數(shù)據(jù)量非常巨大。對(duì)于如此多的數(shù)據(jù),如何篩選出自己想要的,成為了很大專家和學(xué)者研究的問(wèn)題,在傳統(tǒng)的數(shù)據(jù)應(yīng)用中,通常都是利用檢索技術(shù),根據(jù)輸入的關(guān)鍵詞,在數(shù)據(jù)庫(kù)中進(jìn)行逐個(gè)的匹配,如果數(shù)據(jù)庫(kù)的存儲(chǔ)量較小,檢索的效率就比較高,而對(duì)于現(xiàn)在的海量存儲(chǔ)來(lái)說(shuō),逐個(gè)匹配顯然需要很長(zhǎng)的等待時(shí)間。數(shù)據(jù)挖掘的預(yù)處理技術(shù),正是在這種背景下出現(xiàn)的,所謂預(yù)處理技術(shù),就是在數(shù)據(jù)挖掘之前,對(duì)數(shù)據(jù)進(jìn)行一定的整理,通常情況下,數(shù)據(jù)挖掘主要面對(duì)現(xiàn)有的數(shù)據(jù)庫(kù)或者互聯(lián)網(wǎng)上海量的數(shù)據(jù),如果在數(shù)據(jù)庫(kù)中進(jìn)行挖掘,那么可以對(duì)數(shù)據(jù)庫(kù)進(jìn)行一定的修改,如完善數(shù)據(jù)分類(lèi)的方式等,而在互聯(lián)網(wǎng)上進(jìn)行數(shù)據(jù)挖掘,顯然就需要優(yōu)化挖掘的方式,或者縮小數(shù)據(jù)挖掘的范圍等。
1.2 數(shù)據(jù)挖掘預(yù)處理技術(shù)的特點(diǎn)
與正常的數(shù)據(jù)挖掘技術(shù)相比,如何增加相應(yīng)的預(yù)處理環(huán)節(jié),無(wú)疑可以極大的提高數(shù)據(jù)挖掘的效率,如在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)的挖掘,傳統(tǒng)的挖掘方式下,通常都是利用檢索技術(shù),輸入指定的關(guān)鍵詞后,與數(shù)據(jù)庫(kù)中的信息進(jìn)行對(duì)比,這樣逐條的進(jìn)行檢索,就可以找到自己想要的數(shù)據(jù),如果數(shù)據(jù)庫(kù)存儲(chǔ)的信息量較大,那么利用這樣的挖掘方式,顯然需要很長(zhǎng)的等待時(shí)間。如果增加相應(yīng)的預(yù)處理環(huán)節(jié),如在數(shù)據(jù)庫(kù)中添加索引,對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分類(lèi),那么在輸入相應(yīng)的關(guān)鍵詞后,首先與索引進(jìn)行匹配,然后在指定類(lèi)別的數(shù)據(jù)中進(jìn)行對(duì)比,這樣的方式,顯然極大的提高了數(shù)據(jù)挖掘的效率,目前使用的數(shù)據(jù)庫(kù)中,大多采用了這樣的預(yù)處理技術(shù),取得了很好的應(yīng)用效果。受到特殊歷史因素的影響,我國(guó)數(shù)據(jù)庫(kù)相關(guān)技術(shù)水平較低,目前我國(guó)建設(shè)的大型數(shù)據(jù)庫(kù),都是與國(guó)外的技術(shù)公司合建的,通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),現(xiàn)在我國(guó)還無(wú)法自主生產(chǎn)外部存儲(chǔ)設(shè)備,市面上的存儲(chǔ)設(shè)備,都是從外國(guó)引進(jìn)的,但是在實(shí)際數(shù)據(jù)庫(kù)的建設(shè)中,在外國(guó)存儲(chǔ)設(shè)備的基礎(chǔ)上,我國(guó)也進(jìn)行了大量數(shù)據(jù)挖掘等技術(shù)的研究。
1.3 數(shù)據(jù)挖掘預(yù)處理技術(shù)的發(fā)展
從某種意義上來(lái)說(shuō),數(shù)據(jù)挖掘技術(shù)是隨著互聯(lián)網(wǎng)和數(shù)據(jù)庫(kù)的應(yīng)用,根據(jù)實(shí)際使用的需要,逐漸形成的一門(mén)技術(shù),在互聯(lián)網(wǎng)發(fā)展的初期,網(wǎng)絡(luò)上的資源有限,而且受到計(jì)算機(jī)性能的限制,沒(méi)有太多的娛樂(lè)項(xiàng)目,只能瀏覽一些商業(yè)網(wǎng)站等,隨著計(jì)算機(jī)的普及應(yīng)用,互聯(lián)網(wǎng)有了很大的發(fā)展,現(xiàn)在已經(jīng)建成了覆蓋世界范圍的因特網(wǎng)。據(jù)最新的統(tǒng)計(jì)調(diào)查表明,我國(guó)的網(wǎng)民數(shù)量已經(jīng)超過(guò)了6億,如果龐大的用戶群體,為我國(guó)互聯(lián)網(wǎng)的發(fā)展,提供了堅(jiān)實(shí)的基礎(chǔ),但是通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),我國(guó)的實(shí)際網(wǎng)絡(luò)帶寬,還沒(méi)有達(dá)到世界平均水平,即使實(shí)際使用的網(wǎng)絡(luò)帶寬較低,我國(guó)互聯(lián)網(wǎng)內(nèi)容的發(fā)展速度依然很快,現(xiàn)在網(wǎng)絡(luò)上出現(xiàn)了各種各樣的網(wǎng)站,極大的提高了網(wǎng)絡(luò)建設(shè)水平。在實(shí)際的網(wǎng)絡(luò)瀏覽中,面對(duì)如此大的信息量,如何找到自己想要的信息,成為了一個(gè)實(shí)際問(wèn)題,為了解決這個(gè)問(wèn)題,出現(xiàn)了搜索引擎,只要輸入相應(yīng)的關(guān)鍵詞,搜索引擎就可以很快的找到大量相關(guān)內(nèi)容,然后進(jìn)行必要的篩選,就能夠得到相應(yīng)的數(shù)據(jù),但是隨著互聯(lián)網(wǎng)內(nèi)容的豐富,除了傳統(tǒng)的文字信息外,還有視頻和音頻等數(shù)據(jù),如何在這些數(shù)據(jù)中,進(jìn)行相應(yīng)的挖掘工作,具有較大的難度。
2 影響數(shù)據(jù)挖掘預(yù)處理技術(shù)的因素
2.1 預(yù)處理的方式
在實(shí)際的數(shù)據(jù)挖掘過(guò)程中,能夠影響挖掘效果的因素有很多,如數(shù)據(jù)量的大小、挖掘方式等,從某種意義上來(lái)說(shuō),數(shù)據(jù)挖掘就是數(shù)據(jù)的查找,從指定范圍或者未知范圍內(nèi),找到指定的數(shù)據(jù),通常情況下,數(shù)據(jù)挖掘都具有很強(qiáng)的目的性,但是對(duì)于找到數(shù)據(jù)的量,并沒(méi)有明確的要求,尤其是隨著互聯(lián)網(wǎng)內(nèi)容的增加,現(xiàn)在的數(shù)據(jù)挖掘中,都會(huì)附帶大量的相關(guān)信息。對(duì)于數(shù)據(jù)挖掘的預(yù)處理技術(shù)來(lái)說(shuō),預(yù)處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個(gè)一百條數(shù)據(jù)庫(kù)中進(jìn)行挖掘,為了提高實(shí)際的效率,通常情況下會(huì)采用檢索的方式,根據(jù)輸入的關(guān)鍵詞,逐條的與數(shù)據(jù)庫(kù)的信息進(jìn)行比對(duì),這樣挖掘的效率具有很大的不確定性,如果要查找的數(shù)據(jù)排列比較考前,那么就需要很短的檢索時(shí)間,如果要查找的數(shù)據(jù)剛好在第一百條的位置,顯然就需要進(jìn)行一百次匹配。如果采用索引的方式進(jìn)行預(yù)處理,將這一百條數(shù)據(jù)根據(jù)自身的特點(diǎn),分成十個(gè)類(lèi)別,每個(gè)類(lèi)別建立一個(gè)索引,那么在實(shí)際的匹配中,無(wú)論要查找的數(shù)據(jù)處于哪個(gè)位置,最多只需要十次匹配,就可以找到相應(yīng)的數(shù)據(jù),由此可以看出,預(yù)處理方式對(duì)于數(shù)據(jù)挖掘效率具有非常重要的影響。
2.2 數(shù)據(jù)量的大小
計(jì)算機(jī)經(jīng)過(guò)了多年的發(fā)展,其自身的性能有了很大的提高,在實(shí)際的數(shù)據(jù)挖掘中,如果檢索的數(shù)據(jù)較少,即使不經(jīng)過(guò)任何的預(yù)處理,仍然可以具有很高的挖掘效率,但是隨著數(shù)據(jù)庫(kù)自身的發(fā)展,企業(yè)用戶的數(shù)據(jù)庫(kù)容量越來(lái)越大,在數(shù)據(jù)庫(kù)中查找指定的數(shù)據(jù),需要較長(zhǎng)的時(shí)間,要想很好的解決這個(gè)問(wèn)題,必須對(duì)數(shù)據(jù)挖掘的方式等,進(jìn)行相應(yīng)的優(yōu)化。通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),目前我國(guó)使用的數(shù)據(jù)庫(kù),大多都是國(guó)外的技術(shù)公司設(shè)計(jì)的,為了方便數(shù)據(jù)庫(kù)的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問(wèn)題,同時(shí)可以提供優(yōu)質(zhì)的軟件服務(wù)。目前市面上的數(shù)據(jù)庫(kù),大多對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行一定的優(yōu)化,如增加索引環(huán)節(jié)等,通過(guò)這些技術(shù)的使用,很好的提高了實(shí)際的挖掘效率,但是這些預(yù)處理技術(shù),并沒(méi)有考慮到數(shù)據(jù)量的大小,如一些大型的數(shù)據(jù)庫(kù)中,要想建立索引機(jī)制,本身就需要很長(zhǎng)的時(shí)間,雖然在建立索引后,就可以直接的使用,即使數(shù)據(jù)庫(kù)中發(fā)生變化,也不需要重新建立,只要根據(jù)數(shù)據(jù)的情況,將其存儲(chǔ)到指定的分類(lèi)中即可。
2.3 操作人員自身的素質(zhì)
對(duì)于實(shí)際的數(shù)據(jù)挖掘工作來(lái)說(shuō),操作人員自身的素質(zhì),也可以在很大程度上影響挖掘的效率,經(jīng)過(guò)了多年的完善,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一門(mén)單獨(dú)的學(xué)科,計(jì)算機(jī)專業(yè)的學(xué)生,要進(jìn)行相應(yīng)知識(shí)的學(xué)習(xí),但是通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),現(xiàn)在的數(shù)據(jù)挖掘主要針對(duì)互聯(lián)網(wǎng)上的內(nèi)容,而互聯(lián)網(wǎng)日新月異的發(fā)展,給數(shù)據(jù)挖掘帶來(lái)了很大的難度。在這種背景下,如果沒(méi)有足夠的工作經(jīng)驗(yàn),顯然很難完成相應(yīng)的數(shù)據(jù)挖掘工作,因此剛畢業(yè)的大學(xué)生,數(shù)據(jù)挖掘的效果較差,即使能夠完成相應(yīng)的工作,也需要較長(zhǎng)的時(shí)間,雖然這些學(xué)生在學(xué)校中,能夠?qū)W習(xí)到大量的數(shù)據(jù)挖掘知識(shí),為了提高教學(xué)的效果,老師還會(huì)講解一些數(shù)據(jù)挖掘的實(shí)例,但是實(shí)際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數(shù)據(jù)挖掘經(jīng)驗(yàn),在實(shí)際的工作中,必然會(huì)總結(jié)一些相應(yīng)的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時(shí)間,提高數(shù)據(jù)挖掘的準(zhǔn)確性,對(duì)于數(shù)據(jù)挖掘工作來(lái)說(shuō),具有非常重要的作用,從某種意義上來(lái)說(shuō),數(shù)據(jù)挖掘的預(yù)處理技術(shù),指的就是這些從實(shí)踐中總結(jié)出來(lái)的技巧,然后進(jìn)行科學(xué)、系統(tǒng)的分析,應(yīng)用到實(shí)際的挖掘中。
3 我國(guó)數(shù)據(jù)挖掘預(yù)處理技術(shù)應(yīng)用中存在的問(wèn)題
3.1 沒(méi)有意識(shí)到預(yù)處理技術(shù)的重要性
在傳統(tǒng)的數(shù)據(jù)挖掘中,由于數(shù)據(jù)庫(kù)自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數(shù)據(jù),因此不需要預(yù)處理技術(shù),隨著數(shù)據(jù)庫(kù)自身的發(fā)展,計(jì)算機(jī)的性能也有了很大的提高,在很長(zhǎng)一段時(shí)間內(nèi),硬件的發(fā)展速度都要領(lǐng)先于軟件,因此數(shù)據(jù)檢索具有很高的效率,近些年互聯(lián)網(wǎng)的普及應(yīng)用,在很大程度上改變了這種現(xiàn)象,尤其是云計(jì)算等理念的出現(xiàn)。在互聯(lián)網(wǎng)海量數(shù)據(jù)中進(jìn)行挖掘,依靠單獨(dú)的計(jì)算機(jī),很難具有較高的效率,在這種背景下,如何優(yōu)化數(shù)據(jù)挖掘技術(shù),成為了很多專家和學(xué)者研究的問(wèn)題,預(yù)處理技術(shù)就是根據(jù)實(shí)際工作的需要出現(xiàn)的,受到特殊的歷史因素影響,在數(shù)據(jù)庫(kù)的建設(shè)等方面,我國(guó)要落后西方國(guó)家很多,雖然近年來(lái)我國(guó)投入了大量的人力和物力,研究數(shù)據(jù)挖掘等技術(shù),但是并沒(méi)有取得明顯的效果。正是受到自身技術(shù)水平的限制,使得我國(guó)數(shù)據(jù)建設(shè)中,對(duì)數(shù)據(jù)挖掘的預(yù)處理技術(shù),沒(méi)有足夠的重視,導(dǎo)致很大數(shù)據(jù)庫(kù)中,還采用傳統(tǒng)的檢索等方式,沒(méi)有任何的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,雖然一些數(shù)據(jù)庫(kù)中集成了相應(yīng)的功能,但是通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),在實(shí)際使用的過(guò)程中,并沒(méi)有啟用相應(yīng)的功能。
3.2 沒(méi)有針對(duì)性的預(yù)處理方式
由于現(xiàn)在的數(shù)據(jù)挖掘,主要針對(duì)互聯(lián)網(wǎng)上海量的數(shù)據(jù),而互聯(lián)網(wǎng)上的數(shù)據(jù)非常復(fù)雜,尤其是近些年網(wǎng)絡(luò)的發(fā)展,出現(xiàn)了文本、視頻、音頻等各種各樣的信息,在這些信息中進(jìn)行數(shù)據(jù)的挖掘,顯然具有較大的難度,而且互聯(lián)網(wǎng)的數(shù)據(jù)量較大,即使借助相應(yīng)的搜索引擎,依然需要很長(zhǎng)的挖掘時(shí)間,對(duì)于現(xiàn)在使用的一些數(shù)據(jù)挖掘預(yù)處理技術(shù),只有在一些特定的情況下,才能夠發(fā)揮出一定的作用。數(shù)據(jù)挖掘預(yù)處理技術(shù)出現(xiàn)的時(shí)間較短,目前還沒(méi)有形成統(tǒng)一的認(rèn)識(shí),不同學(xué)者根據(jù)實(shí)際工作的需要,提出了不同的預(yù)處理方式,通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),這些預(yù)處理方式的應(yīng)用,都具有一定的局限性,在特定的數(shù)據(jù)挖掘中,可以明顯的提高挖掘的效率,但是對(duì)于其他數(shù)據(jù)的挖掘,就無(wú)法起到相應(yīng)的作用。受到我國(guó)數(shù)據(jù)挖掘技術(shù)水平的限制,并沒(méi)有意識(shí)到這點(diǎn),在實(shí)際數(shù)據(jù)挖掘的工作中,通常都是隨意的采用預(yù)處理方式,這樣顯然無(wú)法最大成都上提高數(shù)據(jù)挖掘的效率,有時(shí)候反而會(huì)降低工作的效率,目前西方發(fā)達(dá)國(guó)家的數(shù)據(jù)挖掘預(yù)處理中,都會(huì)根據(jù)每次工作的實(shí)際情況,針對(duì)性的設(shè)計(jì)一個(gè)預(yù)處理的方式。
4 數(shù)據(jù)挖掘的預(yù)處理技術(shù)應(yīng)用措施
4.1 重視數(shù)據(jù)挖掘的預(yù)處理技術(shù)
考慮到我國(guó)的數(shù)據(jù)庫(kù)建設(shè)中,很多都沒(méi)有采用相應(yīng)的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,要想很好的解決這個(gè)問(wèn)題,必須對(duì)預(yù)處理技術(shù)給予足夠的重視,在數(shù)據(jù)庫(kù)的設(shè)計(jì)時(shí),就對(duì)預(yù)處理的方式等進(jìn)行考慮,如果是購(gòu)買(mǎi)的數(shù)據(jù)庫(kù)服務(wù),那么就要根據(jù)自身的實(shí)際情況,對(duì)預(yù)處理技術(shù)提供一定的要求,這樣可以極大的提高挖掘的效率。通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),西方國(guó)家的預(yù)處理技術(shù)水平之所以比較高,主要就是由于其重視,在實(shí)際的挖掘工作中,對(duì)于能夠提高工作效率的所有細(xì)節(jié)進(jìn)行完善,并總結(jié)相關(guān)的經(jīng)驗(yàn),方便下次的使用,正是這種供求雙方的重視,使得西方發(fā)達(dá)國(guó)家的預(yù)處理技術(shù)快速的發(fā)展。我國(guó)要想提高自身的數(shù)據(jù)挖掘預(yù)處理技術(shù),必須根據(jù)自身的實(shí)際情況,借鑒外國(guó)一些先進(jìn)的經(jīng)驗(yàn),最大程度上完善預(yù)處理技術(shù),要想達(dá)到這個(gè)目的,首先應(yīng)該提高對(duì)預(yù)處理技術(shù)的重視程度,無(wú)論是實(shí)際的操作人員,還是管理人員和開(kāi)發(fā)人員,都應(yīng)該重視預(yù)處理技術(shù)的應(yīng)用,然后從自身的工作角度出發(fā),對(duì)其進(jìn)行一定的完善。
4.2 提高工作人員自身的素質(zhì)
數(shù)據(jù)挖掘預(yù)處理技術(shù)的應(yīng)用,需要實(shí)際的操作人員,而不同工作人員,由于自身經(jīng)驗(yàn)等不同,工作的效率會(huì)有一定的差距,如剛畢業(yè)的大學(xué)生,即使在學(xué)校中的成績(jī)較好,掌握了足夠的預(yù)處理知識(shí),還是無(wú)法很好的完成相應(yīng)的工作,尤其是近些年信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上海量數(shù)據(jù)的挖掘,具有很大的難度。而且不同數(shù)據(jù)的挖掘,預(yù)處理方式等也應(yīng)該具有一定的差異,通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),目前我國(guó)的數(shù)據(jù)挖掘工作人員自身的素質(zhì)普遍較低,無(wú)法根據(jù)實(shí)際的工作情況,針對(duì)性的選擇一種預(yù)處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個(gè)問(wèn)題,必須提高工作人員自身的素質(zhì),在實(shí)際的招聘過(guò)程中,盡量聘請(qǐng)一些具有豐富經(jīng)驗(yàn)的人員。對(duì)于現(xiàn)有的工作人員,可以通過(guò)定期培訓(xùn)等方式,讓其了解到最新的數(shù)據(jù)挖掘理念,以及預(yù)處理技術(shù)的重要性等,如果條件允許,還可以與一些先進(jìn)的企業(yè)進(jìn)行交流,學(xué)習(xí)先進(jìn)的預(yù)處理技術(shù),這樣在提高預(yù)處理技術(shù)水平的同時(shí),還可以對(duì)數(shù)據(jù)庫(kù)的其他的技術(shù),進(jìn)行一定的優(yōu)化。
4.3 采用針對(duì)性的預(yù)處理方式
經(jīng)過(guò)了多年的發(fā)展和完善,數(shù)據(jù)挖掘的預(yù)處理技術(shù)已經(jīng)非常普遍,目前的很大數(shù)據(jù)庫(kù)建設(shè)中,都會(huì)采用預(yù)處理技術(shù),甚至在日常的數(shù)據(jù)搜索中,也開(kāi)始使用預(yù)處理技術(shù),但是通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),根據(jù)實(shí)際需要數(shù)據(jù)的不同,數(shù)據(jù)挖掘的環(huán)境、方式等會(huì)具有較大的差異,而這些條件的變化,必然需要不同的預(yù)處理方式。而目前我國(guó)的數(shù)據(jù)挖掘中,顯然還沒(méi)有意識(shí)到這點(diǎn),為了提高實(shí)際的工作效率,雖然會(huì)采用一定的預(yù)處理方式,但是預(yù)處理的方式,并不會(huì)根據(jù)數(shù)據(jù)挖掘的不同,進(jìn)行針對(duì)性的變化,沒(méi)有真正的達(dá)到預(yù)處理的目的,在一些特殊的數(shù)據(jù)挖掘中,由于預(yù)處理方式的不當(dāng),甚至?xí)档凸ぷ鞯男省S纱丝梢钥闯?,在?shí)際的數(shù)據(jù)挖掘中,預(yù)處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對(duì)性的預(yù)處理方式,對(duì)目前已有的預(yù)處理方式進(jìn)行總結(jié)、分類(lèi),根據(jù)需要數(shù)據(jù)的情況,針對(duì)性的選擇,如果人員的自身素質(zhì)較高,還可以設(shè)計(jì)一個(gè)新的預(yù)處理方式,以此來(lái)最大程度上提高數(shù)據(jù)挖掘的效率。
5 結(jié)束語(yǔ)
通過(guò)全文的分析可以知道,隨著近些年計(jì)算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,數(shù)據(jù)的挖掘、存儲(chǔ)、調(diào)用等技術(shù)越來(lái)越重要,受到特殊的歷史因素影響,我國(guó)科技起步較晚,與西方發(fā)達(dá)國(guó)家相比,在數(shù)據(jù)挖掘等領(lǐng)域中,具有明顯的差異,雖然經(jīng)過(guò)了多年改革開(kāi)放的發(fā)展,這種差距在逐漸的減小,但是很難在短時(shí)間內(nèi)趕上發(fā)達(dá)國(guó)家的技術(shù)水平,在這種背景下,要想快速的提高我國(guó)數(shù)據(jù)挖掘預(yù)處理技術(shù),必須結(jié)合我國(guó)數(shù)據(jù)挖掘的實(shí)際情況,借鑒西方國(guó)家先進(jìn)的經(jīng)驗(yàn),完善目前的預(yù)處理技術(shù)。
參考文獻(xiàn):
[1]鄭繼剛,謝芳.多媒體圖像挖掘的關(guān)聯(lián)規(guī)則挖掘[J].紅河學(xué)院學(xué)報(bào),2009(05):44-47.
[2]謝邦昌,李揚(yáng).數(shù)據(jù)挖掘與商業(yè)智能的現(xiàn)況及未來(lái)發(fā)展[J].統(tǒng)計(jì)與信息論壇,2008(05):94-96.
[3]林建勤.數(shù)據(jù)挖掘主要問(wèn)題的對(duì)策研究[J].貴陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版),2007(02):1-4.
[4]陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術(shù),2006(01):46-49.
[5]李菁菁,邵培基,黃亦瀟.數(shù)據(jù)挖掘在中國(guó)的現(xiàn)狀和發(fā)展研究[J].管理工程學(xué)報(bào),2004(03):10-15.
[6]鄭斌祥,杜秀華,席裕庚.一種時(shí)序數(shù)據(jù)的離群數(shù)據(jù)挖掘新算法[J].控制與決策,2002(03):324-327.
[7]臧洌.人工神經(jīng)網(wǎng)絡(luò)在混沌觀測(cè)時(shí)序數(shù)據(jù)處理中的應(yīng)用[J].數(shù)據(jù)采集與處理,2001(04):486-489.
關(guān)鍵詞:數(shù)據(jù)挖掘;計(jì)算智能;應(yīng)用領(lǐng)域
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)03-0016-03
數(shù)據(jù)挖掘技術(shù)在當(dāng)前是人工智能和數(shù)據(jù)庫(kù)研究的熱點(diǎn)問(wèn)題,它是一門(mén)涉及面比較廣的學(xué)科,應(yīng)用范圍非常廣泛。通常大家都比較清楚的是,人們可以用數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的存儲(chǔ),還能夠借助計(jì)算機(jī)等工具進(jìn)行數(shù)據(jù)的分析以及從大量數(shù)據(jù)中搜尋有用的知識(shí),正是基于二者的結(jié)合才促成了數(shù)據(jù)挖掘技術(shù)的誕生。在當(dāng)前日益激增的信息量中,傳統(tǒng)的搜索技術(shù)顯然不能滿足,通過(guò)數(shù)據(jù)挖掘技術(shù),在海量的數(shù)據(jù)庫(kù)中提取有用的信息,以供人們使用,更加符合現(xiàn)實(shí)的需求。此外,數(shù)據(jù)挖掘技術(shù)能夠被廣泛應(yīng)用于銷(xiāo)售、金融等多個(gè)領(lǐng)域,極大地推動(dòng)了信息技術(shù)的發(fā)展以及現(xiàn)代化進(jìn)程。
1 數(shù)據(jù)挖掘技術(shù)概述
1.1數(shù)據(jù)挖掘技術(shù)的產(chǎn)生
隨著科技的進(jìn)步以及網(wǎng)絡(luò)技術(shù)的發(fā)展,計(jì)算機(jī)從硬件到軟件都有著極大的進(jìn)步。隨著數(shù)據(jù)信息的迅猛增加,數(shù)據(jù)庫(kù)技術(shù)現(xiàn)在被廣泛用于各行各業(yè)之中,但是如果利用數(shù)據(jù)庫(kù)中的信息,利用其隱藏的信息價(jià)值,獲取更大的收益,成為技術(shù)工作者不斷探究的新課題。雖然信息數(shù)據(jù)迅猛增長(zhǎng),但是現(xiàn)有的數(shù)據(jù)分析工具卻無(wú)法實(shí)現(xiàn)在海量的數(shù)據(jù)中搜尋有用的信息,為決策者提供有價(jià)值的數(shù)據(jù)作出正確的決策和發(fā)展預(yù)測(cè)。為了解決此問(wèn)題,數(shù)據(jù)挖掘技術(shù)便開(kāi)始發(fā)展起來(lái)。在當(dāng)前全球海量的數(shù)據(jù)資源以及各行各業(yè)巨大的需求,再加上技術(shù)工作者的不斷努力,數(shù)據(jù)挖掘技術(shù)的發(fā)展取得了巨大的成就,并被廣泛應(yīng)用于商業(yè)管理、控制、分析、設(shè)計(jì)等領(lǐng)域。
20世紀(jì)60年代,數(shù)據(jù)庫(kù)技術(shù)從基本的文件處理發(fā)展為數(shù)據(jù)庫(kù)系統(tǒng);70年代,關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)建模工具等迅速發(fā)展起來(lái);80年代中期開(kāi)始,關(guān)系數(shù)據(jù)庫(kù)被普遍采用,促進(jìn)了新型數(shù)據(jù)庫(kù)系統(tǒng)等發(fā)展。但是,隨著數(shù)據(jù)庫(kù)系統(tǒng)等不斷發(fā)展,海量的數(shù)據(jù)成為數(shù)據(jù)庫(kù)的負(fù)累,如何從其中搜尋有用的數(shù)據(jù)已經(jīng)成為非常困難的事,在不借助任何工具等情況下,人類(lèi)已經(jīng)無(wú)法進(jìn)行數(shù)據(jù)的處理和分析,這樣不斷地存儲(chǔ)數(shù)據(jù)就像“墓地”,不能被人們利用,決策者不能從中提取有價(jià)值的數(shù)據(jù)進(jìn)行決策的制定和發(fā)展的預(yù)測(cè)[1]。在此種背景下,數(shù)據(jù)挖掘技術(shù)便開(kāi)始發(fā)展起來(lái),并取得巨大的成就,現(xiàn)在人們已經(jīng)能夠利用數(shù)據(jù)挖掘技術(shù)挖掘數(shù)據(jù)庫(kù)中有用的信息,幫助人們實(shí)現(xiàn)信息的利用和財(cái)富的轉(zhuǎn)化。
1.2 數(shù)據(jù)挖掘技術(shù)的概念
當(dāng)前,隨著科技的發(fā)展和互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)庫(kù)中各種信息不斷增多,數(shù)據(jù)庫(kù)技術(shù)也隨之進(jìn)步。雖然數(shù)據(jù)庫(kù)管理系統(tǒng)被運(yùn)用于各個(gè)行業(yè),但因信息量的劇增,使得數(shù)據(jù)庫(kù)管理系統(tǒng)從中提取信息的難度非常大。許多重要的信息都包含在海量的數(shù)據(jù)里面,需要我們將它們從中提取出來(lái),利用這些數(shù)據(jù)發(fā)揮更大的作用,創(chuàng)造出更多的價(jià)值,獲取更大的利益。而將這些信息從海量的數(shù)據(jù)庫(kù)中提取出來(lái)的技術(shù),通常叫做數(shù)據(jù)挖掘技術(shù)[2]。
數(shù)據(jù)挖掘技術(shù)是從海量數(shù)據(jù)庫(kù)中搜索并挖掘有用信息的一種技術(shù),幫助企業(yè)或個(gè)人通過(guò)數(shù)據(jù)之間的聯(lián)系和不容易引起注意的信息,作出正確的決策,并且通過(guò)挖掘的信息進(jìn)行預(yù)測(cè)發(fā)展趨勢(shì)。數(shù)據(jù)挖掘技術(shù)能夠利用信息發(fā)現(xiàn)未知的東西,與先假設(shè)再驗(yàn)證的數(shù)據(jù)處理技術(shù)不同,數(shù)據(jù)挖掘技術(shù)顯然更加真實(shí)準(zhǔn)備,更加能夠被廣泛采用。目前,數(shù)據(jù)挖掘技術(shù)越來(lái)越被各行各業(yè)重視并運(yùn)用,在未來(lái)也有巨大的發(fā)展前景。
1.3 數(shù)據(jù)挖掘技術(shù)的功能
數(shù)據(jù)挖掘技術(shù)的功能非常強(qiáng)大,能夠使用此技術(shù)在數(shù)據(jù)挖掘任務(wù)中尋找需要的信息。一般數(shù)據(jù)挖掘的任務(wù)分為描述和預(yù)測(cè):簡(jiǎn)單在數(shù)據(jù)庫(kù)中搜尋數(shù)據(jù)反映數(shù)據(jù)的一般特性即為描述;利用數(shù)據(jù)信息進(jìn)行推算,進(jìn)行預(yù)測(cè)即為預(yù)測(cè)。當(dāng)前,數(shù)據(jù)挖掘技術(shù)的功能有以下幾種:
1)概念或者類(lèi)描述
數(shù)據(jù)一般是與概念或者類(lèi)聯(lián)系著的。能夠用總結(jié)的、簡(jiǎn)單的、正確的方法進(jìn)行概念或者類(lèi)的描述就被稱為概念或類(lèi)描述。通過(guò)此種描述方法能夠知道:一是任務(wù)數(shù)據(jù)的特征或者整體數(shù)據(jù)的特征,二是能夠?qū)⑷蝿?wù)數(shù)據(jù)的特征與其他數(shù)據(jù)進(jìn)行特征的對(duì)比,三是能夠利用前述二者進(jìn)行概念或者類(lèi)描述。
2)關(guān)聯(lián)分析
數(shù)據(jù)挖掘技術(shù)通過(guò)關(guān)聯(lián)分析能夠發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。這些規(guī)則比較固定地展示了數(shù)據(jù)之間的聯(lián)系。數(shù)據(jù)挖掘技術(shù)的這項(xiàng)功能在事務(wù)數(shù)據(jù)分析中應(yīng)用較多。
3)分類(lèi)和預(yù)測(cè)
分類(lèi)是指在任務(wù)數(shù)據(jù)中找出不同類(lèi)或者概念的數(shù)據(jù),而后利用分類(lèi)進(jìn)行預(yù)測(cè)還沒(méi)有被發(fā)現(xiàn)的信息。預(yù)測(cè)是給建立一個(gè)模型來(lái)對(duì)不知道的數(shù)據(jù)進(jìn)行預(yù)測(cè)或者給定一個(gè)數(shù)值區(qū)間,進(jìn)行任務(wù)數(shù)據(jù)的預(yù)測(cè)。分類(lèi)與預(yù)測(cè)的不同之處為:分類(lèi)是利用分散的數(shù)值進(jìn)行預(yù)測(cè);而預(yù)測(cè)是利用連續(xù)數(shù)值進(jìn)行預(yù)測(cè)。
4)聚類(lèi)分析
聚類(lèi)就是將任務(wù)數(shù)據(jù)進(jìn)行同類(lèi)的聚集,這些任務(wù)數(shù)據(jù)中有著非常高的相同點(diǎn),但是不同聚類(lèi)之間的差異非常大。與分類(lèi)大區(qū)別在于,聚類(lèi)是進(jìn)行未知數(shù)據(jù)的類(lèi)別。通過(guò)聚類(lèi),而后進(jìn)行數(shù)據(jù)的分析預(yù)測(cè)。
5)孤立點(diǎn)分析
孤立點(diǎn)一般是度量或者系統(tǒng)執(zhí)行失誤造成的,也有固定數(shù)值突變產(chǎn)生的孤立點(diǎn)。目前,很多數(shù)據(jù)挖掘技術(shù)希望通過(guò)孤立點(diǎn)分析將其影響變?yōu)樽钚 2贿^(guò),一單操作很容易使重要信息損壞或者丟失,畢竟孤立點(diǎn)是非常重要的。
6)演變分析
數(shù)據(jù)不是固定不變的,而是會(huì)不斷地進(jìn)行變化,利用數(shù)據(jù)挖掘技術(shù)進(jìn)行任務(wù)數(shù)據(jù)演變分析,對(duì)其規(guī)律或者趨勢(shì)進(jìn)行預(yù)測(cè)。演變分析包括對(duì)數(shù)據(jù)的時(shí)間序列、周期進(jìn)行分析或者類(lèi)似性地?cái)?shù)據(jù)分析。
2 數(shù)據(jù)挖掘技術(shù)的分類(lèi)
數(shù)據(jù)挖掘技術(shù)的分類(lèi)能夠根據(jù)發(fā)現(xiàn)知識(shí)的種類(lèi)、挖掘的數(shù)據(jù)庫(kù)種類(lèi)、采用的技術(shù)等方法進(jìn)行分類(lèi)。根據(jù)采用的技術(shù)進(jìn)行分類(lèi),則主要有七種。
2.1規(guī)則歸納
規(guī)則歸納就是利用設(shè)定的統(tǒng)計(jì)方法進(jìn)行歸納對(duì)挖掘者有用的規(guī)則,關(guān)聯(lián)規(guī)則挖掘就是其中的一種。
2.2決策樹(shù)方法
所謂決策樹(shù)方法就是建立樹(shù)狀模型進(jìn)行決策集合。利用已有信息挖掘數(shù)據(jù)庫(kù)中重要的有價(jià)值的信息,構(gòu)建支點(diǎn),再根據(jù)數(shù)據(jù)的不同取值進(jìn)行分支構(gòu)造,最后通過(guò)分析形成整個(gè)的決策樹(shù)。決策者可以根據(jù)此決策樹(shù)進(jìn)行決策的制定或者預(yù)測(cè)發(fā)展趨勢(shì)。
2.3人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用比較多,主要是模擬人腦進(jìn)行數(shù)據(jù)的分析,建立非線性預(yù)測(cè)模型,從而完成分類(lèi)、聚類(lèi)等多種任務(wù)。
2.4遺傳算法
遺傳算法是模擬生物進(jìn)化過(guò)程的算法。它是通過(guò)將一個(gè)問(wèn)題分解為多個(gè)個(gè)體,然后在每個(gè)個(gè)體上進(jìn)行取值,從而完成信息搜索、任務(wù)挖掘。
2.5模糊技術(shù)
顧名思義,模糊技術(shù)即是利用模糊集合理論對(duì)實(shí)際問(wèn)題進(jìn)行預(yù)測(cè)、推斷等。一般來(lái)說(shuō),數(shù)據(jù)庫(kù)數(shù)據(jù)具有模糊性,通過(guò)大概的數(shù)值估計(jì),利用期望值、隨機(jī)值進(jìn)行組合,使得信息挖掘能夠定性定量的轉(zhuǎn)換。
2.6粗集方法
1982年,Pawlak(波蘭)提出的數(shù)據(jù)分析方法。粗集方法是利用等價(jià)思想將數(shù)據(jù)分散,然后利用屬性的等價(jià)進(jìn)行集合,形成決策集合。
2.7可視化技術(shù)
可視化技術(shù)即是利用最直觀的圖形方法把數(shù)據(jù)庫(kù)信息、數(shù)據(jù)的關(guān)聯(lián)等呈現(xiàn)出來(lái),決策者能夠直觀地通過(guò)圖形進(jìn)行發(fā)展趨勢(shì)的預(yù)測(cè),作出正確的決策。
3基于計(jì)算智能的數(shù)據(jù)挖掘技術(shù)的具體技術(shù)探究
3.1關(guān)聯(lián)規(guī)則的挖掘
關(guān)聯(lián)規(guī)則挖掘是關(guān)聯(lián)分析中的一種數(shù)據(jù)挖掘技術(shù),利用數(shù)據(jù)庫(kù)中海量的數(shù)據(jù)進(jìn)行有用信息間的聯(lián)系的挖掘。當(dāng)前關(guān)聯(lián)規(guī)則的挖掘已經(jīng)取得巨大的成就,當(dāng)前,關(guān)聯(lián)規(guī)則的挖掘技術(shù)有:1)多循環(huán)方式多挖掘算法,它是基本算法,包括AIS、DHP算法、分割算法等;2)并行挖掘算法,包括CD 算法、CaD算法、DD算法等;3)增量式更新算法,主要是在數(shù)據(jù)庫(kù)增加紀(jì)錄后關(guān)聯(lián)規(guī)則的挖掘算法,包括FUP、IUA、PIUA、NEWIUA算法等;4)基于約束條件的關(guān)聯(lián)規(guī)則挖掘,就是為了發(fā)現(xiàn)更多、有用、特別的關(guān)聯(lián)規(guī)則;5)挖掘多值屬性關(guān)聯(lián)規(guī)則,包括擴(kuò)展布爾屬性的關(guān)聯(lián)規(guī)則算法、K度完全方法等 [3]。
3.2分類(lèi)規(guī)則的挖掘
分類(lèi)規(guī)則的挖掘就是在已有數(shù)據(jù)的基礎(chǔ)上建立分類(lèi)模型,利用該模型將數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射到分類(lèi)中,從而進(jìn)行數(shù)據(jù)預(yù)測(cè)。分類(lèi)模型的構(gòu)造方法有許多種,通常有決策樹(shù)法、神經(jīng)網(wǎng)絡(luò)算法等。由于分類(lèi)模型等正確率與數(shù)據(jù)、屬性等因素有關(guān),因此在進(jìn)行分類(lèi)評(píng)估時(shí)需要采用以下方法:一是保留方法,將數(shù)據(jù)庫(kù)中的一部分?jǐn)?shù)據(jù)保留,其他的用于數(shù)據(jù)分析評(píng)估;二是交叉糾錯(cuò)方法,即是將分類(lèi)中有重復(fù)的數(shù)據(jù)進(jìn)行提取,而后進(jìn)行測(cè)試,提高評(píng)估正確率[4]。
3.3聚類(lèi)分析
聚類(lèi)分析就是將特征相似的數(shù)據(jù)進(jìn)行歸類(lèi),建立成一個(gè)集合。再聚類(lèi)之時(shí)要保證數(shù)據(jù)相似性最大,而不同類(lèi)別的數(shù)據(jù)相似性要最小。這些數(shù)據(jù)的特性在事前并不清楚,聚類(lèi)分析就是要通過(guò)將數(shù)據(jù)進(jìn)行歸類(lèi)在進(jìn)行分析,發(fā)現(xiàn)有價(jià)值的信息。聚類(lèi)算法一般包括基于概率的聚類(lèi)算法以及基于距離的聚類(lèi)算法兩種。在實(shí)際應(yīng)用中,基于概率的聚類(lèi)算法因效率低下而采用較少,基于距離的聚類(lèi)算法因效率高被廣泛采用。通過(guò)聚類(lèi)分析,對(duì)數(shù)據(jù)進(jìn)行挖掘分析,能夠更加準(zhǔn)確地獲得更多地具有價(jià)值的信息,為決策者作出決策或者作出發(fā)展預(yù)測(cè)提供更加有力的數(shù)據(jù)支持。
3.4離群數(shù)據(jù)挖掘
離群數(shù)據(jù)就是指那些明顯跟其他數(shù)據(jù)不同的數(shù)據(jù)類(lèi)型。離群數(shù)據(jù)的挖掘時(shí)數(shù)據(jù)挖掘技術(shù)中非常重要的內(nèi)容,它通過(guò)發(fā)現(xiàn)離群數(shù)據(jù)與其他數(shù)據(jù)的區(qū)別,獲取比一般數(shù)據(jù)更有價(jià)值的信息。一般離群數(shù)據(jù)主要有以下發(fā)現(xiàn)方法:一是基于統(tǒng)計(jì),即在已知的數(shù)據(jù)上進(jìn)行離群數(shù)據(jù)的挖掘;二是基于距離,即通過(guò)計(jì)算數(shù)據(jù)間的距離進(jìn)行離群數(shù)據(jù)的挖掘;三是基于偏離,即在事前知道數(shù)據(jù)的特性前提下對(duì)數(shù)據(jù)進(jìn)行檢測(cè)發(fā)現(xiàn)離群數(shù)據(jù);四是基于規(guī)則,即是根據(jù)已有規(guī)則發(fā)現(xiàn)明顯不同規(guī)則的離群數(shù)據(jù);五是離群數(shù)據(jù)發(fā)現(xiàn)的多策略方法,即是對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),進(jìn)行子集的劃分,再根據(jù)觀察發(fā)現(xiàn)明顯不同的離群數(shù)據(jù)。
4數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域
隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,各行各業(yè)越來(lái)越意識(shí)到數(shù)據(jù)挖掘技術(shù)的巨大優(yōu)勢(shì),因此其應(yīng)用前景非常廣泛。數(shù)據(jù)挖掘技術(shù)的應(yīng)用主要在以下領(lǐng)域:
4.1科學(xué)研究領(lǐng)域
科學(xué)技術(shù)領(lǐng)域需要運(yùn)用各種最新技術(shù),利用最新技術(shù)進(jìn)行科學(xué)領(lǐng)域的研究。隨著科學(xué)數(shù)據(jù)收集工具的運(yùn)用,各種科學(xué)研究收集到了海量的數(shù)據(jù),但是顯然依靠人力或者傳統(tǒng)的數(shù)據(jù)分析工具是不能夠應(yīng)付的,因此必須要使用一種能夠從海量數(shù)據(jù)中自動(dòng)搜尋分析提取的工具。正是科學(xué)技術(shù)領(lǐng)域的需求,推動(dòng)了數(shù)據(jù)挖掘技術(shù)的發(fā)展以及在科學(xué)技術(shù)領(lǐng)域的應(yīng)用,并為科學(xué)研究領(lǐng)域作出了巨大的貢獻(xiàn)。比如,在遺傳研究領(lǐng)域,涉及DNA的數(shù)據(jù)非常多,而且DNA的組合、順序等更不相同,如果想要從中找出致人疾病的基因組,依靠人力進(jìn)行數(shù)據(jù)的排練組合顯然是不可能的,所以必須采用數(shù)據(jù)挖掘工具,對(duì)不同的基因組進(jìn)行分析,剔除無(wú)害的基因組,選擇出有害的基因組,然后工作人員再根據(jù)提取的數(shù)據(jù)進(jìn)行分析[5]。此外,數(shù)據(jù)挖掘技術(shù)還能運(yùn)用于對(duì)歷史發(fā)展規(guī)律的預(yù)測(cè)、對(duì)人類(lèi)行為規(guī)律的預(yù)測(cè)等等。
4.2商業(yè)零售業(yè)
眾所周知,零售業(yè)有著大量的數(shù)據(jù),從進(jìn)貨到銷(xiāo)售,都有大量的數(shù)據(jù),尤其是隨著電子商業(yè)的發(fā)展,數(shù)據(jù)量也劇增,而處理這些數(shù)據(jù)就需要依靠數(shù)據(jù)挖掘技術(shù)。通過(guò)數(shù)據(jù)挖掘技術(shù),對(duì)銷(xiāo)售數(shù)據(jù)進(jìn)行分析,就能夠知道什么商品受到顧客喜愛(ài),銷(xiāo)售得最快,而后有針對(duì)性地進(jìn)貨[6]。利用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,就能夠通過(guò)數(shù)據(jù)分析,制定有效銷(xiāo)售措施,獲取最大的利益。
【關(guān)鍵詞】搜索引擎 網(wǎng)絡(luò)數(shù)據(jù)挖掘相關(guān)技術(shù) 研究
在社會(huì)的發(fā)展之下,網(wǎng)絡(luò)已經(jīng)成為人們生活與生產(chǎn)中必不可少的工具,但是網(wǎng)絡(luò)中充斥的大量繁雜信息也在一定程度上影響著人們的信息獲取速度,網(wǎng)絡(luò)信息檢索在檢準(zhǔn)率與檢全率方面依然難以滿足人們的需求,而將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在其中即可很好的解決這一問(wèn)題。
1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介
數(shù)據(jù)挖掘技術(shù)就是從大量模糊、隨機(jī)、不完全、有噪聲信息中提出有用信息的一個(gè)過(guò)程,與數(shù)據(jù)挖掘技術(shù)相關(guān)的技術(shù)還有數(shù)據(jù)分析技術(shù)、數(shù)據(jù)融合技術(shù)、知識(shí)發(fā)現(xiàn)技術(shù)等等,在技術(shù)水平的發(fā)展下,統(tǒng)計(jì)學(xué)方法、決策樹(shù)、關(guān)聯(lián)分析等一些新型數(shù)據(jù)挖掘技術(shù)也相繼出現(xiàn)。與數(shù)據(jù)挖掘不同,信息檢索實(shí)質(zhì)上是一種信息發(fā)現(xiàn)任務(wù),也是知識(shí)發(fā)展過(guò)程中的重要環(huán)節(jié),信息檢索能夠幫助人們了解各項(xiàng)靜態(tài)信息,但是難以分析到數(shù)據(jù)間的關(guān)系及其未來(lái)發(fā)展趨勢(shì)。而應(yīng)用數(shù)據(jù)挖掘技術(shù)則可以有效提升系統(tǒng)檢索能力,預(yù)測(cè)出未來(lái)的走勢(shì),因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在搜索引擎中也是大勢(shì)所趨。
2 搜索引擎與網(wǎng)絡(luò)數(shù)據(jù)挖掘
網(wǎng)絡(luò)數(shù)據(jù)挖掘是一種將數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡(luò)融合的一種新模式,網(wǎng)絡(luò)數(shù)據(jù)挖掘也能夠稱之為Web挖掘,網(wǎng)絡(luò)數(shù)據(jù)的頁(yè)面復(fù)雜、數(shù)據(jù)內(nèi)容繁雜,文章也具有不規(guī)則性,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在數(shù)據(jù)挖掘中可以有效的解決上述問(wèn)題,根據(jù)處理對(duì)象,網(wǎng)絡(luò)數(shù)據(jù)挖掘任務(wù)有三種類(lèi)型,即網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)使用挖掘與網(wǎng)絡(luò)結(jié)構(gòu)挖掘。
2.1 網(wǎng)絡(luò)內(nèi)容的挖掘
網(wǎng)絡(luò)內(nèi)容挖掘就是從網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)內(nèi)容與網(wǎng)絡(luò)文檔中挖掘信息,很多網(wǎng)絡(luò)信息是能夠在網(wǎng)絡(luò)中過(guò)去的,但是依然有很大一部分?jǐn)?shù)據(jù)難以采用該種方法獲取,如使用PHP、JSP與ASP的動(dòng)態(tài)網(wǎng)頁(yè),拒絕訪問(wèn)的網(wǎng)站,商業(yè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)。這些內(nèi)容都能夠使用網(wǎng)絡(luò)內(nèi)容挖掘法來(lái)獲取,這可以使用兩個(gè)方法:網(wǎng)絡(luò)頁(yè)面內(nèi)容挖掘法與搜索結(jié)果再挖掘法。
2.2 網(wǎng)絡(luò)結(jié)構(gòu)挖掘法
網(wǎng)絡(luò)結(jié)構(gòu)挖掘法強(qiáng)調(diào)挖掘網(wǎng)頁(yè)中的鏈接結(jié)構(gòu),并從中推導(dǎo)相關(guān)的知識(shí),這種挖掘法與引文分析有著密切的關(guān)系,網(wǎng)絡(luò)中的鏈接信息能夠?yàn)閿?shù)據(jù)挖掘提供全面的支持,為了獲取到理想的效果,可以來(lái)分析網(wǎng)頁(yè)鏈接與鏈接數(shù)量,并建立起鏈接結(jié)構(gòu)模式。其常用的算法有Propriteary算法、Google算法、HITS算法與PageRank算法四種。
2.3 網(wǎng)絡(luò)使用挖掘法
網(wǎng)絡(luò)使用挖掘法就是通過(guò)日志發(fā)現(xiàn)來(lái)訪問(wèn)頁(yè)面的一種模式,與網(wǎng)絡(luò)內(nèi)容挖掘模式和網(wǎng)絡(luò)結(jié)構(gòu)挖掘模式不同,網(wǎng)絡(luò)使用挖掘法的挖掘?qū)ο蠓鞘蔷W(wǎng)絡(luò)與用戶交互中的二手?jǐn)?shù)據(jù),這些數(shù)據(jù)大多來(lái)自Cookies或者Web服務(wù)器中的信息、系統(tǒng)交互信息與訪問(wèn)記錄。
3 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息檢索中的應(yīng)用作用
目前,人們已經(jīng)進(jìn)入了一個(gè)信息爆炸時(shí)代,雖然眾多搜索引擎網(wǎng)絡(luò)可以滿足人們對(duì)于信息檢索的基本需求,但是還是有很多地方不到位,目前,網(wǎng)絡(luò)挖掘技術(shù)已經(jīng)開(kāi)始在網(wǎng)絡(luò)領(lǐng)域中得到了應(yīng)用,也取得了一定的成效。實(shí)踐顯示,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在網(wǎng)絡(luò)信息檢索中能夠取得如下的效用:
3.1 提升標(biāo)引準(zhǔn)確性
標(biāo)引能夠準(zhǔn)確選擇出文獻(xiàn)的檢索標(biāo)示,網(wǎng)絡(luò)信息范圍廣、復(fù)雜性高、數(shù)量多,使用人工標(biāo)引很難取得理想的檢索效果,因此,必須要使用自動(dòng)標(biāo)引。將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在其中能夠深刻的揭示出相關(guān)信息的聯(lián)系,幫助用戶在文檔中進(jìn)行標(biāo)注,提升信息攝取的準(zhǔn)確性。而以此為基礎(chǔ)來(lái)應(yīng)用加權(quán)算法則能夠得出具體的信息關(guān)聯(lián),對(duì)于提升檢索效果有著十分積極的效用。
3.2 可以對(duì)檢索結(jié)果進(jìn)行分類(lèi)
在網(wǎng)絡(luò)世界中,各個(gè)網(wǎng)站之間的轉(zhuǎn)載情況嚴(yán)重,用戶在使用搜索引擎時(shí)必然會(huì)檢索出大量的重復(fù)信息,這不僅會(huì)降低檢索效率,也會(huì)浪費(fèi)資源。將數(shù)據(jù)挖掘技術(shù)應(yīng)用在檢索工作中就能夠挖掘出網(wǎng)頁(yè)中的語(yǔ)義內(nèi)容,有效提升檢索效率。此外,數(shù)據(jù)挖掘技術(shù)也可以有效提升檢索質(zhì)量,該種方法是建立在層次法與劃分法基礎(chǔ)上,如果檢索文檔相似性大,即可進(jìn)行聚類(lèi)處理,將處理后的信息用層次化方式提供給用戶,用戶可以根據(jù)自己的需要自行選擇,這就有效減少了瀏覽數(shù)量。
3.3 能夠提升自動(dòng)摘要質(zhì)量
自動(dòng)摘要即利用網(wǎng)絡(luò)來(lái)分析文章結(jié)構(gòu)、主題語(yǔ)句的方式,自動(dòng)摘要可以有效幫助用戶來(lái)加工與整合信息,與自動(dòng)摘要相比,人工編制摘要會(huì)浪費(fèi)大量的時(shí)間,將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在搜索引擎中能夠提升自動(dòng)摘要的質(zhì)量,該種技術(shù)是通過(guò)文檔內(nèi)容來(lái)總結(jié)文本信息,能夠?qū)eb中的重要內(nèi)容總結(jié)起來(lái),并提取出摘要。這對(duì)于優(yōu)化網(wǎng)絡(luò)信息資源的處理質(zhì)量有著十分積極的意義。
4 結(jié)語(yǔ)
總而言之,將數(shù)據(jù)網(wǎng)絡(luò)挖掘技術(shù)應(yīng)用在搜索引擎中已經(jīng)成為了一個(gè)大勢(shì)所趨,采用該種技術(shù)可以有效提升標(biāo)引、自動(dòng)分類(lèi)、自動(dòng)摘要以及自動(dòng)聚類(lèi)的準(zhǔn)確性,可以根據(jù)用戶的具體需求來(lái)建立模型,從而為用戶提供出更加針對(duì)性的信息支持。其中,最為常用的技術(shù)就是自由分類(lèi)法,自由分類(lèi)法能夠?qū)㈦y以用傳統(tǒng)方式細(xì)化的信息歸入熟悉類(lèi)目中,并在排序檢索與信息組織上很好的彌補(bǔ)與了傳統(tǒng)搜索方法的缺陷,但是,該種方法也存在一些局限性,多應(yīng)用在小范圍網(wǎng)絡(luò)中,相信在不久的將來(lái),網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)定可以在搜索引擎中得到更加廣泛的使用。
參考文獻(xiàn):
[1]狄浩林. 面向精確營(yíng)銷(xiāo)基于數(shù)據(jù)挖掘的3G用戶行為模型及實(shí)證研究[D]. 北京郵電大學(xué) 2012
關(guān)鍵詞:大數(shù)據(jù)環(huán)境 數(shù)據(jù)挖掘 具體技術(shù)分析
中圖分類(lèi)號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2016)10-0004-02
技術(shù)在快速進(jìn)步,現(xiàn)今時(shí)期內(nèi)的網(wǎng)絡(luò)正在深入生活,網(wǎng)絡(luò)體現(xiàn)出重要的意義。從本質(zhì)上看,大數(shù)據(jù)不僅代表了日益增長(zhǎng)的數(shù)據(jù)量,同時(shí)也表現(xiàn)出更復(fù)雜的數(shù)據(jù)關(guān)系。增長(zhǎng)的過(guò)程中,達(dá)到特定規(guī)模的數(shù)據(jù)量將會(huì)發(fā)生質(zhì)變。大數(shù)據(jù)的具體類(lèi)型包含了視頻和文本等信息[1]。對(duì)于信息搜集以及處理等,也應(yīng)當(dāng)確保更快的處理速度。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)挖掘的相關(guān)技術(shù)具備了獨(dú)特的技術(shù)優(yōu)勢(shì),然而同時(shí)也面對(duì)新階段的技術(shù)挑戰(zhàn)。面對(duì)新階段的新環(huán)境,有必要給出數(shù)據(jù)挖掘的特定技術(shù)流程以及技術(shù)方式。結(jié)合現(xiàn)階段面臨的挑戰(zhàn),給出完善思路。
一、數(shù)據(jù)挖掘在大數(shù)據(jù)環(huán)境下的重要價(jià)值
面對(duì)信息化的新時(shí)期,各行業(yè)都不可缺少數(shù)字化技術(shù)作為支持。最近幾年,互聯(lián)網(wǎng)正在快速普及,在這種基礎(chǔ)上也誕生了云計(jì)算和物聯(lián)網(wǎng)的相關(guān)技術(shù)。在當(dāng)前形勢(shì)下,全球范圍內(nèi)的網(wǎng)絡(luò)技術(shù)正在加快發(fā)展,爆炸式的數(shù)據(jù)增長(zhǎng)趨勢(shì)也因此變得更明顯。信息化沖擊著各個(gè)行業(yè),傳輸信息的方式也在相應(yīng)改變。信息化形勢(shì)下,對(duì)于信息形成、信息運(yùn)用以及信息共享都可以做到有效的整合[2]。在企業(yè)發(fā)展中,大數(shù)據(jù)起到了不可忽視的作用,同時(shí)也匯聚了各個(gè)層面的物力和人力。
從信息化角度看,企業(yè)在整合處理各類(lèi)的數(shù)據(jù)時(shí)都需要借助電子化的方式。針對(duì)大量的資源和信息,應(yīng)當(dāng)符合交互式的處理方式和數(shù)據(jù)傳輸方式。數(shù)據(jù)化處理可以為企業(yè)提供精確的決策依據(jù),因此也創(chuàng)造了更高層次的生產(chǎn)效能。云計(jì)算方式能夠用來(lái)處理實(shí)時(shí)的數(shù)據(jù),從而減少了整體投入。
隨著技術(shù)進(jìn)步,云計(jì)算技術(shù)正在變得更成熟。與此同時(shí),云計(jì)算也配備了信息化的新式平臺(tái)。這樣做,在根本上確保了信息化的效能提高。在當(dāng)前時(shí)期內(nèi),大數(shù)據(jù)代表著全新的發(fā)展階段。這是因?yàn)?,大?shù)據(jù)技術(shù)可以用來(lái)篩選數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)或者調(diào)用數(shù)據(jù),這些步驟和流程都不必耗費(fèi)額外的資源。從行業(yè)本身來(lái)看,數(shù)據(jù)交換以及信息交易的總數(shù)都變得更大,因此也構(gòu)建了規(guī)模更大的數(shù)據(jù)庫(kù)。針對(duì)存儲(chǔ)量很大的數(shù)據(jù)庫(kù),應(yīng)當(dāng)經(jīng)過(guò)篩選和分類(lèi),提取必需的信息數(shù)據(jù)。這樣做,就可以為各類(lèi)用戶提供必需的信息。由此可見(jiàn),大數(shù)據(jù)環(huán)境中的數(shù)據(jù)挖掘具備更高的價(jià)值,有必要深入探析數(shù)據(jù)挖掘的相關(guān)技術(shù)方式[3]。
二、現(xiàn)今階段的技術(shù)難點(diǎn)
從技術(shù)構(gòu)架來(lái)看,數(shù)據(jù)庫(kù)表現(xiàn)出更復(fù)雜的技術(shù)架構(gòu),因而也增加了整體數(shù)據(jù)庫(kù)的管理難度。在傳統(tǒng)模式下,數(shù)據(jù)庫(kù)能夠用來(lái)處理較低層次的數(shù)據(jù),然而針對(duì)較高層次的信息數(shù)據(jù)并不能給予很好的處理。最近幾年,數(shù)據(jù)總量正在增大,數(shù)據(jù)庫(kù)管理也相應(yīng)改變了常用的流程和模式。近些年,分布式的全球數(shù)據(jù)庫(kù)也被創(chuàng)造出來(lái),在這種形勢(shì)下亟待擴(kuò)展整體的處理規(guī)模,以此來(lái)適應(yīng)現(xiàn)今階段的數(shù)據(jù)處理。然而應(yīng)該注意:傳統(tǒng)數(shù)據(jù)庫(kù)仍缺乏相應(yīng)的分區(qū)和類(lèi)型,非結(jié)構(gòu)化的傾向十分明顯。
從實(shí)時(shí)性來(lái)看,數(shù)據(jù)處理中的實(shí)時(shí)性需求正在變得更強(qiáng),用戶希望獲得實(shí)時(shí)的處理方式和技術(shù)。最近幾年,數(shù)據(jù)庫(kù)表現(xiàn)出智能性和商業(yè)化的整體趨勢(shì),因此也相應(yīng)提高了實(shí)時(shí)性的需求。針對(duì)各類(lèi)型的信息,用戶都有必要給予實(shí)時(shí)的解析和處理。大數(shù)據(jù)的整體背景有別于傳統(tǒng)背景,這是因?yàn)橹悄苁降纳虡I(yè)處理方式正在被推廣采用。因此,如果仍沿用常用的處理流程,那么很難符合新階段的實(shí)時(shí)處理需要[4]。
從硬件和軟件的存儲(chǔ)方式看,傳統(tǒng)類(lèi)型的軟硬件也不再滿足需求?,F(xiàn)今時(shí)期內(nèi),數(shù)據(jù)處理達(dá)到了更大的總量。與此相應(yīng),在信息保存的過(guò)程中也應(yīng)當(dāng)符合更高層次的精確性需求。數(shù)據(jù)量不斷增大的狀態(tài)下,只有配備高性能的軟硬件,才能夠給予必要的保障。實(shí)際上,軟件更新的整體速度仍較慢,無(wú)法適應(yīng)現(xiàn)有的形勢(shì)。
從技術(shù)分析的具體方式看,傳統(tǒng)方式的數(shù)據(jù)分析特指結(jié)構(gòu)化的分析。經(jīng)過(guò)分析之后,就可以歸納得到全面的體系,確保實(shí)效性的處理。然而,大數(shù)據(jù)形勢(shì)下的各行業(yè)數(shù)據(jù)總量都變得更大,因此也挑戰(zhàn)了常用的分析方式。
三、數(shù)據(jù)挖掘的技術(shù)優(yōu)勢(shì)
首先,數(shù)據(jù)挖掘符合了更強(qiáng)的實(shí)效性,滿足實(shí)時(shí)的處理。信息技術(shù)的新時(shí)期內(nèi),不同類(lèi)型的數(shù)據(jù)也蘊(yùn)含了更多的知識(shí)價(jià)值。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析更多表現(xiàn)為線性處理,這種趨勢(shì)符合了新階段的處理需求。如果選擇了大數(shù)據(jù)這種處理形式,那么優(yōu)先選擇數(shù)據(jù)挖掘的相關(guān)技術(shù)方式。這是由于,數(shù)據(jù)挖掘可以運(yùn)用于流處理的過(guò)程,從而也確保了批量式的處理。針對(duì)大數(shù)據(jù)而言,業(yè)務(wù)處理也在客觀上需要設(shè)置實(shí)時(shí)性的處理框架,以此來(lái)滿足實(shí)效性的新需要。
其次,在動(dòng)態(tài)環(huán)境下,數(shù)據(jù)挖掘設(shè)置了特定的索引類(lèi)型,能夠符合動(dòng)態(tài)變化的環(huán)境。從關(guān)系數(shù)據(jù)庫(kù)的角度看,索引可以加快整體的檢索速度。然而,傳統(tǒng)類(lèi)型的數(shù)據(jù)檢索只設(shè)置了較少的幾類(lèi)索引[5]。近些年來(lái),大數(shù)據(jù)的具體種類(lèi)正在不斷增多,這種形勢(shì)下創(chuàng)建的索引就必須具備更簡(jiǎn)潔的特征,同時(shí)也必須符合高效化的整體要求。在數(shù)據(jù)挖掘中,索引形式是多樣的,并且可以實(shí)時(shí)調(diào)整。因此,大數(shù)據(jù)環(huán)境中的索引形式應(yīng)當(dāng)更新,這樣做才能便于提高實(shí)時(shí)查詢的效率。
第三,大數(shù)據(jù)環(huán)境中的數(shù)據(jù)挖掘還具備豐富的先驗(yàn)知識(shí)。傳統(tǒng)模式的數(shù)據(jù)分析通常選擇了關(guān)系型的信息存儲(chǔ),這種模式隱含了先驗(yàn)知識(shí)。具體而言,在探求特定對(duì)象的屬性時(shí),首先就需要明確可以取到的數(shù)值范圍。在進(jìn)入分析之前,有必要初步了解這種取值范圍。然而,大數(shù)據(jù)包含了更多的非結(jié)構(gòu)性信息,因此在客觀上也要求構(gòu)建與之匹配的內(nèi)部數(shù)據(jù)關(guān)系。數(shù)據(jù)是實(shí)時(shí)性的,因此并不具備先驗(yàn)知識(shí)。針對(duì)這種問(wèn)題,數(shù)據(jù)挖掘也可以給予妥善的處理。
四、具體技術(shù)實(shí)現(xiàn)
在新的環(huán)境下,數(shù)據(jù)挖掘技術(shù)受到了更多行業(yè)的認(rèn)可和接受,同時(shí)也逐漸擴(kuò)展了應(yīng)用范圍。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)挖掘具體可以劃分為數(shù)據(jù)遺傳、神經(jīng)網(wǎng)絡(luò)算法、粗糙集的算法、決策樹(shù)算法等類(lèi)型?,F(xiàn)今社會(huì)中的信息呈現(xiàn)爆炸的趨勢(shì),數(shù)據(jù)挖掘因此也逐漸具備了獨(dú)立性,構(gòu)成了獨(dú)立學(xué)科。用戶運(yùn)用分類(lèi)技術(shù),就能夠針對(duì)特性類(lèi)型的數(shù)據(jù)和信息予以分類(lèi),然后進(jìn)入數(shù)據(jù)挖掘的過(guò)程中。由此可見(jiàn),數(shù)據(jù)挖掘更加符合了大數(shù)據(jù)的特定環(huán)境和背景[6]。具體而言,數(shù)據(jù)挖掘的方式和技術(shù)手段包含了如下:
1.構(gòu)建矩陣模型
存儲(chǔ)大數(shù)據(jù)過(guò)程中,應(yīng)當(dāng)構(gòu)建精確的矩陣模型。在建模的基礎(chǔ)上,才能夠適當(dāng)運(yùn)用數(shù)據(jù)挖掘的方式。針對(duì)不同來(lái)源的數(shù)據(jù),也需要給出各異的處理方式。傳統(tǒng)處理方式下,通常構(gòu)建單一的數(shù)據(jù)庫(kù),用來(lái)存儲(chǔ)信息并且分析信息。實(shí)際上,這種方式在具體落實(shí)時(shí)也很困難,因?yàn)椴煌?lèi)型的信息包含了繁雜的內(nèi)容。大數(shù)據(jù)環(huán)境下,依照數(shù)據(jù)挖掘的思路,相關(guān)人員可以嘗試構(gòu)建相關(guān)的數(shù)據(jù)模型。這樣做,就能夠在根本上確保通用性,數(shù)據(jù)模型也能夠容納更多的數(shù)據(jù)內(nèi)容。矩陣模型屬于三維模型,模型具備立體性,因此更加便于數(shù)值分析。
2.設(shè)置關(guān)聯(lián)規(guī)則
如果要順利進(jìn)行數(shù)據(jù)挖掘,那么先要挖掘關(guān)聯(lián)規(guī)則。從特定屬性來(lái)看,關(guān)聯(lián)規(guī)則通常是隱含在屬性內(nèi)部的,是不可以預(yù)知的。對(duì)于此,只能依照選擇的統(tǒng)計(jì)方法來(lái)實(shí)現(xiàn)。從興趣度的角度看,關(guān)聯(lián)規(guī)則通常取決于置信度和支持度這兩個(gè)指標(biāo)。為了達(dá)到平衡,用戶就應(yīng)當(dāng)給出最小的置信度和支持度數(shù)據(jù)。數(shù)據(jù)挖掘的具體方式可以用來(lái)實(shí)現(xiàn)可靠的關(guān)聯(lián)規(guī)則,建立必要的存儲(chǔ)模型,用這種方式來(lái)集中表達(dá)關(guān)聯(lián)規(guī)則。
3.聚類(lèi)算法的運(yùn)用
針對(duì)高維的空間,通??梢詷?gòu)建特定的聚類(lèi)算法。為了詳細(xì)區(qū)分不同類(lèi)型的超圖,數(shù)據(jù)挖掘選擇了區(qū)分投影的方式。選擇這種方式,能夠細(xì)化不同類(lèi)型的算法,進(jìn)而也提高了算法整體的精細(xì)度。利用數(shù)據(jù)挖掘,實(shí)現(xiàn)了更優(yōu)的超圖劃分,聚類(lèi)計(jì)算得到的結(jié)果也表現(xiàn)得更加精確[7]。
結(jié)論
大數(shù)據(jù)背景下,數(shù)據(jù)庫(kù)更需要數(shù)據(jù)挖掘作為支持。通過(guò)數(shù)據(jù)挖掘,能夠篩選并且獲得可利用的數(shù)據(jù)信息,滿足新階段的用戶需求。經(jīng)濟(jì)在不斷增長(zhǎng),然而與此同時(shí)資源消耗的總量也相應(yīng)變得更大。大數(shù)據(jù)可以用于多領(lǐng)域的數(shù)據(jù)挖掘,因此也在根本上改變了原有的處理過(guò)程和處理方式。面對(duì)劇烈的市場(chǎng)競(jìng)爭(zhēng),數(shù)據(jù)挖掘的新方式也可以用于更廣的領(lǐng)域,同時(shí)也起到了更大作用。未來(lái)的實(shí)踐中,相關(guān)人員還需要結(jié)合大數(shù)據(jù)的特定背景,不斷修正并完善現(xiàn)今階段的數(shù)據(jù)挖掘手段。只有這樣,才可以為各行業(yè)提供必要的決策依據(jù),服務(wù)于數(shù)據(jù)挖掘的整體質(zhì)量提高。
參考文獻(xiàn)
[1]朱東華,張嶷,汪雪鋒等. 大數(shù)據(jù)環(huán)境下技術(shù)創(chuàng)新管理方法研究[J]. 科學(xué)學(xué)與科學(xué)技術(shù)管理,2013(04):172-180.
[2]王蘭成,劉曉亮. 網(wǎng)上數(shù)字檔案大數(shù)據(jù)分析中的知識(shí)挖掘技術(shù)研究[J]. 浙江檔案,2013(10):14-19.
[3]李海林.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J].計(jì)算機(jī)時(shí)代,2014(02):54-55.
[4]盧建昌,樊圍國(guó). 大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)在電力企業(yè)中的應(yīng)用[J]. 廣東電力,2014(09):88-94.
[5]黃取治. 大數(shù)據(jù)環(huán)境下O2O電商用戶數(shù)據(jù)挖掘探討[J]. 湖南科技學(xué)院學(xué)報(bào),2015(05):122-124.
[6]杜鋼虎. 大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)芻議[J]. 電子技術(shù)與軟件工程,2015(14):221.
數(shù)據(jù)安全論文 數(shù)據(jù)采集論文 數(shù)據(jù)報(bào)告 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)安全 數(shù)據(jù)統(tǒng)計(jì)論文 數(shù)據(jù)通信論文 數(shù)據(jù)分析設(shè)計(jì) 數(shù)據(jù)庫(kù)論文 紀(jì)律教育問(wèn)題 新時(shí)代教育價(jià)值觀