前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)挖掘技術(shù)范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:數(shù)據(jù)挖掘;神經(jīng)元;方法;應(yīng)用;發(fā)展
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 12-0000-02
一、引言
伴隨信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)庫規(guī)模與應(yīng)用的不斷擴(kuò)大,大量數(shù)據(jù)隨之產(chǎn)生。新增的數(shù)據(jù)包含了重要的信息,人們希望更好地利用這些數(shù)據(jù),并通過進(jìn)行更高層次的數(shù)據(jù)分析,為決策者提供更寬廣的視野。
現(xiàn)今,很多領(lǐng)域已建立了相應(yīng)的數(shù)據(jù)倉庫。但人們無法辨別隱藏在海量數(shù)據(jù)中有價信息,傳統(tǒng)的查詢方式無法滿足信息挖掘的需求。因此,伴隨著數(shù)據(jù)倉庫技術(shù)不斷發(fā)展并逐漸完善的一種從海量信息中提取有價潛在信息的嶄新數(shù)據(jù)分析技術(shù)------數(shù)據(jù)挖掘(Data Mining)技術(shù)應(yīng)運(yùn)而生。
二、數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘技術(shù)從1990年左右開始,發(fā)展速度很快,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和不斷發(fā)展可使得人們對當(dāng)今世界的海量數(shù)據(jù)中隱藏著人們所需要的商業(yè)和科學(xué)信息等重要信息進(jìn)行挖掘。數(shù)據(jù)挖掘運(yùn)用到交叉學(xué)科,涉及到,包括Database、AI、Machine Learning、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)、統(tǒng)計學(xué)(statistics)、模式識別(Pattern Recognition)、信息檢索(Information Retrieval)和數(shù)據(jù)庫可視化等,因此數(shù)據(jù)庫目前還沒有明確的定義。通常普遍認(rèn)可的數(shù)據(jù)挖掘定義是:從數(shù)據(jù)庫中抽取隱含的、以前未知的、有潛在應(yīng)用價值的模型或規(guī)則等有用知識的復(fù)雜過程,是一類深層次的數(shù)據(jù)分析方法。
三、數(shù)據(jù)挖掘方法
由于數(shù)據(jù)挖掘技術(shù)研究融合了不同學(xué)科技術(shù),在研究方法上表現(xiàn)為多樣性。從統(tǒng)計學(xué)角度上劃分,數(shù)據(jù)挖掘技術(shù)模型有:線形/非線形分析、回歸/邏輯回歸分析、單/多變量分析、時間序列/最近序列分析和聚類分析等方法。通過運(yùn)用這些技術(shù)可以檢索出異常形式數(shù)據(jù),最后,利用多種統(tǒng)計和數(shù)學(xué)模型對上述數(shù)據(jù)進(jìn)行解釋,發(fā)掘出隱藏在海量數(shù)據(jù)后的規(guī)律和知識。
(一)數(shù)據(jù)挖掘統(tǒng)計
統(tǒng)計學(xué)為數(shù)據(jù)挖掘技術(shù)提供了判別方法與分析方法,經(jīng)常會用到的有貝葉斯推理(Bayesian reasoning; Bayesian inference)、回歸分析(Regression analysis)、方差分析(Analysis of Variance,簡稱ANOVA)等分析技術(shù)、貝葉斯推理是在估計與假設(shè)統(tǒng)計歸納基礎(chǔ)上發(fā)展的全新推理方法。貝葉斯推理在與傳統(tǒng)統(tǒng)計歸納推理方法相比較,所得出的結(jié)論不僅根據(jù)當(dāng)前觀察得到的樣本信息,還將根據(jù)推理者過去相關(guān)的經(jīng)驗(yàn)和知識來處理數(shù)據(jù)挖掘中遇到的分類問題;回歸分析是通過輸入變量和輸出變量來確定變量之間的因果關(guān)系,通過建立回歸模型,根據(jù)實(shí)測數(shù)據(jù)求解模型的各參數(shù),若能很好的擬合,則可根據(jù)自變量進(jìn)一步預(yù)測。統(tǒng)計方法中的方差分析是通過分析研究中估計回歸直線的性能和自變量對最終回歸的貢獻(xiàn)大小,從而確定可控因素對研究結(jié)果影響力的大小。
(二)聚類分析(Cluster analysis )
聚類分析(Cluster analysis)是將一組研究對象分為相對同質(zhì)的群組(clusters)的統(tǒng)計分析技術(shù)。 同組內(nèi)的樣本具有較高相似度,常用技術(shù)有分裂/凝聚算法,劃分/增量聚類。聚類方法適用于研究群組內(nèi)的關(guān)系,并對群組結(jié)構(gòu)做出相應(yīng)評價。同時,聚類分析為了更容易地使某個對象從其他對象中分離出來的方法用于檢測孤立點(diǎn)。聚類分析已被應(yīng)用于經(jīng)濟(jì)分析(Economic analysis)、模式識別(Pattern Recognition)、圖像處理(image processing)等多種領(lǐng)域。
(三)機(jī)器學(xué)習(xí)(Machine Learning)
機(jī)器學(xué)習(xí)方法經(jīng)過多年的研究已相對完善,通過建立人類的認(rèn)識模型、模仿人類的學(xué)習(xí)方法從海量數(shù)據(jù)中提取信息與知識,在很多領(lǐng)域已取得了一些較滿意的成果。因此利用目前比較成熟的機(jī)器學(xué)習(xí)方法可以提供數(shù)據(jù)挖掘效率。
(四)數(shù)據(jù)匯總
數(shù)據(jù)庫中的數(shù)據(jù)和對象經(jīng)常包含原始概念層上的詳細(xì)信息,將數(shù)據(jù)集通過數(shù)據(jù)立方體和面向?qū)ο蟮臍w納方法由低概念層抽象到高概念層,并對數(shù)據(jù)歸納為更高概念層次信息的數(shù)據(jù)挖掘技術(shù)。
(五)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)
神經(jīng)網(wǎng)絡(luò)是一種模范動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。近年來在解決數(shù)據(jù)挖掘中遇到的問題越來越受到人們的關(guān)注,源于人工神經(jīng)網(wǎng)絡(luò)具有良好的自組織自適應(yīng)性、并行處理、分布式存儲和高容錯等特性,并通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,達(dá)到處理信息的目的。
(六)遺傳算法(Genetic Algorithm)
遺傳算法(Genetic Algorithm)是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過程的計算模型,是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法,是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。遺傳算法可直接對結(jié)構(gòu)對象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定,能自動獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向。遺傳算法已被人們廣泛地應(yīng)用于多種學(xué)科領(lǐng)域。
(七)粗糙集
粗糙集是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效地分析不精確,不一致(inconsistent)、不完整(incomplete) 等各種不完備的信息,還可以對數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律。粗糙集理論應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
四、數(shù)據(jù)挖掘技術(shù)發(fā)展趨勢
當(dāng)前,數(shù)據(jù)挖掘技術(shù)不斷創(chuàng)新與發(fā)展,數(shù)據(jù)挖掘技術(shù)開發(fā)研究人員、系統(tǒng)應(yīng)用人員所面對的主要問題:高效、有效的數(shù)據(jù)挖掘方法和相應(yīng)系統(tǒng)的開發(fā);交互和集成的數(shù)據(jù)挖掘環(huán)境的建立以及在實(shí)際應(yīng)用中解決大型問題。
五、小結(jié)
數(shù)據(jù)挖掘技術(shù)涉及到多種學(xué)科技術(shù),如:數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索及空間數(shù)據(jù)分析等。因此,數(shù)據(jù)挖掘是非常有前景的研究領(lǐng)域,隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,它將會廣泛而深入地應(yīng)用到人類社會的各個領(lǐng)域。
參考文獻(xiàn):
[1]羅可,蔡碧野.數(shù)據(jù)挖掘及其發(fā)展研究[J].計算機(jī)工程與應(yīng)用,2002
[2]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2000
[3]劉毅勇.情報分析智能輔助決策方法及其軍事應(yīng)用[M].北京:國防大學(xué)出版社,2001
[4]唐曉萍.數(shù)據(jù)挖掘技術(shù)及其在指揮控制系統(tǒng)中的應(yīng)用[J].火力與指揮控制,2002
[5]Alex Berson,Stephen J.Smith,Data Warehousing,Data Mining,&OLAP[M], McCraw-Hill Book Co,1997
[6]吳修霆.SAS數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)[J].微電腦世界,2000, Vol.14:pp44-45
[7] INDERPAL BHANDARI, EDWARD COLET, JENNIFER PARKER, ZACHARYPINES, RAJIV PRATAP, KRISHNAKMAR RAMANUJAM. Advanced Scout: Data Mining and Knowledge Discovery in NBA Data. Data Mining and Knowledge Discovery,1997,1:121~125
關(guān)鍵詞:數(shù)據(jù)挖掘;用戶偏好;考試系統(tǒng);入侵檢測
中圖法分類號:TP274文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2010)22-6231-02
Survey on Data Mining Technology
WANG Wen
(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)
Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.
Key words: data mining; user preference; examination system; intrusion detection system
隨著時代的發(fā)展,計算機(jī)科學(xué)在以飛快的速度前進(jìn)著。在計算機(jī)科學(xué)的眾多領(lǐng)域中,人工智能是最富有挑戰(zhàn)性和創(chuàng)造性的一個領(lǐng)域。近幾十年來,隨著人工智能技術(shù)的日漸成熟,人們對人工智能的研究更加深入,對人工智能更加重視。科學(xué)界對于人工智能的重要性也已形成共識。
自進(jìn)入21世紀(jì)以來,電子數(shù)據(jù)獲取與計算機(jī)技術(shù)方面的不斷發(fā)展以及網(wǎng)絡(luò)的廣泛普及與應(yīng)用,人們?nèi)粘I钪薪邮盏臄?shù)據(jù)和信息較以往正以飛快的速度增加,因而形成了獨(dú)特的知識爆炸時代。就在最近幾十年很多超大型數(shù)據(jù)庫的產(chǎn)生使得整個社會發(fā)生著天翻地覆的變化,遍及銀行存款、超級市場銷售、粒子物理、天文學(xué)、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計等領(lǐng)域。在這個數(shù)字化、信息化時代,這么大規(guī)模的數(shù)據(jù)庫以及以后可能誕生的更大規(guī)模的數(shù)據(jù)庫的數(shù)據(jù)管理問題將會是以后對數(shù)據(jù)處理的一個重要關(guān)注點(diǎn)。眾多科技工作者共同關(guān)注的焦點(diǎn)集中在了如何從這些大型數(shù)據(jù)庫中發(fā)現(xiàn)有用的、信息、模式以及如何實(shí)現(xiàn)有效的數(shù)據(jù)處理方法。因而“數(shù)據(jù)挖掘”(Data Mining) 的新領(lǐng)域逐漸走進(jìn)了人們的事業(yè),并且在人們的關(guān)注和不斷研究下飛速發(fā)展,這是一個與統(tǒng)計學(xué)、人工智能、模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)以及高性能并行計算等領(lǐng)域都有很大相關(guān)的新學(xué)科,正是計算機(jī)學(xué)科的一個研究重點(diǎn)。
1 數(shù)據(jù)挖掘的一般過程
數(shù)據(jù)挖掘一般分為如下四個步驟(圖1)。
1.1 數(shù)據(jù)預(yù)處理
收集和凈化來自各種數(shù)據(jù)源或數(shù)據(jù)倉庫的信息,并加以存儲, 一般存于數(shù)據(jù)倉庫中。
1.2 模型搜索
利用數(shù)據(jù)挖掘在數(shù)據(jù)庫中匹配模型,這個搜索過程可以由系統(tǒng)自動執(zhí)行,自下而上搜索原始數(shù)據(jù)以發(fā)現(xiàn)它們之間的某種聯(lián)系;也可以進(jìn)行用戶交互,由分析人員發(fā)問,自頂向下尋找以驗(yàn)證假設(shè)的正確性。一個問題的搜索過程可能用到許多模型,如神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的系統(tǒng)(決策樹)、機(jī)器學(xué)習(xí)、基于實(shí)例的推理等。
1.3 評價輸出結(jié)果
一般來說,數(shù)據(jù)挖掘的搜索過程需要反復(fù)多次,當(dāng)分析人員評價輸出結(jié)果后,它們可能會形成一些新的問題,或者要求對某一方面作更精細(xì)的查詢,通過反復(fù)的搜索過程即可滿足分析人員的這種需求。
1.4 生成報告
知識的發(fā)現(xiàn)過程可以由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示等幾個步驟組成。數(shù)據(jù)挖掘可以與用戶或知識庫交互,把用戶關(guān)心的模式提交給廣大用戶,或作為新的知識存放在知識庫中。
2 數(shù)據(jù)挖掘應(yīng)用
2.1 數(shù)據(jù)挖掘在實(shí)現(xiàn)網(wǎng)站用戶偏好度的應(yīng)用
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問題。使數(shù)據(jù)能夠被更加高效的利用,對無用的數(shù)據(jù)加以摒棄,是數(shù)據(jù)挖掘技術(shù)最主要的實(shí)現(xiàn)形式,也是其最重要的應(yīng)用方式。傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)相對于Web的數(shù)據(jù)而言,其結(jié)構(gòu)性很強(qiáng),是完全結(jié)構(gòu)化的數(shù)據(jù),而半結(jié)構(gòu)化則是Web上的數(shù)據(jù)最大特點(diǎn)。因而,面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘較之面向Web的數(shù)據(jù)挖掘比要簡單許多。據(jù)統(tǒng)計,網(wǎng)站上的絕大部分內(nèi)容對絕大部分用戶來說是無用的信息。事實(shí)是對于某個特定用戶來說,其關(guān)心的內(nèi)容僅是網(wǎng)站上極小部分的內(nèi)容,而網(wǎng)站上提供的更多的內(nèi)容對于這個用戶來說是其不感興趣的,并且過多的信息往往會掩蓋有用的信息,使得用戶的查詢效率降低,并且對于網(wǎng)站也不是一件利事。
對于Web數(shù)據(jù)挖掘技術(shù)而言,半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題是應(yīng)當(dāng)首要解決的問題。解決Web上的異構(gòu)數(shù)據(jù)的集成與查詢問題,有一個模型來清晰地描述Web上的數(shù)據(jù)是很必要的。因此,針對數(shù)據(jù)半結(jié)構(gòu)化的Web數(shù)據(jù)的特點(diǎn),尋找一個半結(jié)構(gòu)化的數(shù)據(jù)模型至關(guān)重要。并且除此定義一個半結(jié)構(gòu)化數(shù)據(jù)模型之外,一種半結(jié)構(gòu)化模型抽取技術(shù)(自動地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù))也是應(yīng)當(dāng)提出的。因而半結(jié)構(gòu)化模型和半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù)是面向Web的數(shù)據(jù)挖掘?qū)崿F(xiàn)的重要前提。
用戶瀏覽網(wǎng)站上的內(nèi)容時,他會被很的多因素影響,網(wǎng)頁的外觀,信息標(biāo)題,網(wǎng)頁鏈接以及個人的興趣和習(xí)慣等等。我們可以設(shè)定合理的假設(shè),建立他們之間的模型,利用以上提到的方法解決用戶偏好度的問題。
2.2 數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用
數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用最主要體現(xiàn)在題庫的構(gòu)建,下面分別介紹題庫的構(gòu)建中數(shù)據(jù)挖掘的應(yīng)用情況。
在設(shè)計數(shù)據(jù)庫方面,數(shù)據(jù)庫主要由題庫、答案庫和答案關(guān)鍵字庫構(gòu)成,題型庫又涵括科目、題號、題型、題目、難度、分值等字段;答案庫中包含科目、題號、分值、答案以及在同一題中有不同答案時應(yīng)提供的不同答案序號等字段;答案關(guān)鍵字庫中有題號、答案序號、權(quán)重和答案關(guān)鍵字。此后在將答案錄入答案庫。對于客觀題而言,僅僅需要錄入唯一的答案;但對于主觀題而言,則需要盡量給出多個參考答案并將每個答案的關(guān)鍵字及其所對應(yīng)的權(quán)值、答案序號輸入答案關(guān)鍵字庫。
通常有兩類數(shù)據(jù)挖掘方法:①統(tǒng)計型,應(yīng)用概率分析、相關(guān)性、聚類分析和判別分析等技術(shù)得以實(shí)現(xiàn);②通過人工智能中的機(jī)器學(xué)習(xí),經(jīng)過訓(xùn)練以及學(xué)習(xí)輸入大量的樣品集,以得出需要的模式或參數(shù)。由于每一種方法都根據(jù)其特點(diǎn)都有其優(yōu)勢以及相應(yīng)的引用領(lǐng)域,最后結(jié)果的質(zhì)量和效果將受到數(shù)據(jù)挖掘技術(shù)選擇的影響,采用多種技術(shù)結(jié)合的方法,其各自的優(yōu)勢可以達(dá)到互補(bǔ)的要求,從而實(shí)現(xiàn)最佳配置。下面介紹了兩種數(shù)據(jù)挖掘方法: ①決策樹算法:為每個問題的答案構(gòu)造一個二叉樹,每個分支或者是一個新的決策點(diǎn),或者是一個葉子節(jié)點(diǎn)。在沿著決策樹從上到下的遍歷過程中,對每個問題的不同回答導(dǎo)致不同的分支,最后到達(dá)一個葉子節(jié)點(diǎn),每個葉子節(jié)點(diǎn)都會對應(yīng)確定的權(quán)值,通過對權(quán)值的計算判定得分;②模糊論方法:利用模糊集合理論,對實(shí)際問題進(jìn)行模糊判斷、模糊決策、模糊模式識別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫中的答案進(jìn)行對照,以確定答案的正確度,從而更客觀準(zhǔn)確地評定主觀題分?jǐn)?shù)。
2.3 數(shù)據(jù)挖掘在網(wǎng)絡(luò)入侵檢測系統(tǒng)方面的應(yīng)用
入侵檢測就是通過運(yùn)用一些分析方法對從各種渠道獲得的反映網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)行為的數(shù)據(jù)進(jìn)行分析、提煉,再根據(jù)分析結(jié)果對這些數(shù)據(jù)進(jìn)行評價,從而能夠識別出正常和異常的數(shù)據(jù)或者對潛在的新型入侵做出預(yù)測,以保證網(wǎng)絡(luò)的安全運(yùn)行。
基于分布式數(shù)據(jù)挖掘的入侵檢測系統(tǒng)要對一個網(wǎng)段上的信息進(jìn)行全面而細(xì)致的監(jiān)測,同時在網(wǎng)絡(luò)上多個點(diǎn)進(jìn)行數(shù)據(jù)采集,如網(wǎng)關(guān)和特別需要保護(hù)的服務(wù)器等。整個系統(tǒng)構(gòu)成分為本地分類器、規(guī)則學(xué)習(xí)模塊和集中分類器三塊基本構(gòu)件。本地分類器負(fù)責(zé)對從網(wǎng)絡(luò)上各個點(diǎn)采集到的數(shù)據(jù)通過預(yù)處理模塊去除掉無效數(shù)據(jù),并將原始數(shù)據(jù)處理成為以后進(jìn)行數(shù)據(jù)挖掘算法可識別的格式,以實(shí)現(xiàn)對數(shù)據(jù)的初步檢測和處理。本地分類器有2個輸出:一個輸出為分類數(shù)據(jù),用于提交給規(guī)則學(xué)習(xí)模塊,另外一個為數(shù)據(jù)摘要,用于提交給集中分類器。規(guī)則學(xué)習(xí)模塊負(fù)責(zé)對標(biāo)記過的分類數(shù)據(jù)進(jìn)行深層次的數(shù)據(jù)挖掘,從而學(xué)習(xí)到新的知識。學(xué)習(xí)到的知識被直接錄入到規(guī)則庫中,這樣保證了規(guī)則庫可以根據(jù)網(wǎng)上的變化可以隨時達(dá)到更新的需求。另外一種方式是通過規(guī)則學(xué)習(xí)模塊實(shí)現(xiàn)人工訓(xùn)練系統(tǒng),從而實(shí)現(xiàn)升級規(guī)則庫的需求。最后將分布式數(shù)據(jù)挖掘的結(jié)果形成數(shù)據(jù)摘要發(fā)送給集中分類器,由集中分類器對各點(diǎn)數(shù)據(jù)摘要進(jìn)行匯集,從而做出綜合判斷,達(dá)到有效地檢測協(xié)同攻擊的效果,最后將檢測結(jié)果提交給決策模塊。
3 結(jié)束語
數(shù)據(jù)挖掘技術(shù)是人工智能學(xué)科的一個重要分支,也是現(xiàn)代計算機(jī)科學(xué)的一個研究重點(diǎn)?,F(xiàn)在基于數(shù)據(jù)挖掘技術(shù)的科研可以說是碩果累累,自從人工智能這個概念被提出來之后,其發(fā)展一直是計算機(jī)學(xué)科的熱門而且其分支廣而泛,都在不同的領(lǐng)域發(fā)揮著十分重要的作用。相信在計算機(jī)研究人員的不斷努力下數(shù)據(jù)挖掘會在更多的方面服務(wù)人們,并且期待著新的理論的提出。
參考文獻(xiàn):
[1] 何克抗.建立題庫的理論[M].長沙:國防科技大學(xué)出版社,1995.
[2] 劉波,段麗艷.一個基于Internet的通用題庫系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J].華南師范大學(xué)學(xué)報:自然科學(xué)版,2000(1):39-44.
[3] 王實(shí),高文.數(shù)據(jù)挖掘中的聚類方法[J].計算機(jī)科學(xué),2000,27(4):42-45.
隨著科技的進(jìn)一步發(fā)展,已經(jīng)帶動著各大領(lǐng)域的創(chuàng)新和發(fā)展。而我國在近年來,城市信息化的普及也在不斷推進(jìn),網(wǎng)絡(luò)技術(shù)的改革和發(fā)展也顯得格外重要。而特別很多企業(yè)對于自身的信息和數(shù)據(jù)儲存、共享以及處理都格外注重,要求技術(shù)本身要包含安全性、便捷性以及可靠性。,而是在大數(shù)據(jù)提出后,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一種新的主流技術(shù),而研究數(shù)據(jù)挖掘技術(shù)的理念、方法以及應(yīng)用領(lǐng)域,將對我國工程施工領(lǐng)域的未來帶來更多的機(jī)遇和挑戰(zhàn)。
關(guān)鍵詞:
大數(shù)據(jù)時代數(shù)據(jù)挖掘技術(shù)分析和研究運(yùn)用數(shù)據(jù)挖掘技術(shù),也被稱為數(shù)字處理技術(shù),顧名思義,就是對于目前各大企業(yè)的內(nèi)部數(shù)據(jù),進(jìn)行整理、調(diào)整、挖掘?qū)嵤┮约霸u估等一系列處理操作,其主要的目標(biāo)是保證全局?jǐn)?shù)據(jù)都能夠得到充分的優(yōu)化。而大數(shù)據(jù)則是區(qū)分于以往抽樣調(diào)查的方法,而是對于全局?jǐn)?shù)據(jù)進(jìn)行分析,從而保證分析的全面以及完成。而大數(shù)據(jù)技術(shù)也包含4個優(yōu)點(diǎn),即高數(shù)量、高速度、多元化以及高價值。而筆者將通過本文,就大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用進(jìn)行分析和探討。
1相關(guān)概念的簡介
1.1大數(shù)據(jù)的概念關(guān)于大數(shù)據(jù)的理念提出,可以追溯到麥肯錫研究院于2011年的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》,其中闡述的觀念就涵蓋數(shù)據(jù)方面,即數(shù)據(jù)已經(jīng)融入到了人們的日常生活中,也是生產(chǎn)運(yùn)作的一個重要因素。而大數(shù)據(jù)的運(yùn)用,對于消費(fèi)以及生產(chǎn)水平都是一種有效的提升提升,根據(jù)美國曾經(jīng)的《大數(shù)據(jù)研究和發(fā)展倡議》資料,截至2011年一年,全球總的數(shù)據(jù)就增加了1.8ZB,而進(jìn)行人均計算,相當(dāng)于每個人都具有至少200GB的數(shù)據(jù)資源,而且這一數(shù)據(jù)還在呈現(xiàn)出日益增長的趨勢,根據(jù)統(tǒng)計計算,這一數(shù)值將會按照約為50%/年的速度增長。
1.2數(shù)據(jù)挖掘作為一個新型學(xué)科,數(shù)據(jù)挖掘技術(shù)源于20世紀(jì)的80年代,那時其效用與目前存在本質(zhì)差異,科學(xué)家最初研究大數(shù)據(jù),主要是用于一些人工智能技術(shù)的開發(fā)。簡而言之,技術(shù)層面上,數(shù)據(jù)挖掘就是一個對數(shù)據(jù)進(jìn)行發(fā)掘創(chuàng)新的過程,即要求目標(biāo)數(shù)據(jù)具有隱蔽性、挖掘價值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機(jī)的、模糊的數(shù)據(jù)庫中進(jìn)行挖掘;而對于商業(yè)層面上來說,數(shù)據(jù)挖掘就是在一些大量的數(shù)據(jù)信息中獲得規(guī)律以及價值信息,從而為決策提供重要的知識憑據(jù)。
2數(shù)據(jù)挖掘的研究手段
對于數(shù)據(jù)挖掘而言,不同的研究手段將是其開展的重要基礎(chǔ),而研究手段的決定,主要需要依靠科學(xué)的計算為依據(jù),分析和對比數(shù)據(jù)中存在的一些不為人知的規(guī)則,然后通過研究手段的改變?nèi)?yīng)付不同的問題,對于實(shí)際操作來說,就是針對不同的數(shù)據(jù)找出不同的解決方法,而常見數(shù)據(jù)挖掘的研究手段主要可以分為四類,即聚類研究、分類和預(yù)測以及關(guān)聯(lián)研究。
2.1聚類研究將抽選的數(shù)據(jù)或者對象的庫進(jìn)行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數(shù)據(jù)劃分為一個組類,由此建立起多個組類開展研究的過程。整個過程突出的是一種無知識基礎(chǔ)、無監(jiān)督管控的學(xué)習(xí)過程。而整個過程由于分類研究有本質(zhì)的差異,因?yàn)榫垲愌芯吭谑孪雀緹o法得到目標(biāo)的重要屬性數(shù)據(jù),而這種分析方法主要可以用于多個區(qū)域,例如心理、統(tǒng)計、醫(yī)藥、銷售以及數(shù)據(jù)識別等,而根據(jù)其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對于前者來說,就是將目標(biāo)按照影響標(biāo)準(zhǔn)進(jìn)行劃分,即目標(biāo)如果屬于某類,必定不屬于其他類;而對于后者來說,主要取決與隸屬度的取值不同。而劃分過程可能會將目標(biāo)劃分入多個聚類中。此外聚類的計算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網(wǎng)格算法以及模型算法等等。
2.2分類與估測對于分類與數(shù)值估測來說,都是屬于是問題預(yù)測方式,其中前者要求估測各個類中的標(biāo)號,這些標(biāo)號都是分散且無規(guī)律的,而估測方法可以采用函數(shù)模型,要求模型類型為連續(xù)值函數(shù)。分類估測作為數(shù)據(jù)挖掘的起始工作,主要需要反應(yīng)已經(jīng)獲知的訓(xùn)練數(shù)據(jù)庫的特點(diǎn),從而根據(jù)以上基礎(chǔ)完成其中對每一類的情況以及特點(diǎn)完成相應(yīng)的分類操作,而整個操作也是受到督促的,對于一般的分類算法可以有決策樹、粗糙集、貝葉斯、遺傳等算法,而估測主要是基于分類以及回歸基礎(chǔ),估測數(shù)據(jù)將來的動向,即包含局勢外推、時間序列以及回歸分析幾類。
2.3關(guān)聯(lián)研究關(guān)聯(lián)研究是源于自然生物間微妙的關(guān)系,而某事情的發(fā)生和發(fā)展也會引發(fā)連鎖的事情發(fā)展,也就類似所謂“蝴蝶效應(yīng)”的定義。而關(guān)聯(lián)研究的研究目標(biāo)即是研究物與物之間的微妙關(guān)系,包含一些依賴關(guān)系等等,從而找出其中的規(guī)則,基于規(guī)則,分析將來的動向。以購物為例,分析購物者的心理規(guī)律以及習(xí)慣,可以從他們對于購物的一系列表現(xiàn),例如購物籃的物品類型、放置規(guī)律、購物消費(fèi)理念、購物環(huán)境需求等等,而掌握這些規(guī)律,足以讓一個銷售企業(yè)獲得巨大的消費(fèi)市場以及商機(jī)。
3大數(shù)據(jù)時代的數(shù)據(jù)挖掘的運(yùn)用
3.1數(shù)據(jù)準(zhǔn)備準(zhǔn)備流程需要依附于研究者已經(jīng)建立起長期且豐富數(shù)據(jù)資源的數(shù)據(jù)庫,而根據(jù)這些無規(guī)則的原始數(shù)據(jù)進(jìn)行相應(yīng)的挖掘前的準(zhǔn)備的工作,例如數(shù)據(jù)的處理、擇取、清除、推敲以及轉(zhuǎn)變,作為基礎(chǔ)的流程,數(shù)據(jù)準(zhǔn)備操作在整個流程中起到重要的基礎(chǔ)作用。
3.2數(shù)據(jù)挖掘開展數(shù)據(jù)挖掘操作,需要根據(jù)挖掘?qū)ο蟮那闆r擇選最優(yōu)的計算方法,從而獲取其中的規(guī)律性,例如對應(yīng)采用決策樹算法、分類算法、神經(jīng)網(wǎng)絡(luò)算法以及Apriori算法等。
3.3數(shù)據(jù)挖掘的模式評估研究模式評估的對象主要是通過數(shù)據(jù)挖掘處理過程數(shù)據(jù),而評估流程是了解、研究且取得其中數(shù)據(jù)的規(guī)則,然后對數(shù)據(jù)進(jìn)行轉(zhuǎn)變“翻譯”成通俗易懂的語言,供人們?nèi)パ芯亢退伎肌?/p>
3.4數(shù)據(jù)挖掘的知識應(yīng)用知識應(yīng)用是數(shù)據(jù)挖掘的最后一步,通常知識運(yùn)用就是一種現(xiàn)實(shí)運(yùn)用的過程,通過數(shù)據(jù)準(zhǔn)備、挖掘、研究評估,最后將結(jié)果數(shù)據(jù)或者規(guī)律用于現(xiàn)實(shí)中,從而體現(xiàn)數(shù)據(jù)的本身的價值,這就是知識應(yīng)用的內(nèi)涵。
4大數(shù)據(jù)時代的數(shù)據(jù)挖掘的運(yùn)用
4.1市場營銷方面市場營銷行業(yè)已經(jīng)是目前數(shù)據(jù)挖掘采用最多的行業(yè),數(shù)據(jù)挖掘的作用主要體現(xiàn)在的對于消費(fèi)者群體的消費(fèi)習(xí)慣以及行為進(jìn)行解析,從而改變銷售方法,提升產(chǎn)品的銷售量,此外,除了一些購物消費(fèi)以外,數(shù)據(jù)挖掘技術(shù)以及拓展到了各大金融行業(yè),例如保險行業(yè)、銀行行業(yè)以及電子商務(wù)行業(yè)等等。例如:在市場營銷方面,采用數(shù)據(jù)挖掘中的聚類研究,即客戶一系列無規(guī)則、無意識的行為數(shù)據(jù),對他們進(jìn)行識別,即根據(jù)客戶的忠誠度、消費(fèi)意識進(jìn)行分類,幫助企業(yè)尋找其中的潛在客戶以及固定客戶群。
4.2數(shù)據(jù)挖掘的科學(xué)分析科學(xué)本身就是一個尋找規(guī)律、發(fā)現(xiàn)規(guī)律以及利用規(guī)律的過程,而且任何科學(xué)研究都是需要基于數(shù)據(jù)作為基礎(chǔ),所以數(shù)據(jù)挖掘?qū)τ诳茖W(xué)領(lǐng)域也具有重要的意義和價值,特別是針對一些未知的事物、領(lǐng)域或者知識,通過數(shù)據(jù)挖掘可以有效展示數(shù)據(jù)規(guī)則。例如對于太空行星的分析,遺傳基因DNA的數(shù)據(jù)以及遺傳規(guī)律等。
4.3制造業(yè)與其他行業(yè)不同,制造業(yè)運(yùn)用數(shù)據(jù)挖掘的目的主要是產(chǎn)品質(zhì)量檢查方面,例如研究產(chǎn)品的數(shù)據(jù),找出其中規(guī)則。分析整體生產(chǎn)流程,解析其中過程,找出影響生產(chǎn)質(zhì)量以及效率的問題,然后通過對這些問題進(jìn)行解決,提升企業(yè)經(jīng)濟(jì)效益。對于制造業(yè)而言,數(shù)據(jù)挖掘運(yùn)用主要體現(xiàn)在決策方面,即首先通過數(shù)據(jù)篩選,獲取有用的知識和數(shù)據(jù),然后采用決策樹算法,統(tǒng)計決策,然后選擇其中正確的決策,即像根據(jù)目前產(chǎn)品的流行情況,預(yù)測目前生產(chǎn)產(chǎn)品的受歡迎度,然后決策生產(chǎn)的時間以及周期。
4.4教育方面對于教育行業(yè)來說,最重要的除了教師的教學(xué)方法以外,學(xué)生的學(xué)習(xí)情況、心理動向以及教學(xué)評估都是十分重要的,采用數(shù)據(jù)挖掘技術(shù),則可以有效將這些數(shù)據(jù)通過分類、篩選以及處理,得出有效的數(shù)據(jù)規(guī)則,供學(xué)校教學(xué)改革時進(jìn)行參考。例如:教學(xué)質(zhì)量評估數(shù)據(jù)挖掘模塊的開發(fā),即將教學(xué)質(zhì)量相關(guān)的項(xiàng)目通過QSLSevrer進(jìn)行整合和存儲,例如教學(xué)準(zhǔn)備、教學(xué)內(nèi)容、教學(xué)方式以及教學(xué)態(tài)度等,最后學(xué)生可以進(jìn)行自行瀏覽并且完成評估,而評估結(jié)果則會上傳系統(tǒng)進(jìn)行最后通過數(shù)據(jù)挖掘,篩選其中有用的信息,再通過Apr1ori算法挖掘其中關(guān)聯(lián)規(guī)律。
5結(jié)語
雖然數(shù)據(jù)挖掘技術(shù)不是一項(xiàng)新興的技術(shù),但是其還具有較大的研究價值與運(yùn)用前景,特別是在特殊領(lǐng)域的運(yùn)用,對于一系列數(shù)據(jù)進(jìn)行科學(xué)冗雜的處理,然后分析其中規(guī)則價值,可以有效提升各大行業(yè)的經(jīng)濟(jì)效益。
參考文獻(xiàn)
[1]趙倩倩,程國建,冀乾宇,戎騰學(xué).大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J].電腦知識與技術(shù),2014,11(33):7831-7833.
[2]韓英.淺析大數(shù)據(jù)時代的數(shù)據(jù)挖掘與精細(xì)管理[J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報,2013,12(04):63-71.
關(guān)鍵詞:數(shù)據(jù)挖掘;決策算法;遺傳算法;近鄰算法
中圖分類號:TP301 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-7712 (2013) 04-0065-01
一、數(shù)據(jù)挖掘概念及技術(shù)
數(shù)據(jù)挖掘就是又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-DiscoveryinDatabases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關(guān)系性(屬于Associationrulelearning)的信息的過程。數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。其實(shí)實(shí)質(zhì)是一種透過數(shù)理模式來分析企業(yè)內(nèi)儲存的大量資料,以找出不同的客戶或市場劃分,分析出消費(fèi)者喜好和行為的方法。其方法如下:
(一)人工神經(jīng)網(wǎng)絡(luò):數(shù)據(jù)挖掘中使用最為廣泛的技術(shù),神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法就是通過模仿人的神經(jīng)系統(tǒng)來反復(fù)訓(xùn)練學(xué)習(xí)數(shù)據(jù)集,從待分析的數(shù)據(jù)中發(fā)現(xiàn)用于預(yù)測和分類的模式。神經(jīng)元網(wǎng)絡(luò)適用于結(jié)果比可理解性更重要的分類和預(yù)測的復(fù)雜情況,可用于聚類、關(guān)聯(lián)、演變分析和離散點(diǎn)分析。
(二)決策樹歸納算法:從關(guān)系數(shù)據(jù)庫中提取關(guān)聯(lián)規(guī)則是主要的數(shù)據(jù)挖掘方法之一,挖掘關(guān)聯(lián)是通過搜索系統(tǒng)中的所有事物,并從中找到出現(xiàn)條件概率較高的模式,適合于探測式知識的發(fā)現(xiàn),廣泛用于醫(yī)學(xué)、制造和生產(chǎn)、金融分析、天文學(xué)和分子生物學(xué)。
(三)遺傳算法:分類和預(yù)測是數(shù)據(jù)分析的兩種重要形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。主要方法包括:決策樹,判定樹、貝葉斯法、BP神經(jīng)網(wǎng)絡(luò)算法、遺傳算法、粗糙集、模糊集等。預(yù)測方法有經(jīng)典的統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等。
(四)近鄰算法。是對差異和極端特例的描述,揭示事物偏離常規(guī)的異?,F(xiàn)象,如標(biāo)準(zhǔn)類外的特例、數(shù)據(jù)聚類外的離群值等。所有這方面知識都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到宏觀,以滿足不同用戶不同層次決策的需要。
(五)規(guī)則推導(dǎo):屬于無指導(dǎo)學(xué)習(xí)。對象應(yīng)該根據(jù)最大化類的相似性、最小化類的相似性的原則進(jìn)行聚類或分組。
(六)復(fù)雜類型的數(shù)據(jù)挖掘:是數(shù)據(jù)挖掘技術(shù)的當(dāng)前一個重要的研究領(lǐng)域,極大提升了CRM數(shù)據(jù)分析能力的深度和廣度,主要包括:多媒體數(shù)據(jù)挖掘、文本挖掘和web挖掘等。
二、數(shù)據(jù)挖掘的實(shí)施
數(shù)據(jù)挖掘研究具有廣泛的應(yīng)用前景,它可以應(yīng)用于決策支持系統(tǒng),也可以應(yīng)用于數(shù)據(jù)庫管理系統(tǒng),現(xiàn)在關(guān)鍵問題是如何實(shí)施,以下談?wù)摂?shù)據(jù)挖掘步驟如下:
(一)理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding)。
(二)獲取相關(guān)知識與技術(shù)(acquisition)。
(三)整合與檢查數(shù)據(jù)(integrationandchecking)。
(四)去除錯誤或不一致的數(shù)據(jù)(datacleaning)。
(五)建立模型和假設(shè)(modelandhypothesisdevelopment)。
(六)實(shí)際數(shù)據(jù)挖掘工作(datamining)。
(七)測試和驗(yàn)證挖掘結(jié)果(testingandverification)。
(八)解釋和應(yīng)用(interpretationanduse)。
由上述步驟可看出,數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作,事實(shí)上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過程中,有80%的時間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接??梢?,在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準(zhǔn)備工作要完成。
三、數(shù)據(jù)挖掘應(yīng)用現(xiàn)狀和存在的問題
數(shù)據(jù)挖掘所有處理的問題就是在龐大的數(shù)據(jù)庫中找出有價值的隱藏事件,并且加以分析,獲取有意義的消息,歸納出有用的結(jié)構(gòu),作為企業(yè)決策的依據(jù)。在零售業(yè)中商家從顧客購買商品發(fā)現(xiàn)一定的關(guān)系,提供打折購物卷等;保險金融行業(yè)利用數(shù)據(jù)挖掘可以辨別出欺詐行為;在企業(yè)中,半導(dǎo)體生產(chǎn)和測試過程差生大量數(shù)據(jù),可以分析提高產(chǎn)品質(zhì)量;可以電子商務(wù)網(wǎng)站進(jìn)行分析,識別用戶的行為模式,優(yōu)化網(wǎng)站,提供個性化服務(wù)。當(dāng)前引用最廣的領(lǐng)域包括:數(shù)據(jù)庫營銷、交叉分析的市場分析行為,客戶流失性分析、客戶信用記分、欺詐發(fā)現(xiàn)、客戶群體區(qū)分。
目前面臨的問題:(1)數(shù)據(jù)挖掘的基本問題是數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結(jié)構(gòu)非常復(fù)雜。(2)面對龐大的數(shù)據(jù),現(xiàn)有的統(tǒng)計方法等都遇到了問題。(3)面對海量數(shù)據(jù),對數(shù)據(jù)變化的情況匯總分析做出考量和評價。(4)對于各種不同的模型應(yīng)用,其應(yīng)用效果進(jìn)行有效的評價。(5)如何對互聯(lián)網(wǎng)等非標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行分析。(6)數(shù)據(jù)挖掘過程中必須保證涉及到了數(shù)據(jù)安全性和隱私性,加強(qiáng)防護(hù)措施。(7)數(shù)據(jù)挖掘結(jié)果必須和專業(yè)知識結(jié)合。
四、數(shù)據(jù)挖掘未來發(fā)展的前景
數(shù)據(jù)挖掘基于關(guān)系模式、DBMS系統(tǒng)、SQL查詢等語言的方法理論為基礎(chǔ),涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)、統(tǒng)計學(xué)高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、信息檢索、圖像與信號處理以及空間或時間數(shù)據(jù)分析。有專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言;尋求數(shù)據(jù)挖掘中的可視化方法;在英特網(wǎng)上建立數(shù)據(jù)挖掘服務(wù)器并與數(shù)據(jù)庫服務(wù)器配合,實(shí)現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對非結(jié)構(gòu)化的數(shù)據(jù)挖掘如文本、圖形視屏、圖像、聲音乃至于多媒體數(shù)據(jù)挖掘技術(shù)。交互發(fā)現(xiàn)、提供交互、個性化服務(wù);能夠自動完成知識的維護(hù)和更新。
參考文獻(xiàn):
關(guān)鍵詞 數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;典型關(guān)聯(lián);Apriori算法
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-7597(2014)15-0030-03
當(dāng)今社會人們對計算機(jī)應(yīng)用提出了更高要求,如今人們慢慢的意識到關(guān)系數(shù)據(jù)庫有很多缺點(diǎn)和限制,這種問題又推動了數(shù)據(jù)庫在更深領(lǐng)域上的研究。當(dāng)前專家們對數(shù)據(jù)庫的研究內(nèi)容主要是把數(shù)據(jù)庫技術(shù)與其他技術(shù)相結(jié)合,然后應(yīng)用到特定領(lǐng)域中,這種研究現(xiàn)在已經(jīng)取得了驕人的成績。
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘概念
從數(shù)據(jù)挖掘的本質(zhì)上說它是一種具有更高商業(yè)價值的新型信息處理技術(shù),數(shù)據(jù)挖掘技術(shù)的作用是對數(shù)據(jù)的應(yīng)用來說的,其目的是使人們從低層次的聯(lián)機(jī)查詢過渡到對數(shù)據(jù)決策支持分析預(yù)測上,從而成為更高層次的應(yīng)用。
1.2 數(shù)據(jù)挖掘技術(shù)的分類
關(guān)于數(shù)據(jù)挖掘針對其挖掘的對象,大致的可以做出以下分類,具體分為時態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、文本數(shù)據(jù)源、關(guān)系數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫(Object-Oriented Database)、空間數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫以及web等比較具有針對性的挖掘?qū)ο蟆a槍?shù)據(jù)挖掘的方法大致的可以歸納為:計算機(jī)學(xué)習(xí)法、數(shù)理統(tǒng)計法、信息聚類分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡(luò)Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當(dāng)代數(shù)學(xué)分析法等。
根據(jù)數(shù)據(jù)挖掘技術(shù)的知識類型可以分為:廣義范圍的知識挖掘、差異范圍的知識挖掘、關(guān)聯(lián)范圍的知識挖掘、預(yù)測范圍的知識挖掘等。
1.3 數(shù)據(jù)挖掘的應(yīng)用分析
根據(jù)麻省理工學(xué)院內(nèi)部數(shù)據(jù)整理其科技評論雜志對數(shù)據(jù)挖掘技術(shù)的應(yīng)用分析提出了10大新興的科學(xué)技術(shù)數(shù)據(jù)挖掘能夠在未來5年對人類的生產(chǎn)生活帶來重大影響。根據(jù)種種數(shù)據(jù)分析所表明的問題我們不難發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)面向?qū)嶋H應(yīng)用方面不是一時的,隨著時代的發(fā)展社會信息化進(jìn)程不斷加劇各行業(yè)的業(yè)務(wù)操作也隨之逐漸向現(xiàn)代化流程轉(zhuǎn)變,這一轉(zhuǎn)變促使企業(yè)在處理業(yè)務(wù)時產(chǎn)生大量的業(yè)務(wù)信息數(shù)據(jù)。對于一般地企業(yè)內(nèi)部的業(yè)務(wù)信息數(shù)據(jù)來說,其主要是由企業(yè)進(jìn)行商業(yè)運(yùn)作而產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)的量一般比較少。這是都是企業(yè)為了獲得市場分析而進(jìn)行收集的,關(guān)于此類的數(shù)據(jù)挖掘的應(yīng)用終將成為企業(yè)進(jìn)行高層次數(shù)據(jù)分析,為行政決策提供技術(shù)支持的骨干技術(shù)。
1.4 數(shù)據(jù)挖掘技術(shù)和方法
1)統(tǒng)計方法。統(tǒng)計就是查找事物的數(shù)量或規(guī)律,數(shù)據(jù)挖掘技術(shù)中使用統(tǒng)計方法主要目的就是從事物的數(shù)量上來推斷其規(guī)律,通常都是在事物的數(shù)據(jù)上來找線索,然后根據(jù)這些線索進(jìn)行假設(shè),然后根據(jù)這些假設(shè)去驗(yàn)證其可行性,這種方法最大的優(yōu)點(diǎn)就是精確性。
2)模糊集。模糊集顧名思義就是不清楚,沒有針對性。模糊集的數(shù)據(jù)處理分為兩個方面一個方面是不完整的數(shù)據(jù),另一個方面就是不確定的數(shù)據(jù)。模糊數(shù)據(jù)主要處理這兩種數(shù)據(jù),在這兩種數(shù)據(jù)的處理上要比以往的數(shù)據(jù)處理更加方便有效。
3)支持向量機(jī)。向量機(jī)就是一些數(shù)學(xué)理論,支持向量機(jī)就是建立在某些數(shù)學(xué)理論上的結(jié)構(gòu)風(fēng)險。它主要的思想就是在一個高空的多維空間中找一個超平面,利用這個超平面把這兩類進(jìn)行隔開,這樣就可以保證最小分類的錯誤率。它的一個很重要的優(yōu)點(diǎn)就是可以處理一些線性問題。
4)規(guī)則歸納。規(guī)則的歸納就是對數(shù)據(jù)進(jìn)行相關(guān)的統(tǒng)計,其主要反映數(shù)據(jù)項(xiàng)中的一些屬性和集合,其中用的最多的歸納算法就是AQ法,它是歸納法中比較典型的,數(shù)據(jù)挖掘技術(shù)是目前計算機(jī)信息技術(shù)領(lǐng)域比較前言的研究方向,數(shù)據(jù)挖掘技術(shù)可以從數(shù)據(jù)庫中找出一些潛在的、位置的信息和知識。
2 時態(tài)約束關(guān)聯(lián)規(guī)則挖掘問題及算法
2.1 聚焦挖掘任務(wù),提高挖掘效率
數(shù)據(jù)挖掘理論最初的研究側(cè)重點(diǎn)是模型的建立以及算法的設(shè)計。隨著應(yīng)用于不同的場合,得出的結(jié)果證明單純而又孤立的挖掘工具效果并不理想。傳統(tǒng)的數(shù)據(jù)挖掘項(xiàng)目中,會進(jìn)行詳盡而反復(fù)的調(diào)研分析,并根據(jù)用戶的需求制定細(xì)致的任務(wù)計劃,最終的結(jié)果卻并不理想,不能得到想要的結(jié)果。在算法中,如果想要得到用戶的挖掘目標(biāo),除了算法之外,還需要有特定的實(shí)現(xiàn)機(jī)制,使得我們的挖掘計劃能夠轉(zhuǎn)變成對一個系統(tǒng)工作的控制,這樣才能使得挖掘項(xiàng)目能有期望的結(jié)果。這樣的約束,不需要局限于某一個挖掘數(shù)據(jù)的階段,在任何階段都可以實(shí)現(xiàn)。而這樣的算法機(jī)制,也是交互式數(shù)據(jù)挖掘算法的基本形式,通過這樣的過程,來達(dá)到更好以及快速地完成挖掘任務(wù)。
2.2 保證挖掘的精確性
從數(shù)據(jù)挖掘的算法也可以看出,結(jié)果具有不可預(yù)測性,而正因此,對于算法運(yùn)行的過程中,遇到的問題也是難以把握的,所以算法還需要加上反饋機(jī)制,通過這樣的反饋,來進(jìn)行驗(yàn)證結(jié)果并修正算法中的數(shù)據(jù),如果這個過程中,挖掘到的數(shù)據(jù)是正確的,但也未必是用戶所側(cè)重的,所以數(shù)據(jù)挖掘的結(jié)果不僅要具有邏輯上的正確性,還要能夠滿足用戶的主觀偏好;也就是既要準(zhǔn)確,還要可信且符合用戶需求。而約束就是這樣實(shí)現(xiàn)的,通過約束發(fā)現(xiàn)算法中的問題并及時校正算法,以最終能夠滿足各項(xiàng)需求。
2.3 控制系統(tǒng)的使用規(guī)模
數(shù)據(jù)挖掘算法的實(shí)現(xiàn)過程容易陷入一個誤區(qū),只側(cè)重由一個系統(tǒng)處理所出現(xiàn)的問題,而忽略了對于控制系統(tǒng)的規(guī)模大小的考慮,這樣的結(jié)果就是適得其反,問題并不會得到很好地解決。而約束數(shù)據(jù)挖掘的原理在于,系統(tǒng)的增量式擴(kuò)充得到實(shí)現(xiàn),確定了用戶的需求和目標(biāo)之后,通過約束參數(shù)的形式,來實(shí)現(xiàn)對一些有待解決的問題的驗(yàn)證,而這些數(shù)值的確定,可以通過實(shí)驗(yàn)的交互式輸入實(shí)現(xiàn),以找到較優(yōu)值。而這樣的約束過程,可以在數(shù)據(jù)挖掘的不同階段加以實(shí)現(xiàn);而在數(shù)據(jù)的預(yù)處理過程中,設(shè)置的約束個數(shù)既要能夠保證挖掘的最終結(jié)果,又要注意保持?jǐn)?shù)據(jù)的規(guī)模;在數(shù)據(jù)挖掘的過程中,對于整個項(xiàng)目的細(xì)分之后的子目標(biāo),也可以加上約束,以能夠快速達(dá)到約束的目的;當(dāng)然也可以對不同類型的問題加以不同的約束條件,以更好地解決問題;尤其是對于層級較多或者維度較高的數(shù)據(jù),可以選擇合適的約束來達(dá)到問題的轉(zhuǎn)化或者簡化。對于約束類型,時態(tài)約束下的關(guān)聯(lián)規(guī)則指的是,一次數(shù)據(jù)庫掃描挖掘算法,可以在一定程度上,減少I/O的個數(shù),但是在數(shù)據(jù)量不斷上升的過程中,對于計算機(jī)內(nèi)存的占用也越來越大,而且是線性地增加,所以怎樣很好地控制ISS的容量變得很有必要,而且這樣也能夠一定程度上減少對CPU的占用。為了這個問題的有效改善,我們使用了兩種方法,一個是有效地約束時態(tài)數(shù)據(jù)庫,用戶所不感興趣的時間范圍內(nèi)的信息去除;二是待處理的數(shù)據(jù)要進(jìn)行分批處理,經(jīng)過一定的數(shù)據(jù)結(jié)構(gòu)進(jìn)入內(nèi)存,這樣有效地將數(shù)據(jù)進(jìn)行組織。而對于沒有重疊部分的時區(qū),可以生成獨(dú)立的關(guān)聯(lián)規(guī)則,減少了對計算機(jī)硬件資源的占用,而且很好地改善了精確度
問題。
3 數(shù)據(jù)分割下的挖掘問題及算法
對于理論基礎(chǔ)比較成熟的算法―Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟栴},人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務(wù)的個數(shù)
這樣的原理在于,當(dāng)需要處理的事務(wù)不包含長度為k的大項(xiàng)集,那么也一定不包含長度為k+1的大項(xiàng)集。在算法處理的過程中,就可以將這樣的事務(wù)濾去,在下輪掃描過程中,就可以不需要那么多的事務(wù)集。
3.2 基于劃分的方法
這類算法比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對于怎樣將數(shù)據(jù)進(jìn)入存儲中,可以把需要處理的分塊放入計算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于hash的方法
在上述的發(fā)現(xiàn)頻繁項(xiàng)目集的算法中,有人提出了改進(jìn)算法,基于雜(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集。而這也是他們在實(shí)驗(yàn)基礎(chǔ)上提出的,因?yàn)閷?shí)驗(yàn)中,他們發(fā)現(xiàn)頻繁項(xiàng)目集的產(chǎn)生過程中,計算量主要集中在2-頻繁項(xiàng)目集上,他們通過雜湊技術(shù)來對這個問題加以解決,把需要掃描的項(xiàng)目分發(fā)于不同的Hash桶,而對于每對項(xiàng)目來說,最多只可能在一個特定的桶內(nèi),然后通過實(shí)驗(yàn)分析,可以有效地降低了候選集的產(chǎn)生。
3.4 基于采樣的方法
基于抽樣技術(shù)的產(chǎn)生頻繁項(xiàng)目集的算法的原理在于:通過對數(shù)據(jù)庫進(jìn)行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過數(shù)據(jù)庫的未被抽樣數(shù)據(jù),進(jìn)行檢驗(yàn),這些關(guān)聯(lián)規(guī)則是否有效。其實(shí)這個算法本身相對比較容易實(shí)現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過程中所付出的I/O代價,而不利的地方在于,抽樣數(shù)據(jù)的隨機(jī)性以及由此帶來的結(jié)果的偏差比較大。抽樣原理是統(tǒng)計學(xué)常用方法,雖然其得到的結(jié)果精確性可能并不盡人意;如果能被運(yùn)用恰當(dāng)?shù)脑?,可以在精度符合要求的情況下使得挖掘效率大大地提高。
3.5 盡量減少數(shù)據(jù)庫的掃面次數(shù)
早在1997年,Brin等一些研究人員就提出了一種用來減少數(shù)據(jù)庫掃面次數(shù)的算法,這種算法實(shí)際上就是通過下層分析方法來提前處理。換句話說,當(dāng)我們正在運(yùn)行k-項(xiàng)集時,如果發(fā)現(xiàn)(k+1)-項(xiàng)集有極大可能會是頻繁項(xiàng)目集,那么我們就直接將兩者進(jìn)行并行運(yùn)算,進(jìn)而得出(k+1)-項(xiàng)集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫掃描次數(shù),從而在運(yùn)行效率上要優(yōu)于Apriori算法。
3.6 并行挖掘
數(shù)據(jù)分布技術(shù)的出現(xiàn)使得我們可以對數(shù)據(jù)子集進(jìn)行深層次挖掘,而且在不同子集之間我們還可以開展并行計算。多層次關(guān)聯(lián)規(guī)則挖掘就是并行挖掘中的關(guān)鍵技術(shù)之一,所謂多層次關(guān)聯(lián)規(guī)則可以用上圖來進(jìn)行描述。在很多事務(wù)數(shù)據(jù)庫中,某些項(xiàng)所隱含的概念有很多層次。
4 案例分析
這里我們以《天道》項(xiàng)目為例進(jìn)行流失用戶預(yù)警分析,通過其8、9兩個月的相關(guān)數(shù)據(jù)來判斷12月《天道》所有登陸用戶的流失可能性和對應(yīng)的流失概率。
序號 名稱
1 單月總在線時長onlinetime
2 單月總登陸次數(shù)times
3 賬戶累計登陸總時長totalonlinetime
4 首登時間firstlogintime
5 月充值金額
6 當(dāng)前等級playerlevel
7 陣營
8 游戲幣總額
注:如若條件允許,能加入玩家的當(dāng)前經(jīng)驗(yàn),玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來源廣告媒體等信息將會使此模型的研究更有價值。
模型評估是運(yùn)用Clementine的分析節(jié)點(diǎn)對已建立的客戶流失預(yù)測模型進(jìn)行精確性分析,評價指標(biāo)為對未經(jīng)分類處理的測試數(shù)據(jù)進(jìn)行正確分類的。準(zhǔn)確率,即“預(yù)測正確率= 正確預(yù)測個數(shù)/測試樣本數(shù)×100%”。通過分析計算我們可以明確的看出(如下圖所示),訓(xùn)練樣本的精確度為81.42%,測試樣本的精確度為81.46%,此模型的精確度已較理想,不過我們還可以通過增加樣本容量(取三個月的游戲玩家信息,或者半年的游戲玩家信息),調(diào)整模型中的參數(shù)來提高模型的正確率。
基于上述分析,我們建立模型并分析:
分析結(jié)果顯示:
1)3890
2)onlinetime>220363,樣本權(quán)重為9%,流失275個,比例為7%,雖然比例較小,但這個部分的賬戶應(yīng)是非常有價值的用戶,若采取個性化的服務(wù),應(yīng)會帶來更大的價值。
3)796
4)796
5)0
6)88
5 結(jié)論
數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價值的研究成果。
參考文獻(xiàn)
[1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計[J].計算機(jī)與現(xiàn)代化,2013(01):8-11.
[2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計算機(jī)技術(shù)與發(fā)展,2013(05):26-29,33.
數(shù)據(jù)安全論文 數(shù)據(jù)采集論文 數(shù)據(jù)報告 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)安全 數(shù)據(jù)統(tǒng)計論文 數(shù)據(jù)通信論文 數(shù)據(jù)分析設(shè)計 數(shù)據(jù)理論論文 紀(jì)律教育問題 新時代教育價值觀