前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇挖掘技術(shù)論文范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個(gè)變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對這些規(guī)則要進(jìn)行有效的評價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價(jià),此外,聚類分析還用于對孤立點(diǎn)的檢測。并非由聚類分析算法得到的類對決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗(yàn)。
4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對實(shí)例的某個(gè)屬性的測試,該結(jié)點(diǎn)的每一個(gè)后繼分支對應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對某些個(gè)體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結(jié)束語
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
參考文獻(xiàn):
蘇新寧楊建林鄧三鴻等:數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003
電子商務(wù)既包括了低層次的電子貿(mào)易等,還包括了利用Internet網(wǎng)絡(luò)開展的貿(mào)易活動(dòng),在多個(gè)環(huán)節(jié)中實(shí)現(xiàn)。電子商務(wù)的發(fā)展極大地改變了銷售商和顧客之間的關(guān)系,在紡織業(yè)電子商務(wù)采用Web數(shù)據(jù)挖掘主要包括以下幾點(diǎn)作用。電子商務(wù)進(jìn)行Web數(shù)據(jù)挖掘的數(shù)據(jù)源主要包括查詢數(shù)據(jù)、Web頁面、在線市場數(shù)據(jù)等。服務(wù)器數(shù)據(jù)主要是指用戶在訪問電子商務(wù)網(wǎng)站中所產(chǎn)生的各種信息,如服務(wù)器Web日志文件。查詢數(shù)據(jù)通過搜索引擎產(chǎn)生的查詢數(shù)據(jù),是一種比較典型的數(shù)據(jù)。服務(wù)器數(shù)據(jù)是網(wǎng)絡(luò)信息的中轉(zhuǎn)站,服務(wù)器數(shù)據(jù)一般具有防火墻功能,是網(wǎng)絡(luò)信息的中轉(zhuǎn)站,采用緩存功能,能夠大大減少服務(wù)器的網(wǎng)絡(luò)流量,加快運(yùn)行速度。任何一個(gè)電子商務(wù)網(wǎng)站在Web數(shù)據(jù)挖掘過程開始之前需要進(jìn)行數(shù)據(jù)挖掘,包括數(shù)據(jù)的準(zhǔn)備、挖掘操作以及解釋過程等。Web數(shù)據(jù)挖掘應(yīng)用到紡織業(yè)電子商務(wù)中,能夠幫助企業(yè)更好的掌握生產(chǎn)狀態(tài),更加快速的提出企業(yè)的銷售信息,準(zhǔn)確把握市場銷售的變化,進(jìn)而提高紡織企業(yè)對市場的應(yīng)對能力,也能提高企業(yè)對生產(chǎn)的控制和管理能力,最大程度利用人力資源和物理資源,提高經(jīng)濟(jì)效益??蛻絷P(guān)系管理是一種以客戶為中心的經(jīng)營策略,指導(dǎo)企業(yè)的開發(fā)發(fā)展和銷售,提高企業(yè)的競爭能力,采用Web數(shù)據(jù)挖掘技術(shù)能夠最大限度的利用客戶資源,對客戶進(jìn)行分類,尋找潛在的價(jià)值,加強(qiáng)紡織業(yè)客戶的管理工作。企業(yè)的信用狀況將會(huì)嚴(yán)重影響企業(yè)的發(fā)展,利用Web數(shù)據(jù)挖掘技術(shù)能夠跟蹤調(diào)查企業(yè)的經(jīng)營情況,為保證體系提供數(shù)據(jù)資料??蛻粼谶x擇任何一種銷售商并沒有太大差別,企業(yè)本身想要留住客戶,就需要想辦法讓客戶駐留更長的時(shí)間,想要根據(jù)客戶的習(xí)慣來設(shè)計(jì),就需要了解客戶的興趣和需求,動(dòng)態(tài)調(diào)整頁面,滿足用戶的需求,挖掘客戶訪問信息,進(jìn)而了解客戶的需求。根據(jù)序列發(fā)現(xiàn)客戶瀏覽行為的信息,明白客戶的需求,根據(jù)顧客的需求來設(shè)計(jì)別出心載的界面,增加客戶的駐留時(shí)間。Web數(shù)據(jù)挖掘在應(yīng)用中能夠幫助紡織企業(yè)更好的挖掘潛在的信息,商家可以根據(jù)潛在客戶的需求和愿望來進(jìn)行分類,正確的分類新客戶,判斷潛在的新客戶,強(qiáng)化顯示客戶的需求,保證企業(yè)獲得更高的客戶收益。紡織業(yè)電子商務(wù)在應(yīng)用Web數(shù)據(jù)挖掘中能夠改進(jìn)Web站點(diǎn)的設(shè)計(jì),提高站點(diǎn)的效率。紡織業(yè)電子商務(wù)Web數(shù)據(jù)挖掘的使用不在依照專家來進(jìn)行設(shè)計(jì),而是根據(jù)客戶的意愿來進(jìn)行設(shè)計(jì),利用關(guān)聯(lián)規(guī)則來進(jìn)行推理,發(fā)現(xiàn)潛在的規(guī)律,為客戶的下次訪問提供幫助。紡織業(yè)電子商務(wù)應(yīng)用Web數(shù)據(jù)挖掘能夠改變營銷機(jī)制,在一般企業(yè)的宣傳中可以看到,花費(fèi)大量的資金來進(jìn)行宣傳,所起到的效果不是很好,若是通過電子產(chǎn)品的的方式就能得到更好的營銷效果。
2、紡織業(yè)電子商務(wù)面向Web挖掘的新型架構(gòu)
2.1Web數(shù)據(jù)挖掘的流程
采用數(shù)據(jù)挖掘技術(shù)流程為特征信息的識(shí)別制定目標(biāo)問題的描述關(guān)聯(lián)分析聚類決策樹等。紡織業(yè)電子商務(wù)網(wǎng)絡(luò)在挖掘數(shù)據(jù)中首先需要記錄調(diào)庫眼特征,包括購買歷史、廣告歷史等信息。目標(biāo)制定流程是尋找不同的隱含模式,關(guān)聯(lián)分析主要是發(fā)現(xiàn)顧客喜愛的商品組合,聚類則是找到能夠提供訪問者特征的報(bào)告,決策樹就是流程圖,采用最少的步驟解決問題。先記錄訪問者的條款特征,當(dāng)訪問者訪問網(wǎng)站時(shí)能夠逐漸積累訪問者的數(shù)據(jù),交互信息包括廣告歷史等。在網(wǎng)上進(jìn)行交易的最大優(yōu)點(diǎn)在于能夠有效的評估訪問者的反應(yīng),采用數(shù)據(jù)挖掘技術(shù)能夠得到更好的效果。電子商務(wù)網(wǎng)站想要將顧客購買信息這些信息集中在一起,容易出現(xiàn)瀏覽中出現(xiàn)遺漏的情況,在流程設(shè)計(jì)中采用聚類,能夠確定網(wǎng)站的數(shù)據(jù),向不同的訪問者提供相應(yīng)的報(bào)告。
2.2紡織業(yè)電子商務(wù)面向Web挖掘的新型架構(gòu)
2.2.1Web挖掘關(guān)鍵技術(shù)
Web服務(wù)的體系結(jié)構(gòu)主要?jiǎng)幼鳂?gòu)成包括服務(wù)注冊中心、服務(wù)請求者、服務(wù)提供者等,服務(wù)提供者就是一種可通過網(wǎng)絡(luò)地址訪問的實(shí)體,服務(wù)請求者是一個(gè)應(yīng)用程序的服務(wù),服務(wù)注冊中心是聯(lián)系服務(wù)提供者和請求者。Web服務(wù)協(xié)議可以分為網(wǎng)絡(luò)傳輸層、消息層、模型層等。網(wǎng)絡(luò)傳輸層是Web服務(wù)協(xié)議棧的基礎(chǔ),可以采用任何格式,要求具有安全性、性能以及可靠性。數(shù)據(jù)表示層主要是提供數(shù)據(jù)描述手段,標(biāo)準(zhǔn)數(shù)據(jù)建模語言主要是XML?;赬ML的消息層提供一個(gè)松散的、分布環(huán)境,是在分布式的環(huán)境中交換信息的輕量級(jí)協(xié)議。服務(wù)描述層主要是提供認(rèn)識(shí)機(jī)制,服務(wù)分線層在實(shí)現(xiàn)中創(chuàng)建一個(gè)獨(dú)立的開放框架,發(fā)現(xiàn)Web服務(wù)的功能,Web服務(wù)工作流語言是協(xié)議棧頂層的標(biāo)準(zhǔn)語言。Web服務(wù)的關(guān)鍵技術(shù)主要包括SOAP協(xié)議、WSDL描述方式等,SOAP協(xié)議是分布式環(huán)境中交換信息的簡單協(xié)議,能夠與現(xiàn)有通信技術(shù)最大程度地兼容,獨(dú)立于應(yīng)用程度對象模型、語言和運(yùn)行平臺(tái)等,本身不定義任何應(yīng)用語義,一個(gè)SOAP信息是一個(gè)XML文檔,AOAP規(guī)范主要由信封、編碼規(guī)則、綁定等組成,AOAP信封定義整體的消息表示框架。移動(dòng)Agent技術(shù)應(yīng)用到電子商務(wù)中有非常大的優(yōu)勢,移動(dòng)Agent技術(shù)具有響應(yīng)性、自主性以及主動(dòng)性等特征,應(yīng)用到電子商務(wù)系統(tǒng)中能夠減少電子商務(wù)活動(dòng)的通信代價(jià),減少網(wǎng)上原始數(shù)據(jù)的流量。電子商務(wù)中的教育要求包括訪問流程信息,要求系統(tǒng)對環(huán)境的變化做出實(shí)時(shí)的反應(yīng),由中央處理器將移動(dòng)Agent派遣到系統(tǒng)局部點(diǎn)激活消除隱患。
2.2.2Web挖掘平臺(tái)設(shè)計(jì)
產(chǎn)品的功能實(shí)現(xiàn)在Web數(shù)據(jù)挖掘平臺(tái)的設(shè)計(jì)中至關(guān)重要,要求數(shù)據(jù)挖掘平臺(tái)具有動(dòng)態(tài)、可伸縮性,能夠根據(jù)市場需求的變化而隨之變化,還要求具有足夠的穩(wěn)定性和可靠性。在進(jìn)行架構(gòu)設(shè)計(jì)時(shí),需要注意架構(gòu)的合理性、簡潔性和可擴(kuò)展性。根據(jù)數(shù)據(jù)挖掘、Web服務(wù)和相關(guān)結(jié)束,設(shè)計(jì)數(shù)據(jù)挖掘架構(gòu),見圖1所示,Web服務(wù)的組合由Agent負(fù)責(zé),待返回結(jié)果后,能夠有效解決數(shù)據(jù)的分布性、可擴(kuò)展性等,負(fù)責(zé)服務(wù)之間的通信,降低網(wǎng)絡(luò)通信的負(fù)擔(dān),減少相應(yīng)時(shí)間,實(shí)現(xiàn)挖掘算法庫的動(dòng)態(tài)管理。在挖掘平臺(tái)的設(shè)計(jì)中,各種挖掘算法均采用采用Web服務(wù)封裝,實(shí)現(xiàn)挖掘系統(tǒng)與算法的耦合。各個(gè)Agent模塊之間相互獨(dú)立。架構(gòu)邏輯層主要分為4層,數(shù)據(jù)存儲(chǔ)層為最底層,數(shù)據(jù)處理層主要包括Web服務(wù)的架構(gòu)和數(shù)據(jù)挖掘的是吸納,在Agent環(huán)境中將XML文件轉(zhuǎn)換,將查詢結(jié)果再打包成XML文檔,形成模式集合最后提供給客戶信息,把訪問層和邏輯層設(shè)計(jì)為數(shù)據(jù)訪問的功能封裝。客戶端的設(shè)計(jì)主要包括胖客戶端和瘦客戶端,大部分的系統(tǒng)功能集中在胖客戶端。典型的Agent結(jié)構(gòu)應(yīng)用到Web服務(wù),其他的Agent搜尋和定位這些系統(tǒng)。移動(dòng)Agent應(yīng)用到Web數(shù)據(jù)挖掘中能夠彌補(bǔ)很多的不足。在Web挖掘架構(gòu)設(shè)計(jì)中,獨(dú)立出了搜索引擎,使得搜索引擎更加具有靈活性。傳統(tǒng)的數(shù)據(jù)挖掘引擎主要包括算法調(diào)用模塊和算法管理模塊等,算法分布Agent子模塊股則命令的傳輸,向UDDI請求,刪除已有的挖掘算法等功能,UDDI服務(wù)器與Agent相互交換信息生成算法的WSDL文檔,將信息保存到UDDI服務(wù)器上,完成任務(wù)。
3、Web挖掘原型系統(tǒng)的實(shí)現(xiàn)
目前的垃圾短信過濾的方法主要有黑名單和白名單監(jiān)控技術(shù),但是短信中心對黑白名單處理數(shù)量有上限要求;基于關(guān)鍵字的過濾技術(shù),但是這種技術(shù)不能靈活識(shí)別和更新關(guān)鍵字;基于內(nèi)容的過濾技術(shù),可分為基于規(guī)則的過濾和基于概率統(tǒng)計(jì)的過濾;基于數(shù)據(jù)挖掘方法的垃圾短信用戶識(shí)別,目前基本上都使用IBMSPSSModeler平臺(tái)的決策樹和邏輯回歸經(jīng)典算法識(shí)別垃圾短信用戶,由于選取的建模數(shù)據(jù)不全面以及算法本身各自存在不足使得建模效果受到影響。為建立白名單和科學(xué)封堵模型相結(jié)合的垃圾短信治理模式,實(shí)現(xiàn)精細(xì)化、行為級(jí)、高效性的垃圾短信治理,本方案提出了基于客戶綜合特征分析的垃圾短信治理技術(shù)方案:基于隨機(jī)森林分類的垃圾短信用戶預(yù)測模型。通過客戶入網(wǎng)屬性,客戶通信行為信息、客戶賬單信息等多個(gè)維度構(gòu)建模型,對垃圾短信號(hào)碼進(jìn)行識(shí)別和治理。相比傳統(tǒng)基于短信內(nèi)容識(shí)別、發(fā)送量控制的事中控制,本系統(tǒng)能夠進(jìn)行垃圾短信發(fā)送行為預(yù)測,配合垃圾短信攔截系統(tǒng)將垃圾短信在未形成大規(guī)模發(fā)送前攔截。實(shí)驗(yàn)結(jié)果證明該模型能夠有效的識(shí)別垃圾短信號(hào)碼,對監(jiān)控系統(tǒng)攔截垃圾短信起到很好的輔助作用。
2大數(shù)據(jù)挖掘的原理與優(yōu)勢
大數(shù)據(jù)是指數(shù)據(jù)量很大(一般是TB到PB數(shù)量級(jí))的巨量資料,無法通過主流軟件工具,在合理時(shí)間內(nèi)完成數(shù)據(jù)處理并獲取有價(jià)值的信息。數(shù)據(jù)大多以非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)為主,大數(shù)據(jù)具有4V特點(diǎn):Volume、Velocity、Variety、Veracity。大數(shù)據(jù)處理的一般思路是數(shù)據(jù)壓縮、數(shù)據(jù)抽樣、數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其它模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、推薦系統(tǒng)等,它們分別從不同的角度對數(shù)據(jù)進(jìn)行挖掘。大數(shù)據(jù)挖據(jù)的數(shù)據(jù)源和處理方式對比。
3數(shù)據(jù)挖據(jù)流程和模型選取
3.1數(shù)據(jù)挖掘的主要流程
數(shù)據(jù)挖掘主要包括以下6大步驟。
(1)商業(yè)理解:確定挖掘目標(biāo)以及產(chǎn)生一個(gè)項(xiàng)目計(jì)劃。
(2)數(shù)據(jù)理解:知曉有哪些數(shù)據(jù),以及數(shù)據(jù)的特征是什么。
(3)數(shù)據(jù)準(zhǔn)備:對數(shù)據(jù)作出轉(zhuǎn)換、清洗、選擇、合并等工作。
(4)建模:根據(jù)挖掘目標(biāo)確定適合的模型,建模并對模型進(jìn)行評估。
(5)模型評估:評估建模效果,對效果較差的結(jié)果我們需要分析原因。
(6)結(jié)果部署:用所建挖掘模型去解決實(shí)際問題,它還包括了監(jiān)督、維持、產(chǎn)生最終報(bào)表、重新評估模型等過程。
3.2垃圾短信治理指標(biāo)體系設(shè)計(jì)
垃圾短信用戶識(shí)別建模數(shù)據(jù)主要從信令監(jiān)測系統(tǒng)、經(jīng)營分析系統(tǒng)獲取,所獲取的用戶行為數(shù)據(jù)主要包括用戶通信行為信息、用戶基礎(chǔ)業(yè)務(wù)屬性、用戶通信業(yè)務(wù)信息等7個(gè)維度。其中,用戶通信行為信息包括活動(dòng)軌跡、終端IMEI和數(shù)據(jù)業(yè)務(wù)訪問等信息。
3.3模型的選取
對白名單用戶的識(shí)別可以利用社交網(wǎng)絡(luò)模型與業(yè)務(wù)規(guī)則相結(jié)合的方法。利用社交網(wǎng)絡(luò)進(jìn)行白名單用戶識(shí)別,重點(diǎn)考慮用戶之間發(fā)生的通信行為、增值業(yè)務(wù)交互行為等群體行為,通過對用戶之間關(guān)系的辨識(shí)。本文建模的重點(diǎn)著眼于垃圾短信用戶的識(shí)別及其治理。
3.3.1現(xiàn)有垃圾短信識(shí)別模型的優(yōu)勢與不足
識(shí)別垃圾短信用戶是數(shù)據(jù)挖掘中的分類問題,數(shù)據(jù)挖掘中常用的分類算法主要有邏輯回歸、決策樹、貝葉斯網(wǎng)絡(luò)等算法。其中,神經(jīng)網(wǎng)絡(luò)因本身算法的復(fù)雜性,造成模型結(jié)果解釋性較差,模型落地較困難而很少在實(shí)際項(xiàng)目中使用。目前識(shí)別垃圾短信的數(shù)據(jù)挖掘模型基本上為邏輯回歸模型和決策樹模型。決策樹模型主要具有以下優(yōu)勢:模型非常直觀,容易讓人理解和應(yīng)用;決策樹搭建和應(yīng)用的速度比較快;決策樹對于數(shù)據(jù)分布沒有嚴(yán)格要求;受缺失值和極端值對模型的影響很小。但是,使用決策樹作為垃圾短信用戶識(shí)別模型主要存在以下不足。
(1)決策樹最大缺點(diǎn)是其原理中的貪心算法。貪心算法總是做出在當(dāng)前看來最好的選擇,卻不從整體上思考最優(yōu)的劃分,因此,它所做的選擇只能是某種意義上的局部最優(yōu)選擇。
(2)決策樹缺乏像回歸或者聚類那樣豐富多樣的檢測指標(biāo)和評價(jià)方法。
(3)容易出現(xiàn)過擬合。當(dāng)某些自變量的類別數(shù)量比較多,或者自變量是區(qū)間型時(shí),決策樹過擬合的危險(xiǎn)性會(huì)增加。
(4)決策樹算法對區(qū)間型自變量進(jìn)行分箱操作時(shí),無論是否考慮了順序因素,都有可能因分箱喪失某些重要信息。尤其是當(dāng)分箱前的區(qū)間變量與目標(biāo)變量有明顯的線性關(guān)系時(shí),這種分箱操作造成的信息損失更為明顯。
相比于數(shù)據(jù)挖掘建模常用的其它算法如決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,邏輯回歸技術(shù)是最成熟,得到廣泛應(yīng)用,邏輯回歸模型主要存在以下不足。
(1)變量之間的多重共線性會(huì)對模型造成影響。
(2)應(yīng)刪除異常值,否則它會(huì)給模型帶來很大干擾。
(3)邏輯回歸模型本身不能處理缺失值,所以應(yīng)用邏輯回歸算法時(shí),要注意針對缺失值進(jìn)行適當(dāng)處理,或者賦值,或者替換,或者刪除。
3.3.2垃圾短信識(shí)別預(yù)測模型選取
鑒于目前研究者對垃圾短信識(shí)別使用的決策樹和邏輯回歸模型存在較多不足之處,本文從模型算法上對其進(jìn)行改進(jìn),力求得到更加科學(xué)合理的垃圾短信識(shí)別預(yù)測模型。本文使用的數(shù)據(jù)挖掘模型為隨機(jī)森林模型。
3.3.2.1模型簡介
隨機(jī)森林(RandomForest)算法是一種專門為決策樹分類器設(shè)計(jì)的優(yōu)化方法。它綜合了多棵決策樹模型的預(yù)測結(jié)果,其中的每棵樹都是基于隨機(jī)樣本的一個(gè)獨(dú)立集合的值產(chǎn)生的。隨機(jī)森林和使用決策樹作為基本分類器的Bagging有些類似。以決策樹為基本模型的Bagging在每次自助法(Boostrap)放回抽樣之后,產(chǎn)生一棵決策樹,抽多少樣本就生成多少棵樹,在生成這些樹的時(shí)候沒有進(jìn)行更多的干預(yù)。而隨機(jī)森林也是進(jìn)行許多次自助法放回抽樣,所得到的樣本數(shù)目及由此建立的決策樹數(shù)量要大大多于Bagging的樣本數(shù)目。隨機(jī)森林與Bagging的關(guān)鍵區(qū)別在于,在生成每棵樹的時(shí)候,每個(gè)節(jié)點(diǎn)變量都僅僅在隨機(jī)選出的少數(shù)變量中產(chǎn)生。因此,不但樣本是隨機(jī)的,就連每個(gè)節(jié)點(diǎn)變量產(chǎn)生都有相當(dāng)大的隨機(jī)性。隨機(jī)森林讓每棵樹盡可能生長,而不進(jìn)行修剪。隨機(jī)森林算法主要包括決策樹的生長和投票過程。隨機(jī)森林中單棵樹的生長可概括為以下幾步。
(1)使用Bagging方法形成個(gè)別的訓(xùn)練集:假設(shè)原始訓(xùn)練集中的樣本數(shù)為N,從中有放回地隨機(jī)選取N個(gè)樣本形成一個(gè)新的訓(xùn)練集,以此生成一棵分類樹。
(2)隨機(jī)選擇特征(指評估指標(biāo),以下同)對分類樹的節(jié)點(diǎn)進(jìn)行分裂:假設(shè)共有M個(gè)特征,指定一個(gè)正整數(shù)m<M,在每個(gè)內(nèi)部節(jié)點(diǎn),從M個(gè)特征中隨機(jī)抽取m個(gè)特征作為候選特征,選擇這m個(gè)特征上最好的分裂方式對節(jié)點(diǎn)進(jìn)行分裂。在整個(gè)森林的生長過程中,m的值保持不變。
(3)每棵樹任其生長,不進(jìn)行剪枝。Bagging方法形成新的訓(xùn)練集和隨機(jī)選擇特征進(jìn)行分裂,使得隨機(jī)森林能較好地容忍噪聲,并且能降低單棵樹之間的相關(guān)性;單棵樹不剪枝能得到低偏差的分類樹,同時(shí)保證了分類樹的分類效能(Strength),分類樹的分類效能是指分類樹對新的測試數(shù)據(jù)的分類準(zhǔn)確率。
3.3.2.2隨機(jī)森林分類預(yù)測模型的主要優(yōu)勢
(1)隨機(jī)森林的預(yù)測精度高,它可以產(chǎn)生高準(zhǔn)確度的分類器。
(2)可以處理相當(dāng)多的輸入變量。隨機(jī)森林不懼怕很大的維數(shù),即使有數(shù)千個(gè)變量,也不必刪除,它也會(huì)給出分類中各個(gè)變量的重要性。
(3)當(dāng)在構(gòu)建隨機(jī)森林模型時(shí)候,對GenerlizationError估計(jì)是無偏估計(jì)。
(4)隨機(jī)森林在設(shè)計(jì)上具有很快訓(xùn)練速度,訓(xùn)練出結(jié)果模型不必花費(fèi)大量時(shí)間。
(5)對缺失值和極端值具有很強(qiáng)容忍能力,即使有較多缺失數(shù)據(jù)仍可以維持準(zhǔn)確度。
(6)當(dāng)遇到分類數(shù)據(jù)不平衡時(shí),可以較好地平衡誤差。
(7)隨機(jī)森林算法并不會(huì)導(dǎo)致過擬合。定義組合分類器的總體分類效能s為:s=Ex,ymg(x,y)。若用ρ表示每棵分類樹之間相關(guān)度的均值,則隨機(jī)森林的泛化誤差PE的上界可由下式給出:PE*≤ρ(1-s2)/s2。當(dāng)隨機(jī)森林有相當(dāng)多的分類樹時(shí),隨機(jī)森林的泛化誤差幾乎處處收斂于一個(gè)有限值。因此,隨著森林中分類樹數(shù)目的增長,隨機(jī)森林算法并不會(huì)導(dǎo)致過擬合。
(8)隨機(jī)森林在模型訓(xùn)練過程中,能夠?qū)μ卣髦g的相互影響行為做出檢測。隨機(jī)森林算法具有以上優(yōu)勢,在垃圾短信治理預(yù)測中具有應(yīng)用的優(yōu)勢,本文采用隨機(jī)森林模型作為垃圾短信用戶的分類預(yù)測。綜上所述,隨機(jī)森林模型主要在不會(huì)出現(xiàn)過擬合、訓(xùn)練精度高、能處理大量輸入變量并輸出變量重要性3個(gè)方面優(yōu)越于決策樹模型;在容忍缺失值和極端值方面明顯優(yōu)越于邏輯回歸模型。隨機(jī)森林模型在算法設(shè)計(jì)上有效彌補(bǔ)了決策樹和邏輯回歸模型的不足之處,在垃圾短信識(shí)別分類預(yù)測中具有較好的應(yīng)用價(jià)值。
3.3.2.3垃圾短信數(shù)據(jù)挖掘模型構(gòu)建
通過前述的商業(yè)理解確定了垃圾短信識(shí)別業(yè)務(wù)需求,并進(jìn)行數(shù)據(jù)理解構(gòu)建了垃圾短信識(shí)別指標(biāo)體系,再抽取需要的數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換、衍生變量計(jì)算等步驟,具備了建模的目標(biāo)數(shù)據(jù),接下來的任務(wù)就是通過隨機(jī)森林模型構(gòu)建垃圾短信分類預(yù)測模型,對垃圾短信用戶進(jìn)行識(shí)別。
3.4用戶分類治理策略
通過隨機(jī)森林模型的識(shí)別,根據(jù)用戶是垃圾短信發(fā)送者的可能性評估,制定不同的治理策略,如圖3所示。實(shí)際的執(zhí)行過程中,需要根據(jù)清單的范圍大小,適當(dāng)?shù)恼{(diào)整預(yù)測概率門限,以保證策略執(zhí)行的效果,同時(shí)避免過多的正常用戶的業(yè)務(wù)感知受到影響。
4垃圾短信治理平臺(tái)的實(shí)現(xiàn)
4.1系統(tǒng)架構(gòu)
垃圾短信治理平臺(tái)的數(shù)據(jù)來源較多,需要處理的數(shù)據(jù)量也非常大,因此,數(shù)據(jù)采集和數(shù)據(jù)處理過程是相互影響的過程。垃圾短信治理平臺(tái)的系統(tǒng)架構(gòu)圖如圖4所示。
(1)數(shù)據(jù)采集層:是垃圾短信治理平臺(tái)與多個(gè)數(shù)據(jù)庫來源的安全訪問接口,通過數(shù)據(jù)采集層實(shí)現(xiàn)數(shù)據(jù)挖掘和分析所需要的基礎(chǔ)信息:用戶屬性信息、用戶卡號(hào)信息、用戶業(yè)務(wù)記錄、用戶的位置信息和消費(fèi)記錄。
(2)數(shù)據(jù)處理層:需要根據(jù)數(shù)據(jù)挖掘的需求,將采集的基礎(chǔ)數(shù)據(jù)轉(zhuǎn)換為業(yè)務(wù)服務(wù)層可以使用的數(shù)據(jù),通過對基礎(chǔ)數(shù)據(jù)進(jìn)行整形、清洗和預(yù)處理,為后續(xù)的數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備。
(3)業(yè)務(wù)服務(wù)層:主要包括應(yīng)用和安全服務(wù)兩個(gè)部分,應(yīng)用包括數(shù)據(jù)查詢統(tǒng)計(jì)服務(wù)、用戶查詢服務(wù)和GIS應(yīng)用服務(wù),同時(shí),補(bǔ)充報(bào)表服務(wù)和文件管理服務(wù)以方便日常的工作。通過外部接口服務(wù),可以部署相應(yīng)的權(quán)限管理、數(shù)據(jù)管理維護(hù)以及注冊服務(wù)等,降低系統(tǒng)的風(fēng)險(xiǎn),保證信息的安全傳遞。
(4)功能模塊:主要是根據(jù)客戶需求,定制開發(fā)的功能單元,功能模塊的個(gè)數(shù)以實(shí)際部署的情況為準(zhǔn)。以圖4垃圾短信治理平臺(tái)的系統(tǒng)架構(gòu)圖某省公司的定制模塊為例,主要包括指標(biāo)查詢模塊、垃圾短信治理模塊、用戶綜合信息分析模塊和市場支撐應(yīng)用模塊4個(gè)部分。
4.2效果展現(xiàn)
針對不同的部門或用戶,垃圾短信治理平臺(tái)展現(xiàn)不同的數(shù)據(jù),主要包括以下的結(jié)果展現(xiàn)方式。
(1)治理效果掌控:通過指標(biāo)查詢系統(tǒng),及時(shí)掌握垃圾短信的治理效果,發(fā)現(xiàn)工作的成果和風(fēng)險(xiǎn),達(dá)到及時(shí)發(fā)現(xiàn)問題并快速響應(yīng)的目的。
(2)治理效率提升:通過垃圾短信治理模塊,快速準(zhǔn)確識(shí)別垃圾短信源頭并定位區(qū)域,下發(fā)至地市公司快速處理,減小垃圾短信帶來的不良社會(huì)影響。
(3)實(shí)現(xiàn)預(yù)先管控:通過用戶綜合信息分析模塊,可以對潛在的具有垃圾短信源頭特征的風(fēng)險(xiǎn)終端進(jìn)行監(jiān)控、通過外呼、資費(fèi)信息等情況,提前發(fā)現(xiàn)和治理潛在垃圾短信源。
(4)渠道規(guī)范化:市場部門通過渠道信息和卡號(hào)信息,對一些垃圾短信來源集中的渠道的發(fā)卡進(jìn)行監(jiān)督和嚴(yán)格控制,從源頭上減少垃圾短信的源頭。
1分類。分類技術(shù)可解決事件的歸類問題,在應(yīng)用時(shí),不僅可以完成數(shù)據(jù)分析的任務(wù),還能對未來的數(shù)據(jù)類型進(jìn)行必要的預(yù)測,比如,充分運(yùn)用分類技術(shù)對客戶的具體傾向進(jìn)行預(yù)測,確定客戶是否對相關(guān)研究感興趣,該技術(shù)方法也可應(yīng)用在醫(yī)療領(lǐng)域,針對患者的病情,通過分類技術(shù)選取適宜的藥物。
2回歸。回歸技術(shù)的核心為已知變量的數(shù)值,在此基礎(chǔ)上,對其他種類的變量實(shí)施必要的預(yù)測。在一般條件下,回歸技術(shù)充分發(fā)揮了線性回歸的實(shí)際效果,但從現(xiàn)實(shí)的角度講,并不是所有問題都能用基本的線性回歸進(jìn)行分析和解決的,為了更好的適應(yīng)這些實(shí)際的問題,相關(guān)人員對此也正在著手研究全新的方法,并已取得了顯著的效果,許多新型分析方法應(yīng)運(yùn)而生,比如邏輯回歸以及神經(jīng)網(wǎng)絡(luò)等。
3時(shí)間序列。時(shí)間序列技術(shù)實(shí)際上就是以過去的變量為基礎(chǔ),分析和預(yù)測下一階段變量的方法。與回歸技術(shù)相同,同樣都是運(yùn)用現(xiàn)有的組員完成預(yù)測任務(wù)的,但資源的時(shí)間序列是存在一定差異的。時(shí)間序列技術(shù)通常是在完整的時(shí)間流中截選一個(gè)時(shí)間區(qū)間,對應(yīng)數(shù)據(jù)形成一整套單元,最后將此單元在時(shí)間流上進(jìn)行滑動(dòng),從而獲取訓(xùn)練集。
4描述型。圖形與可視化工具是十分重要的,是相關(guān)人員完成快速分析任務(wù)的重要手段之一,改善了傳統(tǒng)數(shù)據(jù)的枯燥與乏味,不僅實(shí)現(xiàn)了數(shù)據(jù)整體的分析,還能對其中的每一個(gè)細(xì)節(jié)實(shí)施細(xì)致的觀察與分析,在圖形模式的支持下,人們可以更容易的了解到數(shù)據(jù)信息中潛在的相互關(guān)系和模式。
5關(guān)聯(lián)分析。關(guān)聯(lián)分析技術(shù)是指在數(shù)據(jù)庫中快速獲取數(shù)據(jù)的相關(guān)性。較為常用的技術(shù)方法主要有兩種,分別為關(guān)聯(lián)規(guī)則與序列模式,其中關(guān)聯(lián)規(guī)則是在相同時(shí)間中存在的不同項(xiàng)之間的相關(guān)性,而序列模式的研究對象主要為具體的事件。
6聚類。聚類技術(shù)實(shí)質(zhì)上就是數(shù)據(jù)庫的分類,組間差別盡可能的明顯,而同一組內(nèi)的數(shù)據(jù)要盡可能的相似或相同。聚類技術(shù)與分類技術(shù)存在很大的區(qū)別,在實(shí)施聚類以前,并不了解數(shù)據(jù)組的具體數(shù)量,分組的方法和依據(jù)也不知曉,所以在聚類完成以后,需要得到專業(yè)人士的分析和解釋。
二、經(jīng)濟(jì)普查的根本目的與重要意義
1.根本目的。經(jīng)濟(jì)普查是為了充分了解我國產(chǎn)業(yè)現(xiàn)階段發(fā)展的具體規(guī)模和實(shí)際效益,并創(chuàng)建完善的基本單位數(shù)據(jù)庫和對應(yīng)的管理系統(tǒng),為社會(huì)可持續(xù)發(fā)展方針的落實(shí)奠定堅(jiān)實(shí)的基礎(chǔ),同時(shí)也為國民經(jīng)濟(jì)的快速發(fā)展獻(xiàn)計(jì)獻(xiàn)策。經(jīng)濟(jì)普查的基本目標(biāo)是了解情況,建立相應(yīng)數(shù)據(jù)庫則是必要的手段,最終目的是促進(jìn)我國國民經(jīng)濟(jì)的快速發(fā)展與壯大。
2.重要意義。經(jīng)濟(jì)普查數(shù)據(jù)信息屬公共產(chǎn)品范疇,既是黨和政府認(rèn)識(shí)我國基本國情的重要依據(jù),也是判斷各行業(yè)發(fā)展與走向的有效方法。經(jīng)濟(jì)普查的全面開展與落實(shí),可以為廣大人民群眾開創(chuàng)更多的就業(yè)渠道,改善人們的生活質(zhì)量,使國民經(jīng)濟(jì)的改革與建設(shè)更加完善與全面。
三、經(jīng)濟(jì)普查數(shù)據(jù)挖掘方法的應(yīng)用
1.注冊服務(wù)器。在經(jīng)濟(jì)普查中運(yùn)用書庫挖掘方法,首先應(yīng)注冊服務(wù)器。分析服務(wù)器是數(shù)據(jù)分析的主體,有著不可取代的作用,因此分析服務(wù)器一般為首要的注冊對象,其他種類的注冊對象都是它的一部分。通常情況下,分析服務(wù)器名稱要與對應(yīng)網(wǎng)絡(luò)名稱保持一致。
2.創(chuàng)建數(shù)據(jù)倉庫。在分析服務(wù)器注冊完成以后,即可在該服務(wù)器的基礎(chǔ)上建立各類數(shù)據(jù)庫,由于數(shù)據(jù)庫中還缺乏具體的對象,因此可認(rèn)定該數(shù)據(jù)庫為空。為了使其發(fā)揮出更好的挖掘效果,還需充分考慮實(shí)際情況,創(chuàng)建適宜的研究對象。在計(jì)算機(jī)硬盤中尋找對應(yīng)的安裝目錄,并在下分的子文件找到并觀察經(jīng)濟(jì)普查工作的數(shù)據(jù)庫,確定文件的實(shí)際大小,在文件中存在數(shù)據(jù)庫操作方面所需的文件,這些文件主要以事件日志及數(shù)據(jù)的方式存在,且初始物理大小均為1M,在運(yùn)行時(shí)一般以10%的速度增長。
3.建立索引。在上述操作完成以后,即可建立經(jīng)濟(jì)普查相關(guān)的數(shù)據(jù)庫,但數(shù)據(jù)庫本身只是一種數(shù)據(jù)信息的存儲(chǔ)單元,想要使其發(fā)揮出最佳的效果,還需在數(shù)據(jù)庫的基礎(chǔ)上建立數(shù)據(jù)表,并建立與SQL操作所對應(yīng)數(shù)據(jù)源,實(shí)際情況中滿足選取條件的數(shù)據(jù)源有很多種,由于該操作事先已經(jīng)完成了數(shù)據(jù)表的建立,所以該數(shù)據(jù)庫中的數(shù)據(jù)類型僅有SQL這一種形式。
4.連接數(shù)據(jù)源。一般而言,數(shù)據(jù)庫創(chuàng)建完成以后的首要建立目標(biāo)為數(shù)據(jù)源,數(shù)據(jù)源在數(shù)據(jù)庫中具有指定源數(shù)據(jù)的作用,數(shù)據(jù)庫的基本數(shù)據(jù)類型有很多種形式,為了滿足數(shù)據(jù)庫使用的基本需求,可在同一種數(shù)據(jù)庫中設(shè)置多種數(shù)據(jù)源。連接數(shù)據(jù)源是為了讓數(shù)據(jù)挖掘更好的進(jìn)行,在數(shù)據(jù)源連接完成以后,可在相關(guān)軟件的支持下,完成數(shù)據(jù)挖掘的各項(xiàng)操作。
四、結(jié)語
[關(guān)鍵詞]文本挖掘人 文社科 技術(shù)應(yīng)用
[分類號(hào)]TP391
[文本挖掘概述
文本挖掘(text mining)是一個(gè)跨學(xué)科的交叉研究領(lǐng)域,涉及到數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、自然語言處理、可視化技術(shù)、數(shù)據(jù)庫技術(shù)等多個(gè)學(xué)科領(lǐng)域的知識(shí)和技術(shù)。目前關(guān)于文本挖掘并沒有統(tǒng)一的定義,關(guān)于文本挖掘的名稱亦有“文本數(shù)據(jù)挖掘(text data mining)”或“文本知識(shí)發(fā)現(xiàn)(knowledge discovery in text)”等不同說法。一個(gè)比較廣泛使用的定義是:文本挖掘是指為了發(fā)現(xiàn)知識(shí),從文本數(shù)據(jù)中抽取隱含的、以前未知的、潛在有用的模式的過程。它是一個(gè)分析文本數(shù)據(jù),抽取文本信息,進(jìn)而發(fā)現(xiàn)文本知識(shí)的過程。
一個(gè)完整的文本挖掘過程一般包括預(yù)處理、模式挖掘、模式評價(jià)等多個(gè)步驟,其中包含了多種文本處理與挖掘技術(shù),如數(shù)據(jù)預(yù)處理技術(shù)中的分詞、特征表示、特征提取技術(shù),挖掘分析技術(shù)中的文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、關(guān)聯(lián)規(guī)則、分布分析與趨勢預(yù)測等技術(shù)以及信息展示中的可視化技術(shù)等。
文本挖掘技術(shù)拓展了現(xiàn)有的數(shù)據(jù)挖掘技術(shù),把挖掘的對象從結(jié)構(gòu)化的數(shù)值數(shù)據(jù)擴(kuò)展到非結(jié)構(gòu)化的文本數(shù)據(jù),因此可以幫助我們從海量的文本數(shù)據(jù)中發(fā)現(xiàn)新的模式、模型、規(guī)則、趨勢等知識(shí),目前在很多領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)計(jì)量的結(jié)果表明,近年來國際上文本挖掘的研究論文呈迅猛上升勢頭。以“text mining”為主題詞在Web of Knowledge(WoK)中檢索可得與文本挖掘相關(guān)的論文3 049篇(截至2010年),且呈逐年上升的趨勢。從WoK學(xué)科統(tǒng)計(jì)來看,目前文本挖掘技術(shù)的研究主要集中于計(jì)算機(jī)科學(xué)、計(jì)算生物學(xué)、數(shù)學(xué)、醫(yī)藥信息學(xué)、生物化學(xué)與分子化學(xué)、信息科學(xué)、醫(yī)學(xué)等自然科學(xué)領(lǐng)域,論文總數(shù)占文獻(xiàn)總量的82%。相比而言,人文社會(huì)科學(xué)領(lǐng)域的論文則較少,兩者之和為18%,其中人文科學(xué)僅為1%。
由于互聯(lián)網(wǎng)時(shí)代學(xué)術(shù)資源生產(chǎn)與傳遞方式的變化,以新的方法和技術(shù)從海量文本中發(fā)現(xiàn)隱含的知識(shí)和模式,成為情報(bào)學(xué)中最有前景的領(lǐng)域之一。由于人文社科文獻(xiàn)的非結(jié)構(gòu)化特征更加明顯,文獻(xiàn)中包含的隱性內(nèi)容更多,能否在人文社科領(lǐng)域成功運(yùn)用文本挖掘就成為了檢驗(yàn)文本挖掘的方法論優(yōu)勢的試金石。本文以文本挖掘的幾個(gè)關(guān)鍵技術(shù)——信息抽取、文本分類、文本聚類、關(guān)聯(lián)規(guī)則、模式發(fā)現(xiàn)與可視化技術(shù)為主要線索,分析發(fā)現(xiàn)文本挖掘技術(shù)在人文社科研究中的應(yīng)用特點(diǎn),以便為人文社科研究中更加自覺地應(yīng)用文本挖掘方法提供新的思路。
2、信息抽取應(yīng)用
信息抽取(information extraction)是文本挖掘的前-端技術(shù),它從文本對象中抽取預(yù)先指定的實(shí)體、關(guān)系、事件等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并輸入數(shù)據(jù)庫。信息抽取所獲得的結(jié)構(gòu)化信息片段從一個(gè)角度反映了文本內(nèi)容的內(nèi)在特征,因此通過機(jī)器學(xué)習(xí)等方法可以從中發(fā)現(xiàn)知識(shí)、挖掘知識(shí),為科學(xué)研究提供有力的支持。
信息抽取作為一門獨(dú)立的內(nèi)容處理技術(shù),其本身在商業(yè)、情報(bào)分析、數(shù)字圖書館等領(lǐng)域有著廣泛的應(yīng)用,已有較多專門的信息抽取系統(tǒng)投入商用。在人文社科研究中,信息抽取常常作為文本挖掘的一個(gè)重要步驟,作為知識(shí)發(fā)現(xiàn)技術(shù)的前端和基礎(chǔ)。文獻(xiàn)構(gòu)建了基于信息抽取的文本挖掘模型,均把信息抽取作為文本挖掘的一個(gè)重要組成部分,是提高文本挖掘效率的一個(gè)手段。不僅討論了信息抽取對文本挖掘的作用,而且證實(shí)了通過文本挖掘得出的規(guī)則對信息抽取系統(tǒng)具有指導(dǎo)作用。除了作為文本挖掘的前端技術(shù),信息抽取技術(shù)在改善信息檢索、輔助知識(shí)發(fā)現(xiàn)方面在人文社科研究中有著較多的應(yīng)用。
2.1 改善信息檢索
傳統(tǒng)的信息檢索只能通過關(guān)鍵詞與文檔的匹配返回與用戶需求相關(guān)的文檔,而信息抽取則可以幫助用戶直接定位所需的信息,無需閱讀文檔的全部內(nèi)容。由于在處理海量數(shù)據(jù)時(shí)具有出色表現(xiàn),信息抽取在多個(gè)人文社科領(lǐng)域得到了應(yīng)用。在古典文學(xué)研究領(lǐng)域,德國萊比錫大學(xué)承擔(dān)的eAQUA項(xiàng)目從古典文獻(xiàn)資料(公元前3000年一公元600年)中抽取特定領(lǐng)域的知識(shí),并通過eAQUA門戶免費(fèi)提供這些知識(shí)。在文獻(xiàn)中,英國倫敦國王學(xué)院的Matteo(2010)介紹了一個(gè)信息抽取在古典文學(xué)中的應(yīng)用研究項(xiàng)目,該項(xiàng)目旨在對當(dāng)代關(guān)于古希臘和拉丁文學(xué)作品進(jìn)行研究的二手文獻(xiàn)進(jìn)行實(shí)體抽取,并提供與原始文獻(xiàn)之間的關(guān)聯(lián),從而提供更高級(jí)的信息展示和檢索功能。在社會(huì)學(xué)領(lǐng)域,英國聯(lián)合信息系統(tǒng)委員會(huì)(JISC)資助的ASSERT E’’項(xiàng)目綜合利用信息抽取、文本聚類等技術(shù)提供了一個(gè)自動(dòng)生成文獻(xiàn)綜述的系統(tǒng)。信息抽取技術(shù)與信息檢索技術(shù)互相融合滲透,為人文社科領(lǐng)域海量信息資源的獲取提供了極大的便利。
2.2 輔助知識(shí)發(fā)現(xiàn)