国产真实乱的伦视频,国产成人一区二区欧美精品,99在线国内视频,国产一卡2卡三卡4卡高清,国产亚洲精品久久久久-

前言：想要寫出一篇令人眼前一亮的文章嗎？我們特意為您整理了5篇挖掘技術(shù)論文范文，相信會(huì)為您的寫作帶來幫助，發(fā)現(xiàn)更多的寫作思路和靈感。

挖掘技術(shù)論文

挖掘技術(shù)論文范文第1篇

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程，這些信息的表現(xiàn)形式為：規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù)，并從中發(fā)現(xiàn)隱藏的關(guān)系和模式，進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法，常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具，處理數(shù)據(jù)挖掘中的分類問題，回歸分析用來找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型，在回歸分析中有用來描述一個(gè)變量的變化趨勢和別的變量值的關(guān)系的線性回歸，還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對最終回歸的影響，是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單，實(shí)用的分析規(guī)則，它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式，是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系，原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系，但是，并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值，要對這些規(guī)則要進(jìn)行有效的評價(jià)，篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組，同組內(nèi)的樣本具有較高的相似度，不同組的則相異，常用的技術(shù)有分裂算法，凝聚算法，劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系，從而對樣本結(jié)構(gòu)做出合理的評價(jià)，此外，聚類分析還用于對孤立點(diǎn)的檢測。并非由聚類分析算法得到的類對決策都有效，在運(yùn)用某一個(gè)算法之前，一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法，通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例，葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對實(shí)例的某個(gè)屬性的測試，該結(jié)點(diǎn)的每一個(gè)后繼分支對應(yīng)于該屬性的一個(gè)可能值，分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始，測試這個(gè)結(jié)點(diǎn)指定的屬性，然后按照給定實(shí)例的該屬性值對應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上，能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析，并可以完成對人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢分析，神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類，無論哪種，輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu)，建立三大類多種神經(jīng)元網(wǎng)絡(luò)，具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法，通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步，通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分，來更新當(dāng)前群體的一組假設(shè)，來實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體，產(chǎn)生新種群(后代)的過程；交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換，形成新個(gè)體的過程；變異(突變)是對某些個(gè)體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中，可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下，只以考察數(shù)據(jù)的分類能力為基礎(chǔ)，解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性，對數(shù)據(jù)庫中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集，然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合，形成知識(shí)的基本成分。任何初等集合的并集稱為精確集，否則，一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素，也就是那些既不能確定為集合元素，也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的，盡量提高學(xué)習(xí)機(jī)的泛化能力，具有良好的推廣性能和較好的分類精確性，能有效的解決過學(xué)習(xí)問題，現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外，支持向量機(jī)算法是一個(gè)凸優(yōu)化問題，局部最優(yōu)解一定是全局最優(yōu)解，這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實(shí)上，任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法，很難說哪種方法好，那種方法劣，而是視具體問題而定。

三、結(jié)束語

目前，數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用，并取得了顯著成效，但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究，數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用，并取得更加顯著的效果。

參考文獻(xiàn):

蘇新寧楊建林鄧三鴻等:數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003

挖掘技術(shù)論文范文第2篇

電子商務(wù)既包括了低層次的電子貿(mào)易等，還包括了利用Internet網(wǎng)絡(luò)開展的貿(mào)易活動(dòng)，在多個(gè)環(huán)節(jié)中實(shí)現(xiàn)。電子商務(wù)的發(fā)展極大地改變了銷售商和顧客之間的關(guān)系，在紡織業(yè)電子商務(wù)采用Web數(shù)據(jù)挖掘主要包括以下幾點(diǎn)作用。電子商務(wù)進(jìn)行Web數(shù)據(jù)挖掘的數(shù)據(jù)源主要包括查詢數(shù)據(jù)、Web頁面、在線市場數(shù)據(jù)等。服務(wù)器數(shù)據(jù)主要是指用戶在訪問電子商務(wù)網(wǎng)站中所產(chǎn)生的各種信息，如服務(wù)器Web日志文件。查詢數(shù)據(jù)通過搜索引擎產(chǎn)生的查詢數(shù)據(jù)，是一種比較典型的數(shù)據(jù)。服務(wù)器數(shù)據(jù)是網(wǎng)絡(luò)信息的中轉(zhuǎn)站，服務(wù)器數(shù)據(jù)一般具有防火墻功能，是網(wǎng)絡(luò)信息的中轉(zhuǎn)站，采用緩存功能，能夠大大減少服務(wù)器的網(wǎng)絡(luò)流量，加快運(yùn)行速度。任何一個(gè)電子商務(wù)網(wǎng)站在Web數(shù)據(jù)挖掘過程開始之前需要進(jìn)行數(shù)據(jù)挖掘，包括數(shù)據(jù)的準(zhǔn)備、挖掘操作以及解釋過程等。Web數(shù)據(jù)挖掘應(yīng)用到紡織業(yè)電子商務(wù)中，能夠幫助企業(yè)更好的掌握生產(chǎn)狀態(tài)，更加快速的提出企業(yè)的銷售信息，準(zhǔn)確把握市場銷售的變化，進(jìn)而提高紡織企業(yè)對市場的應(yīng)對能力，也能提高企業(yè)對生產(chǎn)的控制和管理能力，最大程度利用人力資源和物理資源，提高經(jīng)濟(jì)效益?？蛻絷P(guān)系管理是一種以客戶為中心的經(jīng)營策略，指導(dǎo)企業(yè)的開發(fā)發(fā)展和銷售，提高企業(yè)的競爭能力，采用Web數(shù)據(jù)挖掘技術(shù)能夠最大限度的利用客戶資源，對客戶進(jìn)行分類，尋找潛在的價(jià)值，加強(qiáng)紡織業(yè)客戶的管理工作。企業(yè)的信用狀況將會(huì)嚴(yán)重影響企業(yè)的發(fā)展，利用Web數(shù)據(jù)挖掘技術(shù)能夠跟蹤調(diào)查企業(yè)的經(jīng)營情況，為保證體系提供數(shù)據(jù)資料?？蛻粼谶x擇任何一種銷售商并沒有太大差別，企業(yè)本身想要留住客戶，就需要想辦法讓客戶駐留更長的時(shí)間，想要根據(jù)客戶的習(xí)慣來設(shè)計(jì)，就需要了解客戶的興趣和需求，動(dòng)態(tài)調(diào)整頁面，滿足用戶的需求，挖掘客戶訪問信息，進(jìn)而了解客戶的需求。根據(jù)序列發(fā)現(xiàn)客戶瀏覽行為的信息，明白客戶的需求，根據(jù)顧客的需求來設(shè)計(jì)別出心載的界面，增加客戶的駐留時(shí)間。Web數(shù)據(jù)挖掘在應(yīng)用中能夠幫助紡織企業(yè)更好的挖掘潛在的信息，商家可以根據(jù)潛在客戶的需求和愿望來進(jìn)行分類，正確的分類新客戶，判斷潛在的新客戶，強(qiáng)化顯示客戶的需求，保證企業(yè)獲得更高的客戶收益。紡織業(yè)電子商務(wù)在應(yīng)用Web數(shù)據(jù)挖掘中能夠改進(jìn)Web站點(diǎn)的設(shè)計(jì)，提高站點(diǎn)的效率。紡織業(yè)電子商務(wù)Web數(shù)據(jù)挖掘的使用不在依照專家來進(jìn)行設(shè)計(jì)，而是根據(jù)客戶的意愿來進(jìn)行設(shè)計(jì)，利用關(guān)聯(lián)規(guī)則來進(jìn)行推理，發(fā)現(xiàn)潛在的規(guī)律，為客戶的下次訪問提供幫助。紡織業(yè)電子商務(wù)應(yīng)用Web數(shù)據(jù)挖掘能夠改變營銷機(jī)制，在一般企業(yè)的宣傳中可以看到，花費(fèi)大量的資金來進(jìn)行宣傳，所起到的效果不是很好，若是通過電子產(chǎn)品的的方式就能得到更好的營銷效果。

2、紡織業(yè)電子商務(wù)面向Web挖掘的新型架構(gòu)

2.1Web數(shù)據(jù)挖掘的流程

采用數(shù)據(jù)挖掘技術(shù)流程為特征信息的識(shí)別制定目標(biāo)問題的描述關(guān)聯(lián)分析聚類決策樹等。紡織業(yè)電子商務(wù)網(wǎng)絡(luò)在挖掘數(shù)據(jù)中首先需要記錄調(diào)庫眼特征，包括購買歷史、廣告歷史等信息。目標(biāo)制定流程是尋找不同的隱含模式，關(guān)聯(lián)分析主要是發(fā)現(xiàn)顧客喜愛的商品組合，聚類則是找到能夠提供訪問者特征的報(bào)告，決策樹就是流程圖，采用最少的步驟解決問題。先記錄訪問者的條款特征，當(dāng)訪問者訪問網(wǎng)站時(shí)能夠逐漸積累訪問者的數(shù)據(jù)，交互信息包括廣告歷史等。在網(wǎng)上進(jìn)行交易的最大優(yōu)點(diǎn)在于能夠有效的評估訪問者的反應(yīng)，采用數(shù)據(jù)挖掘技術(shù)能夠得到更好的效果。電子商務(wù)網(wǎng)站想要將顧客購買信息這些信息集中在一起，容易出現(xiàn)瀏覽中出現(xiàn)遺漏的情況，在流程設(shè)計(jì)中采用聚類，能夠確定網(wǎng)站的數(shù)據(jù)，向不同的訪問者提供相應(yīng)的報(bào)告。

2.2紡織業(yè)電子商務(wù)面向Web挖掘的新型架構(gòu)

2.2.1Web挖掘關(guān)鍵技術(shù)

Web服務(wù)的體系結(jié)構(gòu)主要?jiǎng)幼鳂?gòu)成包括服務(wù)注冊中心、服務(wù)請求者、服務(wù)提供者等，服務(wù)提供者就是一種可通過網(wǎng)絡(luò)地址訪問的實(shí)體，服務(wù)請求者是一個(gè)應(yīng)用程序的服務(wù)，服務(wù)注冊中心是聯(lián)系服務(wù)提供者和請求者。Web服務(wù)協(xié)議可以分為網(wǎng)絡(luò)傳輸層、消息層、模型層等。網(wǎng)絡(luò)傳輸層是Web服務(wù)協(xié)議棧的基礎(chǔ)，可以采用任何格式，要求具有安全性、性能以及可靠性。數(shù)據(jù)表示層主要是提供數(shù)據(jù)描述手段，標(biāo)準(zhǔn)數(shù)據(jù)建模語言主要是XML?；赬ML的消息層提供一個(gè)松散的、分布環(huán)境，是在分布式的環(huán)境中交換信息的輕量級(jí)協(xié)議。服務(wù)描述層主要是提供認(rèn)識(shí)機(jī)制，服務(wù)分線層在實(shí)現(xiàn)中創(chuàng)建一個(gè)獨(dú)立的開放框架，發(fā)現(xiàn)Web服務(wù)的功能，Web服務(wù)工作流語言是協(xié)議棧頂層的標(biāo)準(zhǔn)語言。Web服務(wù)的關(guān)鍵技術(shù)主要包括SOAP協(xié)議、WSDL描述方式等，SOAP協(xié)議是分布式環(huán)境中交換信息的簡單協(xié)議，能夠與現(xiàn)有通信技術(shù)最大程度地兼容，獨(dú)立于應(yīng)用程度對象模型、語言和運(yùn)行平臺(tái)等，本身不定義任何應(yīng)用語義，一個(gè)SOAP信息是一個(gè)XML文檔，AOAP規(guī)范主要由信封、編碼規(guī)則、綁定等組成，AOAP信封定義整體的消息表示框架。移動(dòng)Agent技術(shù)應(yīng)用到電子商務(wù)中有非常大的優(yōu)勢，移動(dòng)Agent技術(shù)具有響應(yīng)性、自主性以及主動(dòng)性等特征，應(yīng)用到電子商務(wù)系統(tǒng)中能夠減少電子商務(wù)活動(dòng)的通信代價(jià)，減少網(wǎng)上原始數(shù)據(jù)的流量。電子商務(wù)中的教育要求包括訪問流程信息，要求系統(tǒng)對環(huán)境的變化做出實(shí)時(shí)的反應(yīng)，由中央處理器將移動(dòng)Agent派遣到系統(tǒng)局部點(diǎn)激活消除隱患。

2.2.2Web挖掘平臺(tái)設(shè)計(jì)

產(chǎn)品的功能實(shí)現(xiàn)在Web數(shù)據(jù)挖掘平臺(tái)的設(shè)計(jì)中至關(guān)重要，要求數(shù)據(jù)挖掘平臺(tái)具有動(dòng)態(tài)、可伸縮性，能夠根據(jù)市場需求的變化而隨之變化，還要求具有足夠的穩(wěn)定性和可靠性。在進(jìn)行架構(gòu)設(shè)計(jì)時(shí)，需要注意架構(gòu)的合理性、簡潔性和可擴(kuò)展性。根據(jù)數(shù)據(jù)挖掘、Web服務(wù)和相關(guān)結(jié)束，設(shè)計(jì)數(shù)據(jù)挖掘架構(gòu)，見圖1所示，Web服務(wù)的組合由Agent負(fù)責(zé)，待返回結(jié)果后，能夠有效解決數(shù)據(jù)的分布性、可擴(kuò)展性等，負(fù)責(zé)服務(wù)之間的通信，降低網(wǎng)絡(luò)通信的負(fù)擔(dān)，減少相應(yīng)時(shí)間，實(shí)現(xiàn)挖掘算法庫的動(dòng)態(tài)管理。在挖掘平臺(tái)的設(shè)計(jì)中，各種挖掘算法均采用采用Web服務(wù)封裝，實(shí)現(xiàn)挖掘系統(tǒng)與算法的耦合。各個(gè)Agent模塊之間相互獨(dú)立。架構(gòu)邏輯層主要分為4層，數(shù)據(jù)存儲(chǔ)層為最底層，數(shù)據(jù)處理層主要包括Web服務(wù)的架構(gòu)和數(shù)據(jù)挖掘的是吸納，在Agent環(huán)境中將XML文件轉(zhuǎn)換，將查詢結(jié)果再打包成XML文檔，形成模式集合最后提供給客戶信息，把訪問層和邏輯層設(shè)計(jì)為數(shù)據(jù)訪問的功能封裝。客戶端的設(shè)計(jì)主要包括胖客戶端和瘦客戶端，大部分的系統(tǒng)功能集中在胖客戶端。典型的Agent結(jié)構(gòu)應(yīng)用到Web服務(wù)，其他的Agent搜尋和定位這些系統(tǒng)。移動(dòng)Agent應(yīng)用到Web數(shù)據(jù)挖掘中能夠彌補(bǔ)很多的不足。在Web挖掘架構(gòu)設(shè)計(jì)中，獨(dú)立出了搜索引擎，使得搜索引擎更加具有靈活性。傳統(tǒng)的數(shù)據(jù)挖掘引擎主要包括算法調(diào)用模塊和算法管理模塊等，算法分布Agent子模塊股則命令的傳輸，向UDDI請求，刪除已有的挖掘算法等功能，UDDI服務(wù)器與Agent相互交換信息生成算法的WSDL文檔，將信息保存到UDDI服務(wù)器上，完成任務(wù)。

3、Web挖掘原型系統(tǒng)的實(shí)現(xiàn)

挖掘技術(shù)論文范文第3篇

目前的垃圾短信過濾的方法主要有黑名單和白名單監(jiān)控技術(shù)，但是短信中心對黑白名單處理數(shù)量有上限要求；基于關(guān)鍵字的過濾技術(shù)，但是這種技術(shù)不能靈活識(shí)別和更新關(guān)鍵字；基于內(nèi)容的過濾技術(shù)，可分為基于規(guī)則的過濾和基于概率統(tǒng)計(jì)的過濾；基于數(shù)據(jù)挖掘方法的垃圾短信用戶識(shí)別，目前基本上都使用IBMSPSSModeler平臺(tái)的決策樹和邏輯回歸經(jīng)典算法識(shí)別垃圾短信用戶，由于選取的建模數(shù)據(jù)不全面以及算法本身各自存在不足使得建模效果受到影響。為建立白名單和科學(xué)封堵模型相結(jié)合的垃圾短信治理模式，實(shí)現(xiàn)精細(xì)化、行為級(jí)、高效性的垃圾短信治理，本方案提出了基于客戶綜合特征分析的垃圾短信治理技術(shù)方案：基于隨機(jī)森林分類的垃圾短信用戶預(yù)測模型。通過客戶入網(wǎng)屬性，客戶通信行為信息、客戶賬單信息等多個(gè)維度構(gòu)建模型，對垃圾短信號(hào)碼進(jìn)行識(shí)別和治理。相比傳統(tǒng)基于短信內(nèi)容識(shí)別、發(fā)送量控制的事中控制，本系統(tǒng)能夠進(jìn)行垃圾短信發(fā)送行為預(yù)測，配合垃圾短信攔截系統(tǒng)將垃圾短信在未形成大規(guī)模發(fā)送前攔截。實(shí)驗(yàn)結(jié)果證明該模型能夠有效的識(shí)別垃圾短信號(hào)碼，對監(jiān)控系統(tǒng)攔截垃圾短信起到很好的輔助作用。

2大數(shù)據(jù)挖掘的原理與優(yōu)勢

大數(shù)據(jù)是指數(shù)據(jù)量很大（一般是TB到PB數(shù)量級(jí)）的巨量資料，無法通過主流軟件工具，在合理時(shí)間內(nèi)完成數(shù)據(jù)處理并獲取有價(jià)值的信息。數(shù)據(jù)大多以非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)為主，大數(shù)據(jù)具有4V特點(diǎn)：Volume、Velocity、Variety、Veracity。大數(shù)據(jù)處理的一般思路是數(shù)據(jù)壓縮、數(shù)據(jù)抽樣、數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘是一種新的信息處理技術(shù)，其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其它模型化處理，從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、推薦系統(tǒng)等，它們分別從不同的角度對數(shù)據(jù)進(jìn)行挖掘。大數(shù)據(jù)挖據(jù)的數(shù)據(jù)源和處理方式對比。

3數(shù)據(jù)挖據(jù)流程和模型選取

3.1數(shù)據(jù)挖掘的主要流程

數(shù)據(jù)挖掘主要包括以下6大步驟。

（1）商業(yè)理解：確定挖掘目標(biāo)以及產(chǎn)生一個(gè)項(xiàng)目計(jì)劃。

（2）數(shù)據(jù)理解：知曉有哪些數(shù)據(jù)，以及數(shù)據(jù)的特征是什么。

（3）數(shù)據(jù)準(zhǔn)備：對數(shù)據(jù)作出轉(zhuǎn)換、清洗、選擇、合并等工作。

（4）建模：根據(jù)挖掘目標(biāo)確定適合的模型，建模并對模型進(jìn)行評估。

（5）模型評估：評估建模效果，對效果較差的結(jié)果我們需要分析原因。

（6）結(jié)果部署：用所建挖掘模型去解決實(shí)際問題，它還包括了監(jiān)督、維持、產(chǎn)生最終報(bào)表、重新評估模型等過程。

3.2垃圾短信治理指標(biāo)體系設(shè)計(jì)

垃圾短信用戶識(shí)別建模數(shù)據(jù)主要從信令監(jiān)測系統(tǒng)、經(jīng)營分析系統(tǒng)獲取，所獲取的用戶行為數(shù)據(jù)主要包括用戶通信行為信息、用戶基礎(chǔ)業(yè)務(wù)屬性、用戶通信業(yè)務(wù)信息等7個(gè)維度。其中，用戶通信行為信息包括活動(dòng)軌跡、終端IMEI和數(shù)據(jù)業(yè)務(wù)訪問等信息。

3.3模型的選取

對白名單用戶的識(shí)別可以利用社交網(wǎng)絡(luò)模型與業(yè)務(wù)規(guī)則相結(jié)合的方法。利用社交網(wǎng)絡(luò)進(jìn)行白名單用戶識(shí)別，重點(diǎn)考慮用戶之間發(fā)生的通信行為、增值業(yè)務(wù)交互行為等群體行為，通過對用戶之間關(guān)系的辨識(shí)。本文建模的重點(diǎn)著眼于垃圾短信用戶的識(shí)別及其治理。

3.3.1現(xiàn)有垃圾短信識(shí)別模型的優(yōu)勢與不足

識(shí)別垃圾短信用戶是數(shù)據(jù)挖掘中的分類問題，數(shù)據(jù)挖掘中常用的分類算法主要有邏輯回歸、決策樹、貝葉斯網(wǎng)絡(luò)等算法。其中，神經(jīng)網(wǎng)絡(luò)因本身算法的復(fù)雜性，造成模型結(jié)果解釋性較差，模型落地較困難而很少在實(shí)際項(xiàng)目中使用。目前識(shí)別垃圾短信的數(shù)據(jù)挖掘模型基本上為邏輯回歸模型和決策樹模型。決策樹模型主要具有以下優(yōu)勢：模型非常直觀，容易讓人理解和應(yīng)用；決策樹搭建和應(yīng)用的速度比較快；決策樹對于數(shù)據(jù)分布沒有嚴(yán)格要求；受缺失值和極端值對模型的影響很小。但是，使用決策樹作為垃圾短信用戶識(shí)別模型主要存在以下不足。

（1）決策樹最大缺點(diǎn)是其原理中的貪心算法。貪心算法總是做出在當(dāng)前看來最好的選擇，卻不從整體上思考最優(yōu)的劃分，因此，它所做的選擇只能是某種意義上的局部最優(yōu)選擇。

（2）決策樹缺乏像回歸或者聚類那樣豐富多樣的檢測指標(biāo)和評價(jià)方法。

（3）容易出現(xiàn)過擬合。當(dāng)某些自變量的類別數(shù)量比較多，或者自變量是區(qū)間型時(shí)，決策樹過擬合的危險(xiǎn)性會(huì)增加。

（4）決策樹算法對區(qū)間型自變量進(jìn)行分箱操作時(shí)，無論是否考慮了順序因素，都有可能因分箱喪失某些重要信息。尤其是當(dāng)分箱前的區(qū)間變量與目標(biāo)變量有明顯的線性關(guān)系時(shí)，這種分箱操作造成的信息損失更為明顯。

相比于數(shù)據(jù)挖掘建模常用的其它算法如決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等，邏輯回歸技術(shù)是最成熟，得到廣泛應(yīng)用，邏輯回歸模型主要存在以下不足。

（1）變量之間的多重共線性會(huì)對模型造成影響。

（2）應(yīng)刪除異常值，否則它會(huì)給模型帶來很大干擾。

（3）邏輯回歸模型本身不能處理缺失值，所以應(yīng)用邏輯回歸算法時(shí)，要注意針對缺失值進(jìn)行適當(dāng)處理，或者賦值，或者替換，或者刪除。

3.3.2垃圾短信識(shí)別預(yù)測模型選取

鑒于目前研究者對垃圾短信識(shí)別使用的決策樹和邏輯回歸模型存在較多不足之處，本文從模型算法上對其進(jìn)行改進(jìn)，力求得到更加科學(xué)合理的垃圾短信識(shí)別預(yù)測模型。本文使用的數(shù)據(jù)挖掘模型為隨機(jī)森林模型。

3.3.2.1模型簡介

隨機(jī)森林（RandomForest）算法是一種專門為決策樹分類器設(shè)計(jì)的優(yōu)化方法。它綜合了多棵決策樹模型的預(yù)測結(jié)果，其中的每棵樹都是基于隨機(jī)樣本的一個(gè)獨(dú)立集合的值產(chǎn)生的。隨機(jī)森林和使用決策樹作為基本分類器的Bagging有些類似。以決策樹為基本模型的Bagging在每次自助法（Boostrap）放回抽樣之后，產(chǎn)生一棵決策樹，抽多少樣本就生成多少棵樹，在生成這些樹的時(shí)候沒有進(jìn)行更多的干預(yù)。而隨機(jī)森林也是進(jìn)行許多次自助法放回抽樣，所得到的樣本數(shù)目及由此建立的決策樹數(shù)量要大大多于Bagging的樣本數(shù)目。隨機(jī)森林與Bagging的關(guān)鍵區(qū)別在于，在生成每棵樹的時(shí)候，每個(gè)節(jié)點(diǎn)變量都僅僅在隨機(jī)選出的少數(shù)變量中產(chǎn)生。因此，不但樣本是隨機(jī)的，就連每個(gè)節(jié)點(diǎn)變量產(chǎn)生都有相當(dāng)大的隨機(jī)性。隨機(jī)森林讓每棵樹盡可能生長，而不進(jìn)行修剪。隨機(jī)森林算法主要包括決策樹的生長和投票過程。隨機(jī)森林中單棵樹的生長可概括為以下幾步。

（1）使用Bagging方法形成個(gè)別的訓(xùn)練集:假設(shè)原始訓(xùn)練集中的樣本數(shù)為N，從中有放回地隨機(jī)選取N個(gè)樣本形成一個(gè)新的訓(xùn)練集，以此生成一棵分類樹。

（2）隨機(jī)選擇特征(指評估指標(biāo)，以下同)對分類樹的節(jié)點(diǎn)進(jìn)行分裂:假設(shè)共有M個(gè)特征，指定一個(gè)正整數(shù)m<M，在每個(gè)內(nèi)部節(jié)點(diǎn)，從M個(gè)特征中隨機(jī)抽取m個(gè)特征作為候選特征，選擇這m個(gè)特征上最好的分裂方式對節(jié)點(diǎn)進(jìn)行分裂。在整個(gè)森林的生長過程中，m的值保持不變。

（3）每棵樹任其生長，不進(jìn)行剪枝。Bagging方法形成新的訓(xùn)練集和隨機(jī)選擇特征進(jìn)行分裂，使得隨機(jī)森林能較好地容忍噪聲，并且能降低單棵樹之間的相關(guān)性；單棵樹不剪枝能得到低偏差的分類樹，同時(shí)保證了分類樹的分類效能(Strength)，分類樹的分類效能是指分類樹對新的測試數(shù)據(jù)的分類準(zhǔn)確率。

3.3.2.2隨機(jī)森林分類預(yù)測模型的主要優(yōu)勢

（1）隨機(jī)森林的預(yù)測精度高，它可以產(chǎn)生高準(zhǔn)確度的分類器。

（2）可以處理相當(dāng)多的輸入變量。隨機(jī)森林不懼怕很大的維數(shù)，即使有數(shù)千個(gè)變量，也不必刪除，它也會(huì)給出分類中各個(gè)變量的重要性。

（3）當(dāng)在構(gòu)建隨機(jī)森林模型時(shí)候，對GenerlizationError估計(jì)是無偏估計(jì)。

（4）隨機(jī)森林在設(shè)計(jì)上具有很快訓(xùn)練速度，訓(xùn)練出結(jié)果模型不必花費(fèi)大量時(shí)間。

（5）對缺失值和極端值具有很強(qiáng)容忍能力，即使有較多缺失數(shù)據(jù)仍可以維持準(zhǔn)確度。

（6）當(dāng)遇到分類數(shù)據(jù)不平衡時(shí)，可以較好地平衡誤差。

（7）隨機(jī)森林算法并不會(huì)導(dǎo)致過擬合。定義組合分類器的總體分類效能s為：s=Ex,ymg(x,y)。若用ρ表示每棵分類樹之間相關(guān)度的均值，則隨機(jī)森林的泛化誤差PE的上界可由下式給出:PE*≤ρ(1-s2)/s2。當(dāng)隨機(jī)森林有相當(dāng)多的分類樹時(shí)，隨機(jī)森林的泛化誤差幾乎處處收斂于一個(gè)有限值。因此，隨著森林中分類樹數(shù)目的增長，隨機(jī)森林算法并不會(huì)導(dǎo)致過擬合。

（8）隨機(jī)森林在模型訓(xùn)練過程中，能夠?qū)μ卣髦g的相互影響行為做出檢測。隨機(jī)森林算法具有以上優(yōu)勢，在垃圾短信治理預(yù)測中具有應(yīng)用的優(yōu)勢，本文采用隨機(jī)森林模型作為垃圾短信用戶的分類預(yù)測。綜上所述，隨機(jī)森林模型主要在不會(huì)出現(xiàn)過擬合、訓(xùn)練精度高、能處理大量輸入變量并輸出變量重要性3個(gè)方面優(yōu)越于決策樹模型；在容忍缺失值和極端值方面明顯優(yōu)越于邏輯回歸模型。隨機(jī)森林模型在算法設(shè)計(jì)上有效彌補(bǔ)了決策樹和邏輯回歸模型的不足之處，在垃圾短信識(shí)別分類預(yù)測中具有較好的應(yīng)用價(jià)值。

3.3.2.3垃圾短信數(shù)據(jù)挖掘模型構(gòu)建

通過前述的商業(yè)理解確定了垃圾短信識(shí)別業(yè)務(wù)需求，并進(jìn)行數(shù)據(jù)理解構(gòu)建了垃圾短信識(shí)別指標(biāo)體系，再抽取需要的數(shù)據(jù)，并進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換、衍生變量計(jì)算等步驟，具備了建模的目標(biāo)數(shù)據(jù)，接下來的任務(wù)就是通過隨機(jī)森林模型構(gòu)建垃圾短信分類預(yù)測模型，對垃圾短信用戶進(jìn)行識(shí)別。

3.4用戶分類治理策略

通過隨機(jī)森林模型的識(shí)別，根據(jù)用戶是垃圾短信發(fā)送者的可能性評估，制定不同的治理策略，如圖3所示。實(shí)際的執(zhí)行過程中，需要根據(jù)清單的范圍大小，適當(dāng)?shù)恼{(diào)整預(yù)測概率門限，以保證策略執(zhí)行的效果，同時(shí)避免過多的正常用戶的業(yè)務(wù)感知受到影響。

4垃圾短信治理平臺(tái)的實(shí)現(xiàn)

4.1系統(tǒng)架構(gòu)

垃圾短信治理平臺(tái)的數(shù)據(jù)來源較多，需要處理的數(shù)據(jù)量也非常大，因此，數(shù)據(jù)采集和數(shù)據(jù)處理過程是相互影響的過程。垃圾短信治理平臺(tái)的系統(tǒng)架構(gòu)圖如圖4所示。

（1）數(shù)據(jù)采集層：是垃圾短信治理平臺(tái)與多個(gè)數(shù)據(jù)庫來源的安全訪問接口，通過數(shù)據(jù)采集層實(shí)現(xiàn)數(shù)據(jù)挖掘和分析所需要的基礎(chǔ)信息：用戶屬性信息、用戶卡號(hào)信息、用戶業(yè)務(wù)記錄、用戶的位置信息和消費(fèi)記錄。

（2）數(shù)據(jù)處理層：需要根據(jù)數(shù)據(jù)挖掘的需求，將采集的基礎(chǔ)數(shù)據(jù)轉(zhuǎn)換為業(yè)務(wù)服務(wù)層可以使用的數(shù)據(jù)，通過對基礎(chǔ)數(shù)據(jù)進(jìn)行整形、清洗和預(yù)處理，為后續(xù)的數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備。

（3）業(yè)務(wù)服務(wù)層：主要包括應(yīng)用和安全服務(wù)兩個(gè)部分，應(yīng)用包括數(shù)據(jù)查詢統(tǒng)計(jì)服務(wù)、用戶查詢服務(wù)和GIS應(yīng)用服務(wù)，同時(shí)，補(bǔ)充報(bào)表服務(wù)和文件管理服務(wù)以方便日常的工作。通過外部接口服務(wù)，可以部署相應(yīng)的權(quán)限管理、數(shù)據(jù)管理維護(hù)以及注冊服務(wù)等，降低系統(tǒng)的風(fēng)險(xiǎn)，保證信息的安全傳遞。

（4）功能模塊：主要是根據(jù)客戶需求，定制開發(fā)的功能單元，功能模塊的個(gè)數(shù)以實(shí)際部署的情況為準(zhǔn)。以圖4垃圾短信治理平臺(tái)的系統(tǒng)架構(gòu)圖某省公司的定制模塊為例，主要包括指標(biāo)查詢模塊、垃圾短信治理模塊、用戶綜合信息分析模塊和市場支撐應(yīng)用模塊4個(gè)部分。

4.2效果展現(xiàn)

針對不同的部門或用戶，垃圾短信治理平臺(tái)展現(xiàn)不同的數(shù)據(jù)，主要包括以下的結(jié)果展現(xiàn)方式。

（1）治理效果掌控：通過指標(biāo)查詢系統(tǒng)，及時(shí)掌握垃圾短信的治理效果，發(fā)現(xiàn)工作的成果和風(fēng)險(xiǎn)，達(dá)到及時(shí)發(fā)現(xiàn)問題并快速響應(yīng)的目的。

（2）治理效率提升：通過垃圾短信治理模塊，快速準(zhǔn)確識(shí)別垃圾短信源頭并定位區(qū)域，下發(fā)至地市公司快速處理，減小垃圾短信帶來的不良社會(huì)影響。

（3）實(shí)現(xiàn)預(yù)先管控：通過用戶綜合信息分析模塊，可以對潛在的具有垃圾短信源頭特征的風(fēng)險(xiǎn)終端進(jìn)行監(jiān)控、通過外呼、資費(fèi)信息等情況，提前發(fā)現(xiàn)和治理潛在垃圾短信源。

（4）渠道規(guī)范化：市場部門通過渠道信息和卡號(hào)信息，對一些垃圾短信來源集中的渠道的發(fā)卡進(jìn)行監(jiān)督和嚴(yán)格控制，從源頭上減少垃圾短信的源頭。

挖掘技術(shù)論文范文第4篇

1分類。分類技術(shù)可解決事件的歸類問題，在應(yīng)用時(shí)，不僅可以完成數(shù)據(jù)分析的任務(wù)，還能對未來的數(shù)據(jù)類型進(jìn)行必要的預(yù)測，比如，充分運(yùn)用分類技術(shù)對客戶的具體傾向進(jìn)行預(yù)測，確定客戶是否對相關(guān)研究感興趣，該技術(shù)方法也可應(yīng)用在醫(yī)療領(lǐng)域，針對患者的病情，通過分類技術(shù)選取適宜的藥物。

2回歸。回歸技術(shù)的核心為已知變量的數(shù)值，在此基礎(chǔ)上，對其他種類的變量實(shí)施必要的預(yù)測。在一般條件下，回歸技術(shù)充分發(fā)揮了線性回歸的實(shí)際效果，但從現(xiàn)實(shí)的角度講，并不是所有問題都能用基本的線性回歸進(jìn)行分析和解決的，為了更好的適應(yīng)這些實(shí)際的問題，相關(guān)人員對此也正在著手研究全新的方法，并已取得了顯著的效果，許多新型分析方法應(yīng)運(yùn)而生，比如邏輯回歸以及神經(jīng)網(wǎng)絡(luò)等。

3時(shí)間序列。時(shí)間序列技術(shù)實(shí)際上就是以過去的變量為基礎(chǔ)，分析和預(yù)測下一階段變量的方法。與回歸技術(shù)相同，同樣都是運(yùn)用現(xiàn)有的組員完成預(yù)測任務(wù)的，但資源的時(shí)間序列是存在一定差異的。時(shí)間序列技術(shù)通常是在完整的時(shí)間流中截選一個(gè)時(shí)間區(qū)間，對應(yīng)數(shù)據(jù)形成一整套單元，最后將此單元在時(shí)間流上進(jìn)行滑動(dòng)，從而獲取訓(xùn)練集。

4描述型。圖形與可視化工具是十分重要的，是相關(guān)人員完成快速分析任務(wù)的重要手段之一，改善了傳統(tǒng)數(shù)據(jù)的枯燥與乏味，不僅實(shí)現(xiàn)了數(shù)據(jù)整體的分析，還能對其中的每一個(gè)細(xì)節(jié)實(shí)施細(xì)致的觀察與分析，在圖形模式的支持下，人們可以更容易的了解到數(shù)據(jù)信息中潛在的相互關(guān)系和模式。

5關(guān)聯(lián)分析。關(guān)聯(lián)分析技術(shù)是指在數(shù)據(jù)庫中快速獲取數(shù)據(jù)的相關(guān)性。較為常用的技術(shù)方法主要有兩種，分別為關(guān)聯(lián)規(guī)則與序列模式，其中關(guān)聯(lián)規(guī)則是在相同時(shí)間中存在的不同項(xiàng)之間的相關(guān)性，而序列模式的研究對象主要為具體的事件。

6聚類。聚類技術(shù)實(shí)質(zhì)上就是數(shù)據(jù)庫的分類，組間差別盡可能的明顯，而同一組內(nèi)的數(shù)據(jù)要盡可能的相似或相同。聚類技術(shù)與分類技術(shù)存在很大的區(qū)別，在實(shí)施聚類以前，并不了解數(shù)據(jù)組的具體數(shù)量，分組的方法和依據(jù)也不知曉，所以在聚類完成以后，需要得到專業(yè)人士的分析和解釋。

二、經(jīng)濟(jì)普查的根本目的與重要意義

1.根本目的。經(jīng)濟(jì)普查是為了充分了解我國產(chǎn)業(yè)現(xiàn)階段發(fā)展的具體規(guī)模和實(shí)際效益，并創(chuàng)建完善的基本單位數(shù)據(jù)庫和對應(yīng)的管理系統(tǒng)，為社會(huì)可持續(xù)發(fā)展方針的落實(shí)奠定堅(jiān)實(shí)的基礎(chǔ)，同時(shí)也為國民經(jīng)濟(jì)的快速發(fā)展獻(xiàn)計(jì)獻(xiàn)策。經(jīng)濟(jì)普查的基本目標(biāo)是了解情況，建立相應(yīng)數(shù)據(jù)庫則是必要的手段，最終目的是促進(jìn)我國國民經(jīng)濟(jì)的快速發(fā)展與壯大。

2.重要意義。經(jīng)濟(jì)普查數(shù)據(jù)信息屬公共產(chǎn)品范疇，既是黨和政府認(rèn)識(shí)我國基本國情的重要依據(jù)，也是判斷各行業(yè)發(fā)展與走向的有效方法。經(jīng)濟(jì)普查的全面開展與落實(shí)，可以為廣大人民群眾開創(chuàng)更多的就業(yè)渠道，改善人們的生活質(zhì)量，使國民經(jīng)濟(jì)的改革與建設(shè)更加完善與全面。

三、經(jīng)濟(jì)普查數(shù)據(jù)挖掘方法的應(yīng)用

1.注冊服務(wù)器。在經(jīng)濟(jì)普查中運(yùn)用書庫挖掘方法，首先應(yīng)注冊服務(wù)器。分析服務(wù)器是數(shù)據(jù)分析的主體，有著不可取代的作用，因此分析服務(wù)器一般為首要的注冊對象，其他種類的注冊對象都是它的一部分。通常情況下，分析服務(wù)器名稱要與對應(yīng)網(wǎng)絡(luò)名稱保持一致。

2.創(chuàng)建數(shù)據(jù)倉庫。在分析服務(wù)器注冊完成以后，即可在該服務(wù)器的基礎(chǔ)上建立各類數(shù)據(jù)庫，由于數(shù)據(jù)庫中還缺乏具體的對象，因此可認(rèn)定該數(shù)據(jù)庫為空。為了使其發(fā)揮出更好的挖掘效果，還需充分考慮實(shí)際情況，創(chuàng)建適宜的研究對象。在計(jì)算機(jī)硬盤中尋找對應(yīng)的安裝目錄，并在下分的子文件找到并觀察經(jīng)濟(jì)普查工作的數(shù)據(jù)庫，確定文件的實(shí)際大小，在文件中存在數(shù)據(jù)庫操作方面所需的文件，這些文件主要以事件日志及數(shù)據(jù)的方式存在，且初始物理大小均為1M，在運(yùn)行時(shí)一般以10%的速度增長。

3.建立索引。在上述操作完成以后，即可建立經(jīng)濟(jì)普查相關(guān)的數(shù)據(jù)庫，但數(shù)據(jù)庫本身只是一種數(shù)據(jù)信息的存儲(chǔ)單元，想要使其發(fā)揮出最佳的效果，還需在數(shù)據(jù)庫的基礎(chǔ)上建立數(shù)據(jù)表，并建立與SQL操作所對應(yīng)數(shù)據(jù)源，實(shí)際情況中滿足選取條件的數(shù)據(jù)源有很多種，由于該操作事先已經(jīng)完成了數(shù)據(jù)表的建立，所以該數(shù)據(jù)庫中的數(shù)據(jù)類型僅有SQL這一種形式。

4.連接數(shù)據(jù)源。一般而言，數(shù)據(jù)庫創(chuàng)建完成以后的首要建立目標(biāo)為數(shù)據(jù)源，數(shù)據(jù)源在數(shù)據(jù)庫中具有指定源數(shù)據(jù)的作用，數(shù)據(jù)庫的基本數(shù)據(jù)類型有很多種形式，為了滿足數(shù)據(jù)庫使用的基本需求，可在同一種數(shù)據(jù)庫中設(shè)置多種數(shù)據(jù)源。連接數(shù)據(jù)源是為了讓數(shù)據(jù)挖掘更好的進(jìn)行，在數(shù)據(jù)源連接完成以后，可在相關(guān)軟件的支持下，完成數(shù)據(jù)挖掘的各項(xiàng)操作。

四、結(jié)語

挖掘技術(shù)論文范文第5篇

[關(guān)鍵詞]文本挖掘人　文社科　技術(shù)應(yīng)用

[分類號(hào)]TP391

[文本挖掘概述

文本挖掘(text mining)是一個(gè)跨學(xué)科的交叉研究領(lǐng)域，涉及到數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、自然語言處理、可視化技術(shù)、數(shù)據(jù)庫技術(shù)等多個(gè)學(xué)科領(lǐng)域的知識(shí)和技術(shù)。目前關(guān)于文本挖掘并沒有統(tǒng)一的定義，關(guān)于文本挖掘的名稱亦有“文本數(shù)據(jù)挖掘(text data mining)”或“文本知識(shí)發(fā)現(xiàn)(knowledge discovery in text)”等不同說法。一個(gè)比較廣泛使用的定義是：文本挖掘是指為了發(fā)現(xiàn)知識(shí)，從文本數(shù)據(jù)中抽取隱含的、以前未知的、潛在有用的模式的過程。它是一個(gè)分析文本數(shù)據(jù)，抽取文本信息，進(jìn)而發(fā)現(xiàn)文本知識(shí)的過程。

一個(gè)完整的文本挖掘過程一般包括預(yù)處理、模式挖掘、模式評價(jià)等多個(gè)步驟，其中包含了多種文本處理與挖掘技術(shù)，如數(shù)據(jù)預(yù)處理技術(shù)中的分詞、特征表示、特征提取技術(shù)，挖掘分析技術(shù)中的文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、關(guān)聯(lián)規(guī)則、分布分析與趨勢預(yù)測等技術(shù)以及信息展示中的可視化技術(shù)等。

文本挖掘技術(shù)拓展了現(xiàn)有的數(shù)據(jù)挖掘技術(shù)，把挖掘的對象從結(jié)構(gòu)化的數(shù)值數(shù)據(jù)擴(kuò)展到非結(jié)構(gòu)化的文本數(shù)據(jù)，因此可以幫助我們從海量的文本數(shù)據(jù)中發(fā)現(xiàn)新的模式、模型、規(guī)則、趨勢等知識(shí)，目前在很多領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)計(jì)量的結(jié)果表明，近年來國際上文本挖掘的研究論文呈迅猛上升勢頭。以“text mining”為主題詞在Web of Knowledge(WoK)中檢索可得與文本挖掘相關(guān)的論文3 049篇(截至2010年)，且呈逐年上升的趨勢。從WoK學(xué)科統(tǒng)計(jì)來看，目前文本挖掘技術(shù)的研究主要集中于計(jì)算機(jī)科學(xué)、計(jì)算生物學(xué)、數(shù)學(xué)、醫(yī)藥信息學(xué)、生物化學(xué)與分子化學(xué)、信息科學(xué)、醫(yī)學(xué)等自然科學(xué)領(lǐng)域，論文總數(shù)占文獻(xiàn)總量的82％。相比而言，人文社會(huì)科學(xué)領(lǐng)域的論文則較少，兩者之和為18％，其中人文科學(xué)僅為1％。

由于互聯(lián)網(wǎng)時(shí)代學(xué)術(shù)資源生產(chǎn)與傳遞方式的變化，以新的方法和技術(shù)從海量文本中發(fā)現(xiàn)隱含的知識(shí)和模式，成為情報(bào)學(xué)中最有前景的領(lǐng)域之一。由于人文社科文獻(xiàn)的非結(jié)構(gòu)化特征更加明顯，文獻(xiàn)中包含的隱性內(nèi)容更多，能否在人文社科領(lǐng)域成功運(yùn)用文本挖掘就成為了檢驗(yàn)文本挖掘的方法論優(yōu)勢的試金石。本文以文本挖掘的幾個(gè)關(guān)鍵技術(shù)——信息抽取、文本分類、文本聚類、關(guān)聯(lián)規(guī)則、模式發(fā)現(xiàn)與可視化技術(shù)為主要線索，分析發(fā)現(xiàn)文本挖掘技術(shù)在人文社科研究中的應(yīng)用特點(diǎn)，以便為人文社科研究中更加自覺地應(yīng)用文本挖掘方法提供新的思路。

2、信息抽取應(yīng)用

信息抽取(information extraction)是文本挖掘的前-端技術(shù)，它從文本對象中抽取預(yù)先指定的實(shí)體、關(guān)系、事件等信息，形成結(jié)構(gòu)化的數(shù)據(jù)并輸入數(shù)據(jù)庫。信息抽取所獲得的結(jié)構(gòu)化信息片段從一個(gè)角度反映了文本內(nèi)容的內(nèi)在特征，因此通過機(jī)器學(xué)習(xí)等方法可以從中發(fā)現(xiàn)知識(shí)、挖掘知識(shí)，為科學(xué)研究提供有力的支持。

信息抽取作為一門獨(dú)立的內(nèi)容處理技術(shù)，其本身在商業(yè)、情報(bào)分析、數(shù)字圖書館等領(lǐng)域有著廣泛的應(yīng)用，已有較多專門的信息抽取系統(tǒng)投入商用。在人文社科研究中，信息抽取常常作為文本挖掘的一個(gè)重要步驟，作為知識(shí)發(fā)現(xiàn)技術(shù)的前端和基礎(chǔ)。文獻(xiàn)構(gòu)建了基于信息抽取的文本挖掘模型，均把信息抽取作為文本挖掘的一個(gè)重要組成部分，是提高文本挖掘效率的一個(gè)手段。不僅討論了信息抽取對文本挖掘的作用，而且證實(shí)了通過文本挖掘得出的規(guī)則對信息抽取系統(tǒng)具有指導(dǎo)作用。除了作為文本挖掘的前端技術(shù)，信息抽取技術(shù)在改善信息檢索、輔助知識(shí)發(fā)現(xiàn)方面在人文社科研究中有著較多的應(yīng)用。

2.1　改善信息檢索

傳統(tǒng)的信息檢索只能通過關(guān)鍵詞與文檔的匹配返回與用戶需求相關(guān)的文檔，而信息抽取則可以幫助用戶直接定位所需的信息，無需閱讀文檔的全部內(nèi)容。由于在處理海量數(shù)據(jù)時(shí)具有出色表現(xiàn)，信息抽取在多個(gè)人文社科領(lǐng)域得到了應(yīng)用。在古典文學(xué)研究領(lǐng)域，德國萊比錫大學(xué)承擔(dān)的eAQUA項(xiàng)目從古典文獻(xiàn)資料(公元前3000年一公元600年)中抽取特定領(lǐng)域的知識(shí)，并通過eAQUA門戶免費(fèi)提供這些知識(shí)。在文獻(xiàn)中，英國倫敦國王學(xué)院的Matteo(2010)介紹了一個(gè)信息抽取在古典文學(xué)中的應(yīng)用研究項(xiàng)目，該項(xiàng)目旨在對當(dāng)代關(guān)于古希臘和拉丁文學(xué)作品進(jìn)行研究的二手文獻(xiàn)進(jìn)行實(shí)體抽取，并提供與原始文獻(xiàn)之間的關(guān)聯(lián)，從而提供更高級(jí)的信息展示和檢索功能。在社會(huì)學(xué)領(lǐng)域，英國聯(lián)合信息系統(tǒng)委員會(huì)(JISC)資助的ASSERT E’’項(xiàng)目綜合利用信息抽取、文本聚類等技術(shù)提供了一個(gè)自動(dòng)生成文獻(xiàn)綜述的系統(tǒng)。信息抽取技術(shù)與信息檢索技術(shù)互相融合滲透，為人文社科領(lǐng)域海量信息資源的獲取提供了極大的便利。

2.2　輔助知識(shí)發(fā)現(xiàn)

在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

挖掘技術(shù)論文

挖掘技術(shù)論文范文第1篇

挖掘技術(shù)論文范文第2篇

挖掘技術(shù)論文范文第3篇

挖掘技術(shù)論文范文第4篇

挖掘技術(shù)論文范文第5篇

熱門文章排行更多

相關(guān)期刊更多

計(jì)算機(jī)應(yīng)用研究

工程機(jī)械文摘

建筑機(jī)械化

精品文章排行更多