前言:本站為你精心整理了數(shù)據(jù)挖掘在營銷中的運用范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1數(shù)據(jù)挖掘的任務(wù)
數(shù)據(jù)挖掘的任務(wù)常見的有4種類型:
分類用于預(yù)測事件所屬的類別.其中樣本數(shù)據(jù)中包含標識樣本事件所屬類別的數(shù)據(jù)項,類別是已知的,由數(shù)據(jù)挖掘根據(jù)樣本數(shù)據(jù)構(gòu)建對這些類別的模式的描述,再利用所發(fā)現(xiàn)的模式,參照新的數(shù)據(jù)的特征變量,將其映射入已知類別中.如在醫(yī)療應(yīng)用中,可根據(jù)患者的各種特征進行疾病診斷等.
聚類用于描述和發(fā)現(xiàn)數(shù)據(jù)庫中以前未知的數(shù)據(jù)類別.其中樣本數(shù)據(jù)中不包含類別變量,數(shù)據(jù)挖掘?qū)⒕哂泄餐厔莺湍J降臄?shù)據(jù)元組聚集為一類,使類內(nèi)各元組相似程度最高,類間差異最大.常用于市場細分,可根據(jù)已有顧客的數(shù)據(jù),利用聚類技術(shù)將市場按顧客的消費模式的相似性分為若干細分市場,以進行有針對性的市場營銷.
關(guān)聯(lián)用于發(fā)現(xiàn)給定事件或紀錄中經(jīng)常一起發(fā)生的項目,由此推斷事件間潛在的關(guān)聯(lián),識別有可能重復(fù)發(fā)生的模式.關(guān)聯(lián)分析的典型例子是市場籃子分析,描述顧客的購買行為.如尿布與啤酒的故事就屬于關(guān)聯(lián)分析,可幫助零售商決定商品的擺放和捆綁銷售策略.序列模式與關(guān)聯(lián)分析類似,只是擴展為一段時間的項目集間的關(guān)系,常把序列模式看作由時間變量連接起來的關(guān)聯(lián).序列分析可分析長時期的相關(guān)紀錄,發(fā)現(xiàn)經(jīng)常發(fā)生的模式.
2數(shù)據(jù)挖掘過程
數(shù)據(jù)挖掘系統(tǒng)主要有四個模塊:用戶界面、數(shù)據(jù)準備(也稱為數(shù)據(jù)預(yù)處理)、挖掘及模式的解釋和評價(后處理).
2.1數(shù)據(jù)準備
數(shù)據(jù)準備對于數(shù)據(jù)挖掘的成功應(yīng)用至關(guān)重要,IBM等咨詢公司已經(jīng)證實了數(shù)據(jù)準備需消耗整個數(shù)據(jù)挖掘過程中50%~80%的資源[3],事實上如果沒有數(shù)據(jù)的預(yù)處理階段,單純進行數(shù)據(jù)挖掘?qū)⒊蔀橐粋€盲目搜索的過程,可能會得出毫無意義或錯誤的結(jié)果.目前對數(shù)據(jù)挖掘的研究仍主要集中在數(shù)據(jù)挖掘技術(shù)上,數(shù)據(jù)準備一直未得到應(yīng)有的重視,DorlanPyle在其新著《DataPreparationforDataMining》中,對數(shù)據(jù)挖掘中的數(shù)據(jù)準備作了詳細的論述.數(shù)據(jù)準備大致分為3步:數(shù)據(jù)集成,數(shù)據(jù)選擇,數(shù)據(jù)轉(zhuǎn)化[3].
1)數(shù)據(jù)集成.從多個異質(zhì)操作性數(shù)據(jù)庫、文件或遺留系統(tǒng)提取并集成數(shù)據(jù),解決語義二義性,統(tǒng)一不同格式的數(shù)據(jù),消除冗余、重復(fù)存放數(shù)據(jù)的現(xiàn)象.同時還要清洗數(shù)據(jù),包括對噪聲數(shù)據(jù)、缺失數(shù)據(jù)及異常數(shù)據(jù)等的處理.
2)數(shù)據(jù)選擇.在相關(guān)領(lǐng)域和專家知識的指導(dǎo)下,辨別出需要進行分析的數(shù)據(jù)集合,縮小挖掘范圍,避免盲目搜索,提高數(shù)據(jù)挖掘的效率和質(zhì)量.
3)數(shù)據(jù)縮減和轉(zhuǎn)化.選定的數(shù)據(jù)在經(jīng)過挖掘前,必須要加以精煉處理,如通過縮減高維復(fù)雜數(shù)據(jù)的維數(shù),減少有效變量的個數(shù)等.
另外在數(shù)據(jù)準備階段中,通過用戶交互引入領(lǐng)域?qū)<抑R也很重要,可幫助定義具體問題和用戶需求,使模型更直觀;限制搜索空間,以便高效率的發(fā)現(xiàn)更精確的知識;對發(fā)現(xiàn)的結(jié)果進行后處理,從中過濾出有意義、有價值的知識和信息.
2.2挖掘知識和信息
作為數(shù)據(jù)挖掘技術(shù)的核心,知識與信息的挖掘主要有下面幾部分構(gòu)成:
1)確定挖掘的任務(wù)類型.確定系統(tǒng)要實現(xiàn)的功能及任務(wù),是屬于分類或關(guān)聯(lián)等中哪種類型.
2)選擇合適的挖掘技術(shù).在確定挖掘任務(wù)的基礎(chǔ)上,選擇適當?shù)臄?shù)據(jù)挖掘技術(shù).如分類模型常由有指導(dǎo)的神經(jīng)元網(wǎng)絡(luò)或歸納技術(shù)(如決策樹)來實現(xiàn);聚類常用聚類分析技術(shù);關(guān)聯(lián)分析使用關(guān)聯(lián)發(fā)現(xiàn)和序列發(fā)現(xiàn)技術(shù)等[4].
3)選擇算法.根據(jù)選定的技術(shù)選擇一具體的算法,如采用ID3算法為定性的變量建立分類模型;BP算法用于解決連續(xù)的定量變量的情況等.選擇數(shù)據(jù)挖掘算法要確定搜索數(shù)據(jù)中隱藏模式的方法,如確定適當?shù)哪P秃蛥?shù)集合,還應(yīng)將這一具體的技術(shù)與數(shù)據(jù)挖掘的全局目標匹配[4].
4)挖掘數(shù)據(jù).用選定的算法或算法組合在模式空間中進行反復(fù)迭代的搜索,從數(shù)據(jù)集合中抽取出隱藏的、新穎的模式.
2.3模式的解釋和評價
對數(shù)據(jù)挖掘發(fā)現(xiàn)的模式進行解釋和評價,過濾出有用的知識.具體包括消除無關(guān)的、多余的模式,過濾出要呈現(xiàn)給用戶的信息;利用可視化技術(shù)將有意義的模式以圖形或邏輯可視化的形式表示,轉(zhuǎn)化為用戶可理解的語言.一個成功的數(shù)據(jù)挖掘的應(yīng)用應(yīng)能將原始數(shù)據(jù)轉(zhuǎn)換為更簡潔、更易理解、可明確定義關(guān)系的形式.此外還包括解決發(fā)現(xiàn)的結(jié)果與以前知識的潛在沖突,及利用統(tǒng)計方法對模式進行評價,決定是否需要重復(fù)以前的操作,以得到最優(yōu)、最適合的模式[4].數(shù)據(jù)挖掘抽取的信息經(jīng)過事后處理可用于解釋當前或歷史現(xiàn)象,預(yù)測未來可能發(fā)生的情況,使決策者參照從過去發(fā)生的事實中抽取的信息進行決策制定.
3常用技術(shù)及算法
數(shù)據(jù)挖掘的核心是采用機器學習、統(tǒng)計等方法進行知識學習的階段.數(shù)據(jù)挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞,因此選取適當?shù)乃惴ɑ蛩惴ńM合至關(guān)重要,目前對數(shù)據(jù)挖掘的研究也主要集中在算法及其應(yīng)用方面.
事實上并不存在評判算法優(yōu)劣的確定標準,因為不同的目標和情況需要的算法也不同;另外每種技術(shù)都有其內(nèi)在局限性,不加判斷的應(yīng)用數(shù)據(jù)挖掘技術(shù)是毫無意義的.事實上某種算法在解決一特定問題時可能比其他算法性能更好,因此選擇采用的算法具有某種藝術(shù)性,要由具體應(yīng)用的目標和情況決定,而不能僅僅由算法的性能判斷.
數(shù)據(jù)挖掘方法通常分為兩類:統(tǒng)計模型和機器學習技術(shù),其中機器學習與數(shù)據(jù)挖掘關(guān)系最密切.統(tǒng)計模型應(yīng)用于數(shù)據(jù)挖掘主要是進行評估,常用的統(tǒng)計技術(shù)有概率分布、相關(guān)分析、回歸、聚類分析和判別分析等;機器學習是人工智能的一個分支,也稱為歸納推理,通過學習訓練數(shù)據(jù)集,發(fā)現(xiàn)模型的參數(shù),并找出隱含的規(guī)則[5].常用的機器學習方法如人工神經(jīng)元網(wǎng)絡(luò)、決策樹和遺傳算法在數(shù)據(jù)挖掘中的應(yīng)用都很廣泛.
人工神經(jīng)元網(wǎng)絡(luò)(ANN)是在數(shù)據(jù)挖掘中應(yīng)用最廣泛的技術(shù),模仿人腦的機能,通過反復(fù)學習訓練數(shù)據(jù)集,發(fā)現(xiàn)用于預(yù)測和分類的模式.神經(jīng)元網(wǎng)絡(luò)尤其擅長于解決極復(fù)雜的問題,但神經(jīng)元網(wǎng)絡(luò)最大的缺點是其不透明型,無法解釋結(jié)果是如何產(chǎn)生的及其在推理過程中所用的規(guī)則.
決策樹(DT)是一種樹型結(jié)構(gòu)的預(yù)測模型,其中樹的非終端節(jié)點表示屬性,葉節(jié)點表示所屬的不同類別.根據(jù)訓練數(shù)據(jù)集中數(shù)據(jù)的不同取值建立樹的分支,形成一決策樹,對其進行反復(fù)修剪后轉(zhuǎn)化為規(guī)則,可用于對新數(shù)據(jù)分類.與神經(jīng)元網(wǎng)絡(luò)最大的不同在于其決策制定的過程是可見的,可以解釋結(jié)果是如何產(chǎn)生的.典型的例子是CART(回歸決策樹)方法.遺傳算法(GA)是一種基于生物進化理論的優(yōu)化技術(shù).其基本觀點是“適者生存”,用于數(shù)據(jù)挖掘中,則常把任務(wù)表示為一種搜索問題,利用遺傳算法強大的搜索能力找到最優(yōu)解.具體來講,就是模仿生物進化的過程,反復(fù)進行選擇、交叉和突變等遺傳操作,直至滿足最優(yōu)解.具體來講,就是模仿生物進化的過程,反復(fù)進行選擇、交叉和突變等遺傳操作,直至滿足進化停止的條件.遺傳算法是最成功的機器學習技術(shù)之一,常與其他技術(shù)結(jié)合使用,如用于優(yōu)化神經(jīng)元網(wǎng)絡(luò)的模型和參數(shù)集等.
4數(shù)據(jù)挖掘在營銷中的應(yīng)用
數(shù)據(jù)庫營銷(DatabaseMarketing)是數(shù)據(jù)挖掘目前最成功商業(yè)應(yīng)用,作為一種結(jié)合了信息技術(shù)和營銷理論的新型營銷方式,通過搜集消費者和同類企業(yè)等的大量信息,并利用OLAP(On-LineAnalyticalProcessing)和數(shù)據(jù)挖掘等分析技術(shù)對其進行分析處理,據(jù)此確定相應(yīng)的營銷策略和特定的目標顧客群[6].
數(shù)據(jù)挖掘在營銷中的主要應(yīng)用有:關(guān)聯(lián)分析即市場籃子分析,用于了解顧客的購買習慣和偏好,有助于決定市場商品的擺放和產(chǎn)品的捆綁銷售策略;序列模式與市場籃子分析相似,不過是用某時間點發(fā)現(xiàn)的產(chǎn)品購買或其他行為模式來預(yù)測將來購買產(chǎn)品或服務(wù)類別的概率;聚類用于市場細分,將顧客按其行為或特征模式的相似性劃分為若干細分市場,以采取有針對性的營銷策略;分類用于預(yù)測哪些人會對郵寄廣告和產(chǎn)品目錄、贈券等促銷手段有反應(yīng),還可用于顧客定級、破產(chǎn)預(yù)測等.
目前國外許多大型零售企業(yè)和金融保險行業(yè)都已建立了營銷數(shù)據(jù)庫,并利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)對某種產(chǎn)品感興趣的顧客,幫助制定認識和保留最佳顧客的計劃,增進與顧客的關(guān)系,識別并跟蹤有發(fā)展前景的市場,根據(jù)顧客反饋確定產(chǎn)品開發(fā)計劃,提高銷售人員調(diào)配的效用,這些都為企業(yè)帶來了獨特的競爭優(yōu)勢.如美國Firstar銀行使用Marksman數(shù)據(jù)挖掘工具,根據(jù)客戶的消費模式來預(yù)測應(yīng)在什么時候向哪些客戶提供哪些產(chǎn)品;美國運通公司(AmericanExpress)有一個用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫,通過對這些數(shù)據(jù)進行挖掘,制定了“關(guān)聯(lián)結(jié)算(RelationshipBilling)優(yōu)惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,既增加了商店的銷售量,也可以增加運通卡在該商店的使用率.美國的讀者文摘(Reader''''sDigest)出版公司運行著一個積累了40年的業(yè)務(wù)數(shù)據(jù)庫,其中容納有遍布全球的一億多個訂戶的資料,并保證數(shù)據(jù)不斷得到實時的更新,基于對客戶資料數(shù)據(jù)庫進行數(shù)據(jù)挖掘的優(yōu)勢,使讀者文摘出版公司能夠從通俗雜志擴展到專業(yè)雜志、書刊和聲像制品的出版和發(fā)行業(yè)務(wù),極大地擴展了自己的業(yè)務(wù)范圍.
5結(jié)束語
數(shù)據(jù)挖掘技術(shù)是目前國際上的一個研究熱點[7],并已在各行業(yè)如金融證券業(yè)、零售業(yè)等得到了應(yīng)用,初步發(fā)揮了其優(yōu)越性和潛力[8],但同時它也面臨著一些不可避免的問題,如需要進一步研究在不同抽象層次挖掘多類型知識的有效方法;更靈活、方便的數(shù)據(jù)挖掘語言或接口;研究針對面向?qū)ο蟮臄?shù)據(jù)庫、空間數(shù)據(jù)庫和多媒體數(shù)據(jù)庫之類的高級數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)挖掘技術(shù);挖掘不同來源的數(shù)據(jù);Internet信息系統(tǒng)的數(shù)據(jù)挖掘;所發(fā)現(xiàn)知識的應(yīng)用;發(fā)現(xiàn)的知識與專家定義的知識的集成;以及確保在數(shù)據(jù)挖掘中對隱私的保護方法等,都是以后需深入研究的重要論題[1].
隨著數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,越發(fā)掀起了投資數(shù)據(jù)挖掘項目的高潮.但在實現(xiàn)這一復(fù)雜、昂貴的技術(shù)同時,也暴露了很多問題.投資者往往對其存有過高期望,低估成本,帶來了極大的風險;另外還需要有專門的內(nèi)部專業(yè)技術(shù)人員或咨詢機構(gòu)解釋、評價數(shù)據(jù)挖掘結(jié)果,增加了成本[9].因此信息管理人員和投資者還需充分認識其潛在的問題,要從需求、數(shù)據(jù)、財力及技術(shù)4個方面考慮,認真進行成本/效益分析,避免不必要的開支和風險.
數(shù)據(jù)安全論文 數(shù)據(jù)采集論文 數(shù)據(jù)報告 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)安全 數(shù)據(jù)統(tǒng)計論文 數(shù)據(jù)通信論文 數(shù)據(jù)分析設(shè)計 數(shù)據(jù)庫論文 紀律教育問題 新時代教育價值觀