前言:本站為你精心整理了電子銀行客戶群預(yù)測(cè)相關(guān)技術(shù)淺析范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
摘要:隨著互聯(lián)網(wǎng),信息技術(shù)的快速發(fā)展,銀行業(yè)也經(jīng)歷著由傳統(tǒng)的柜面服務(wù)向接觸面廣、障礙面小的電子銀行發(fā)展。如何吸引客戶、留著客戶成為各大銀行關(guān)注的焦點(diǎn)。對(duì)客戶群的常用的分類方法如決策樹、貝葉斯、基于規(guī)則的分類等進(jìn)行了分析,重點(diǎn)介紹了粗糙集理論和C4.5算法。為構(gòu)建以電子銀行客戶群預(yù)測(cè)為基礎(chǔ)的客戶管理系統(tǒng)的研究提供理論基礎(chǔ)。
關(guān)鍵詞:客戶群;分類;粗糙集理論;C4.5算法
0引言
客戶群分類是對(duì)銀行所開展的電子銀行業(yè)務(wù)按照客戶的使用和辦理情況進(jìn)行分類,為銀行進(jìn)行客戶關(guān)系管理提供依據(jù)??蛻羧悍诸愂强蛻絷P(guān)系管理(CRM)很重要的一環(huán),可以說是必不可少的。銀行客戶的分類通過數(shù)據(jù)挖掘技術(shù)來對(duì)進(jìn)行,具體操作可以根據(jù)事先指定的規(guī)則找到滿足規(guī)則的客戶群;也可以對(duì)客戶利用聚類方法進(jìn)行自然分群;還可以根據(jù)交易行為對(duì)客戶進(jìn)行分類,以確定什么樣的客戶最有可能為銀行創(chuàng)造高的利潤[1]。如何利用現(xiàn)有的銀行數(shù)據(jù),對(duì)電子銀行客戶進(jìn)行識(shí)別,找到高價(jià)值的客戶并為之提供個(gè)性化的服務(wù),是留住客戶、維持與客戶良好關(guān)系的有效方法。本文主要針對(duì)電子銀行客戶的分類預(yù)測(cè)方法進(jìn)行了簡(jiǎn)述。
1常用的分類預(yù)測(cè)算法
分類是一種被廣泛應(yīng)用的數(shù)據(jù)分析方式,它是描述數(shù)據(jù)結(jié)構(gòu)類的重要模型,可以用它來預(yù)測(cè)離散的、無序的數(shù)據(jù)類別。數(shù)據(jù)分類是一個(gè)兩階段的過程,包括構(gòu)造分類器的訓(xùn)練階段和使用分類器預(yù)測(cè)給定數(shù)據(jù)的類別的分類階段。數(shù)據(jù)挖掘中的分類算法有很多,常用的有決策樹、基于規(guī)則的分類、貝葉斯等[2]。
1.1決策樹分類
20世紀(jì)70年代后期和80年代初期J.RossQuinlan在E.B.Hunt,J.Marin和P.T.Stone的概率學(xué)習(xí)系統(tǒng)的基礎(chǔ)上,提出了迭代的二分器方法即經(jīng)典的ID3決策樹算法[3]。后來,Quinlan又在ID3的基礎(chǔ)上進(jìn)行了改進(jìn),提出了C4.5決策樹算法,并成為新的監(jiān)督學(xué)習(xí)算法的性能比較基準(zhǔn)。1984年,多位統(tǒng)計(jì)學(xué)家出版了著作《ClassificationandRegressionTrees》,介紹了二叉決策樹的概念,這標(biāo)志著CART方法的產(chǎn)生[4]。這兩種算法大約同時(shí)間出現(xiàn)引發(fā)了決策樹歸納研究的浪潮。決策樹需要從標(biāo)有類標(biāo)號(hào)的訓(xùn)練集中訓(xùn)練得到。它是一種樹形的結(jié)構(gòu),類似于流程圖,其中內(nèi)部結(jié)點(diǎn)是對(duì)某個(gè)屬性值的判斷,每個(gè)分枝是該判斷的一個(gè)輸出,而每個(gè)樹葉結(jié)點(diǎn)存放一個(gè)類標(biāo)號(hào),樹的最頂層是根結(jié)點(diǎn)[5]。
1.2貝葉斯分類
貝葉斯分類是用來表示類隸屬關(guān)系的概率大小。貝葉斯分類是基于貝葉斯定理的分類方法。樸素貝葉斯分類的思想:假設(shè)D是訓(xùn)練元組的集合。其中每一個(gè)元組用一個(gè)n維向量X={x1,x2,…xn}來表示,xi表示第i個(gè)屬性值。X表示該元組在n個(gè)屬性A1,A2,…An上的測(cè)量值;假定有m個(gè)類C1,C2,…Cm。給定元組X,分類法將預(yù)測(cè)在條件X下,該元組屬于具有最高后驗(yàn)概率的類的大小。也就是說,樸素貝葉斯分類法預(yù)測(cè)X屬于Ci,當(dāng)且僅當(dāng)P(Ci|X)>P(Cj|X)1<j<m,j≠i(1)這樣,找出使P(Ci|X)最大的類Ci,類Ci即被稱作最大后驗(yàn)假設(shè)。根據(jù)貝葉斯定理(2)由于P(X)為固定的常數(shù),所以只需要找到一個(gè)類Ci,使P(X|Ci)P(Ci)最大即可。
1.3基于規(guī)則的分類
規(guī)則是一種表示少量信息和知識(shí)的有效方法?;谝?guī)則的分類,需要構(gòu)造一系列的IF-THEN規(guī)則,可以用如下形式的表達(dá)式來表示:IF條件THEN結(jié)論其中,IF后邊的部分被稱為規(guī)則前件或簡(jiǎn)稱為前提,THEN后邊的部分是規(guī)則的結(jié)論。在規(guī)則前件中,條件可以被分解為一個(gè)或者多個(gè)用邏輯連接詞“與”連接起來的屬性表達(dá)式,規(guī)則的結(jié)論部分是對(duì)一個(gè)類的預(yù)測(cè)。如果對(duì)于一個(gè)給定的元組,規(guī)則前件中的所有屬性表達(dá)式都成立,就可以說規(guī)則前件成立,并且規(guī)則覆蓋了該元組。
1.4基于人工神經(jīng)網(wǎng)絡(luò)的分類
神經(jīng)網(wǎng)絡(luò)最先由心理學(xué)家和神經(jīng)學(xué)家提出,目的是為了找尋開發(fā)和檢測(cè)神經(jīng)的計(jì)算模型。概括的來講,神經(jīng)網(wǎng)絡(luò)是由一組相互連接的輸入、輸出單元構(gòu)成,其中每個(gè)連接都有一個(gè)權(quán)重。在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)階段,通過調(diào)整連接的權(quán)重,使得它能夠?qū)⑤斎朐M從相應(yīng)的類標(biāo)號(hào)處輸出。由于單元之間存在連接,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)又被形象的叫做連接者學(xué)習(xí)[6]。目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一BP神經(jīng)網(wǎng)絡(luò),其組成如圖1所示。圖1中,BP神經(jīng)網(wǎng)絡(luò)包含三層,每層由一些單元組成。每個(gè)訓(xùn)練元組的屬性值測(cè)量對(duì)應(yīng)于網(wǎng)絡(luò)的輸入,這些輸入通過輸入層,然后加權(quán)輸送給稱作隱含層的神經(jīng)元,最終由輸出層發(fā)布給定元組的網(wǎng)絡(luò)預(yù)測(cè)。神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是其對(duì)噪聲的抗干擾能力強(qiáng),并且不需要知道屬性和類之間聯(lián)系的知識(shí),但是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要很長的時(shí)間,并且需要知道如網(wǎng)絡(luò)拓?fù)浠蚪Y(jié)構(gòu)等的大量參數(shù),而這些參數(shù)又主要是靠經(jīng)驗(yàn)來獲得。
2粗糙集理論
粗糙集理論是由Z.Pawlak教授在1982年提出的一種數(shù)學(xué)工具,它主要用于處理不確定性和含糊性的知識(shí),其基本思想是在保證分類能力不降低的前提下,經(jīng)過對(duì)知識(shí)的約簡(jiǎn),推導(dǎo)出概念的分類規(guī)則。它的優(yōu)點(diǎn)是不需要相關(guān)數(shù)據(jù)集合外的其他先驗(yàn)信息,適合發(fā)現(xiàn)那些潛在的和隱含的規(guī)則。屬性簡(jiǎn)約作為數(shù)據(jù)挖掘的一個(gè)預(yù)處理步驟,也是粗糙集理論的核心應(yīng)用之一[7]。粗糙集理論的處理思想和算法基礎(chǔ)來源于其基本概念定義,下邊介紹幾個(gè)主要的定義。定義1:S=(U,A,V,f),U={x1,x2,…xn}是對(duì)象的非空有限集合;A={a1,a2,…am}是屬性的非空有限集合;V=Ua∈AVa是屬性的值域集,Va是屬性a∈A的值域,f為所謂的信息函數(shù),f:U×A→V,f(xi,a)∈Va。如果A=C∪D,C∩D=Φ,C是條件屬性的集合,D是決策屬性的集合,該系統(tǒng)就是一個(gè)信息系統(tǒng),又被稱為決策系統(tǒng),決策系統(tǒng)是最常用的信息系統(tǒng)之一。定義2:對(duì)于任意的BA,則B在U上的不可分辨關(guān)系定義如公式(3)所示。(3)定義3:不可分辨關(guān)系屬于等價(jià)關(guān)系的一種,它把U劃分為有限個(gè)的集合,這些集合被稱為等價(jià)類,其中集合間的每個(gè)對(duì)象間是不可分辨的。用公式(4)表示U的所有等價(jià)類。U⁄IND(B)={X1,X2,…,Xn}(4)其中,,Xi∩Xj=Φ,i≠j,i,j=1,2,…,n,且。Xi稱為劃分C的一個(gè)等價(jià)類。對(duì)于元素x∈U,它的等價(jià)類定義如公式(5)所示。(5)定義4:假定有一個(gè)信息系統(tǒng)S=(U,A,V,f),其中的任意一個(gè)對(duì)象集合X,即XU,以及屬性集BA。X的B的下近似定義公式:(6)X的B的上近似定義為:(7)X的B負(fù)區(qū)定義為:(8)X的B邊界區(qū)定義為:(9)BNB(X)表示既不能確定又不能被劃入到X的對(duì)象集合。如果BNB(X)非空,則稱X是B-粗糙集。定義5:假設(shè)存在一個(gè)決策系統(tǒng)S=(U,C∪D),C是條件屬性的集合,D是決策屬性的集合。其中BC,B相對(duì)于D的正域定義如公式(10)所示。(10)POSB(D)表示可以根據(jù)屬性集合B被準(zhǔn)確地被分入由屬性D所確定的分類元素的集合的元組。
3C4.5算法
C4.5決策樹算法利用貪心的思想,采用自頂向下遞歸的分治方法構(gòu)造得來。大多數(shù)的決策樹從訓(xùn)練集和其相關(guān)聯(lián)的類標(biāo)號(hào)開始構(gòu)造,隨著樹深度的遞增,訓(xùn)練集逐漸被劃分為較小的子集。構(gòu)造決策樹的核心是利用分裂準(zhǔn)則選擇合適的分裂屬性來分裂獲得子集。如果能找到一個(gè)好的分裂準(zhǔn)則使所有分枝上的輸出元組是純的,這就是一個(gè)最優(yōu)的分裂準(zhǔn)則。決策樹C4.5算法主要步驟分兩大部分,分別為屬性選擇度量和剪枝。(1)屬性選擇度量。屬性選擇度量是一種啟發(fā)式學(xué)習(xí)方法,表示選擇一種分類準(zhǔn)則,可以把指定類標(biāo)記的訓(xùn)練元組劃分為單獨(dú)類的方法。將該分類準(zhǔn)則應(yīng)用于訓(xùn)練元組,可以把數(shù)據(jù)分區(qū)劃分為較小的分區(qū)。最優(yōu)的情況下,落在每一個(gè)小分區(qū)的所有元組都具有相同的類標(biāo)號(hào)。屬性選擇度量為訓(xùn)練元組的屬性選擇提供了評(píng)定標(biāo)準(zhǔn),具有最高度量值的屬性被選為訓(xùn)練元組的分裂屬性。具體操作為用選擇好的屬性度量來標(biāo)記新創(chuàng)建的樹結(jié)點(diǎn),分枝由度量的每個(gè)輸出生長出來,進(jìn)而劃分元組。常用的屬性選擇度量有信息增益、信息增益率和基尼指數(shù)等,這也是區(qū)分ID3,C4.5和CART算法的關(guān)鍵所在。(2)樹剪枝。在創(chuàng)建決策樹時(shí),數(shù)據(jù)中往往存在離群點(diǎn)和噪聲,因此造成許多分枝表示的是訓(xùn)練數(shù)據(jù)中的異常而不是正確的分枝,這種現(xiàn)象叫作過分?jǐn)M合,剪枝就是處理這種現(xiàn)象的一種有效方法。通常,剪枝使用統(tǒng)計(jì)度量來減掉最不可靠的分枝。常用的剪枝方法有先剪枝和后剪枝。在先剪枝方法中,通過提前停止樹的構(gòu)建達(dá)到樹剪枝的效果。當(dāng)樹構(gòu)建停止時(shí),結(jié)點(diǎn)就變成了樹葉。在采用先剪枝方法構(gòu)造樹的過程中,可以用信息增益、統(tǒng)計(jì)顯著性、基尼系數(shù)等度量來評(píng)估劃分的優(yōu)劣。如果選擇某個(gè)結(jié)點(diǎn)劃分元組導(dǎo)致低于預(yù)定義的閾值,則停止對(duì)該結(jié)點(diǎn)輸出的元組進(jìn)一步的劃分,樹的構(gòu)造因此停止。然而,找出合適的閾值是非常困難的。所以在實(shí)際的使用中,后剪枝的方法使用較多。后剪枝方法是在完全生長的樹中減去子樹。通過刪除結(jié)點(diǎn)的分枝子樹并用子樹中最頻繁的類來標(biāo)記該分枝作為樹葉來實(shí)現(xiàn)。C4.5就是使用一種稱為悲觀剪枝的后剪枝方法,使用錯(cuò)誤率決定對(duì)哪個(gè)子樹進(jìn)行剪枝。悲觀剪枝不使用剪枝集,所謂剪枝集是指獨(dú)立于建立未剪枝決策樹和用于準(zhǔn)確率評(píng)估的數(shù)據(jù)集,而是使用訓(xùn)練集來估算錯(cuò)誤率。然而,基于訓(xùn)練集評(píng)估準(zhǔn)確率過于樂觀,因此具有較大的偏倚。所以,悲觀剪枝通過加上一個(gè)懲罰來調(diào)節(jié)從訓(xùn)練集得到的錯(cuò)誤率以抵消所出現(xiàn)的偏倚。
4結(jié)束語
本文主要簡(jiǎn)述了客戶管理系統(tǒng)中電子銀行客戶群預(yù)測(cè)的相關(guān)理論方法,包括常用的分類算法如決策樹分類,貝葉斯分類,基于規(guī)則的分類等,重點(diǎn)介紹了粗糙集理論的相關(guān)知識(shí)和C4.5的基礎(chǔ)知識(shí)。這些內(nèi)容對(duì)客戶管理系統(tǒng)中客戶群的預(yù)測(cè)的工作起到基礎(chǔ)構(gòu)建的作用。
作者:李翠 周瑞濤 王曉輝 單位:青島黃海學(xué)院
電子商務(wù) 電子政務(wù)論文 電子技術(shù) 電子畢業(yè) 電子政務(wù)的安全風(fēng)險(xiǎn) 電子專業(yè) 電子貨幣論文 電子論文 電子工程論文 電子政務(wù) 紀(jì)律教育問題 新時(shí)代教育價(jià)值觀