前言:本站為你精心整理了誠信政府采購信用研究論文范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:支持向量機(SVM)是在結構風險最小化的一種新的機器學習技術,在解決小樣本、非線性及高維空間問題中具有獨特的優(yōu)勢,適用于政府采購中對供應商進行信用分析。但供應商信用屬性數(shù)據(jù)構成了高維空間的稀疏分布,不利于SVM的準確建模。
由于主成分分析技術具有良好的去噪音特性,能夠對信用屬性數(shù)據(jù)進行有效地挖掘。因此,若將兩者進行有機地結合,就能有效改善SVM輸入樣本的特性,從而提高SVM分類的準確率。政府采購不同于一般的采購行為,它具有政策性強、規(guī)模大、資金多等特點。政府采購項目,尤其是國家重點建設項目,如北京奧體項目、南水北調工程、三峽工程等,更是集政治性、經濟性、社會性于一身,對國家的社會效益、政治效益和經濟效益都會產生廣泛而深遠的影響。因此,在政府采購中為避免國家的財稅流失、保證政府投資效益,提高政府采購效率,必須規(guī)范政府采購市場,促進供應商在市場競爭中遵守國家法律、法規(guī),規(guī)范經營,并將對供應商的管理提高到信用管理的高度。
在市場經濟環(huán)境下,良好的履約能力對政府采購項目按時、保質、保量地完成是十分必要的,而供應商履約能力是與其信用水平密不可分的。因此,在對供應商進行規(guī)范化管理過程中,政府部門應對供應商的信用進行公正、客觀地分析。這具有很強的理論與現(xiàn)實意義,引發(fā)了國內外學者廣泛的研究和探討[1-3]。常用的信用分析方法包括層次分析法、模式識別理論和神經網絡等。由于信用分析具有多屬性和非線性等特征,這些方法在應用中都很難取得滿意的效果。筆者嘗試將數(shù)據(jù)挖掘技術與機器學習方法相結合,建立基于主成分分析———支持向量機技術的供應商信用分析模型。通過主成分分析技術進行數(shù)據(jù)挖掘,改善了信用屬性數(shù)據(jù)的特性,提高了支持向量機的建模效率。
一、模型的總體設計
供應商信用分析效果的好壞,主要取決于信用分析中所選用的屬性數(shù)據(jù)的特性以及所采用的方法解決非線性復雜問題的能力。當前,商業(yè)信用分析主要是通過基于財務指標的信用特征而進行的商業(yè)信用等級劃分。由于財務屬性數(shù)據(jù)種類繁多,且數(shù)據(jù)之間往往存在緊密的相關性。這無疑加大了信用分析建模的難度。因此,有必要在進行信用分析之前,對信用屬性數(shù)據(jù)進行數(shù)據(jù)挖掘。在眾多的數(shù)據(jù)挖掘技術中,主成分分析方法既能夠有效去除屬性數(shù)據(jù)間的相關性,又可以降低數(shù)據(jù)維數(shù)。因此,它被選作供應商信用屬性數(shù)據(jù)特征挖掘的工具,以構造新的更有效的信用屬性數(shù)據(jù)。數(shù)據(jù)挖掘后,接著面臨的問題是如何有效地構建供應商的信用分析模型。
由于在政府采購多采用“短名單”,這就造成了供應商的信用分析具有典型的小樣本、多屬性及非線性等特征。傳統(tǒng)的信用分析方法很難進行有效地分析。神經網絡技術雖然能夠進行良好的經驗學習[2],但由于其基于經驗風險最小,易出現(xiàn)過擬合問題,從而降低了模型的泛化能力。20世紀90年代興起的支持向量機(SupportVec-torMachines,SVM)是基于結構風險最小化原理的統(tǒng)計學習方法,適用于小樣本分類問題。在解決高維、非線性問題時,本論文由整理提供SVM通過非線性映射把非線性分類化為線性問題來處理。從而,顯示出其顯著的優(yōu)越性[4-5]。因此,SVM技術是進行供應商信用分析建模的有效工具。筆者將PCA技術與SVM技術相結合構建政府采購中供應商的信用分析模型,
二、信用屬性數(shù)據(jù)的特征挖掘主成分分析方法
目前主要有兩種:標準主成分分析方法和基于核的主成分分析方法。
(一)標準主成分分析標準的主成分分析是一種有效的數(shù)據(jù)特征挖掘方法[6]。它基于數(shù)據(jù)二階統(tǒng)計矩,對由一系列觀測數(shù)據(jù)向量組成的向量組進行分析,通過選擇樣本點分布方差大的坐標軸進行投影來降低維數(shù)而使信息量損失最少。記供應商的信用觀測屬性矢量為:sX=(sx1,sx2,…,sxn)T∈Rn(1)sX的自協(xié)方差陣為:RsX=E﹄sXsXT﹃(2)式中RsX是一非負定實對稱矩陣。由矩陣對角化理論知,對RsX而言,存在正交變換矩陣U,使UTRsXU=Λ0,Λ0為對角陣。U的列向量Ui(i=1,2,…,n)是RsX的單位特征向量,且相互正交。當detRsX≠0,作變換:X=UΛ0-12sX(3)則有:RsX=E﹄sXsXT﹃=I(4)式中,I為單位陣。經過上面的處理過程,獲得了供應商信用的新屬性矢量為X=(x1,x2,…,xn*)T∈Rn*。X是白化后向量,其各分量間不存在二階相關性。由于n*(二)基于核的主成分分析方法[7]基于核的主成分分析方法(KernelPrincipleCom-ponentAnalysis,KPCA)是一種非線性特征挖掘方法,其基本思想是利用核函數(shù),通過非線性映射將輸入數(shù)據(jù)映射到一個高維的特征空間中,然后在特征空間中利用標準主成分分析法來挖掘主成分作為特征向量。設為一非線性映射,:Rn→F。通過求解KA=DAΛ,獲得特征值,其中Λ為特征值λ1、λ2、…、λn對角陣,A=[α1α2…αn],N為輸入樣本的個數(shù)。然后,對A進行標準化,使λi‖αi‖2=1。于是,可求得:ν=MAΛ(5)式中,ν=(ν1ν2…vn),M=[(x1)(x2)…(xn)]。對于任意的測試樣本,設它在特征空間的映射為(x),KPCA通過下式進行特征挖掘:F=νt(x)=AtB(6)式中,B=((x1)•(x)(x2)•(x)…(xn)•(x))t。實踐證明,PCA與KPCA都能夠獲得良好的特征挖掘效果[6][7]。雖然與PCA相比,KPCA挖掘后的道德標準均方誤差更小,但是KPCA需要大量的主成分,要耗費大量的時間進行計算,這對于供應商信用管理信息系統(tǒng)的建立和維護是不利的。由于PCA完全能夠滿足精度要求,在本文中被采用進行信用屬性數(shù)據(jù)的特征挖掘。然后,將挖掘出的新的屬性樣本數(shù)據(jù)用于支持向量機的信用分析建模。
三、信用分析模型的建立
在政府采購項目中能夠得到供應商各種類型的信用數(shù)據(jù)十分有限,這些數(shù)據(jù)構成了信用分析輸入空間的稀疏分布。此時,若利用神經網絡進行信用分析建模,由于神經網絡是以經驗風險最小化進行優(yōu)化,易引起過擬合問題,從而影響模型的泛化能力,并且易陷入局部極小點。與其相比,支持向量機分類的基本思想是通過建立一個超平面作為一個決策平面。它不但能將分類中的兩類樣本正確分開,而且還使分類間隔最大。在分類過程中將優(yōu)化問題轉化為一個凸二次規(guī)劃問題,由標準的拉格朗日乘子算法解得具有較高精度的全局最優(yōu)解[4][5][7]。給定訓練集{xi,yi},xi=(xi1,xi2,…,xis),xi∈Rn*,i=1,…,n,n為訓練集樣本個數(shù),s為新屬性個數(shù)。yi∈{1,-1}或yi∈{1,2,…,k}。當yi∈{1,-1}時為二分類問題。
題對于給定訓練樣本集的線性劃分問題就是求最優(yōu)超平面〈w,φ(xi)〉-b=0。具體而言,當訓練燕本集在特征空間線性可分時,分類間隔等于2/‖w‖,求最大間隔等價于12‖w‖2的最小值,即求解:minw,b12‖w‖2s.t.yi(〈w,φ(xi)〉-b)1(7)上式是一個凸二次規(guī)劃問題,并且具有極小點。采用Lagrange優(yōu)化方法將上述最優(yōu)化分類問題轉化為其對偶問題[8]:max∑li=1αi-12∑li,jαiαjyiyj(xi•xj)s.t.∑yiαi=0,αi0,i=1,2,…,n(8)式中αi為Lagrange乘子,則求得相應的xi就是支持向量機,得到的最優(yōu)分類函數(shù)為:f(x)=sgn[(w•x)+b]=sng∑mi=1αiyi(x•xi)+b(9)若訓練集是線性不可分的,需要引入非負變量ξi,使分類間隔與分類錯誤達到某種折中,凸二次規(guī)劃問題變?yōu)?minw,b12‖w‖2+C∑li=1ξis.t.yi(〈w,φ(xi)〉-b)1-ξi,ξi0(10)式中ξi看作訓練樣本關于超平面的偏差,C>0為自定義的懲罰系數(shù),用來控制樣本偏差。超級秘書網
(二)非線性問題SVM解決非線性問題的基本思想是基于Mercer定理,通過選用適合的核函數(shù),將樣本空間映射到一個高維的特征空間,在此特征空間中求解線性問題。此時,目標函數(shù)變?yōu)閇4][8]:y(x)=sgn∑mi=1a*iyik(x,xi)+b*(11)其中,k(•,•)為核函數(shù)。其對偶問題為:max∑ni=1αi-12∑ni,jαiαjyiyjk(xi,xj)s.t.∑yiαi=0,αi0,i=1,2,…,n(12)常用的核函數(shù)k(•,•)為:(1)多項式核函數(shù),k(x,xi)=((x•xi)+1)p;(2)高斯徑向基函數(shù),kx^)=exp-‖x-xi‖2σ2;(3)多層感知機核函數(shù),k(x,xi)=tanh[v(x•xi)+c]。
(三)模型評估根據(jù)信用分析的特點,本文定義信用分析模型的評估指標如下:L=1N(N-∑ki=1ci)×100%(13)式中:N表示樣本的總數(shù)量,ci表示第i分類被錯分的樣本數(shù)量。在兩分類問題中,k=2,可以定義兩類分類錯誤:第一類錯誤為將信用“好”的供應商誤判為“差”;第二類錯誤為信用“差”的供應商誤判為“好”。
四、實證分析選取參加政府采購活動的32位供應商進行信用分析
其中,有9位供應商經營狀況欠佳,其余的供應商經營狀況正常。利用Matlab實現(xiàn)計算與模擬。由于在樣本中存在兩類樣本數(shù)據(jù),因而對供應商進行兩模式的信用分類。選取的屬性數(shù)據(jù)類型如下:流動比率(C1)、速動比率(C2)、負債/權益比率(C3)、存貨周轉率(C4)、總資產報酬率(C5)、資產負債率(C6)、長期負債比率(C7)、銷售利潤率(C8)、首先,利用PCA進行數(shù)據(jù)挖掘,特征值見表1。生成了三個主成分,貢獻率累計為99•06%,能夠完全滿足信用分析的要求。
五、結語
筆者在應用支持向量機進行供應商信用分析過程中,引入PCA進行屬性數(shù)據(jù)特征挖掘,提高了支持向量機的推廣能力和建模效率,為今后政府采購中供應商的信用分析提供一種可借鑒的方法。實例和分的結果表明所建信用分析模型的質量比較高,驗證了其有效性。