在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 正文

聚類判別框架

前言:本站為你精心整理了聚類判別框架范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。

聚類判別框架

摘要:在分析經(jīng)典聚類判別分析方法實(shí)質(zhì)的基礎(chǔ)上,提出了一種新的聚類判別分析框架,改進(jìn)了一種基于樣本指標(biāo)值頻度計(jì)算的兩總體判別分析算法,提高了在對(duì)所有參與建立判別模型的樣本進(jìn)行判別時(shí)的計(jì)算速度;給出了建立在此改進(jìn)判別分析算法基礎(chǔ)上的一種動(dòng)態(tài)聚類判別分析算法的設(shè)計(jì),并實(shí)現(xiàn)了所有算法。進(jìn)行相應(yīng)的實(shí)證研究,結(jié)果表明以此聚類判別分析框架對(duì)給定樣本集合進(jìn)行分析,可以迅速得到多個(gè)合理的聚類結(jié)果以及對(duì)聚類結(jié)果的清晰解釋,既可以對(duì)已有的聚類結(jié)果進(jìn)行驗(yàn)證,又可以進(jìn)行數(shù)據(jù)的探索性分析。

關(guān)鍵詞:聚類分析;判別分析;動(dòng)態(tài)聚類

0引言

經(jīng)典聚類分析算法是基于距離計(jì)算的。然而除馬氏距離定義外,其他距離定義都存在樣本指標(biāo)的量綱處理問題;除馬氏距離和斜交空間距離定義外,其他距離定義都存在樣本指標(biāo)的相關(guān)性處理問題;另外,包括馬氏距離在內(nèi)的所有距離定義都存在將用于聚類的指標(biāo)同等對(duì)待的缺點(diǎn),不能反映不同指標(biāo)對(duì)聚類結(jié)果的貢獻(xiàn)程度。

一般情況下,在確定樣本間距離計(jì)算方法的基礎(chǔ)上,用不同的聚類分析方法得到聚類的結(jié)果是不會(huì)完全一致的。這是因?yàn)樵趯?shí)際應(yīng)用中,許多對(duì)象在不同類之間本身并無清晰的劃分。這導(dǎo)致了在既定用于聚類的指標(biāo)組合的情況下,用不同的聚類方法對(duì)同一組樣本進(jìn)行分析會(huì)得到不同的聚類結(jié)果。如上所述,即使使用同一種聚類方法,有時(shí)由于樣本的排列順序不同,也可能導(dǎo)致不同的分類結(jié)果。這就提出了對(duì)不同的聚類方法進(jìn)行評(píng)價(jià)的問題。關(guān)于所用方法好壞的評(píng)價(jià),現(xiàn)在還沒有一個(gè)合適的標(biāo)準(zhǔn)。Edwards和CAVALLIsforza(1965)曾建議把樣本分成兩類,使得兩類間的離差平方和最大[1]。D.FisherWalter也指出,應(yīng)該尋找使類內(nèi)差異最小的聚類方法[2]。因此,評(píng)價(jià)不同聚類方法的一個(gè)重要方面,就是看這些方法得到的聚類結(jié)果在類內(nèi)的接近程度和在類間的相隔程度。一個(gè)較好的分類方法應(yīng)該得到類內(nèi)差異較小、類間差異較大的聚類結(jié)果。在實(shí)際應(yīng)用中,一般采用以下兩種處理方法:a)根據(jù)分類問題本身的專業(yè)知識(shí),結(jié)合實(shí)際需要來選擇分類的方法,并確定分類的個(gè)數(shù);b)用多種方法對(duì)數(shù)據(jù)進(jìn)行分析處理,把結(jié)果的共性取出來。如果用幾種方法的某些結(jié)果都一樣,則說明這樣的聚類確實(shí)反映了事物的本質(zhì)。將有爭(zhēng)議的樣本暫放一邊,或者用其他方法如判別分析進(jìn)行處理歸類。另外,在聚類分析方法既定的情況下,同一組樣本采用不同的指標(biāo)組合進(jìn)行聚類分析,通常也會(huì)得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因主要是由于不同的指標(biāo)組合測(cè)度是樣本間的不同側(cè)面的相似程度,在進(jìn)行聚類分析時(shí)存在指標(biāo)組合選擇的問題。一般是根據(jù)聚類的實(shí)際需要進(jìn)行指標(biāo)的選擇,這是一個(gè)比較復(fù)雜并且?guī)в兄饔^性的問題。實(shí)踐中,在開始進(jìn)行聚類分析時(shí),通常是先選擇多種指標(biāo)組合分別進(jìn)行聚類,然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析,以確定出合適的測(cè)度指標(biāo)。

判別分析產(chǎn)生于20世紀(jì)30年代,是利用已知類別的樣本建立判別模型,為未知類別的樣本判別的一種統(tǒng)計(jì)方法。近年來,判別分析在自然科學(xué)、社會(huì)學(xué)及經(jīng)濟(jì)管理學(xué)科中都有廣泛的應(yīng)用。判別分析的特點(diǎn)是根據(jù)已掌握的、歷史上每個(gè)類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。當(dāng)遇到新的樣本點(diǎn)時(shí),只要根據(jù)總結(jié)出來的判別公式和判別準(zhǔn)則,就能判別該樣本點(diǎn)所屬的類別。判別分析按照判別的組數(shù)來區(qū)分,可以分為兩組判別分析和多組判別分析。本文僅研究兩組判別分析。在眾多的判別分析方法中,最直觀的是距離判別法。

距離判別的思想是計(jì)算待判樣本到第i類總體的平均數(shù)的距離。哪個(gè)距離最小就將它判歸到哪個(gè)總體。所以,距離判別法的任務(wù)就是構(gòu)造一個(gè)恰當(dāng)?shù)木嚯x函數(shù),通過樣本與某類別之間距離的大小判別其所屬類別。這里僅討論兩個(gè)總體的距離判別法。距離判別只要求知道總體的數(shù)字特征,不涉及總體的分布函數(shù)。當(dāng)參數(shù)未知和協(xié)方差時(shí),就用樣本的均值和協(xié)方差矩陣來估計(jì)。

從距離判別法可以看到判別規(guī)則是一個(gè)線性函數(shù)。由于線性判別函數(shù)使用簡便,希望能在更一般的情況下建立一種線性判別函數(shù)。Fisher判別法由Fisher在1936年提出,是根據(jù)方差分析的思想建立起來的一種能較好區(qū)分各個(gè)總體的線性判別法。該判別方法對(duì)總體的分布不作任何要求。

從兩個(gè)總體中抽取具有p個(gè)指標(biāo)的樣本觀測(cè)數(shù)據(jù),借助于方差分析的思想構(gòu)造一個(gè)線性判別函數(shù):

距離判別法是基于距離計(jì)算的,用構(gòu)造線性判別函數(shù)方法進(jìn)行樣本判別的Fisher判別法也存在著類似基于距離計(jì)算的聚類分析方法當(dāng)中的不足:

a)將總體和樣本的多個(gè)指標(biāo)賦予了同等的判別能力,而這與現(xiàn)實(shí)是不相符合的,即不同的指標(biāo)在判別樣本的歸屬時(shí)具有不同的判別能力。

b)沒有對(duì)用于建立判別分析模型的總體指標(biāo)進(jìn)行篩選。這在兩總體的某指標(biāo)沒有顯著差異時(shí)進(jìn)行判別分析的意義不大,誤判的概率很大[3,4]。

c)距離的計(jì)算不可避免地會(huì)帶來量綱上的問題[5]。

d)距離判別方法簡單實(shí)用,但沒有考慮到每個(gè)總體出現(xiàn)的機(jī)會(huì)大小,即先驗(yàn)概率,沒有考慮到錯(cuò)判的損失。Bayes判別法正是為了解決這兩個(gè)問題提出的判別分析方法,其判別效果更加理想,應(yīng)用也更廣泛。本文將在實(shí)證研究部分用Bayes判別方法對(duì)涉及的問題進(jìn)行分析,作為與新算法計(jì)算效果的一個(gè)對(duì)比。

在回歸分析中,變量的好壞直接影響回歸的效果。在判別分析中也有類似的問題。用于建立判別準(zhǔn)則的指標(biāo)的選擇是判別分析中的一個(gè)重要問題。如果在某個(gè)判別問題中,將最重要的指標(biāo)忽略了,相應(yīng)的判別函數(shù)的效果一定不好;另一方面,如果引入了一些判別能力不強(qiáng)的指標(biāo),不僅會(huì)增加計(jì)算量,還會(huì)嚴(yán)重地影響判別的效果。但是在許多問題中,事先并不知道哪些是主要指標(biāo)。因此篩選變量的問題就非常重要,從而產(chǎn)生了逐步判別法。逐步判別法與逐步回歸法的基本思想類似,都是采用有進(jìn)有出的算法,即逐步引入變量,每引入一個(gè)重要的變量進(jìn)入判別式,同時(shí)也考慮較早引入判別式的某些變量。如果其判別能力隨新引入的變量而變?yōu)椴伙@著了(如其作用被后引入的某幾個(gè)變量的組合所代替),應(yīng)及時(shí)從判別式中把它剔除,直到判別式中沒有不重要的變量需要剔除,而剩下的變量也沒有重要的變量可以引入的判別式時(shí),逐步篩選結(jié)束。這個(gè)篩選過程實(shí)質(zhì)就是作假設(shè)檢驗(yàn)。通過檢驗(yàn)找出顯著性變量,剔除不顯著的變量,得到用于建立判別式的變量組合后,可用各種方法建立判別函數(shù)和判別準(zhǔn)則。

實(shí)際上,以上提到的不論是距離判別法、Fisher判別法,還是Bayes判別法、逐步判別法,其出發(fā)點(diǎn)都是把給定的分組作為構(gòu)造判別函數(shù)的依據(jù)和出發(fā)點(diǎn),其最終結(jié)果都是構(gòu)造一個(gè)線性判別函數(shù)。它們僅僅是判別函數(shù)構(gòu)造思想上的差異。距離判別法基于距離判別思想;Fisher判別法基于方差分析思想,判別式的形式為距離判別式的一般形式;Bayes判別法基于條件概率思想;逐步判別法基于假設(shè)檢驗(yàn)思想確定用于判別的指標(biāo),但其判別式的確定仍由其他判別分析方法確定。

以上各種判別分析方法中,僅有逐步判別法的基本思想中考慮到了不同指標(biāo)具有不同的判定能力,但是其思想的具體體現(xiàn)僅在于確定用于構(gòu)建判別式的指標(biāo),并沒有給出各個(gè)指標(biāo)具體的判別能力大小的差異。實(shí)際上不僅不同指標(biāo)的判別能力存在差異,而且在篩選掉部分指標(biāo)的同時(shí)也會(huì)丟失該部分指標(biāo)所包含的判別信息。

對(duì)于一組給定的樣本,對(duì)其進(jìn)行聚類分析時(shí),可以應(yīng)用不同的聚類方法對(duì)不同的指標(biāo)組合進(jìn)行聚類分析,同時(shí)也將得到多組不同的聚類結(jié)果。對(duì)于某些指標(biāo)組合下的聚類結(jié)果,結(jié)合實(shí)際可能會(huì)得到比較符合實(shí)際意義的解釋,對(duì)此類聚類結(jié)果可以為其構(gòu)造特定的判別模型,用于新樣本類別的判別。因此,聚類分析的實(shí)質(zhì)是對(duì)不同的指標(biāo)組合下的樣本分類組合的可能性進(jìn)行搜索,找出符合特定聚類定義的組合。其作用是尋找滿足特定需求的,或者說可以給出較好解釋的聚類結(jié)果。判別分析的實(shí)質(zhì)是根據(jù)歷史信息或者聚類的結(jié)果建立判別標(biāo)準(zhǔn),用于對(duì)參加聚類的樣本和新的樣本的判別。聚類分析和判別分析之間存在著緊密的聯(lián)系。聚類分析的結(jié)果作為進(jìn)行判別分析的基礎(chǔ);而判別分析不僅可以用于對(duì)新樣本進(jìn)行判別,而且另一個(gè)重要的作用在于校驗(yàn)聚類分析結(jié)果的正確性,即回判。

基于以上的分析結(jié)論,傳統(tǒng)的對(duì)數(shù)據(jù)的聚類判別分析流程一般是先有聚類分析,然后在其之上的判別分析。本文將借鑒經(jīng)典聚類分析和判別分析中的部分思想,從聚類分析和判別分析的實(shí)質(zhì)出發(fā),逐步構(gòu)建出一類有異于傳統(tǒng)分析思路的樣本聚類判別分析算法,并嘗試在新算法中解決經(jīng)典聚類判別分析方法中存在的部分問題。

1動(dòng)態(tài)聚類判別分析算法的設(shè)計(jì)和實(shí)現(xiàn)

1.1新的聚類判別分析框架

對(duì)于一組給定的需要進(jìn)行聚類分析和判別分析的樣本集合,新的聚類判別分析框架基于以下基本事實(shí):

a)對(duì)于給定的樣本序列,有有限種分組方案。

b)用傳統(tǒng)聚類分析方法得出的結(jié)果并不總能遍歷以上所有的分組可能。不僅因?yàn)槠渲胁糠址纸M在任何指標(biāo)組合下都不合理,還因?yàn)閭鹘y(tǒng)聚類分析方法得出的結(jié)果本身就有限。在指定指標(biāo)組合、指定樣本排列順序的情況下一種聚類方法僅能給出一個(gè)聚類結(jié)果。

c)對(duì)于用聚類方法得不出的分組方案,存在部分用判別分析進(jìn)行判別回判率為百分之百的分組方案。

d)對(duì)于既定的分組,不同指標(biāo)在區(qū)分該分組的能力上存在差異。不同組的某些指標(biāo)差異明顯,有些并沒有明顯差異。

新的聚類判別分析框架的設(shè)計(jì)基于以下基本假設(shè):對(duì)于任意一種分組方案,如果判別分析的回判正確率足夠高,那分組就是合理的和可以接受的。因此,新的聚類判別分析框架設(shè)計(jì)的基本思想是聚類分析建立在判別分析的基礎(chǔ)之上。據(jù)此設(shè)計(jì)的新算法中并不包括具體的聚類分析算法,僅僅包括判別分析算法。

本文中應(yīng)用的判別分析算法基于文獻(xiàn)[6]提出的基于樣本指標(biāo)值頻度計(jì)算的判別分析算法。該兩總體判別分析算法的思想與逐步判別法的思想有一定的相似之處。不同之處在于其核心思想不是篩選變量,而是篩選指標(biāo)值,是逐步篩選出具有顯著判別能力的指標(biāo)值;不是根據(jù)用具有顯著判別能力的變量建立判別式,而是用篩選出的具有顯著判別能力的指標(biāo)值建立判別模型;其判別模型不是線性判別式,而是一個(gè)復(fù)雜的判定模型系統(tǒng);得出的結(jié)果不是某樣本的判定結(jié)果,而是某樣本屬于某總體的概率。該算法篩選指標(biāo)值的基本思想為:對(duì)于同一指標(biāo)而言,假設(shè)兩組中所有樣本的該指標(biāo)值為一維空間上的點(diǎn)。如果兩組內(nèi)距離最近的兩點(diǎn)距離小于或者等于這兩點(diǎn)中任意一點(diǎn)到該點(diǎn)所在組的其他任意一點(diǎn)的距離,則這兩點(diǎn)根本就不具有判別能力,應(yīng)該剔除。為提高該算法的計(jì)算速度,進(jìn)行了如下兩點(diǎn)優(yōu)化,在程序?qū)嶋H運(yùn)行中取得了良好效果:

a)對(duì)某指標(biāo)進(jìn)行計(jì)算時(shí)應(yīng)用冒泡算法對(duì)所有指標(biāo)值進(jìn)行排序。該數(shù)據(jù)預(yù)處理大大提高了指標(biāo)值的篩選速度。

b)因?yàn)閷?duì)樣本的判別問題是通過計(jì)算該樣本的各個(gè)指標(biāo)值上的判別概率得到的,從對(duì)數(shù)據(jù)庫表的訪問效率出發(fā),進(jìn)行判別分析時(shí)不是依次對(duì)每一個(gè)樣本進(jìn)行判別,而是按照指標(biāo)的順序依次計(jì)算所有樣本的某指標(biāo)值在該指標(biāo)下的判別概率,并且若某指標(biāo)的權(quán)重為零時(shí)不需要計(jì)算任何樣本在該指標(biāo)下的判別概率,最后對(duì)每一個(gè)樣本進(jìn)行判別。

本文依據(jù)以上提出的聚類判別分析框架,以改進(jìn)的兩總體判別分析算法為基礎(chǔ),提出了一種動(dòng)態(tài)的聚類判別分析算法的設(shè)計(jì),并在實(shí)現(xiàn)算法的基礎(chǔ)上進(jìn)行了相應(yīng)的實(shí)證研究。

1.2兩總體動(dòng)態(tài)聚類分析算法的設(shè)計(jì)和實(shí)現(xiàn)

兩總體動(dòng)態(tài)聚類分析算法的設(shè)計(jì)基于兩總體判別分析算法。其基本思想在于從某初始判別狀態(tài)出發(fā),不斷修正判別分析中錯(cuò)判的樣本分組,直到所有樣本已經(jīng)判別,并且回判率為100%或出現(xiàn)錯(cuò)判循環(huán)為止。

根據(jù)樣本初始判別狀態(tài)的情況,這里把動(dòng)態(tài)聚類分為有指導(dǎo)的動(dòng)態(tài)聚類過程和無指導(dǎo)的動(dòng)態(tài)聚類過程。有指導(dǎo)的動(dòng)態(tài)聚類過程是指在進(jìn)行聚類分析之前根據(jù)實(shí)際經(jīng)驗(yàn)對(duì)所有或者部分樣本進(jìn)行組別的指派,這有助于加快動(dòng)態(tài)聚類的過程,并產(chǎn)生期望的聚類結(jié)果;無指導(dǎo)的動(dòng)態(tài)聚類過程是指在進(jìn)行聚類分析之前不進(jìn)行任何初始判別狀態(tài)的設(shè)置。其中有指導(dǎo)的動(dòng)態(tài)聚類與無指導(dǎo)的動(dòng)態(tài)聚類的區(qū)別在于,無指導(dǎo)的動(dòng)態(tài)聚類可能導(dǎo)致聚類過程中判別次數(shù)的增加,這在進(jìn)行大樣本聚類時(shí),時(shí)間開銷將成倍增加;另一個(gè)可能產(chǎn)生的結(jié)果是無指導(dǎo)的聚類過程會(huì)產(chǎn)生與預(yù)期不同的分類結(jié)果,即聚類的可能結(jié)果更多,可用于試探性分析。一般有指導(dǎo)的聚類分析過程可以很快得出與預(yù)期相符合的聚類結(jié)果。

從另一個(gè)角度對(duì)動(dòng)態(tài)聚類過程可以作如下分類:可以在初始聚類之前一次全部指定所有樣本的判別狀態(tài),之后不斷修正樣本的判別狀態(tài)直到判別結(jié)束,也可以逐步添加參加判別分析的樣本個(gè)數(shù)。實(shí)證分析的結(jié)果表明,第一種動(dòng)態(tài)聚類方法的聚類過程不穩(wěn)定,有時(shí)會(huì)產(chǎn)生抖動(dòng)現(xiàn)象,即某次的很多錯(cuò)判樣本在修改組別后進(jìn)行下一次判別后仍然為錯(cuò)判樣本,如此不斷反復(fù),甚至出現(xiàn)循環(huán)。出現(xiàn)這種現(xiàn)象的原因可以解釋為當(dāng)錯(cuò)判樣本較大時(shí),即使改變了錯(cuò)判樣本的組別,因?yàn)殄e(cuò)判樣本個(gè)數(shù)相對(duì)較大,錯(cuò)判的樣本對(duì)新的判別模型仍然會(huì)產(chǎn)生很大的影響。另外因?yàn)榉纸M本身存在的模糊性,某些樣本本身屬于兩總體的概率就比較接近,也有可能導(dǎo)致該類現(xiàn)象的發(fā)生。

一個(gè)解決方案是為所有錯(cuò)判的樣本,選擇錯(cuò)判概率最大的樣本改變組別,但這不能從根本上解決抖動(dòng)現(xiàn)象的發(fā)生。用第二種動(dòng)態(tài)聚類算法可以很好地解決此類問題,因?yàn)榈诙愔鸩骄垲惙治龇椒ㄖ校看闻袆e分析都將錯(cuò)判樣本的個(gè)數(shù)控制在相對(duì)較小的范圍內(nèi),每次增加一個(gè)新的樣本進(jìn)入判別模型。圖1給出第二種動(dòng)態(tài)聚類過程的算法流程。

在動(dòng)態(tài)聚類的算法流程設(shè)計(jì)中,所有樣本沒有判別之前,某次判別過程后,需要平衡不同組別的樣本個(gè)數(shù),使不同組別的樣本個(gè)數(shù)差不大于1;在所有樣本組別判別之后實(shí)行不平衡樣本個(gè)數(shù)的判別過程。實(shí)際上也可以進(jìn)行不平衡樣本個(gè)數(shù)的動(dòng)態(tài)聚類。這樣得到的結(jié)果有可能與經(jīng)典的聚類分析算法有很大的差異,但聚類結(jié)果仍然可以得到很好的解釋。

兩總體的判別分析算法以及相應(yīng)的動(dòng)態(tài)聚類分析算法已經(jīng)應(yīng)用在基于ODBC和ADO標(biāo)準(zhǔn)的數(shù)據(jù)庫訪問技術(shù)、SQLServer2000數(shù)據(jù)庫、VisualBasic6.0編程工具,參考相關(guān)技術(shù)資料[1,2,7]實(shí)現(xiàn)。以下分別給出不平衡樣本個(gè)數(shù)的無指導(dǎo)動(dòng)態(tài)聚類、平衡樣本個(gè)數(shù)的無指導(dǎo)動(dòng)態(tài)聚類以及平衡樣本個(gè)數(shù)的有指導(dǎo)動(dòng)態(tài)聚類的算例及其分析。

2關(guān)于該算法的實(shí)證研究

以下實(shí)證分析所用的原始數(shù)據(jù)以及用經(jīng)典判別分析方法得到的結(jié)果均來自文獻(xiàn)[3]。

2.1不平衡樣本個(gè)數(shù)的無指導(dǎo)動(dòng)態(tài)聚類

不平衡樣本個(gè)數(shù)的無指導(dǎo)動(dòng)態(tài)聚類更符合實(shí)際,但數(shù)據(jù)量少時(shí),可能得到的結(jié)果不具有統(tǒng)計(jì)學(xué)意義。

對(duì)人文發(fā)展指數(shù)案例中14個(gè)樣本的原始數(shù)據(jù)進(jìn)行不平衡樣本個(gè)數(shù)的無指導(dǎo)動(dòng)態(tài)聚類過程得到的結(jié)果,與經(jīng)典判別分析結(jié)果的分組完全相同。聚類結(jié)果如表1、2所示。在該聚類結(jié)果中,指標(biāo)成人識(shí)字率(%)的權(quán)重僅為0.142857。這與用逐步判別法進(jìn)行判別分析時(shí)得出的判別式的結(jié)論比較一致。

另外還給出兩種可能的聚類結(jié)果,分別如表3、4和表5、6所示。其中第二種聚類結(jié)果中出生時(shí)的預(yù)期壽命成為最重要的指標(biāo),分組的結(jié)果使得出生時(shí)的預(yù)期壽命相似的樣本成為一組;同時(shí)使同組內(nèi)樣本在成人識(shí)字率以及調(diào)整后的人均GDP這兩個(gè)指標(biāo)上沒有明顯的差異。第三種聚類結(jié)果中調(diào)整后的人均GDP成為最重要的指標(biāo),分組的結(jié)果使得調(diào)整后的人均GDP相似的樣本成為一組;同時(shí)使同組內(nèi)樣本在出生時(shí)的預(yù)期壽命以及成人識(shí)字率這兩個(gè)指標(biāo)上沒有明顯的差異。實(shí)際上已經(jīng)有不少學(xué)者對(duì)聯(lián)合國開發(fā)計(jì)劃署人文發(fā)展指數(shù)的確定方法表示了懷疑。因?yàn)樵撝笖?shù)本身的確定方法,包括所選的指標(biāo)以及指標(biāo)值的調(diào)整等都不存在令人信服的理由[8,9]。本文給出的這兩種聚類分析的結(jié)果可以從其他角度給出人文發(fā)展指數(shù)的可能更合理的確定方法,即把所有參加評(píng)價(jià)的國家納入聚類分析的范圍進(jìn)行探索性的分析,并選擇可以接受的聚類結(jié)果。

不平衡樣本個(gè)數(shù)的無指導(dǎo)動(dòng)態(tài)聚類算法當(dāng)然可以作為一個(gè)數(shù)據(jù)挖掘算法用于挖掘離群點(diǎn)。但是有時(shí)候這并不符合聚類的初衷。因?yàn)榫垲惖慕Y(jié)果并不能通過顯著性檢驗(yàn),無統(tǒng)計(jì)學(xué)意義。

2.2平衡樣本個(gè)數(shù)的無指導(dǎo)動(dòng)態(tài)聚類

平衡樣本個(gè)數(shù)的無指導(dǎo)動(dòng)態(tài)聚類是指在所有樣本沒有全部被判別完之前,在每次判別之前對(duì)組別的樣本個(gè)數(shù)進(jìn)行判別。與不平衡樣本個(gè)數(shù)的無指導(dǎo)動(dòng)態(tài)聚類相比,不容易出現(xiàn)分組個(gè)數(shù)嚴(yán)重不平衡的情況,但并不能避免這種情況的發(fā)生。下面以人文發(fā)展指數(shù)案例的聚類分析中給出的第二種聚類結(jié)果說明這種情況。

第二種聚類結(jié)果如表7、8所示。在第二種聚類結(jié)果中,成人識(shí)字率成為判別能力最顯著的指標(biāo)。其中,阿聯(lián)酋、南非和中國三個(gè)成人識(shí)字率最低的國家成為一組;其他11個(gè)國家成為另一組。各組內(nèi)其他兩個(gè)指標(biāo)的差異不顯著。因此該分組方案中識(shí)別的是所有樣本在識(shí)字率指標(biāo)上的差異。

2.3平衡樣本個(gè)數(shù)的有指導(dǎo)動(dòng)態(tài)聚類

將人文發(fā)展指數(shù)案例中的待判樣本加入聚類樣本中,并且把待判樣本以外的其他樣本的組別作為動(dòng)態(tài)聚類的起點(diǎn),得到的聚類結(jié)果如表9、10所示。聚類結(jié)果與經(jīng)典判別分析結(jié)果一致,并且指標(biāo)權(quán)重的計(jì)算結(jié)果表明實(shí)際人均GDP指標(biāo)具有顯著的判別能力,成人識(shí)字率判別能力不顯著。

3結(jié)束語

本文在分析經(jīng)典聚類分析和判別分析方法實(shí)質(zhì)的基礎(chǔ)上,給出了一種新的聚類判別分析框架,并利用改進(jìn)的兩總體判別分析算法依據(jù)此分析框架構(gòu)造并實(shí)現(xiàn)了一種動(dòng)態(tài)聚類判別分析算法。實(shí)證結(jié)果表明逐步動(dòng)態(tài)聚類算法具有相對(duì)較好的穩(wěn)定性;無指導(dǎo)動(dòng)態(tài)聚類算法很適合尋找樣本中的奇異點(diǎn),適合作為一種數(shù)據(jù)挖掘算法使用;有指導(dǎo)的動(dòng)態(tài)聚類更適合于經(jīng)典聚類算法的聚類問題。

參考文獻(xiàn):

[1]沈毅,陳峰.六種常見的條件系統(tǒng)聚類法比較[J].中國衛(wèi)生統(tǒng)計(jì),2004,21(6):338-340.

[2]WALTERDF.Ongroupingformaximumhomogeneity[J].AmericanStatisticalAssociationJournal,1959,53(12):789-798.

[3]于秀林,任雪松.多元統(tǒng)計(jì)分析[M].北京:中國統(tǒng)計(jì)出版社,1999:61-153.

[4]何曉群.現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M].北京:中國人民大學(xué)出版社,1998:255.

[5]朱孔來.評(píng)價(jià)指標(biāo)的非線性無量綱模糊處理方法[J].系統(tǒng)工程,1996,14(11):58-62.

[6]魏世振,楊磊,陳傳明.上市公司財(cái)務(wù)狀況判別分析算法的實(shí)證研究[J].系統(tǒng)工程,2005,23(1):108-110.

[7]張堯庭,方開泰.多元統(tǒng)計(jì)分析引論[M].北京:科學(xué)出版社,1982.

[8]保羅·斯特里滕.關(guān)于人文發(fā)展指數(shù)的爭(zhēng)論[J].國際社會(huì)科學(xué)雜志:中文版,1996(1):31-44.

[9]金玉國.新HDI評(píng)介[J].山西統(tǒng)計(jì),1995(5):44-45.

[10]陳峰.帶約束的聚類分析[J].?dāng)?shù)理醫(yī)藥學(xué)雜志,1999,12(20):112-113.

[11]蔡紅艷,韓立巖.上市公司財(cái)務(wù)狀況判定模型研究[J].審計(jì)研究,2003(1):62-64.

[12]徐成志,陳少軍.ODBC配置數(shù)據(jù)庫應(yīng)用程序[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2003,34(2):238-241.

[13]賀智明,李雯.采用動(dòng)態(tài)數(shù)據(jù)庫連接技術(shù)開發(fā)多課程通用考試信息系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2003,20(4):16-17,77.

[14]趙宇峰,張燁,黑新宏,等.VB6訪問數(shù)據(jù)庫技術(shù)的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2004,21(8):223-224.

[15]谷震離.ADO訪問SQLServer數(shù)據(jù)庫技術(shù)分析及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2004,21(12):32-33,77.

[16]BRADLEYJC,MILLSPAUGHAC.VisualBasic6.0高級(jí)編程[M].常曉波,劉穎,等譯.北京:清華大學(xué)出版社,2003.

[17]ALTMANE.Financialratios,discriminantanalysisandthepredictionofcorporatebankruptcy[J].JournalofFinance,1968,23(9):589-609.

[18]吳德勝,梁樑,殷尹.不同模型在財(cái)務(wù)預(yù)警實(shí)證中的比較研究[J].管理工程學(xué)報(bào),2004,18(2):105-108.

[19]劉洪,何光軍.基于人工神經(jīng)網(wǎng)絡(luò)方法的上市公司經(jīng)營失敗預(yù)警研究[J].會(huì)計(jì)研究,2004(2):42-46.

[20]喬韋華韋華,牛芳.上市公司財(cái)務(wù)困境預(yù)測(cè)的Fisher判別分析模型[J].統(tǒng)計(jì)與信息論壇,2003,18(2):69-71.

[21]ZMIJEWSKIME.Methodologicalissuesrelatedtotheestimationoffinancialdistresspredictionmodels[J].StudiesonCurrentEconometricIssuesinAccountingResearch,1984,22(9):5982.

[22]GRICEJS,INGRAMRW.TestsofthegeneralizabilityofAltman’sbankruptcymodel[J].JournalofBusinessResearch,2001,54(1):53-61.

[23]郭亞軍.綜合評(píng)價(jià)理論與方法[M].北京:科學(xué)出版社,2002.

[24]楊淑娥,徐偉剛.上市公司財(cái)務(wù)預(yù)警模型——Y分?jǐn)?shù)模型的實(shí)證研究[J].中國軟科學(xué),2003(1):56-60.

[25]MUTAPIF,MDULUZAT,RODDAMAW.Clusteranalysisofschistosomespecificantibodyresponsesartitionsthepopulationintodistinctepidemiologicalgroups[J].ImmunologyLetters,2005,96(2):231-240.

[26]YUANH,PARRILLA.ClusteranalysisandthreedimensionalQSARstudiesofHIV1integraseinhibitors[J].JournalofMolecularGraphicsandModelling,2005,23(4):317-328.

[27]TerBRAAKCJF,HERBERTH,WIESA,etal.Bayesianmodelbasedclusteranalysisforpredictingmacrofaunalcommunities[J].EcologicalModelling,2003,160(3):235-248.

[28]LIANGGS,CHOUTU,HANTC.Clusteranalysisbasedonfuzzyequivalencerelation[J].EuropeanJournalofOperationalResearch,2005,166(1):160-171.

[29]ALEXYU,VERENASP,WOLFGANGSH,etal.Clusteranalysisofindividualswithsimilartrendsoffatintakeduringchildhoodandadolescence:anewapproachtoanalyzingdietarydata[J].NutritionResearch,2005,25(3):251-260.

[30]PECEAEC.Generativemodelbasedtrackingbyclusteranalysisofimagedifferences[J].RoboticsandAutonomousSystems,2002,39(3):181-194.

[31]KWONSH.Thresholdselectionbasedonclusteranalysis[J].PatternRecognitionLetters,2004,25(9):1045-1050.

社旗县| 依兰县| 武鸣县| 龙江县| 高陵县| 宜宾县| 花莲市| 黎平县| 华亭县| 尉氏县| 阿克苏市| 德庆县| 庐江县| 高要市| 吴桥县| 武威市| 旺苍县| 阿拉善左旗| 嘉兴市| 乡城县| 东宁县| 嘉义县| 灌云县| 楚雄市| 盐城市| 大足县| 安平县| 和林格尔县| 闵行区| 西乌珠穆沁旗| 澳门| 定陶县| 通渭县| 渑池县| 司法| 洞口县| 察哈| 郓城县| 婺源县| 桑日县| 合肥市|