前言:本站為你精心整理了BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于生存范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:目的探討bp神經(jīng)網(wǎng)絡(luò)在生存分析中的應(yīng)用。方法通過賁門癌預(yù)后的實(shí)例說明神經(jīng)網(wǎng)絡(luò)的連續(xù)時間模型與離散時間模型的使用。結(jié)果所建立的神經(jīng)網(wǎng)絡(luò)生存分析模型有較好的預(yù)測能力。結(jié)論神經(jīng)網(wǎng)絡(luò)在生存分析中有很大的靈活性,在模型中可以容納非線性效應(yīng),協(xié)變量的效應(yīng)可以隨時間而變化,不要求滿足PH假定,有較廣泛的應(yīng)用前景。
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);生存分析;賁門癌
生存分析(survivalanalysis)起源于19世紀(jì)對壽命表的分析,目前已廣泛應(yīng)用到臨床研究中,可以處理含有刪失值的數(shù)據(jù),可以同時考慮事件發(fā)生的結(jié)局及發(fā)生結(jié)局的時間。目前處理生存資料的方法有參數(shù)模型、非參數(shù)模型及半?yún)?shù)模型。參數(shù)模型對生存時間的分布要求非常嚴(yán)格,醫(yī)學(xué)資料中很少能滿足;生存分析中傳統(tǒng)的回歸模型,例如:Cox比例風(fēng)險模型、加速失效時間模型也要求模型滿足一定的假設(shè)前提,而實(shí)際數(shù)據(jù)往往難以滿足這些假設(shè)。神經(jīng)網(wǎng)絡(luò)近年來受到普遍的關(guān)注,在醫(yī)學(xué)領(lǐng)域中的應(yīng)用主要預(yù)測與分類,與傳統(tǒng)回歸模型不同,它可以克服這些缺點(diǎn),在模型中可以容納非線性效應(yīng),交互效應(yīng)、協(xié)變量的效應(yīng)可以隨時間變化。目前國內(nèi)研究神經(jīng)網(wǎng)絡(luò)在生存分析中的應(yīng)用尚較少,本文擬探討幾種不同的神經(jīng)網(wǎng)絡(luò)生存模型在賁門癌預(yù)后中的應(yīng)用。
1方法
BP神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最多的神經(jīng)網(wǎng)絡(luò),一般由一個輸入層(inputlayer)、一個輸出層(outputlayer)、一個或幾個中間層(隱層)組成,每一層可包含一個或多個神經(jīng)元,其中每一層的每個神經(jīng)元和前一層相連接,同一層之間沒有連接。輸入層神經(jīng)元傳遞輸入信息到第一隱層或直接傳到輸出層,隱層的神經(jīng)元對輸入層的信息加權(quán)求和,加一個常數(shù)后,經(jīng)傳遞函數(shù)運(yùn)算后傳到下一個隱層(或輸出層),常用的傳遞函數(shù)是logistic函數(shù),即φh=1/(1+exp(-z)),輸出層神經(jīng)元對前一層的輸入信息加權(quán)求和經(jīng)傳遞函數(shù)φ0(線性或logistic函數(shù)或門限函數(shù))運(yùn)算后輸出,例如:如果輸入為xi,對于含一個隱層的神經(jīng)網(wǎng)絡(luò)可以得到:
g(xi,θ)=φ0(αk+∑i≠kwikxi+∑jwjkφh(αj+∑iwijxi))(1)
θ表示未知的參數(shù)矢量(即各層的網(wǎng)絡(luò)權(quán)值),BP神經(jīng)網(wǎng)絡(luò)一般采用BP算法訓(xùn)練網(wǎng)絡(luò),訓(xùn)練開始時選擇初始值0,BP算法通過梯度下降法得到估計值,使得g(x,)能很好地估計實(shí)測值,關(guān)于BP算法及改進(jìn)可參考相關(guān)文獻(xiàn)[1]。
利用BP神經(jīng)網(wǎng)絡(luò)模型建立生存分析模型,常用的方法有:連續(xù)時間模型(continuoustimemodels)與離散時間模型(discretetimemodels)。
1.1連續(xù)時間模型(continuoustimemodels)
最常用的是Faraggi和Simon[2]提出的方法,在Cox比例風(fēng)險模型中,風(fēng)險函數(shù)與時間、協(xié)變量有如下關(guān)系:
h(t,xi)=h0(t)exp(βxi)(2)
通過最大化偏似然函數(shù),使用Newton-Raphson法得到參數(shù)的估計值,現(xiàn)在使用神經(jīng)網(wǎng)絡(luò)的輸出值g(xi,θ)來代替(2)中的線性項(xiàng)βxi,比例風(fēng)險模型變成h(t,xi)=h0(t)exp[g(xi,θ)],有偏似然函數(shù):
Lc(θ)=∏i∈uexp∑jwjk/(1+exp(-wijxi))/∑j∈Riexp∑jwjk/(1+exp(-wijxj))(3)
g(xi,θ)可以依賴時間和協(xié)變量變化,也就是說協(xié)變量的效應(yīng)可以隨時間而變化,這給我們提供了一個可以處理刪失變量但又不需要滿足比例風(fēng)險模型的PH假定的可供選擇的方法。1.2離散時間模型(discretetimemodels)
常用的模型有[3]:(1)直接預(yù)測患者是否可以存活到某年(例如5年),是最簡單的神經(jīng)網(wǎng)絡(luò)模型,模型的輸出層只有一個神經(jīng)元結(jié)點(diǎn),如欲預(yù)測多個時間點(diǎn),則需建立多個神經(jīng)網(wǎng)絡(luò)模型(每個模型對應(yīng)一個時間區(qū)間);(2)多個輸出結(jié)點(diǎn)的單個神經(jīng)網(wǎng)絡(luò)模型。
1.2.1輸出層有單個結(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)模型是一個標(biāo)準(zhǔn)的分類神經(jīng)網(wǎng)絡(luò)模型,生存時間被分成2個區(qū)間,例如生存時間是否大于5年。其似然函數(shù)為:
∏patientsptii(1-pi)(1-ti)
其對數(shù)似然函數(shù)為:
∑patientstilogpi+(1-ti)log(1-pi)
pi:第i個病人死亡的概率,ti:第i個觀測在某時間點(diǎn)(例如5年)的結(jié)果,如觀測死亡,取值為1,否則取值為0。對于刪失的觀測不能簡單地排除,這樣會造成偏性,我們使用Cox線性比例風(fēng)險模型產(chǎn)生的個體預(yù)測值對刪失值做填補(bǔ)。1.2.2輸出層有多個結(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)模型將生存時間分成幾個離散的區(qū)間,估計某個區(qū)間事件發(fā)生的概率。
不考慮時間區(qū)間的順序,有模型:logpk-logp1=ηk(X)(k=2,…,P)
從神經(jīng)網(wǎng)絡(luò)可以得到輸出值yk:yk=∑iwikxi+∑jwjkφ1(∑iwijxi)(K=1,…,P)(這里我們設(shè)ηk(x)=yk-y1),
于是可以得到時間區(qū)間k的概率:pk=exp(yk)∑l(yl)
建立似然函數(shù)∏patients∑lik=mi+1pki
mi:觀測i存活的前一個生存區(qū)間,li:最后的時間區(qū)間,pki:第i個病人在時間區(qū)間k死亡的概率。
本次研究采用靈敏度、特異度、一致性指數(shù)C(concordanceindex)[4,5]作為預(yù)測準(zhǔn)確性的評價指標(biāo)。一致性指數(shù)C是對含有刪失數(shù)據(jù)的ROC曲線下面積的推廣(generalization),是指預(yù)測結(jié)果和實(shí)際結(jié)果一致的觀察單位的對子數(shù)占總的有用對子數(shù)的比例,即C=一致的對子數(shù)/有用的對子數(shù),C接近0.5表明模型的預(yù)測性能差,接近1表明預(yù)測性能好。一致性指數(shù)的計算步驟為[5]:①產(chǎn)生所有的病例配對。若有n個觀察個體,則所有的對子數(shù)為C2n。②排除兩種對子:對子中具有較小觀察時間的個體沒有達(dá)到觀察終點(diǎn)及對子中2個個體都沒達(dá)到觀察終點(diǎn)。③計算有用對子中,預(yù)測結(jié)果和實(shí)際相一致的對子數(shù),④計算一致性指數(shù)。
2實(shí)例分析
賁門癌是常見惡性腫瘤,對236例經(jīng)手術(shù)切除但未行放化療的賁門癌患者隨訪,生存時間為確診到最后一次隨訪,按月記錄,分析的協(xié)變量包括:性別、年齡、腫瘤的長度、組織學(xué)類型、大體分型、浸潤深度、淋巴結(jié)轉(zhuǎn)移情況、TNM分期等臨床上可能的預(yù)后因素。為了減少訓(xùn)練時間,先采用COX比例危險模型對可能影響預(yù)后的因素進(jìn)行篩選,采用向前逐步法,引入標(biāo)準(zhǔn)為0.05,剔除標(biāo)準(zhǔn)為0.10,結(jié)果顯示對賁門癌患者生存率有影響的因素為:病人的腫瘤長度、淋巴結(jié)轉(zhuǎn)移情況、組織學(xué)類型、篩選結(jié)果見表1。
表1賁門癌患者生存的COX逐步回歸分析結(jié)果(略)
Tab.1TheresultofCoxregressionmodelforcarcinomaofthegastriccardia
2.1BP網(wǎng)訓(xùn)練集、校驗(yàn)集和測試集的確定
從原始數(shù)據(jù)中隨機(jī)抽取80例作為訓(xùn)練集,80例作為校驗(yàn)集,76例為預(yù)測樣本。
2.2輸入數(shù)據(jù)的預(yù)處理
使輸入變量的取值落在0到1的范圍內(nèi)。對于腫瘤長度使用x′i=ximax(x)進(jìn)行歸一化處理;病理分型為無序分類變量,以啞變量的形式賦值。
2.3神經(jīng)網(wǎng)絡(luò)模型的建立及訓(xùn)練
選取Cox回歸選出的3個變量作為網(wǎng)絡(luò)的輸入。建立輸出層為1個結(jié)點(diǎn)的離散型神經(jīng)網(wǎng)絡(luò)時,將病人生存時間按下式分為兩類作為輸出變量
yi(i=1,2,…,n),
即yi=1生存t≥5年
0生存t<5年;建立輸出層為5個結(jié)點(diǎn)的離散型神經(jīng)網(wǎng)絡(luò)時,將病人生存時間分為5類作為輸出變量yi,time<1year,1year≤time<2year,2≤time<3year,3≤time<5year,time>5year。
使用Matlab軟件建立神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)率為0.01,傳遞函數(shù)采用logistic傳遞函數(shù),單結(jié)點(diǎn)網(wǎng)絡(luò)的隱單元數(shù)為2,多結(jié)點(diǎn)網(wǎng)絡(luò)隱單元數(shù)為3,采用“早停止”策略防止過度擬合。2.4兩種神經(jīng)網(wǎng)絡(luò)模型預(yù)測性能
使用靈敏度、特異度、一致性指數(shù)C評價模型的預(yù)測性能。
表2兩種神經(jīng)網(wǎng)絡(luò)模型預(yù)測性能*(略)
Tab.2Thepredictiveperformanceofthreetypeofneuralnetwork
*判斷界值取0.5
3討論
神經(jīng)網(wǎng)絡(luò)已在語音識別、圖像診斷分析、臨床診斷、高分子序列分析等許多方面取得了成功的應(yīng)用,在醫(yī)學(xué)研究領(lǐng)域,變量間關(guān)系往往非常復(fù)雜,神經(jīng)網(wǎng)絡(luò)正逐漸變成分析數(shù)據(jù)的流行工具,目前主要應(yīng)用于分類與預(yù)測,用于生存分析方面的研究還較少。國內(nèi)黃德生[5]等建立利用BP神經(jīng)網(wǎng)絡(luò)建立time-codedmodel和single-timepointmodel用于肺鱗癌預(yù)后預(yù)測,賀佳[6]等對肝癌術(shù)后無瘤生存期的預(yù)測做了應(yīng)用嘗試。
本文通過實(shí)例建立連續(xù)時間模型與離散時間模型探討B(tài)P神經(jīng)網(wǎng)絡(luò)在生存分析中的應(yīng)用,F(xiàn)araggi提出的方法還可以擴(kuò)展到其他可以處理刪失數(shù)據(jù)的模型,例如加速失效時間模型、Buckley-James模型,但哪一種模型更好,還有待進(jìn)一步研究。神經(jīng)網(wǎng)絡(luò)在生存分析中的應(yīng)用主要在于[7]:個體患者預(yù)后的預(yù)測,研究預(yù)后因子的重要性,研究預(yù)后因子的相互作用;對于預(yù)測變量的影響力強(qiáng)弱,解釋性還有待進(jìn)一步探討。還有研究者在建立多個時間區(qū)間的模型時將時間區(qū)間也作為一個輸入變量,也有學(xué)者將神經(jīng)網(wǎng)絡(luò)納入Bayes方法的研究框架,神經(jīng)網(wǎng)絡(luò)建立的生存分析模型可以探測復(fù)雜的非線性效應(yīng),復(fù)雜的交互效應(yīng),相信會逐漸應(yīng)用到生物醫(yī)學(xué)研究領(lǐng)域。
【參考文獻(xiàn)】
[1]余雪麗.神經(jīng)網(wǎng)絡(luò)與實(shí)例學(xué)習(xí)[M].中國鐵道出版社,1996:56-61.
[2]DAVIDF,RICHARDS.Aneuralnetworkmodelforsurvivaldata[J].StatisticsinMedicine,1995,14:73-82.
[3]RUTH,RIPLEY,ADRIANL,etal.Non-linearsurvivalanalysisusingneuralnetworks[J].StatisticsinMedicine,2004,23:825-842.
[4]賀憲民,賀佳,范思昌,等.Cox模型與BP神經(jīng)網(wǎng)絡(luò)在處理非線性數(shù)據(jù)時的性能比較[J].數(shù)理統(tǒng)計與管理,2004,23(2):69-72.
[5]黃德生,周寶森,劉延齡,等.BP人工神經(jīng)網(wǎng)絡(luò)用于肺鱗癌預(yù)后預(yù)測[J].中國衛(wèi)生統(tǒng)計,2000,17(6):337-340.