在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 正文

條件隨機域的生物醫(yī)學(xué)命名識別

前言:本站為你精心整理了條件隨機域的生物醫(yī)學(xué)命名識別范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

條件隨機域的生物醫(yī)學(xué)命名識別

1背景

隨著生物醫(yī)學(xué)技術(shù)的迅速發(fā)展,生物醫(yī)學(xué)文獻(xiàn)的數(shù)量也急劇增加。研究人員如何才能從海量的自然語言文本中獲得所需信息呢?當(dāng)今人們普遍采用文本挖掘(TextMining)技術(shù)來解決這一問題。文本挖掘的第一步是命名實體識別(NamedEntityRee銘nition,NER)。在生物醫(yī)學(xué)領(lǐng)域NER工作比普通領(lǐng)域困難得多,州LPBAZoo4任務(wù)I’l的公開測評結(jié)果表明,在GEN認(rèn)[2]語料集上最好的系統(tǒng)也只能達(dá)到72.6%的F一score,離可以應(yīng)用的水平還有很大的差距。目前的生物醫(yī)學(xué)命名實體識別的方法主要有基于字典和機器學(xué)習(xí)的方法。機器學(xué)習(xí)方法能夠識別未登陸詞,并且可以根據(jù)上下文環(huán)境對己經(jīng)登陸詞給出更準(zhǔn)確的答案。因此越來越被人們所重視,大量的模型應(yīng)用于該領(lǐng)域,。而其中最具優(yōu)勢的是既擁有馬爾科夫鏈結(jié)構(gòu),又適合于處理復(fù)雜稀疏特征的條件隨機域模型。從JNLPBA2004測評的結(jié)果分析,系統(tǒng)I3j只使用了很少種類的特征,沒有使用任何專業(yè)詞典,F(xiàn)一score就達(dá)到了69.8%,而該實驗使用的模型正是條件隨機域。

2條件隨機域

條件隨機域(ConditionalRandomFields,c),是計算具有無向圖G結(jié)構(gòu)的隨機變量集合s在給定隨機變量集合。下的條件概率P(s}o)。將CRF應(yīng)用于命名實體識別中,則0表示一個句子的單詞序列,S表示相應(yīng)的狀態(tài)序列,標(biāo)注的過程就是根據(jù)己知的單詞序列推斷出最有可能的狀態(tài)序列,即P(s}o)的最大值。本實驗使用了一階線性C盯。表明當(dāng)前句子中第i個位置上是否具有第k個特征,并且取決于當(dāng)前狀態(tài)s,和前一個狀態(tài)si-,•凡是特征的權(quán)重,通過訓(xùn)練得到。

3實驗

3.1特征選擇

本實驗借鑒了JNLPBA2004任務(wù)中各系統(tǒng)的部分特征,同時選取了一些新特征。共分為9類:單詞本身(Fl):將所有的單詞都轉(zhuǎn)化成小寫字母。構(gòu)詞特征(F2):包括首字母大寫,所有字母大寫,是否包含橫線,是否是數(shù)字等。詞綴特征(F3):對每個單詞都取了3個和4個字符的前綴,以及3個和4個字符的的后綴。詞形特征(F4):將大寫字母替換成A,小寫字母替換成a,數(shù)字替換成O,特殊符號替換成x。特征聯(lián)合(F5):將相鄰位置的特征進(jìn)行聯(lián)合,得出新的特征,有助于識別長距離詞。本實驗選擇窗口的大小為(-1,十l)。詞性標(biāo)記特征(F6)和短語切分標(biāo)記特征(F7):本實驗使用GENIATa朗er對訓(xùn)練語料和測試語料進(jìn)行標(biāo)注,得到相應(yīng)的詞性標(biāo)記和短語切分標(biāo)記作為特征。關(guān)鍵詞特征(F8):實驗中統(tǒng)計了訓(xùn)練集的命名實體中出現(xiàn)20次以上的1一gram和2一gram的關(guān)鍵詞,將這些詞是否出現(xiàn)作為特征。邊界詞特征(F9):從結(jié)果的統(tǒng)計中發(fā)現(xiàn),相當(dāng)多的錯誤都是發(fā)生在邊界。因此,本實驗統(tǒng)計了訓(xùn)練集中的邊界詞,取出現(xiàn)5次以上的作為特征。

3.2可以看出隨著訓(xùn)練語料的增加,后期的F一score趨于平緩,提高的幅度很小,一半的語料兒乎沒有被利用??梢灶A(yù)計,如果訓(xùn)練集再增加2000篇文章,還采用當(dāng)前的方法,效果仍然不會有太人的改善。另一個值得注意的現(xiàn)象是,隨著訓(xùn)練語料的增多,對訓(xùn)練集本身的標(biāo)注效果有明顯的降低,見圖2。原因之一可能是由于有過多的特征是針對未登陸詞的,從而影響了已經(jīng)登陸詞的識別;另一個原因則是語料本身的錯誤,尤其是標(biāo)注不一致。有文獻(xiàn)統(tǒng)計過生物醫(yī)學(xué)文獻(xiàn)人工標(biāo)注的正確率在87%一89%之間,但從本實驗的結(jié)果推測,GENIA中的標(biāo)注正確率應(yīng)高于90%。此外,語料標(biāo)注錯誤對機器學(xué)習(xí)方法的影響相對較小,統(tǒng)計的方法可以忽略極個別的錯誤;如果在訓(xùn)練集中的標(biāo)注錯誤類型基本一致,只是通過學(xué)習(xí)錯誤的語料標(biāo)注同樣錯誤的數(shù)據(jù),并不影響機器學(xué)習(xí)的效果。總之70%左右的F一score不能僅僅用語料的錯誤來解釋。但從曲線的趨勢可以推測,仍使用當(dāng)前的方法,無論使用多大的語料進(jìn)行訓(xùn)練,F(xiàn)一score都不會超過92%。

3.3邊界判定問題

邊界判定不準(zhǔn)確是生物醫(yī)學(xué)命名實體識別面臨的最主要問題,經(jīng)統(tǒng)計發(fā)現(xiàn)38%的錯誤是發(fā)生在邊界上。生物醫(yī)學(xué)命名實體的邊界判定是一個極其復(fù)雜的問題。本實驗采用CRF進(jìn)行二次標(biāo)注,集中解決左邊界問題。即固定了右邊界,對左邊屆從新進(jìn)行判斷。首先把第一次標(biāo)注的命名實體分為己確定和未確定的部分,左邊界詞以及它前面和后面一個詞是未確定的,其它詞都是己確定的。對已經(jīng)確定的部分只賦予一個特征,就是第一次標(biāo)注的結(jié)果,對未確定的部分賦予以下特征:

1.詞匯特征:l一gram,2一gram項。

2.關(guān)鍵詞特征:與第一次標(biāo)注相同。

3.邊界詞特征:同上。

4.詞性標(biāo)記,短語切分特征:同上。

5.核心名詞特征:假定右邊界正確,把右邊界詞當(dāng)作核心名詞,如:purifiedhumane明hro記co!ony一formingcells,cells就作為核心名詞。對于判斷前面詞的類別起著重要的作用,尤其當(dāng)名字很長的時候。這個特征在第一次標(biāo)注的時候由于沒有判斷出右邊界而無法得到。

6.特征聯(lián)合:將特征1的卜gram項和特征5聯(lián)合。然后將不同的結(jié)果利用Google進(jìn)行裁決,僅僅利用簡單的規(guī)則:如果較長的實體名長度不大于3,且返回網(wǎng)頁數(shù)超過10就算正確,否則選取較短的實體名;如果長度大于3且無不匹配的括號,則遵循第二次標(biāo)注的結(jié)果,否則依照第一次結(jié)果。在F一score上得到了1%的提高,左邊界錯誤率減少了7.2%。

4總結(jié)

本文使用基于條件隨機域的方法進(jìn)行了生物醫(yī)學(xué)命名實體識別的實驗,討論了訓(xùn)練語料規(guī)模和不同特征對標(biāo)注結(jié)果的影響,然后使用二次標(biāo)注的方法處理了邊界判定的問題,取得了一定的效果。得出以下結(jié)論:對于通過一次機器學(xué)習(xí)很難處理的復(fù)雜的問題,往往可以利用第一次的結(jié)果選擇新特征進(jìn)行再學(xué)習(xí),這樣會逐步縮小范圍,便于進(jìn)一步處理。

融水| 玉溪市| 梁山县| 承德县| 宣化县| 莱西市| 十堰市| 屯门区| 西宁市| 芷江| 焉耆| 民丰县| 北京市| 大丰市| 两当县| 万山特区| 临海市| 蕉岭县| 岱山县| 吉木萨尔县| 咸丰县| 沙坪坝区| 镶黄旗| 玉龙| 东辽县| 阿拉尔市| 越西县| 衡水市| 札达县| 平舆县| 临海市| 定陶县| 肥西县| 曲沃县| 疏勒县| 台湾省| 渭南市| 高邑县| 伊春市| 肇源县| 睢宁县|