在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 正文

概念控制

前言:本站為你精心整理了概念控制范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。

概念控制

自然語言檢索是信息檢索中的一個(gè)類型。隨著互聯(lián)網(wǎng)的普及和發(fā)展,信息檢索的最終用戶日趨擴(kuò)大,自然語言檢索成為重要的發(fā)展趨勢。

目前,自然語言檢索系統(tǒng)采用的是模式匹配技術(shù)。所謂模式指的是關(guān)鍵詞或索引詞匯。模式匹配技術(shù)處理速度快,簡單易行,但也有缺點(diǎn)。自然語言檢索系統(tǒng)對(duì)同義詞、近義詞、多義詞和其他一些與其相關(guān)的詞語沒有進(jìn)行規(guī)范和統(tǒng)一,詞間缺乏有機(jī)的聯(lián)系。當(dāng)用戶提問的檢索概念具有多種表達(dá)形式時(shí),采用單一的關(guān)鍵詞或自然語言索引詞匹配方式勢必會(huì)影響檢全率。自然語言檢索系統(tǒng)的選詞沒有嚴(yán)格限制,詞量過多過雜,這樣會(huì)影響檢準(zhǔn)率,并且會(huì)過多地占用磁盤的存儲(chǔ)空間,影響查詢匹配的速度。要想解決這些問題,必須對(duì)自然語言查詢做進(jìn)一步的處理,也就是進(jìn)行概念控制。

1概念控制及其實(shí)現(xiàn)基礎(chǔ)

1.1概念控制的目的

概念并不是孤立存在的,一個(gè)概念總是與其他概念之間存在著各種各樣的關(guān)系,如上下位關(guān)系、同義關(guān)系、反義關(guān)系等。關(guān)鍵詞也會(huì)出現(xiàn)一詞多義、一義多詞以及同一事物多種表述的情形。根據(jù)概念之間的相互聯(lián)系,在詞的概念含義層次上建立聯(lián)系,為檢索用戶提供相關(guān)的結(jié)果分析是概念控制的一個(gè)應(yīng)用前景。例如,“體育”這一概念根據(jù)上下立類的關(guān)系可以細(xì)分為足球、排球、奧運(yùn)會(huì)、亞運(yùn)會(huì)等,單純的字面匹配會(huì)漏檢甚至誤檢很多與之相關(guān)的信息。通過概念控制就可以將一個(gè)上位類的概念擴(kuò)展為多個(gè)子概念。體育新聞的檢索就可以擴(kuò)展為:體育新聞、球類(足球、籃球、排球)、田徑運(yùn)動(dòng)、體育賽事(奧運(yùn)會(huì)、亞運(yùn)會(huì)、世界杯)等概念,同時(shí)對(duì)那些具有下位概念的詞匯可以再次擴(kuò)展,這樣就大大地提高了檢索效果。“計(jì)算機(jī)”和“電腦”是同一事物的不同表述,機(jī)械匹配的話就只能檢索到有關(guān)“計(jì)算機(jī)”或“電腦”的信息,采用概念控制的相關(guān)方法可以將這些相同概念的詞匯統(tǒng)一到檢索匹配中,這樣就擴(kuò)大了檢索面,提高了檢全率。在自然語言檢索系統(tǒng)中進(jìn)行慨念控制,就是把信息檢索從目前的基于關(guān)鍵詞層面提高到基于知識(shí)(概念)層面,能夠從概念意義層次上來認(rèn)識(shí)和處理檢索用戶的請(qǐng)求,從而提高檢全率和檢準(zhǔn)率。

1.2概念控制的主要方法

目前雖然沒有一個(gè)檢索系統(tǒng)可以完全實(shí)現(xiàn)理想狀態(tài)下的高層次的語義檢索,但有些自然語言檢索系統(tǒng)已經(jīng)采用概念控制查詢。主要的方法是利用知識(shí)體系建立概念間的關(guān)系進(jìn)行查詢擴(kuò)展,深度匹配,優(yōu)化檢索效果。

概念控制的內(nèi)容包括:提問句概念語義塊的抽取,從提問句中切分出概念詞或詞組等語義單位;基于知識(shí)體系對(duì)抽取出的語義單元進(jìn)行概念擴(kuò)展;概念的組配,將選擇出的各檢索單位基于知識(shí)體系的組織信息轉(zhuǎn)換成體現(xiàn)概念關(guān)系的邏輯表達(dá)式。

概念抽取不等同于分詞處理,其中包括普通概念的識(shí)別和人名、地名、事件名等專有名詞的識(shí)別,并進(jìn)行概念提取。對(duì)于普通的概念字串采用逆向最長匹配算法(或正向最長匹配算法),并綜合切割標(biāo)記等分詞手段切分就可以進(jìn)行概念抽取。對(duì)于詞典中未收錄的概念詞,可以采取基于句模、句子結(jié)構(gòu)分析、詞和詞組構(gòu)成規(guī)則、句內(nèi)結(jié)構(gòu)性標(biāo)志字、標(biāo)點(diǎn)符號(hào)等來進(jìn)行切分。除切割標(biāo)志外,已知的詞也可作切割標(biāo)記使用。

自然語言檢索系統(tǒng)的本質(zhì)是查詢滿足特定主題概念的文本,因此被檢索的內(nèi)容不是和提問句的字面匹配。對(duì)提問進(jìn)行分析后抽取出的主要是概念或概念的組合,需要進(jìn)行概念匹配,這就需要對(duì)檢索句中的詞進(jìn)行概念擴(kuò)展,即考慮提問句中詞的同近義詞、上下位詞和關(guān)聯(lián)詞。可以通過知識(shí)體系保存同近義關(guān)系、上下位關(guān)系和其他關(guān)聯(lián)關(guān)系,當(dāng)處理用戶檢索需求時(shí),通過查詢知識(shí)體系可對(duì)提問句中的詞按概念進(jìn)行擴(kuò)展。如“我國今天的體育新聞”,可以通過知識(shí)體系對(duì)“體育”進(jìn)行擴(kuò)展,查詢包括“籃球”、“賽車”、“奧運(yùn)會(huì)”、“世界杯”等方面的內(nèi)容,“今天”一詞指檢索者進(jìn)行檢索時(shí)的日期,因此需通過規(guī)則將“今天”映射為檢索時(shí)的時(shí)間,將“我國”擴(kuò)展為“我國”V“中國”V“中華人民共和國”(知識(shí)體系中可能只存在“中國”和“中華人民共和國”之間的同義關(guān)系,沒有“我國”這一詞條)。

概念組配,按其內(nèi)在邏輯關(guān)系,可分為限定組配和相交組配。限定組配將一個(gè)概念的內(nèi)涵增加到另一個(gè)概念的內(nèi)涵中,從而加深概念的內(nèi)涵,縮小或限定了概念的外延。相交組配將具有共同的屬概念、概念之間具有相交關(guān)系、外延部分重合的概念組合成一個(gè)新概念。在構(gòu)成查詢表達(dá)式時(shí),基于知識(shí)體系的擴(kuò)展詞和原詞間為“邏輯加”的關(guān)系。如“美麗”擴(kuò)展為“美麗”V“漂亮”V……V“標(biāo)志”。提問句中語義塊間的關(guān)系通常為邏輯乘的關(guān)系。語義塊間的概念組配通常存在如下邏輯關(guān)系:(1)主謂結(jié)構(gòu),描述的是一種陳述與被陳述的關(guān)系。(2)偏正結(jié)構(gòu),描述的是一種修飾與被修飾的關(guān)系。(3)動(dòng)賓結(jié)構(gòu),描述的是一種作用和被作用的關(guān)系。(4)并列結(jié)構(gòu),描述的是一種成分間的并列關(guān)系[1]。主謂結(jié)構(gòu)、偏正結(jié)構(gòu)和動(dòng)賓結(jié)構(gòu)間為“邏輯乘”關(guān)系,并列結(jié)構(gòu)為“邏輯加”關(guān)系。但通過對(duì)檢索提問句進(jìn)行分析后發(fā)現(xiàn),部分并列結(jié)構(gòu)在用戶的檢索概念中為“邏輯乘”關(guān)系,于是采用通過句模分析和指示標(biāo)志來確定語義塊間的“邏輯乘”或“邏輯加”關(guān)系。提問句語義塊之間的“邏輯加”關(guān)系通常存在顯式指示標(biāo)志,如“或”等。分析傳統(tǒng)的主、謂、賓、定、狀、補(bǔ)六大成分與句型的關(guān)系,可以輔助獲取語義塊的邏輯關(guān)系。檢索提問句的語義概念和提問句的結(jié)構(gòu)緊密相關(guān)。需要分析謂語的性質(zhì)、句子的結(jié)構(gòu),如“把”字、“被”字句等。

概念控制的3項(xiàng)關(guān)鍵技術(shù)中,概念擴(kuò)展和概念組配都離不開知識(shí)體系的支持,知識(shí)體系的好壞直接關(guān)系到檢索效果的優(yōu)劣。

1.3概念控制系統(tǒng)

國內(nèi)外已有一些檢索系統(tǒng)在不同程度上實(shí)現(xiàn)了概念控制,代表系統(tǒng)有首信搜索引擎、孫悟空、UMLS等。下面以UMLS為例進(jìn)行介紹。

UMLS(UnifiedMedicalLanguageSystem,美國統(tǒng)一醫(yī)學(xué)語言系統(tǒng)),是美國國立醫(yī)學(xué)圖書館(NLM)于1986年開始研制的一項(xiàng)長期開發(fā)研究計(jì)劃,旨在克服計(jì)算機(jī)生物醫(yī)學(xué)信息檢索中的兩個(gè)顯著障礙(相同的概念具有不同的表達(dá)方式;有用的信息分散在不同的數(shù)據(jù)庫系統(tǒng)中),使用戶很容易地跨越了在病案系統(tǒng)、文獻(xiàn)摘要數(shù)據(jù)庫、全文數(shù)據(jù)庫以及專家系統(tǒng)之間的屏障。UMILS包括4個(gè)部分:專家詞典、超級(jí)敘詞表、語義網(wǎng)絡(luò)、情報(bào)源圖譜。專家詞典是一個(gè)包含眾多生物醫(yī)學(xué)詞匯的英語詞典,可以確定英語詞匯的范圍以及識(shí)別生物醫(yī)學(xué)術(shù)語和文本詞的詞形變異,也為超級(jí)敘詞表提供了確定范圍的醫(yī)學(xué)術(shù)語和詞匯。超級(jí)敘詞表是生物醫(yī)學(xué)概念、術(shù)語、詞匯及其涵義等級(jí)范疇的廣泛集成。語義網(wǎng)絡(luò)是為建立概念、術(shù)語間錯(cuò)綜復(fù)雜的關(guān)系而沒計(jì)的,它為超級(jí)敘詞表中所有慨念提供了語義類型、語義關(guān)系和語義結(jié)構(gòu)。情報(bào)源圖譜是一個(gè)關(guān)于生物醫(yī)學(xué)機(jī)讀情報(bào)資源的數(shù)據(jù)庫,其目的是利用超級(jí)敘詞表和語義網(wǎng)絡(luò)實(shí)現(xiàn)以下功能:確定情報(bào)源與特定提問的相關(guān)性,以便選取最合適的情報(bào)源;為用戶提供特定情報(bào)源的范圍、功能和檢索條件等人工可讀的信息;自動(dòng)鏈接相關(guān)情報(bào)源;在一個(gè)或多個(gè)情報(bào)源中自動(dòng)檢索并自動(dòng)組織檢索的結(jié)果。2支持概念控制的知識(shí)體系

實(shí)現(xiàn)概念控制離不開知識(shí)系統(tǒng)的支持,沒有合理的知識(shí)系統(tǒng),就無法實(shí)現(xiàn)概念擴(kuò)展和概念組配,也就無法達(dá)到概念控制的目的。進(jìn)行概念控制的核心是構(gòu)建合適的知識(shí)體系。

2.1知識(shí)體系及其形式

目前,有關(guān)知識(shí)體系的研究主要集中在對(duì)Ontology的探討中。國內(nèi)關(guān)于Ontology的中文譯法也不統(tǒng)一,有“知識(shí)體系”、“本體”、“概念集”、“概念體系”、“本體論”等多種提法。Ontology是一個(gè)源于哲學(xué)的概念[2],原意指關(guān)于存在及其本質(zhì)和規(guī)律的學(xué)說,后來被人工智能研究領(lǐng)域引入,特指對(duì)共享概念模型的明確的形式化規(guī)范說明。Ontology能夠?qū)⒃~匯有關(guān)概念關(guān)系顯式地表示出來,從而將術(shù)語的語義和概念關(guān)系顯式化表示出來,因而在語義查詢、概念控制方面發(fā)揮著重要作用。

Ontology中的概念表示一般采用框架結(jié)構(gòu),使用槽來表示概念的屬性以及概念之間的關(guān)系[3]。借助概念之間的關(guān)系,Ontology在整體上形成了一個(gè)語義網(wǎng)。概念之間有4種基本關(guān)系:part-of表達(dá)概念部分與整體的關(guān)系;kind-of表達(dá)概念間的繼承關(guān)系,類似面向?qū)ο笾械母割惡妥宇愔g的關(guān)系;instance-of表達(dá)概念間實(shí)例和概念之間的關(guān)系,類似面向?qū)ο笾械膶?duì)象和類之間的關(guān)系;attribute-of表達(dá)某個(gè)概念是另一個(gè)概念的屬性,例如概念“價(jià)格”可以作為概念“桌子”的一個(gè)屬性。在實(shí)際應(yīng)用中,概念之間的關(guān)系將不會(huì)局限于上述4種關(guān)系,可以根據(jù)特定領(lǐng)域的具體情況定義相應(yīng)的關(guān)系。

2.2語義網(wǎng)絡(luò)

概念與概念之間有著橫向或縱向的聯(lián)系,形成了語義網(wǎng)。語義網(wǎng)絡(luò)(SemanticNetwork)是美國語言學(xué)家奎廉(R.Quilian)于1968年提出的。1972年美國人工智能專家西蒙斯(R.F.Simmons)和斯樂康(J.Slocum)將語義網(wǎng)絡(luò)用于自然語言理解系統(tǒng)中。語義網(wǎng)絡(luò)是當(dāng)今網(wǎng)絡(luò)的擴(kuò)展,這可擴(kuò)展的網(wǎng)絡(luò)給出了信息明確的定義,同時(shí)優(yōu)化了人與汁算機(jī)的合作[4]。

如何構(gòu)建語義網(wǎng)絡(luò)更好地將信息定義明確化目前仍沒有統(tǒng)一的準(zhǔn)則,這涉及到語言學(xué)、認(rèn)知心理學(xué)等學(xué)科方面的知識(shí)。但是構(gòu)建語義網(wǎng)絡(luò)的統(tǒng)一原則都是將概念之間的橫向或縱向聯(lián)系顯式化,組織成一個(gè)有機(jī)的結(jié)構(gòu)形式。

Wordnet是由普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室開發(fā)的在線詞匯參照系統(tǒng)。它將所有英語詞匯分成5類:名詞、動(dòng)詞、形容詞、副詞和功能詞。名詞按照3種關(guān)系被加以組織:部分關(guān)系、上下位關(guān)系以及物質(zhì)與材料。同時(shí)有反義的名詞被標(biāo)注了反義關(guān)系,這樣形成了一個(gè)互相高度連通的名詞網(wǎng)絡(luò)。動(dòng)詞的多義性比名詞更高,在Wordnet中動(dòng)詞被組織成各種推演(蘊(yùn)涵)關(guān)系,而組織動(dòng)詞的不同關(guān)系可以被總結(jié)成一個(gè)覆蓋它們的基礎(chǔ)詞匯的推演,包括四種[5]。

2.3概念詞表

知識(shí)體系中除了概念間相互關(guān)系形成語義網(wǎng)絡(luò),對(duì)于每個(gè)單獨(dú)的概念還必須有概念詞表。沒有概念詞表的語義網(wǎng)絡(luò)只是一個(gè)單純的概念關(guān)系網(wǎng)而不是與詞匯相結(jié)合的知識(shí)體系。Hownet中的詞表就是一個(gè)概念詞表。Hownet是一個(gè)以漢語和英語的詞語所代表的概念為描述對(duì)象,知網(wǎng)是一個(gè)利用一種知識(shí)詞典描述語言來描述概念與概念之間的關(guān)系以及概念的屬性與屬性之間的關(guān)系的知識(shí)系統(tǒng)[6]。Hownet包括詞表和義原體系表。詞表中記錄了每一個(gè)詞語的概念及其描述,每一個(gè)概念用一個(gè)記錄來表示,如下所示:

其中NO.為概念編號(hào),W_C,G_C,E_C分別是漢語的詞語、詞性和例子,W_E,G_E,E_E分別是英語的詞語、詞性和例子,DEF是知網(wǎng)對(duì)于該概念的定義,是知網(wǎng)的核心。每個(gè)DEF被稱為一個(gè)語義表達(dá)式,采用知識(shí)描述語言,將與詞匯有關(guān)概念關(guān)系采用顯示的表示出來。如從概念編號(hào)為017144的DEF可知“打”的概念之一是“鍛煉”,屬于體育范疇。

2.4構(gòu)建知識(shí)體系的問題

構(gòu)建一個(gè)適用合理的知識(shí)體系對(duì)于改善檢索效果至關(guān)重要。但目前已成形的知識(shí)體系都存在一些不足。

構(gòu)建一個(gè)知識(shí)體系最重要的是詞的構(gòu)造性信息,不完善的知識(shí)體系中被遺漏的信息大部分是關(guān)于詞的構(gòu)造性信息而非事實(shí)性信息。傳統(tǒng)詞典的定義盡力涵蓋了有關(guān)每個(gè)詞義的所有事實(shí)性信

息,但卻忽略了詞匯概念之間內(nèi)在的各種關(guān)系[7]。

如何選擇知識(shí)體系的用詞目前都在探討和實(shí)驗(yàn)中,世界知識(shí)體系(Ontology)給出了一些選詞的規(guī)定[8]:語義網(wǎng)絡(luò)的非葉子節(jié)點(diǎn)不可以是多個(gè)類的詞,如“蔬菜和水果”;也不可以是沒有下位類的選詞,如“職業(yè)者”。要避免使用混合類的詞,不要將敘述屬性和抽象概念的詞進(jìn)行搭配作為語義網(wǎng)絡(luò)的非葉子節(jié)點(diǎn),如“空杯子”、“破車”,要避免選詞時(shí)加入個(gè)人的判斷因素,將一些主觀的屬性值與類名組合成非葉子節(jié)點(diǎn),如“熱咖啡”、“明亮的車”。但是要使知識(shí)體系能理想地添加新的類、新的屬性和關(guān)系,僅有這些規(guī)定是遠(yuǎn)遠(yuǎn)不夠的。

是將概念領(lǐng)域化還是通用化各有優(yōu)劣,目前都沒有定論。通用的知識(shí)體系有Wordnet、Hownet等,專門領(lǐng)域的知識(shí)體系有UMLS和首信等。

構(gòu)建語義網(wǎng)絡(luò)結(jié)構(gòu)本身存在一定的缺陷。用有限的結(jié)點(diǎn)和弧不可能代表萬事萬物及其相互之間的所有聯(lián)系,語義網(wǎng)絡(luò)對(duì)知識(shí)的表達(dá)有一定的局限性。單純?cè)黾痈拍詈吐?lián)系會(huì)大大增加網(wǎng)絡(luò)的復(fù)雜度。語義網(wǎng)絡(luò)結(jié)構(gòu)本身沒有語義上的約定,不具備邏輯系統(tǒng)那樣的有效性。單層的語義網(wǎng)絡(luò)結(jié)構(gòu)容易產(chǎn)生語義解釋循環(huán)或語義悖論。

國外語義研究的理論與方法,并不完全通用。漢語是語義型語言,具有語義先決性、句法強(qiáng)制性和語用選定性等特點(diǎn)。漢語語義結(jié)構(gòu)上的復(fù)雜性與多變性以及詞與詞之間無自然界限、無詞尾形式標(biāo)志、無形態(tài)變化的“三無”現(xiàn)象的存在,給語義分析帶來了困難。

知識(shí)的獲取與表示,其中較難解決的問題就是如何把復(fù)雜多樣的專業(yè)知識(shí)系統(tǒng)化。如果把人工智能技術(shù)應(yīng)用到一個(gè)多學(xué)科綜合的檢索系統(tǒng)中,如何辨別某個(gè)多義詞當(dāng)前的具體含義,如何辨析用戶特定的需求,這些都有待于繼續(xù)研究。

要想使計(jì)算機(jī)準(zhǔn)確地分析、表達(dá)和傳輸知識(shí),必須使它具備理解自然語言的能力。目前對(duì)自然語言的處理,雖然已從語法階段上升到語義階段,但對(duì)自然語言的理解能力還限制在一些規(guī)范的語句和語法范圍內(nèi),這就決定了智能信息檢索系統(tǒng)所能具有的智能化表達(dá)程度。

3結(jié)束語

持續(xù)增長的海量網(wǎng)絡(luò)信息讓傳統(tǒng)的檢索方式面臨著嚴(yán)重挑戰(zhàn),也加重了人們的檢索負(fù)擔(dān)。在自然語言檢索系統(tǒng)中采用概念控制就是為了優(yōu)化檢索效果。而實(shí)現(xiàn)概念控制需要有合適的概念體系。目前沒有一個(gè)標(biāo)準(zhǔn)的Ontology構(gòu)造方法,對(duì)當(dāng)前已有的Ontology的性能評(píng)估也沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),這些都需要進(jìn)一步研究。不過在構(gòu)造特定領(lǐng)域Ontology的過程中,有一點(diǎn)是得到大家公認(rèn)的,那就是需要該領(lǐng)域?qū)<业膮⑴c。

琼海市| 安庆市| 抚顺县| 宁安市| 黎城县| 武宁县| 丹阳市| 丘北县| 抚顺县| 晋中市| 闵行区| 龙门县| 伊宁县| 敦化市| 昔阳县| 石城县| 驻马店市| 海阳市| 克山县| 湖南省| 元氏县| 渑池县| 平乡县| 灵璧县| 韩城市| 荥经县| 梨树县| 扶风县| 城步| 鲁山县| 昭苏县| 延庆县| 盐源县| 海盐县| 兴山县| 双流县| 东城区| 建德市| 买车| 永平县| 贺兰县|