在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 正文

非結構化信息管理解析論文

前言:本站為你精心整理了非結構化信息管理解析論文范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

非結構化信息管理解析論文

1關鍵詞全文檢索技術日顯局促,亟待突破

世界范圍的WWW正以目前每9個月增加一倍的速度飛速發(fā)展,并還將以指數(shù)速度繼續(xù)增加。而另一方面,在從Web或數(shù)據(jù)倉庫中找到你所需要的內(nèi)容卻并非進展迅速,雖然檢索到相關結果的速度正以兆兆字節(jié)甚至十倍于此的速度增加。據(jù)2004年5月NielsenNormanGroup的2004Web可用性調(diào)查結果顯示,所有用戶(包括偶爾使用或經(jīng)驗豐富的用戶)對搜索結果滿意的次數(shù)百分比僅為42%,經(jīng)驗豐富的用戶這一數(shù)字可以達到50%[1]。最糟糕的搜索經(jīng)歷常發(fā)生在使用企業(yè)網(wǎng)站點搜索而不是使用巨型搜索引擎的時候。另據(jù)ForresterResearch的統(tǒng)計表明,非結構化信息的數(shù)量正在以每年200%的速度增長。一般員工大約要花費35%的時間尋找工作所需的非結構化信息[2]。由此可見,搜索引擎必須采取措施使自己變得更為聰明,同時能更準確全面的為大多數(shù)用戶帶來令人滿意的搜索結果。我們需要有一個工具,能同管理結構化信息一樣,有效地管理我們的非結構化信息。

2有望終結傳統(tǒng)搜索模式的Autonomy的“樣板工程”Blinkx英德中文版已經(jīng)推出

2004年7月,位于美國舊金山的創(chuàng)業(yè)公司Blinkx推出了一種新型搜索工具Blinkx,該工具可以提供類似“模糊搜索”或“語義搜索”的功能。也就是說,當用戶提出類似“搜索引擎未來發(fā)展趨勢如何”這樣的搜索需求時,搜索引擎能夠給出相關內(nèi)容的搜索列表,而不會像傳統(tǒng)搜索工具那樣只是機械的給出包含“搜索”、“引擎”、“未來”、“發(fā)展”、“趨勢”等詞匯但卻遠離該主題的文章。Blinkx不僅可以搜索文本內(nèi)容,還可以搜索電影電視等多媒體內(nèi)容,不僅可以搜索互聯(lián)網(wǎng)內(nèi)容,還可以搜索本機和局域網(wǎng)上的內(nèi)容。Blinkx同時還可以搜索不同的文本格式內(nèi)容,如Text、Word、Excel、PPT、PDF以及各種數(shù)據(jù)庫中的數(shù)據(jù)格式。有媒體把這種搜索方式稱為“智能搜索”,這樣的搜索引擎一直以來都是人們的夢想,或許Autonomy就是下一代搜索引擎的開端也未可知。當然Autonomy并不只局限于桌面搜索這個狹窄的領域,它不只是代表一系列產(chǎn)品,也不只是一家公司的名字,最主要的是它代表著一種搜索理念和技術[3]。一旦它成功,桌面搜索的格局自然也會跟著發(fā)生翻天覆地的變化。

如果安裝了Blinkx的客戶端軟件,一個小的菜單窗口就會出現(xiàn)在Word、Outlook等幾乎所有文檔處理窗口的右上方。用戶在這些窗口中處理文檔時,系統(tǒng)會自動分析這個文檔,然后自動從本機或網(wǎng)絡上抓取相關文章或鏈接,以供用戶參考。它還可以及時提供與文章內(nèi)容相關的新聞、產(chǎn)品信息、視頻內(nèi)容等分類信息。簡單地說,用戶完全可以拿一篇文章來作為“查詢關鍵詞”,Blinkx通過對這篇文章進行分析,會給出與這篇文章內(nèi)容最接近的網(wǎng)絡鏈接或本機文檔[4]。這無疑給需要處理大量數(shù)據(jù)的個人和企業(yè)提供了巨大便利。

2005年元旦剛過Blinkx進入中國市場,其中文測試版已經(jīng)“竣工”。目前已經(jīng)在國內(nèi)某數(shù)據(jù)中心建立了一個試驗平臺,大約有30多臺服務器正在運行著Blinkx的后臺系統(tǒng)[5]。

Autonomy公司是Blinkx公司的股東之一,Blinkx的核心技術也來自Autonomy,因為這種密切關系,Blinkx被認為是Autonomy的“樣板工程”。此前,Autonomy一直像汽車發(fā)動機一樣隱藏在幕后。Autonomy雖然在公眾中的知名度不太大,但在商業(yè)應用領域中卻名聲顯赫,并在政府、國防、新聞、金融、電信、教育等領域擁有大量中堅客戶。而且,Autonomy還是一個“歷史悠久”的IT公司,同時在美國和英國上市,擁有超過1.47億美元的現(xiàn)金。

3Autonomy的模式識別技術,可以幫助用戶發(fā)現(xiàn)一些事前不知道的相關信息

目前,人類研究的信息搜索技術有四個方向:關鍵字搜索,模式識別,語義分析,神經(jīng)網(wǎng)絡。除了關鍵詞搜索比較成熟外,其他三項技術還處于待開發(fā)狀態(tài)。模式識別的代表者就是Autonomy,語義分析和神經(jīng)網(wǎng)絡兩個技術方向目前尚無壓倒性的代表者,一年半載不會有突破性的研究成果。所以,模式識別就成了目前比較先進的信息搜索技術。

采用“模式識別”搜索方法,可通過判別相關識別度的高低來對數(shù)據(jù)進行檢索,可以避免傳統(tǒng)“關鍵詞檢索”造成的漏檢情況的發(fā)生。比如一篇文章里如果有“大?!边@個詞,這篇文章有可能和企鵝有關,但是“大?!边@個詞用在很多不同的地方,有可能文章講的是別的內(nèi)容。但是如果一篇文章里有“大?!?、“南極”、“黑色”、“白色”、“不會飛”、“羽毛”、“下蛋”、“石油”、“泄露”等這些詞,這篇文章是在談論污染和企鵝的概率就會很高。雖然整篇文章里沒有“企鵝”這個詞,但是很多相關度較低的詞出現(xiàn)在一起就會帶來很高的相關度,并且缺少某個描述詞對其產(chǎn)生的結果影響微乎其微。

如果說傳統(tǒng)的“關鍵字”搜索方法為“search”(搜索)的話,autonomy采用的“模式識別”方法則應該稱為“discover”(發(fā)現(xiàn)),因為它可以讓用戶找到一些事前他們不知道的信息[6]。Autonomy產(chǎn)品中提供的“聚類”功能正是“從搜索到發(fā)現(xiàn)”的最佳表現(xiàn)。

目前,Autonomy在國外比較成功的應用案例集中在媒體、政府機構、金融和信息產(chǎn)業(yè)等需要集中處理大量非結構化數(shù)據(jù)的領域。2003年3月,Autonomy進入中國市場,目前主要集中在電信和政府市場。Autonomy追求建立符合企業(yè)內(nèi)部數(shù)據(jù)管理需求的平臺,可將放在不同位置的不同類型的數(shù)據(jù)進行有效梳理。Autonomy曾經(jīng)在美國安全局、美國國防部、美國航天局、英國警察署和美國陸軍有過成功應用[7]。對于網(wǎng)絡上出現(xiàn)的大量的有害信息,Autonomy可以做到事前發(fā)現(xiàn),從而幫助政府機構采取及時地反應。例如,政府有關部門要打擊網(wǎng)上非法買賣違禁藥物,使用“搖頭丸”、“興奮劑”等關鍵詞搜索出來的內(nèi)容多數(shù)是關于藥物危害、打擊犯罪等方面的正面文章,而出現(xiàn)“興奮”、“購買”、“單價”等關鍵詞的文章,則與非法買賣違禁藥物的相關度最高。通過這種非關鍵詞搜索的“模式識別”搜索,政府監(jiān)控部門可以有效打擊日益猖獗的網(wǎng)上犯罪。所以政府機構和一些需要對信息進行監(jiān)控的機構是該系統(tǒng)在中國的潛在市場。

4Autonomy的技術特點和優(yōu)勢分析

Autonomy軟件設計的原則是無需用戶改變已有的使用習慣,甚至無需改變已有的用戶界面,它支持所有傳統(tǒng)的檢索和設置方式,包括關鍵詞、邏輯語言、布爾語句等,同時提供給用戶更多、更簡潔的定義方法,如對所需信息的自然語言描述、文章概念的定義,還可以通過反饋的文章作為例子來訓練個人聚焦和頻道。此外,它能夠通過自身軟件架構的靈活性去適應已有的系統(tǒng)架構,嵌入到已有的應用中去,在用戶熟悉的界面之下提供新的功能。Autonomy中最關鍵的部分就是它的動態(tài)推理引擎(DynamicReasoningEngine,簡稱DRE),其中信息的概念分析、內(nèi)容提取、概念模式識別、相關度計算等關鍵工作都是由該動態(tài)推理引擎完成。當用戶發(fā)出搜索指令后,它可以通過相關方法從互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、終端計算機等不同位置的信息源中找到與用戶要求最匹配的信息[8]。它的技術特點主要有如下幾點:

4.1自動內(nèi)容綜合和精煉

Autonomy能操作的信息同樣包括各種結構化、半結構化和非結構化數(shù)據(jù),如RDBMS的表格、LotusNotes等結構化數(shù)據(jù),以及HTML頁面、Word文檔、電子表格、電子郵件非結構化數(shù)據(jù)等。而且它可以綜合及理解豐富的多媒體內(nèi)容,包括音頻、視頻、圖像文件等。綜Autonomy能夠自動綜合來自200多種不同格式數(shù)據(jù)源的內(nèi)容。所有綜合后的文件如有任何改動都可以在Autonomy的基本結構和數(shù)據(jù)源之間保持同步。公務員之家

4.2個性化操作

Autonomy的自動建檔功能可以準確理解個人和企業(yè)用戶的使用習慣和興趣愛好,并能進行追蹤。根據(jù)直接檔案和隱含檔案可以生成每個用戶的多側面概念型檔案,它們可以自動追隨用戶當前的興趣,而無需用戶多次填寫任何形式的表格。Autonomy自動的個性化解決方案可以將用戶與有共同興趣的檔案或有間接關聯(lián)的檔案匹配起來。

4.3信息自動分類、聚類定義、索引

Autonomy獨有的自動信息聚類避免了手工分類的麻煩,可以將相關網(wǎng)站信息進行全自動分類,能實時、客觀地反映每個科學門類的信息變化,這與其他的模板式自動分類機制有著本質(zhì)的區(qū)別[9]。Autonomy的架構可以識別信息之間的主要關系,從而實現(xiàn)內(nèi)容間的交叉索引對照,無論是什么文檔,Autonomy都可以在操作層識別出與其相關聯(lián)的資料。此外,Autonomy還可以對內(nèi)容中最主要的概念進行總結,可以根據(jù)原始查詢的上下文環(huán)境進行總結,并且將最適用的動態(tài)摘要提交給指定需求。最關鍵的是Autonomy的這一切工作都無需人工干預自動進行,對企業(yè)應用來說,這一點相當有吸引力。

4.4主動匹配和信息地圖

像涉及安全方面的應用可能有非常廣泛的信息搜索需求,從網(wǎng)站上最酷的新聞到剛剛播放的電視畫面,都可能與安全問題相關。利用Autonomy的主動匹配功能,可以在用戶日常工作中充分利用整個企業(yè)的信息系統(tǒng)為各個相關部門的相關人員提供有價值的信息。主動匹配可以將典型的文檔或者以數(shù)字為中心的用戶界面轉變成以任務為導向的智能界面,也就是說它能自動識別用戶當前的問題,并確定相關信息。

Autonomy還可以自動生成二維或三維的信息圖,將某一時間段的所有信息通過形象的圖像展現(xiàn)在用戶面前,幫助用戶準確、及時地把握世界各地的最新資訊。例如它的最新功能可以跟蹤一系列的郵件信息,告知檢測者每個郵件的流向和被轉發(fā)目標。它還可以將連續(xù)的信息圖生成信息走勢圖,觀察出多個時間段的信息走勢,從而用戶能一眼看出某一個階段內(nèi)的信息發(fā)展趨勢。這是任何其他搜索系統(tǒng)目前還無法提供5企業(yè)非結構化信息搜索的商機,引得眾多IT巨頭紛紛加入搜索戰(zhàn)團,處理非結構化信息的桌面搜索模式成為競爭焦點企業(yè)網(wǎng)絡的搜索比網(wǎng)絡的搜索復雜很多,企業(yè)信息通常是以各種不同的格式(如電子表格、PDF、HTM網(wǎng)頁,甚至多媒體文件)存儲在各個不同的地方。同時,企業(yè)客戶要有可靠的存儲系統(tǒng),還有協(xié)作工具、安全工具等。所以企業(yè)搜索需要具備更聰明的功能,能從各種不同的信息來源做信息的收集和關聯(lián)。

企業(yè)非結構化信息搜索的商機,引得眾多IT巨頭紛紛加入搜索戰(zhàn)團,處理非結構化信息的桌面搜索模式成為競爭焦點。世界頭號軟件廠商的微軟、IBM、Autonomy、Yahoo、AOL等和Google正在開展直接的競爭,于2004年末2005年初紛紛推出了各自的企業(yè)搜索產(chǎn)品。

钟祥市| 新蔡县| 彭泽县| 山阴县| 万荣县| 三明市| 茂名市| 聂拉木县| 永安市| 清水河县| 开原市| 定远县| 进贤县| 台南市| 咸宁市| 四会市| 阳山县| 荔浦县| 中方县| 河南省| 日照市| 平阳县| 延吉市| 普兰店市| 芮城县| 泉州市| 忻州市| 南阳市| 冀州市| 芒康县| 宁阳县| 广元市| 封开县| 许昌市| 昌黎县| 商南县| 英山县| 龙州县| 芮城县| 娱乐| 佳木斯市|