前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇關(guān)于蓮的詩句范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
該劇講述了由原本“只是認(rèn)識的姐弟關(guān)系”的男女陷入愛情后發(fā)生真正戀愛的故事。
2、《金秘書為何這樣》(朝鮮語:??英語:WhatsWrongWithSecretaryKim),為韓國tvN于2018年6月6日起播出的水木連續(xù)劇,由樸俊和導(dǎo)演執(zhí)導(dǎo),鄭恩英、崔寶凜、白善宇作家合作打造。
此劇講述財閥二世、“有名集團(tuán)”副會長、顏值實力兼具的男主李英俊(樸敘俊飾),和在他身邊如影隨形、既當(dāng)秘書又當(dāng)司機(jī)、能力滿分的9年女秘書金美笑(樸敏英飾)的故事。
3、《雖已30但仍17》是韓國SBS電視臺于2018年7月23日在月火檔首播的浪漫愛情喜劇,由趙秀沅執(zhí)導(dǎo)、趙成熙編劇,梁世宗、申惠善、安孝燮等主演。
關(guān)鍵詞:蘇軾詞;白居易詩歌;關(guān)聯(lián)
關(guān)于文學(xué)接受問題的研究,一直都是文學(xué)史研究的重點,我國有著大量的古典文學(xué)作品,其中詩歌占據(jù)著半壁江山,詩歌文人群體在文學(xué)史的發(fā)展上占據(jù)著極為重要的地位。蘇軾的詞對于白居易的創(chuàng)作息息相關(guān),不僅語句精妙,且理論精到,具備了詩歌創(chuàng)作與詩歌評論的雙重屬性。在內(nèi)容、語言、章法等方面蘇軾也有不少詩具有白居易詩歌的特點。
一、蘇軾對白居易的借鑒
蘇軾一般都是通過聽歌妓的歌唱來抒發(fā)他自己內(nèi)心的情感和感受,以此來表達(dá)和抒發(fā)自己內(nèi)心痛苦不堪的情感,蘇軾是仰慕白居易的,他這其實就是受到了白居易的影響。詞和音樂是有著不可分割的聯(lián)系,在白居易的詩中有各種關(guān)于音樂方面的描寫,蘇軾更是直接引用到他的創(chuàng)作中來,所以他這就是借用了白居易詩的原有意思。而在另外一些詩歌的創(chuàng)作中,蘇軾是對白居易詩歌的意思理解是反用其意,通過這樣他就能從白居易樂觀而曠達(dá)的思緒中,朦朧的透漏出一種淡淡的憂傷之感,其實這樣一來就更能體現(xiàn)蘇軾在那一刻時的感情及情懷。蘇軾還對白居易的詩歌進(jìn)行了進(jìn)一步的深化,他為了表達(dá)詞人對世事難料、世態(tài)變遷的感悟,在許多詞句中就借用了白居易的詩詞,但這樣一來就比白居易的詩詞感情更進(jìn)一步,更加深化了那種世事瞬息萬變的感情,這就體現(xiàn)了蘇軾通過經(jīng)歷曲折困苦的人生之后,對世事人生的一種看法和認(rèn)識。蘇軾的詩詞中也往往會出現(xiàn)有白居易詩中的意象,比如蘇軾就用到了白居易的詩中“梨花帶雨”這個意象,以此來比喻送別人惜別時的淚水。除此之外,蘇軾在詞中也運用到了白居易的詩詞典故。
二、白居易詩歌對蘇軾創(chuàng)作的的影響
白居易的詩是以一種寬闊豁達(dá)的情懷去面對人生無盡的艱險挫折,因此這對于蘇軾來說,他是深受影響的,所以在他的詞中難免會流露出想要隱逸的情緒。但蘇軾的這種隱逸,是突破了以往的陳規(guī),他是在不斷地追求“小我”。白居易的詩歌題材多以為主,而蘇軾則在白居易的基礎(chǔ)之上擴(kuò)充了對詞的表現(xiàn)力,這就提高了詞在文壇上的地位,并且在藝術(shù)風(fēng)格方面也有了突破。白居易被貶,但他并沒有因為這件事而變得郁悶痛苦,而是把眼光放遠(yuǎn)于無限美好的江南風(fēng)光之中,這闊達(dá)的胸懷更是一種樂觀的心態(tài)。
蘇軾在被貶黃州也寫了大量的作品,從中可以看出他的心路,作者對自我的肯定使其超越人格執(zhí)著現(xiàn)實。在他被貶黃州是因詩而得罪,所以在很長一段時間內(nèi)他都不敢作詩,但是不作詩對于他來說是不可能的事,所以,他就創(chuàng)新了一種以新的文學(xué)形式來抒發(fā)內(nèi)心情感的文學(xué)體裁――詞,理所當(dāng)然的,詞就形成了這樣的作用。因為在那時,朝廷內(nèi)外并不看重詞,對詞沒有多大的關(guān)注。所以,蘇軾就在詞中表達(dá)了詩中無法抒發(fā)的情感,詞對于他來說,和詩的地位并不相上下,因此也具有一定的文學(xué)地位。白居易的有關(guān)于被貶謫的詞都是屬于閑適的,蘇軾受到這樣的影響使他能夠自信從容的面對一切艱難險境和人生困苦。白居易自身有為理想而奮斗一生的壯志,但卻因事被貶,使得他受到了重大的打擊,而這也使他的創(chuàng)作風(fēng)格發(fā)生了轉(zhuǎn)變,他看清了現(xiàn)實社會和殘酷人生,他選擇退隱山林,從此遠(yuǎn)離官途,在追求身體方面的自由的同時也在追尋精神上的解脫。蘇軾一方面他是愛國的,但另一方面他卻是想要“歸隱”的,其實他并不偏向任何一方。從許多詞中我們不難發(fā)現(xiàn),蘇軾其實并不想做隱士,這不是他的理想,而他的那種歸隱的情緒則是由于宋代那個特定時代下的歷史和個人共同所造成的。在寫詞題材方面,白居易寫了江南的大好風(fēng)光,多數(shù)還是寫情,所以白居易的詞相對來說還是比較狹隘的,這也正是因為詞才處于剛剛生長時期。蘇軾則是把社會生活當(dāng)中的許多方面融入在創(chuàng)作中,對詞的內(nèi)容進(jìn)行了擴(kuò)展,消除了對詞的偏見,這就使詞的領(lǐng)域也擴(kuò)大了,將詞的地位抬高到和詩一樣了。白居易的詞語言大多通俗輕快,給人一種歌曲的樂感,節(jié)奏歡樂,往往在詞中不用典故,民間的口頭語較多。蘇軾詞則大量用了典故,使詞走向抒情性的文體,講求以悲為美,這是他對詞的創(chuàng)新。而且在聲律方面,蘇軾也是突破了音律對其的束縛,這就使詞形成為一種獨立的抒情性文學(xué)。
三、結(jié)語
白居易對于蘇軾而言,影響是極為深刻的。白居易時期詞還屬于不成熟階段,但是他卻對詞的藝術(shù)地位進(jìn)行了提高,這就促進(jìn)了詞的發(fā)展,而蘇軾則在詞中抒發(fā)的情懷就重新寫出了他對人生的認(rèn)識。所以在藝術(shù)方面更進(jìn)一步,詞體形成了一種新的境界,這就展現(xiàn)了當(dāng)時社會和自身的精神風(fēng)貌和狀況。
參考文獻(xiàn):
[1]劉勤慧.在入世與出世之間―――兼談蘇軾詞風(fēng)為“曠達(dá)”而非“豪放”[J].晉陽學(xué)刊.1998(02).
在治理易于污染的城區(qū)明渠的簡單做法是將其覆蓋,明渠轉(zhuǎn)暗,從一定意義上講這對改善城市衛(wèi)生面貌有一定的益處。但在蓋去明渠的同時,也埋葬了一種城里人能體驗到的自然的過程。西方發(fā)達(dá)國家在經(jīng)歷了幾十年填埋排水渠的歷史之后,已開始回味明渠的意義,并重新考慮明渠的設(shè)計,成為城市難得之景觀(Thayer 1989).
起灣道排洪渠的南段已覆蓋(圖10),而北段尚為明渠。建議不再覆蓋。在可能的情況下打通已覆蓋的暗渠,使之與現(xiàn)有明渠連為一體。
(b)節(jié)制使用工程措施,還水道以自然本色
目前,國內(nèi)對城市河渠的工程處理基本上都是水泥襯底和駁岸,裁彎取直,這似乎對排洪排污有效,但實際上這種工程措施是落后的。目前,國際先進(jìn)國家已普遍反對河道治理的這種工程措施,包括美國洛杉機(jī)河流治理,都強(qiáng)調(diào)還河道以自然本色。拓寬河道使之成為一個水-濕地-旱地生境系列綜合體,節(jié)制地使用鋼筋水泥,至少有以下幾大好處:
第一,減少工程投資;
第二,利用自然的生態(tài)過程凈化污水;
第三,維護(hù)城市中難得的自然生境。使垂直的和水平的生態(tài)過程得以延續(xù),即可以成為自然水生、濕生和旱生生物的棲息地,也是聯(lián)系城市各自然棲息地斑塊以及于城郊自然基質(zhì)間的生物廊道。
(c)治理污染,引注清水
除西河外,上述幾個水系都已遭嚴(yán)重污染,主要因為城市生活污水排入其中所造成(圖6)。應(yīng)設(shè)排污管將污水分別處理,同時溝通通水系,引注自然清水,使污水河成為清溪。結(jié)合兩岸綠化帶,使河道兩側(cè)成為人們消暑納涼,聞花香聽鳥語之好處去,此也是中山市人民之理想(楊桂濂,1996)。
(2)連接城中殘遺斑塊
中山市城區(qū)目前保留有多個山丘而成為建成環(huán)境中的自然殘遺斑塊,并陸續(xù)成為公園綠地。這些綠色斑塊象是城市海洋中的孤島,相互之間缺乏聯(lián)系(圖1),與城外自然丘陵山地也沒有結(jié)構(gòu)和功能上的聯(lián)系,建立這些聯(lián)系是中山市整體景觀可望發(fā)生重大改觀的一個突破點。
建立這種景觀聯(lián)系,可以通過以下幾個方面來實現(xiàn):
(a)水系廊道聯(lián)接城中綠色斑塊
以上述水系網(wǎng)絡(luò)結(jié)構(gòu)為聯(lián)系,將城中孤立斑塊連為一體,形成一種串珠式結(jié)構(gòu)(圖7),這就要求城市擴(kuò)展和舊城改造過程中有意識地留出綠化用地,以保持山體與水系之間的空間聯(lián)系,這種空間聯(lián)系是山、水景觀元素之間自然過程的必然(如水源于山泉),也為生物提供一個連續(xù)空間。許多生物需要兩個以上的生物的生存,孤立的山丘就很難滿足這些生物的生存,城中自然就失去"鳥語花香"的生物景觀之美。目前景觀格局下,通過較少的改造就可使員峰山與北部水系相連;葫蘆山、蓮峰山與東部排洪渠綠帶相聯(lián);紫馬嶺、孫文紀(jì)念公園及籌建中的體育公園與白石涌相連。這樣,基本上構(gòu)成城區(qū)山水相連的整體景觀格局。
通過水系還可以把城中孤峰與郊野整體自然山水基質(zhì)建立聯(lián)系。
(b)城區(qū)街道綠化作為聯(lián)系通道
目前城中綠色孤島與主要街道綠化帶缺乏空間聯(lián)系,如煙墩與城區(qū)主要綠化的街道包括孫文西路,光明路等,僅有幾十米之隔,卻被建筑物團(tuán)團(tuán)圍住,缺乏綠色的聯(lián)接通道(圖1,5)。綠色被迫退縮到一個令人窒息的極小范圍內(nèi)。應(yīng)有意識地設(shè)計這些綠色斑塊與主要街道綠地的聯(lián)系廊道,并通過主要街道綠地將城區(qū)各孤立斑塊聯(lián)為一體。如通過湖濱路可以有意識地將員峰山。逸仙湖和煙墩聯(lián)為一體,通過延齡路和蓮塘路,又可把蓮峰山一帶與上述綠地系統(tǒng)聯(lián)為一體(圖7)。
這在舊城區(qū)改造中顯得尤為重要。舊城區(qū)融合了中山市城市歷史的各種文化現(xiàn)象,如建筑、習(xí)俗,形成了中山市獨特的傳統(tǒng)文化景觀,在舊城區(qū)改造中應(yīng)審慎地加以保護(hù),使之成為中山市有獨特吸引力的一部分(吳銳成 1996,方敏 1996,林文輝,1996,鮑文莉,1996)。但舊城區(qū)的道路、建筑缺乏適于現(xiàn)代化城市發(fā)展所需要的合理的規(guī)劃,其街道狹窄、綠地空間缺乏。應(yīng)該在保持舊城區(qū)原有的文化景觀風(fēng)貌的基礎(chǔ)上,擴(kuò)展舊城區(qū)內(nèi)部的綠地,并通過道路和水系廊道建立舊城區(qū)與周圍的生態(tài)聯(lián)系。通過改造,使舊城區(qū)的傳統(tǒng)的文化景觀和自然生態(tài)過程都得以保持和恢復(fù)。
(c)從整體景觀格局出發(fā)開辟新綠地
建立城市景觀生態(tài)連續(xù)體還可以通過有意識地增設(shè)園林綠地來實現(xiàn),這需要規(guī)劃師和城市建設(shè)決策者從整體景觀格局出發(fā),在關(guān)鍵性的局部和聯(lián)接點投子,使城市景觀格局形成一盤活棋,在中山市有許多這樣的關(guān)鍵性部位,經(jīng)過全面分析可作為新建綠地的部位,對全局景觀會有重要影響。
(d)未雨綢繆,在城市擴(kuò)展中維護(hù)景觀生態(tài)過程與格局的連續(xù)性。
在城市擴(kuò)展過程中,應(yīng)把維護(hù)景觀生態(tài)過程與格局的連續(xù)性作為城市規(guī)劃的主要內(nèi)容。尤其應(yīng)注重城市邊緣帶的土地利用格局。這就需要分析景觀生態(tài)過程,通過其動態(tài)和趨勢的模擬來判別對維護(hù)景觀生態(tài)過程具有重要戰(zhàn)略意義的景觀局部、位置和空間聯(lián)系,即景觀生態(tài)安全格局(Security patterns) (Yu 1995a-c, 1996,1997)。中山市城區(qū)在向東南山地擴(kuò)展中尤其應(yīng)注意山地與水系的連續(xù)性和完整性。
作為總結(jié),景觀生態(tài)過程與格局的連續(xù)性是現(xiàn)代城市生態(tài)健康與安全的重要指標(biāo)。象中山市這樣的園林綠化和城市建設(shè)先進(jìn)城市,下一個目標(biāo)應(yīng)該是什麼?不應(yīng)該僅僅增加一兩個公園或美化一兩條街道,而應(yīng)把城市放在區(qū)域的整體景觀基質(zhì)中,設(shè)計城市的景觀格局,使之成為區(qū)域整體景觀生態(tài)過程與格局的有機(jī)組成部分。
致謝
本研究得到建設(shè)部城建司園林處李如生、中山市副市長吳銳成、公用事業(yè)局局長陳鵬、市建委副主任揚桂濂、規(guī)劃局副局長伍瑞家、市園林管理處主任劉炳祥、孫文紀(jì)念公園副主任劉錫求等的大力支持,謹(jǐn)表謝意。
參考文獻(xiàn)
吳銳成 1996.認(rèn)清形勢,適應(yīng)變化,迎接新的挑戰(zhàn).迎接21世紀(jì)的到來專題論文集.中山市城市規(guī)劃研究與探索. 2(1-8).
吳銳成 1996.舊城更新──一個值的關(guān)注的課題.中山市城市規(guī)劃研究與探索. 1(1-2).
楊桂濂 1996.創(chuàng)造良好的綜合環(huán)境,實現(xiàn)碧水,藍(lán)天,綠地花鳥城. 中山市城市規(guī)劃研究與探索. 1(69).
葉富強(qiáng) 吳樓 1996. 試論中山市的城市景觀風(fēng)貌.中山市城市規(guī)劃研究與探索. 2(12-18).
梁焯彬 鄭潔藝.1996.中山市城市性質(zhì)與特色初探. 中山市城市規(guī)劃研究與探索. 2(59-61).
方敏 1996. 孫文西路文化旅游步行街--旅游·文化功能篇.中山市城市規(guī)劃研究與探索. 1(36-37).
林文輝 1996. 中山市孫文西路建筑文化及更新的思考.中山市城市規(guī)劃研究與探索. 1(38-40).
鮑文莉 1996. 中山市舊城區(qū)民居建筑形式探討.中山市城市規(guī)劃研究與探索. 1(41-43).
Forman, R.T.T. 1987. The ethics of isolation, the spread of disturbance, and landscape ecology. In M. Turner, ed. Landscape Heterogeneity and disturbance. Springer-Verlag, New York, pp.213-229.
Forman, R. T. T., 1995. Land Mosaics: The Ecology of Landscapes and Regions. Cambridge University Press,
Forman, R. T. T. and Godron, M., 1986. Landscape Ecology. John Wiley, New York.
Forman, R. T. T. 1990. Ecologically sustainable landscapes: the role of spatial configuration. In Zonneveld I.S and R. T. T. Forman eds. Changing Landscapes: An Ecological Perspectives. Springer-Verlag, New York.
Harris, L. D., 1984. The Fragmented Forest: Island Biogeography Theory and Preservation of Biotic Diversity .University of Chicago Press:, Chicago, IL.
MacArthur, R.H. and Wilson, E.. O., 1963. An equilibrium theory of insular ziigeography. Evolution 17:373-87.
MacArthur, R. H. and Wilson, E. O.,1967. The Theory of Island Biogeography. PrinCETon University Press: PrinCETon, NJ.
McHarg, I. (1969). Design with Nature. John Wiley & Sons, Inc.
McHarg, I. (1981. "Human ecological planning at Pennsylvania." Landscape Planning (8):109-120.
Naveh, Z. and A. S. Lieberman, (1983). Landscape Ecology: Theory and Applications. Spring-Verlag., New York..
Noss, R.H., 1991. Landscape connectivity: Different functions at different scales. In Hundson, W. E. (ed.), Landscapew Linkages and Biodiversity. Defenders of Wildlife. Island Press, pp 27-39.
Risser, 1987. Landscape ecology: State of the art. In Turner, M.G. ed. Landscape Heterogeneity and Disturbance. New York. Springer-Verlag.PP3-14.
Schrieiber, K.-F. (ed.), 1991. Connectivity in Landscape Ecology, Proceedings of the 2nd International Seminar of the International Association for Landscape Eclogy. Ferdinand Schoningh. Paderborn.
Steiner, F. G. Young and E. H. Zube. Ecological planning: retrospect and prospect, Landscape Journal, 1987 6(2): 31-39.
Turner, M. G. (1989). " Landscape ecology: the effect of pattern on processes." Annual Review of Ecology and Systematics 20: 171-197.
Yu, K.-J., 1994 Landscape into places: Feng-shui model of place making and some cross-cultural comparisn. In, Clark, J. D. (Ed.) History and Culture. Mississipi State University, USA. pp320-340.
Yu, K.-J., 1995a. Security Patterns in Landscape Planning: With a Case In South China. Doctoral Thesis, Harvard University.
Yu, K.-J., 1995b. Ecological security patterns of landscapes: concept, method and a case. In International Symposium of Geoinformatics'95, . Hong Kong, pp. 396-405.
Yu, K.-J.,1995c. Ecological security patterns in landscape and GIS application. Geographical Information Sciences, Vol.1 (2): 88-102.
Yu, K.-J., 1996a. Security patterns and surface model in landscape planning. Landscape and Urban Planning, 36(5):1-17
Yu, K.-J.,1997 Ecologists, farmers, tourists -GIS support planning of Red Stone Park, China.In. Craglia, M. and Couclelis, H., (Eds.), Geographic Information Research: Bridging the Atlantics. Tayor & Francis. pp. 480-494..
圖題
圖1. 中山市現(xiàn)狀景觀格局(概略)
圖2. 中山市的綠島景觀
圖3.中山市道路綠化綠之一
圖4.城市邊緣所反映城市擴(kuò)展過程中對自然景觀缺乏尊重
圖5.城中綠島缺乏與外界聯(lián)系的生命廊道
圖6.水系廊道沒有的到維護(hù),生活污水排入
圖7. 中山市綠色景觀的改進(jìn)方案之一(概略)
圖8. 歧江可將郊野景觀引入中山城區(qū)
關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù);知識發(fā)現(xiàn);述評
中圖分類號: G302 文獻(xiàn)標(biāo)識碼: A DOI:10.11968/tsyqb.1003-6938.2016103
Abstract This paper discusses the current status and future directions of the related studies of knowledge discovery technology based on linked data。By Using IEEE,Springer,Google Scholar and other scholarly search engines and collects papers about this subject from related conferences,such as COLD and KIELD,this paper makes a comprehensive study in this subject of research and classifies related papers according to the different knowledge discovery methods. In general,knowledge discovery based on linked data is still in the exploratory stage. There still exists some problems in the knowledge discovery based on linked data, such as the quality problem of linked data;and there is no unified framework for those methods. Getting more convenient knowledge discovery methods based on linked data and building a unified framework for them will be the focus of future research.
Key words linked data; knowledge discovery; review
海量數(shù)據(jù)與知識貧乏導(dǎo)致了數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究的出現(xiàn)。知識發(fā)現(xiàn)(Knowledge Discovery)源于人工智能和機(jī)器學(xué)習(xí),是機(jī)器學(xué)習(xí)、 人工智能、數(shù)據(jù)庫和知識庫等眾多學(xué)科相互融合而形成的一門適應(yīng)性強(qiáng)的新興交叉學(xué)科。知識是數(shù)據(jù)元素間的關(guān)系或模式,知識發(fā)現(xiàn)就是從大量數(shù)據(jù)中,特別是從異構(gòu)的數(shù)據(jù)平臺中提取出隱含的、未知的、潛在有用的并能被人們理解的規(guī)則與模式,并檢查趨勢、發(fā)掘出事實的高級處理過程[1]。當(dāng)前有關(guān)知識發(fā)現(xiàn)研究主要集中在:粗糙集理論;概念格和形式概念分析;基于分類、關(guān)聯(lián)規(guī)則、領(lǐng)域知識和圖模型等領(lǐng)域[2]。
關(guān)聯(lián)數(shù)據(jù)的與應(yīng)用為知識發(fā)現(xiàn)提供了一個新契機(jī),特別是關(guān)聯(lián)數(shù)據(jù)預(yù)先建立了大量權(quán)威、準(zhǔn)確的關(guān)聯(lián)關(guān)系,每個數(shù)據(jù)對象包括多種屬性和特征,從而為實現(xiàn)跨學(xué)科領(lǐng)域、跨數(shù)據(jù)源的精準(zhǔn)知識發(fā)現(xiàn)提供有效支撐,使得基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)成為研究熱點。
1 研究現(xiàn)狀
1.1 知識發(fā)現(xiàn)相關(guān)技術(shù)
目前的知識發(fā)現(xiàn)研究主要有兩大分支,即基于數(shù)據(jù)庫的知識發(fā)現(xiàn)與基于文獻(xiàn)的知識發(fā)現(xiàn)。數(shù)據(jù)庫知識發(fā)現(xiàn)主要針對結(jié)構(gòu)化數(shù)據(jù), 基于文獻(xiàn)的知識發(fā)現(xiàn)主要針對非結(jié)構(gòu)化數(shù)據(jù)。知識發(fā)現(xiàn)的方法有統(tǒng)計方法、機(jī)器學(xué)習(xí)方法與神經(jīng)計算方法。統(tǒng)計方法除了回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費舍爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)及探索性分析(主成分分析、相關(guān)分析)等方法以外,還包括模糊集方法、支持向量機(jī)方法、粗糙集等方法。常用的機(jī)器學(xué)習(xí)方法包括規(guī)則歸納、決策樹、范例推理、遺傳算法等。常用的神經(jīng)計算方法包括自組織映射網(wǎng)絡(luò)、反傳網(wǎng)絡(luò)等[3]。
基于文獻(xiàn)的知識發(fā)現(xiàn)按照文獻(xiàn)的相關(guān)性分為基于相關(guān)文獻(xiàn)的知識發(fā)現(xiàn)、基于非相關(guān)文獻(xiàn)的知識發(fā)現(xiàn)和基于全文獻(xiàn)的知識發(fā)現(xiàn)[4]。由于計算機(jī)直接從非相關(guān)文獻(xiàn)中發(fā)現(xiàn)新知識是非常困難的,應(yīng)由計算機(jī)首先把文獻(xiàn)中的知識單元抽取出來,構(gòu)成知識庫,然后再在知識庫里進(jìn)行發(fā)現(xiàn)。語義網(wǎng)技術(shù)通過給文檔添加形式化語義信息的方式解決了計算機(jī)理解文獻(xiàn)的問題,而關(guān)聯(lián)數(shù)據(jù)是由W3C推薦的語義網(wǎng)最佳實踐。關(guān)聯(lián)數(shù)據(jù)將分散領(lǐng)域中的數(shù)據(jù)通過結(jié)構(gòu)化描述以及數(shù)據(jù)之間的鏈接關(guān)聯(lián)起來,形成全球巨大數(shù)據(jù)空間,即數(shù)據(jù)網(wǎng)絡(luò)。這種數(shù)據(jù)網(wǎng)絡(luò)資源環(huán)境為信息的最大限度共享、重用以及發(fā)行提供了保障,也為人們的知識發(fā)現(xiàn)活動提供了新的機(jī)遇[5]。
1.2 基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究進(jìn)展
以“關(guān)聯(lián)數(shù)據(jù)”“知識發(fā)現(xiàn)”等為關(guān)鍵詞在CNKI數(shù)據(jù)庫中檢索發(fā)現(xiàn),國內(nèi)基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究仍處于起步階段,相關(guān)研究數(shù)量較少且多屬于理論模型研究。如李楠[6]、李俊[7]等分別總結(jié)了基于關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)挖掘相關(guān)研究,提出了基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)模型;高勁松等[8]在關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)過程金字塔的基礎(chǔ)上提出了基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)模型;宋麗娜[9]提出了關(guān)聯(lián)數(shù)據(jù)環(huán)境下基于知識地圖的隱形知識發(fā)現(xiàn)模型;劉龍[10]提出了基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)過程模型。
以“consuming linked data”“application of linked data”“Knowledge Discovery”等為關(guān)鍵詞在谷歌學(xué)術(shù)、ScienceDirect和Springer等學(xué)術(shù)搜索引擎上進(jìn)行主題檢索,同時總結(jié)了COLD、KIELD和LDOW等關(guān)聯(lián)數(shù)據(jù)會議中有關(guān)知識發(fā)現(xiàn)的文獻(xiàn)。相較國內(nèi)研究,國外基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)方法更為豐富且付諸實踐。根據(jù)對關(guān)聯(lián)數(shù)據(jù)挖掘?qū)哟蔚膮^(qū)別,本文將基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)技術(shù)歸結(jié)為3類:(1)間接挖掘,即通過格式轉(zhuǎn)化將關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)化或特征提取將關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)化為適合傳統(tǒng)數(shù)據(jù)挖掘算法的格式,如Venkata Narasimha等提出的Liddm關(guān)聯(lián)數(shù)據(jù)挖掘系統(tǒng)[11]以及Heiko Paulheim等提出的FeGeLOD特征提取器[12]為代表;(2)直接挖掘,利用事務(wù)構(gòu)建、歸納邏輯程序設(shè)計(Inductive logic programming,簡稱ILP)等方法直接對RDF數(shù)據(jù)進(jìn)行處理,如Reza Ramezani等提出的SWApriori[13]和Gabin Personeni等提出的ILP學(xué)習(xí)方法[14]是該類的典型研究;(3)鏈接挖掘,即對關(guān)聯(lián)數(shù)據(jù)的屬性鏈和節(jié)點等結(jié)構(gòu)進(jìn)行挖掘。如Ilaria Tiddi等提出的Dedalo遍歷系統(tǒng)[15-16]、Xiaowei Jiang等提出的頻繁子圖挖掘方法[17]及Kang Li等提出的深度學(xué)習(xí)方法[18]最具代表性。
2 間接挖掘
數(shù)據(jù)挖掘是基于數(shù)據(jù)庫知識發(fā)現(xiàn)的核心步驟之一,傳統(tǒng)數(shù)據(jù)挖掘技術(shù)主要針對關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),而根據(jù)關(guān)聯(lián)數(shù)據(jù)的定義,關(guān)聯(lián)數(shù)據(jù)是采用RDF數(shù)據(jù)模型并利用URI命名數(shù)據(jù)實體的數(shù)據(jù)集合,因此如何將傳統(tǒng)的數(shù)據(jù)挖掘方法應(yīng)用于關(guān)聯(lián)數(shù)據(jù)成為了一個新的研究熱點。間接挖掘的基本原理是針對不適用于傳統(tǒng)挖掘算法的關(guān)聯(lián)數(shù)據(jù),通過特征提取或格式轉(zhuǎn)化的方式從關(guān)聯(lián)數(shù)據(jù)中提取出數(shù)值型特征,實現(xiàn)利用傳統(tǒng)數(shù)據(jù)挖掘算法對關(guān)聯(lián)數(shù)據(jù)進(jìn)行挖掘分析的目標(biāo)。
2.1 格式轉(zhuǎn)化
Venkata Narasimha等提出的Liddm[11]是一個可以與關(guān)聯(lián)數(shù)據(jù)有效交互的關(guān)聯(lián)數(shù)據(jù)挖掘模型,它支持從不同的數(shù)據(jù)源檢索、整合數(shù)據(jù),為統(tǒng)計分析調(diào)整數(shù)據(jù)格式并支持?jǐn)?shù)據(jù)挖掘及成果的可視化。Liddm利用SPARQL查詢從關(guān)聯(lián)數(shù)據(jù)云中獲取數(shù)據(jù),通過數(shù)據(jù)預(yù)處理、數(shù)據(jù)輸入準(zhǔn)備和數(shù)據(jù)挖掘等步驟進(jìn)行關(guān)聯(lián)數(shù)據(jù)挖掘。其中,數(shù)據(jù)查詢結(jié)果以包含若干行和列的表格數(shù)據(jù)表示,行表示檢索到的實例,列表示該實例一個屬性的值。
數(shù)據(jù)預(yù)處理包含數(shù)據(jù)整合、數(shù)據(jù)過濾和數(shù)據(jù)分割等三個步驟。其中,數(shù)據(jù)整合是指將從多個關(guān)聯(lián)數(shù)據(jù)云中多個數(shù)據(jù)源中檢索的數(shù)據(jù)進(jìn)行整合,整合基于每個數(shù)據(jù)源的共有關(guān)聯(lián);數(shù)據(jù)過濾指通過人工篩選掉不符合數(shù)據(jù)挖掘需求的實例;數(shù)據(jù)分割指將不同列數(shù)據(jù)分為不同的類。在完成了數(shù)據(jù)的查詢和預(yù)處理后,Liddm通過數(shù)據(jù)輸入準(zhǔn)備步驟完成數(shù)據(jù)格式的轉(zhuǎn)化。以Weka為例,Weka支持的數(shù)據(jù)輸入格式為ARFF(Artribute-Relation File Format,屬性-關(guān)聯(lián)文件格式),因此可將關(guān)聯(lián)名和屬性轉(zhuǎn)化為ARFF格式后進(jìn)行挖掘。
類似的研究還包括Petar Ristoski等提出的基于RapidMiner的關(guān)聯(lián)數(shù)據(jù)挖掘方法[19]。與LiDDM相似,RapidMiner也需要終端用戶定義合適的SPARQL查詢來獲取所需數(shù)據(jù),并將數(shù)據(jù)轉(zhuǎn)化為表格數(shù)據(jù)后進(jìn)行挖掘。
2.2 特征提取
Heiko Paulheim等基于關(guān)聯(lián)數(shù)據(jù)的特性構(gòu)建了關(guān)聯(lián)數(shù)據(jù)特征提取器FeGeLOD[12],它可以從關(guān)聯(lián)數(shù)據(jù)中提取數(shù)值型或二值數(shù)據(jù)特征并利用這些特征進(jìn)行數(shù)據(jù)挖掘。FeGeLOD在Weka的基礎(chǔ)上,針對LOD提出了一系列不同的提取特征方法。特征的提取包含實體識別、實際特征構(gòu)建、特征選擇等三個步驟,其中第二步實際特征構(gòu)建是構(gòu)建關(guān)聯(lián)數(shù)據(jù)挖掘特征的核心步驟。目前FeGeLOD采取了6種不同的特征構(gòu)建策略。第一個構(gòu)造器為一個實體的每個數(shù)據(jù)屬性創(chuàng)建了一個特征。數(shù)據(jù)屬性即元素的值,如城市的名稱或城市的人口數(shù)量;第二個構(gòu)造器僅針對實體本身,即實體有謂詞rdf:type的語句,一個實體可能屬于多個類型或目錄。其余四個構(gòu)造器考慮了實體與其他實體的關(guān)聯(lián)數(shù)。
2.3 技術(shù)分析
截至2016年9月7日,LOD中互相關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù)集已達(dá)9960個,擁有超過1490億個三元組,這些大量的結(jié)構(gòu)化、語義關(guān)聯(lián)的數(shù)據(jù)具有巨大的潛在價值。間接挖掘方法有效利用了關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)發(fā)現(xiàn)和數(shù)據(jù)整合的特性,通過數(shù)據(jù)集之間的關(guān)聯(lián)幫助人們更為準(zhǔn)確、高效的發(fā)現(xiàn)和獲取相關(guān)數(shù)據(jù)。
然而,間接挖掘也存在著一些弊端,首先,間接挖掘需要用戶構(gòu)建數(shù)據(jù)查詢,而構(gòu)建關(guān)聯(lián)數(shù)據(jù)的查詢需要用戶事先對關(guān)聯(lián)數(shù)據(jù)集、SPARQL查詢以及屬性充分了解;其次,傳統(tǒng)挖掘方法往往只針對特定類型的知識,如LiDDM僅支持關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),由于傳統(tǒng)數(shù)據(jù)挖掘算法本身的局限性,間接挖掘的方式未能深入挖掘關(guān)聯(lián)數(shù)據(jù)內(nèi)數(shù)據(jù)對象間的關(guān)聯(lián)(links)。
3 直接挖掘
相對于間接挖掘,本文將可以直接對關(guān)聯(lián)數(shù)據(jù)進(jìn)行處理的挖掘方法定義為關(guān)聯(lián)數(shù)據(jù)的直接挖掘。值得注意的是,雖然關(guān)聯(lián)數(shù)據(jù)采用了RDF數(shù)據(jù)模型,但由于關(guān)聯(lián)數(shù)據(jù)的節(jié)點都是唯一的,因此并非所有RDF挖掘方法都適用于關(guān)聯(lián)數(shù)據(jù)。如圖核方法[20-21]適用于多圖的關(guān)聯(lián)規(guī)則發(fā)現(xiàn),而關(guān)聯(lián)數(shù)據(jù)的挖掘?qū)儆赟ingle-graph型模式挖掘型問題。直接挖掘的典型研究包括事務(wù)(transactions)構(gòu)建和歸納邏輯程序設(shè)計(Inductive Logic Programming,簡稱ILP)等。
3.1 事務(wù)構(gòu)建
ARM(Association Rule Mining,關(guān)聯(lián)規(guī)則挖掘)等傳統(tǒng)的數(shù)據(jù)挖掘算法試圖尋找頻繁項集(Large Itemsets),并在此基礎(chǔ)上生成有趣的關(guān)聯(lián)規(guī)則。在關(guān)聯(lián)數(shù)據(jù)中進(jìn)行關(guān)聯(lián)規(guī)則的挖掘存在著以下挑戰(zhàn):數(shù)據(jù)結(jié)構(gòu)的異構(gòu)性、關(guān)聯(lián)數(shù)據(jù)不存在準(zhǔn)確定義的事務(wù)、實體間的關(guān)系以及終端用戶在挖掘過程中的角色。為從語義網(wǎng)數(shù)據(jù)中構(gòu)建事務(wù),Ziawasch Abedjan等提出利用主語、謂詞和對象三元組中的一項組成事務(wù),用其余兩項的值作為事務(wù)項,并從這些事務(wù)中進(jìn)行關(guān)聯(lián)規(guī)則的挖掘[22](見表1)。
在Ziawasch Abedjan的研究基礎(chǔ)上,MA Nematbakhsh 和Reza Ramezani提出了SWApriori挖掘方法,SWApriori以三元組的方式從語義網(wǎng)數(shù)據(jù)集中獲取數(shù)據(jù)并直接從中自動發(fā)現(xiàn)關(guān)聯(lián)規(guī)則[13,23]。SWApriori的基本原理是在輸入數(shù)據(jù)的實例層創(chuàng)建頻繁二項集并將其用于后續(xù)挖掘,這些頻繁二項集由實體和關(guān)聯(lián)組成(實體對應(yīng)對象,關(guān)聯(lián)對應(yīng)謂詞)。
SWApriori的挖掘流程為:首先遍歷統(tǒng)計所有對象出現(xiàn)的頻次,選擇出現(xiàn)在三元組中出現(xiàn)頻次大于一定次數(shù)(人工設(shè)定的最小置信度)的高頻對象,然后對這些高頻對象兩兩組合直到產(chǎn)生所有長度為二的可能對象集合。如假設(shè)Saraee、Nematbakhsh 和IUT為高頻對象,則有{Saraee,Nematbakhsh}、{Saraee,IUT}、{Nematbakhsh,IUT}等組合。隨后,算法核實這兩個對象(及對應(yīng)的兩個關(guān)系)是否被多個公共的主語所參引。因此,主語的數(shù)量是最重要的因素,而它們的值則不被考慮。頻繁二項集合構(gòu)建完成后,采取與Apriori相似的方法生成頻繁多項集和關(guān)聯(lián)規(guī)則。
假如最終挖掘到的頻繁多項集為{(Nematbakhsh + Knows)、 (IUT + Student at)、 (M.Sc. + Degree)},其中Nematbakhsh、IUT和M.Sc是高頻對象,Knows、Student at和Degree是其分別對應(yīng)的關(guān)系,生成的關(guān)聯(lián)規(guī)則為:
(1)Student at(IUT),Knows(Nematbakhsh)Degree (M.Sc.)
(2)Knows(Nematbakhsh),Degree(M.Sc.)Student at(IUT)
(3)Student at(IUT),Degree(M.Sc.)Knows(Nematbakhsh)
其中第一條規(guī)則表示,一個在IUT學(xué)習(xí)且知道Nematbakhsh的人一般具有M.Sc學(xué)位。
3.2 歸納邏輯程序設(shè)計
為解決LOD中大量生物醫(yī)學(xué)資源缺乏有效挖掘方法的問題,Gabin Personeni等提出利用歸納邏輯程序設(shè)計方法對關(guān)聯(lián)數(shù)據(jù)進(jìn)行學(xué)習(xí)[14]。ILP隸屬于機(jī)器學(xué)習(xí)與邏輯程序設(shè)計的交叉領(lǐng)域,它借助邏輯程序設(shè)計已有的理論與方法,在一階邏輯的框架下,試圖克服傳統(tǒng)機(jī)器學(xué)習(xí)存在的問題,建立新的機(jī)器學(xué)習(xí)體系,使機(jī)器更好地模擬人的思維。ILP想要完成的任務(wù)是,讓計算機(jī)考察具體的事例,然后概括出能夠刻畫這些事例特有屬性的一般性規(guī)則。ILP允許我們從觀察中學(xué)習(xí)概念的定義,如給定正例集(E+)和負(fù)例集(E-)和背景知識(B),目標(biāo)是生成一系列具有一致性(Y∪B覆蓋或解釋每個正例集)和完備性(Y∩B不覆蓋任何負(fù)例集)的規(guī)則或理論T。使用ILP進(jìn)行基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)具有以下優(yōu)勢:首先,ILP的輸入格式與關(guān)聯(lián)數(shù)據(jù)格式相近;其次,領(lǐng)域知識可以添加到輸入數(shù)據(jù)中并被ILP所學(xué)習(xí)。
基于ILP的關(guān)聯(lián)數(shù)據(jù)挖掘流程分為基于專家的領(lǐng)域數(shù)據(jù)選擇、數(shù)據(jù)整合以及基于ILP的關(guān)聯(lián)數(shù)據(jù)挖掘等步驟。首先依靠領(lǐng)域?qū)<医⒘藢嶓w關(guān)系(entity-relationship,簡稱ER)模型,確定了待挖掘數(shù)據(jù)。然后建立LOD與該ER模型之間的映射并利用SPQRQL查詢獲取數(shù)據(jù),數(shù)據(jù)存儲于建立在實體關(guān)系模型基礎(chǔ)上的關(guān)系數(shù)據(jù)庫中。完成數(shù)據(jù)的準(zhǔn)備工作后,作者利用Aleph(A Learning Engine for Proposing Hypotheses,ILP學(xué)習(xí)引擎)完成了ILP挖掘過程。
3.3 技術(shù)分析
直接挖掘的優(yōu)點除了包括利用關(guān)聯(lián)數(shù)據(jù)的特點更準(zhǔn)確、更有效、更便捷的發(fā)現(xiàn)相關(guān)數(shù)據(jù)外,與間接挖掘相比,直接挖掘方法針對關(guān)聯(lián)數(shù)據(jù)自身的特點對已有挖掘方法進(jìn)行了改進(jìn)和重構(gòu),使得這些方法更具有更強(qiáng)的易用性和可拓展性。
直接挖掘方法的缺點與間接挖掘相似,間接挖掘算法可以視為調(diào)整關(guān)聯(lián)數(shù)據(jù)以適應(yīng)傳統(tǒng)挖掘算法,而直接挖掘可以視為改進(jìn)傳統(tǒng)挖掘算法以適應(yīng)關(guān)聯(lián)數(shù)據(jù),就本質(zhì)而言,它們的研究主題都是關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)資源,并對關(guān)聯(lián)數(shù)據(jù)的另一重要主題――關(guān)聯(lián)數(shù)據(jù)的鏈接則未做深入的研究。
4 鏈接挖掘
圖是由若干給定的點及連接兩點的線所構(gòu)成的圖形,這種圖形通常用來描述某些事務(wù)之間的某種特定關(guān)系,用點代表事務(wù),用連接兩點的線表示相應(yīng)兩個事務(wù)間具有這種關(guān)系。關(guān)聯(lián)數(shù)據(jù)是一個由RDF三元組構(gòu)成的有向圖,圖中的點對應(yīng)每個資源、邊對應(yīng)每個屬性(鏈接)。因此,本文將針對關(guān)聯(lián)數(shù)據(jù)的鏈接這一研究主題的挖掘方法定義為鏈接挖掘。由于圖的搜索空間呈指數(shù)級增長,圖的挖掘是一項計算量繁重的任務(wù),如何選擇有效的挖掘策略對于能否從關(guān)聯(lián)數(shù)據(jù)挖掘出有效知識的質(zhì)量至關(guān)重要。根據(jù)挖掘方法的區(qū)別,我們將鏈接挖掘歸結(jié)為啟發(fā)式關(guān)聯(lián)遍歷挖掘、頻繁子圖挖掘、深度學(xué)習(xí)等三種類型并分別進(jìn)行介紹。
4.1 關(guān)聯(lián)遍歷檢索
Ilaria Tiddi等提出了Dedalo啟發(fā)式關(guān)聯(lián)數(shù)據(jù)遍歷挖掘系統(tǒng),Dedalo可以迭代檢索關(guān)聯(lián)數(shù)據(jù)尋找實體的共性(即共同路徑)從而生成解釋[15-16]。Dedalo的基本思想在于:給定一定數(shù)量的實體,在關(guān)聯(lián)數(shù)據(jù)中尋找這些實體存在共同的路徑(屬性鏈,表示為wι)及終值(屬性鏈終端的特定實體,表示為ei),這些路徑加終值便構(gòu)成一條簇的解釋(表示為,expi=wι.ei)?;诖怂枷?,Dedalo利用A*算法遍歷關(guān)聯(lián)數(shù)據(jù)尋找簇的解釋。
A*(A-Star)算法是一種靜態(tài)路網(wǎng)中求解最短路徑最有效的直接搜索方法,也是許多其他問題的常用啟發(fā)式算法,對于路徑搜索問題,狀態(tài)就是圖中的節(jié)點,代價就是距離。一條路徑的代價可以用啟發(fā)式的指標(biāo)f(x)估算,公式為: f(x)=g(x)+h(x),其中g(shù)(x)是過去的路徑開銷函數(shù),表示起始節(jié)點到當(dāng)前節(jié)點的已知距離,h(x)是未來路徑開銷函數(shù),用來估算當(dāng)前節(jié)點到目標(biāo)節(jié)點的最佳路徑的距離。在關(guān)聯(lián)數(shù)據(jù)中,待解釋簇內(nèi)的項即初始節(jié)點,每個解釋expi中的實體ei是目標(biāo)節(jié)點。路徑的開銷通過信息熵估算,熵主要考慮給定路徑的頻率(對應(yīng)g(x))及其值(對應(yīng)h(x))的分布。由于在迭代遍歷的過程中,事先不知道目標(biāo)節(jié)點,因此在第n次迭代中將所有距初始節(jié)點距離為n的節(jié)點都視為目標(biāo)節(jié)點。
關(guān)聯(lián)數(shù)據(jù)的迭代遍歷包含以下3個步驟:(1)URI參引,通過HTTP協(xié)議獲取初始節(jié)點相關(guān)的所有RDF屬性和屬性值;(2)路徑收集,利用URI參引從每個三元組中獲取的新的屬性Pi添加到已有的路徑中去構(gòu)建新的路徑wι,新路徑將通過信息熵行數(shù)進(jìn)行代價估算;(3)構(gòu)建簇的解釋,在每一輪迭代之前都進(jìn)行一次解釋的構(gòu)建,并通過F值對解釋進(jìn)行檢驗。
關(guān)聯(lián)數(shù)據(jù)鏈接挖掘的相關(guān)研究還包括:Vito Claudio Ostuni等提出的基于LOD的SPrank關(guān)聯(lián)推薦算法[24]以及Tommaso Di Noia等提出的利用LOD支持的關(guān)聯(lián)推薦系統(tǒng)[25],它們的共同特點是利用鏈向特定實體的共有路徑發(fā)現(xiàn)相關(guān)實體。另外,關(guān)聯(lián)數(shù)據(jù)的屬性鏈還被應(yīng)用于語義相似度[26]和語義距離[27]等的計算。
4.2 頻繁子圖挖掘
在圖的集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱作頻繁子圖挖掘(frequent subgraph mining),常用的頻繁子圖挖掘方法包括AGM、AcGM、FSG等遞歸發(fā)現(xiàn)頻繁子圖的方法以及gSpan、CloseGraph和FFSM等拓展頻繁邊得到頻繁子圖的方法。由于關(guān)聯(lián)數(shù)據(jù)中關(guān)聯(lián)模式缺乏準(zhǔn)確正式的定義和關(guān)聯(lián)數(shù)據(jù)圖結(jié)構(gòu)的復(fù)雜性,頻繁子圖挖掘方法難以直接應(yīng)用到關(guān)聯(lián)數(shù)據(jù)中。針對這一問題,Xiang Zhang和Cuifang Zhao等提出利用Typed Object Graph(類型化對象圖,簡稱TOG)數(shù)據(jù)模型簡化關(guān)聯(lián)數(shù)據(jù)結(jié)構(gòu)并利用基于gSpan的模式挖掘算法從關(guān)聯(lián)數(shù)據(jù)中學(xué)習(xí)對象的關(guān)聯(lián)模式[28]。TOG圖通過一定的類檢測策略可以為RDF圖的每個實例賦予類型信息獲?。ㄒ妶D1)。完成TOG圖的構(gòu)建后,對TOG圖進(jìn)行聚類后利用基于gSpan算法進(jìn)行關(guān)聯(lián)規(guī)則的挖掘。
在Xiang Zhang 等的研究基礎(chǔ)上,Xiaowei Jiang提出了一種TOG圖壓縮策略進(jìn)行實例層的關(guān)聯(lián)數(shù)據(jù)語義挖掘[15]由于關(guān)聯(lián)數(shù)據(jù)中存在大量的重復(fù)結(jié)構(gòu)和相互依賴結(jié)構(gòu),因此在挖掘前可以利用這種機(jī)構(gòu)特征進(jìn)行圖的壓縮。根據(jù)關(guān)聯(lián)數(shù)據(jù)的結(jié)構(gòu)特征,作者提出了兩種結(jié)合重復(fù)結(jié)構(gòu)和壓縮互相依賴結(jié)構(gòu)等兩種圖壓縮策略。壓縮的核心思想是利用鏈向TOG中一系列高度相關(guān)實例的單個實例代表一個可壓縮的圖結(jié)構(gòu)。在完成了圖的壓縮后,關(guān)聯(lián)數(shù)據(jù)內(nèi)的一些圖結(jié)構(gòu)將變成一些所謂“超節(jié)點(hypernode)”實例的內(nèi)部結(jié)構(gòu),原始的關(guān)聯(lián)數(shù)據(jù)圖也壓縮為較小的“超圖(hypergraph)”。
4.3 深度學(xué)習(xí)
深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。波爾茲曼機(jī)(Boltzmann machine,簡稱BM)是Hinton和Sejnowski于1986年提出的一種根植于統(tǒng)計力學(xué)的隨機(jī)神經(jīng)網(wǎng)絡(luò)。BM具有強(qiáng)大的無監(jiān)督學(xué)習(xí)能力,能學(xué)習(xí)數(shù)據(jù)中復(fù)雜的規(guī)則。但是,擁有這種學(xué)習(xí)能力的代價是其訓(xùn)練(學(xué)習(xí))過程耗時。此外,BM所表示的分布不僅無法確切計算,得到該分布的隨機(jī)樣本也很困難。于是Sejnowski引入了一種受限波爾茲曼機(jī)(Restricted Boltzmann machine model,簡稱RBM)。RBM具有一個可見層和一個隱層,層內(nèi)無連接。RBM具有很好的性質(zhì),在給定可見層單元狀態(tài)時,各隱單元的激活條件獨立;反之,在給定隱單元狀態(tài)時,可見層單元的激活亦條件獨立。這樣一來盡管RBM所表示的分布仍無法有效計算,但通過Gibbs采樣(Gibbs sampling)可以得到RBM所表示分布的隨機(jī)樣本。目前RBM已經(jīng)被成功運用到不同的機(jī)器學(xué)習(xí)問題[29]。
從關(guān)聯(lián)數(shù)據(jù)中學(xué)習(xí)知識的主要挑戰(zhàn)之一是如何在高效利用節(jié)點屬性的同時利用關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)抽取有效信息。當(dāng)前對基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)要么采取人工選擇的拓?fù)浣y(tǒng)計表示網(wǎng)絡(luò)結(jié)構(gòu),要么將節(jié)點屬性和網(wǎng)絡(luò)節(jié)點線性映射到一個共享隱含特征空間(shared latent feature space)。但基于統(tǒng)計的方法可能損失網(wǎng)絡(luò)結(jié)構(gòu)中的重要模式,基于線性映射的方法可能無法捕捉到節(jié)點和關(guān)聯(lián)的非線性特征。為解決這些問題,Kang Li、Jing Gao利用深度學(xué)習(xí)理論,構(gòu)建了基于受限波爾茲曼機(jī)對關(guān)聯(lián)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的LRBM(Restricted Boltzmann Machines for Latent Feature Learning in Linked Data,學(xué)習(xí)關(guān)聯(lián)數(shù)據(jù)潛在特征的受限波爾茲曼機(jī))模型,LRBM利用對比散度(Contrastive Divergence,簡稱CD)進(jìn)行模型的訓(xùn)練避免了大規(guī)模的采樣,同時模型可以與傳統(tǒng)RMB進(jìn)行“疊加”以探索節(jié)點的深層特征和節(jié)點間的高階交互模式[16]。
LRBM不依賴任何主觀選擇的拓?fù)浣y(tǒng)計(topological statistics),可以在一個統(tǒng)一框架中同時獲取節(jié)點和屬性的特征,并根據(jù)這些特征構(gòu)建節(jié)點關(guān)聯(lián)以及隱藏單元之間的非線性關(guān)系。模型的核心在于節(jié)點共享隱含特征,這些隱含特征可以用來構(gòu)建節(jié)點、關(guān)聯(lián)關(guān)系和隱含單元的非線性關(guān)系。
作者首先用關(guān)聯(lián)矩陣表示關(guān)聯(lián)數(shù)據(jù)集中的節(jié)點和關(guān)聯(lián)關(guān)系,定義節(jié)點i到節(jié)點j的關(guān)聯(lián)L中節(jié)點i定義為關(guān)聯(lián)的發(fā)送者,節(jié)點j為關(guān)聯(lián)的接收者,并將每個節(jié)點的隱含表示(latent representation)定義為發(fā)送者行為Si和接收者行為Ri兩部分,分別對應(yīng)節(jié)點的入鏈和出鏈。因此,節(jié)點i的屬性Ai與其隱含發(fā)送者行為Si和接收者行為Ri相關(guān),且Si和Rj決定了節(jié)點i和j之間的交互。為將節(jié)點屬性A、關(guān)聯(lián)L和隱含特征表示R和S之間的交互建模,作者利用能量函數(shù)建立了一個隱含語義模型(Latent Factor Model,簡稱LFM),利用條件限制波爾茨曼機(jī)在模型加入了隱變量h以解決線性映射的問題,同時添加高斯噪聲為關(guān)聯(lián)關(guān)系賦予權(quán)重。最終,LRBM模型可關(guān)聯(lián)數(shù)據(jù)中提取出節(jié)點屬性、隱含特征S和R以及關(guān)聯(lián)關(guān)系的交互特征,并可將其應(yīng)用到關(guān)聯(lián)預(yù)測、節(jié)點分類等知識發(fā)現(xiàn)活動中。
4.4 技術(shù)分析
在關(guān)聯(lián)數(shù)據(jù)集合中,數(shù)據(jù)集合和數(shù)據(jù)對象之間是以某種方式關(guān)聯(lián)的,對象之間的鏈接可能表示某種特定的模式,但這一模式通常很難用傳統(tǒng)的統(tǒng)計模型去獲取,因此,為該挑戰(zhàn)提供解決方案的鏈接挖掘成為了新的研究熱點。這一領(lǐng)域在鏈接分析、超文本和網(wǎng)絡(luò)挖掘、關(guān)系學(xué)習(xí)和圖挖掘等相關(guān)研究的交叉點上。
關(guān)聯(lián)遍歷挖掘、頻繁子圖挖掘、LRBM等分別利用了圖的遍歷、壓縮和深度學(xué)習(xí)的方法對關(guān)聯(lián)數(shù)據(jù)的鏈接進(jìn)行挖掘,為基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)提供了全新的方法和視角,但鏈接挖掘存在的問題是,由于當(dāng)前研究仍處于探索階段,相關(guān)研究相對比較分散,缺少能將相關(guān)研究和應(yīng)用統(tǒng)一到一個框架中的綜合體系,這一問題阻礙了已有研究之間的相互交流以及研究成果的拓展和共享。
5 結(jié)語
關(guān)聯(lián)數(shù)據(jù)通過數(shù)據(jù)間的鏈接支持結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián),這種攜帶語義的關(guān)聯(lián)遍及整個數(shù)據(jù)網(wǎng)絡(luò),是關(guān)聯(lián)數(shù)據(jù)的核心價值。為實現(xiàn)關(guān)聯(lián)數(shù)據(jù)的價值,早期研究更多的關(guān)注了關(guān)聯(lián)數(shù)據(jù)的構(gòu)建與,而隨著關(guān)聯(lián)數(shù)據(jù)資源的快速發(fā)展,更多的研究開始關(guān)注關(guān)聯(lián)數(shù)據(jù)的應(yīng)用與消費,這些研究往往集中在“關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)資源”和“關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)”等兩個主題。本文所介紹的間接挖掘和直接挖掘主要關(guān)注“關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)資源”,這些研究促進(jìn)了知識發(fā)現(xiàn)與關(guān)聯(lián)數(shù)據(jù)領(lǐng)域之間研究體系上的拓展和融合,一方面有助于從數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的角度去發(fā)揮關(guān)聯(lián)數(shù)據(jù)的潛在價值;另一方面也可以借助數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域的知識解決關(guān)聯(lián)數(shù)據(jù)存在的問題。鏈接挖掘則更多的關(guān)注了“關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)”主題,圖論、深度學(xué)習(xí)等學(xué)科的引入為基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)提供了全新的視角與方法,雖然當(dāng)前的研究仍比較分散缺少統(tǒng)一的綜合框架,但這些方法和理論的引入已經(jīng)為基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)提供了新的活力和可能。
總體而言,基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)技術(shù)仍處于快速發(fā)展階段,其作為一種新的知識發(fā)現(xiàn)技術(shù)已經(jīng)體現(xiàn)了巨大的價值。隨著關(guān)聯(lián)數(shù)據(jù)數(shù)量的飛速發(fā)展和對關(guān)聯(lián)數(shù)據(jù)質(zhì)量控制的加強(qiáng),且已經(jīng)有國內(nèi)外的研究人員開始著手研究基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)統(tǒng)一框架,未來的研究重點將更加傾向于基于關(guān)聯(lián)數(shù)據(jù)知識發(fā)現(xiàn)技術(shù)本身的豐富和完善。
參考文獻(xiàn):
[1] 苗蔚,李后卿.知識發(fā)現(xiàn)及其實現(xiàn)技術(shù)的研究概述[J].現(xiàn)代情報,2005(1):12-15.
[2] 李楠.基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究[D].北京:中國農(nóng)業(yè)科學(xué)院,2012.
[3] 化柏林.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)關(guān)系探析[J].情報理論與實踐,2008(4):507-510.
[4] 張樹良,冷伏海.基于文獻(xiàn)的知識發(fā)現(xiàn)的應(yīng)用進(jìn)展研[J].情報學(xué)報,2006,25(6):700-712.
[5] 賈麗梅.基于關(guān)聯(lián)數(shù)據(jù)語義相似度計算研究[D].鄭州:鄭州大學(xué),2014.
[6] 李楠,張學(xué)福.基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)模型研究[J].圖書館學(xué)研究,2013(1):73-77,67.
[7] 李俊,黃春毅.關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究[J].情報科學(xué),2013(3):76-81.
[8] 高勁松,李迎迎,劉龍,等.基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)模型構(gòu)建研究[J].情報科學(xué),2016(6):10-13,18.
[9] 宋麗娜.關(guān)聯(lián)數(shù)據(jù)環(huán)境下基于知識地圖的隱性知識發(fā)現(xiàn)模型研究[D].武漢:華中師范大學(xué),2014.
[10] 劉龍.基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)過程模型研究[D].武漢:華中師范大學(xué),2014.
[11] Narasimha V,Kappara P,Ichise R,et al.LiDDM:A Data Mining System for Linked Data[C].Workshop on Linked Data on the Web.CEUR Workshop Proceedings,2011:813.
[12] Paulheim H,F(xiàn)ümkranz J.Unsupervised generation of data mining features from linked open data[C].Proceedings of the 2nd international conference on web intelligence, mining and semantics.ACM,2012:31.
[13] Ramezani R,Saraee M,Nematbakhsh M A.Finding association rules in linked data,a centralization approach[C].21st Iranian Conference on Electrical Engineering(ICEE).IEEE,2013:1-6.
[14] Personeni G,Daget S,Bonnet C,et al.Mining Linked Open Data:A Case Study with Genes Responsible for Intellectual Disability[C].International Conference on Data Integration in the Life Sciences.Springer International Publishing,2014:16-31.
[15] Tiddi I,d'Aquin M,Motta E.Dedalo:Looking for clusters explanations in a labyrinth of linked data[C].European Semantic Web Conference.Springer International Publishing,2014:333-348.
[16] Tiddi I,d'Aquin M,Motta E.Walking Linked Data:a graph traversal approach to explain clusters[C].Proceedings of the 5th International Conference on Consuming Linked Data-Volume ,2014:73-84.
[17] Jiang X,Zhang X,Gao F,et al.Graph compression strategies for instance-focused semantic mining[C].China Semantic Web Symposium and Web Science Conference.Springer Berlin Heidelberg,2013:50-61.
[18] Li K,Gao J,Guo S,et al.Lrbm: A restricted boltzmann machine based approach for representation learning on linked data[C].Data Mining(ICDM),2014 IEEE International Conference on.IEEE,2014:300-309.
[19] Ristoski P,Bizer C,Paulheim H.Mining the web of linked data with rapidminer[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(35):142-151.
[20] L?isch U,Bloehdorn S,Rettinger A.Graph kernels for RDF data[M].The Semantic Web:Research and Applications.Springer Berlin Heidelberg,2012.
[21] de Vries G K D,de Rooij S.Substructure counting graph kernels for machine learning from RDF data[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(35):71-84.
[22] Abedjan Z,Naumann F.Context and target configurations for mining RDF data[C].Proceedings of the 1st international workshop on Search and mining entity-relationship data.ACM,2011:23-24.
[23] Ramezani R,Saraee M,Nematbakhsh M A.Finding association rules in linked data,a centralization approach[C].21st Iranian Conference on Electrical Engineering(ICEE).IEEE,2013:1-6.
[24] Ostuni V C,Di Noia T,Di Sciascio E,et al.Top-n recommendations from implicit feedback leveraging linked open data[C].Proceedings of the 7th ACM conference on Recommender systems.ACM,2013:85-92.
[25] Di Noia T,Mirizzi R,Ostuni V C,et al. Linked open data to support content-based recommender systems[C].Proceedings of the 8th International Conference on Semantic Systems.ACM,2012:1-8.
[26] Hulpus I,Prangnawarat N,Hayes C.Path-based semantic relatedness on linked data and its use to word and entity disambiguation[C].International Semantic Web Conference.Springer International Publishing,2015:442-457.
[27] Passant A.Measuring Semantic Distance on Linking Data and Using it for Resources Recommendations[C].AAAI spring symposium:linked data meets artificial intelligence,2010(77):123.
[28] Zhang X,Zhao C,Wang P,et al.Mining link patterns in linked data[C].International Conference on Web-Age Information Management.Springer Berlin Heidelberg,2012:83-94.
一、競賽時間
寄送作品時間:
啟事公布之日起至2016年3月31日
二、參賽對象
全國各省、市、自治區(qū)所屬義務(wù)教育小學(xué)、初中段學(xué)生,全日制普通高級中學(xué)學(xué)生,職業(yè)高中學(xué)生。
三、參賽要求
本次競賽以“我與足球的故事”為主題,分為征文競賽和繪畫攝影競賽兩項賽事。
活動一:征文競賽
要求:
1.本次征文競賽不設(shè)題目,不限體裁。為了使你的作品能夠脫穎而出,我們提倡你寫真人、記真事、抒真情、表真意。但務(wù)必要緊扣主題,思想積極健康,語言流暢。字?jǐn)?shù)2000字以內(nèi)。
2.也許某場攻防激烈的球賽,讓你領(lǐng)略到團(tuán)隊協(xié)作的精神;也許某個球星的經(jīng)歷在你心情處于低谷時給了你奮進(jìn)的力量;也許綠茵場上一個個英姿颯爽的身影和他們永不服輸?shù)木裼|動過你的心弦……喜歡足球,不僅在于足球運動的活力和激情,更在于它所體現(xiàn)出的精神和力量?,F(xiàn)在請拿起你手中的筆,記錄下你與足球之間發(fā)生的故事吧??梢杂洈ⅲ部梢允闱?,還可以發(fā)表議論。
3.字跡工整、清晰會讓你的作品給評委留下好的印象。當(dāng)然,你也可以采用A4紙打印。但無論是手寫稿還是打印稿,都請你在參賽文章的右下角注明詳細(xì)的聯(lián)系方式(姓名,學(xué)校,班級,聯(lián)系電話),以班級或?qū)W校為單位集體參賽的要注明指導(dǎo)老師的聯(lián)系方式,學(xué)生單獨參賽的要注明家長的聯(lián)系方式。
4.大賽名次固然重要,但誠實才是做人的根本。所以請你千萬不要抱著僥幸的心理抄襲、套作,一旦被評委發(fā)現(xiàn),損失的不僅僅是參賽資格,更是你寶貴的聲譽(yù)。
5.組委會有權(quán)將所有入選的作品用于活動相關(guān)的宣傳、出版、展覽以及其他公益活動,并不另付稿酬。
6.所有入選作品如涉及著作權(quán)、版權(quán)、肖像權(quán)、名譽(yù)權(quán)或其他合法權(quán)利的糾紛,均由作者自行負(fù)責(zé)。
活動二:繪畫、攝影競賽
(一)繪畫
1.參賽作品必須為原創(chuàng),已參加過其他比賽或已公開發(fā)表的作品不得參加本次競賽。
2.繪畫作品種類包括蠟筆畫、水彩畫、版畫、卡通畫、國畫、油畫、素描、速寫等多種形式。每幅作品最大尺寸不超過100cm×100cm。作品內(nèi)容要求積極、健康、向上。只接受繪畫作品原件,不接受繪畫作品復(fù)印件、打印件以及電子作品,參賽作品無論獲獎與否一概不予退還。
3.參賽者務(wù)必在畫紙右下角注明自己的聯(lián)系方式(姓名,學(xué)校,班級,聯(lián)系電話),以班級或?qū)W校為單位集體參賽的要注明指導(dǎo)老師的聯(lián)系方式,學(xué)生單獨參賽的要注明家長的聯(lián)系方式。
(二)攝影
1.攝影作品形式不限,彩色、黑白作品,單幅、組照均可。要求均為數(shù)碼攝影作品。
2.作品文件格式為JPG格式。攝影作品請以圖片的形式發(fā)送到競賽指定的電子郵箱。圖片命名方式:標(biāo)題――省份+學(xué)校+班級+姓名+聯(lián)系電話。例:我心飛翔――**省**學(xué)校高一年級三班李華139********。
四、參賽辦法
1.此次競賽純屬公益活動,不收取任何費用。
2.以上兩項賽事,可同時參與,也可根據(jù)自己的愛好和特長選擇參與其中的一項。
3.此次競賽本著學(xué)校和學(xué)生自愿參加的原則,既可以由教育教研部門和學(xué)校在自愿的基礎(chǔ)上統(tǒng)一組織學(xué)生參加,也可由學(xué)生自行報名參加。
4.歡迎各省、市、縣(區(qū))教育教研部門及學(xué)校統(tǒng)一組織學(xué)生參賽。
5.征文、繪畫作品完成后,請將紙質(zhì)作品寄至本次競賽組委會辦公室。信封上務(wù)必標(biāo)明“‘我與足球的故事’征文(繪畫)競賽**年級組”字樣。集體參賽者請將作品統(tǒng)一寄出。
各年級組參賽紙質(zhì)作品統(tǒng)一寄至:
山西省太原市壩陵北街盛世華庭A1座21層學(xué)習(xí)報社“我與足球的故事”競賽組委會辦公室收 郵編:030009
攝影作品投稿郵箱:
競賽組委會聯(lián)系電話:
0351―3239660(小學(xué)組)
聯(lián)系人:王老師
0351―3239655(初中組)
聯(lián)系人:王老師
0351―3239630(高中組)
聯(lián)系人:李老師
五、獎項設(shè)置
1.此次競賽活動由山西省教育學(xué)會與學(xué)習(xí)報社邀請有關(guān)專家,聯(lián)合組成評審委員會進(jìn)行評獎。
2.此次競賽分為征文競賽和繪畫、攝影競賽兩項賽事,分別設(shè)置獎項。繪畫、攝影比賽統(tǒng)一評獎,不再分別設(shè)置獎項。
3.獎項分小學(xué)低年級組、小學(xué)高年級組、初中組和高中組四個組別。報送作品經(jīng)初評、復(fù)評、終評,確定一、二等獎及優(yōu)秀獎,并分別頒發(fā)獎品和證書(證書將由山西省教育學(xué)會與學(xué)習(xí)報社共同簽章頒發(fā))。
4.本次競賽為表彰積極參賽的學(xué)校和教育教研部門,特設(shè)立“優(yōu)秀組織獎”,并頒發(fā)獎牌。
5.本次活動將根據(jù)學(xué)生獲獎等級的評定給輔導(dǎo)老師頒發(fā)相應(yīng)的“優(yōu)秀輔導(dǎo)獎”。
6.獲獎名單公布時間:2016年5月。
7.獲得優(yōu)秀組織獎的學(xué)??赏扑]參與全國教育科學(xué)“十二五”教育部規(guī)劃課題《以培養(yǎng)學(xué)生能力為導(dǎo)向的教學(xué)模式研究》和中國教育學(xué)會“十二五”科研規(guī)劃課題《中小學(xué)校園文化建設(shè)研究與實踐》。
8.夏令營活動:獲得本次活動一、二等獎的學(xué)生,將有機(jī)會參加學(xué)習(xí)報社組織的“足球伴我成長”夏令營活動。具體活動事宜,另行通知。
六、宣傳表彰
獲得本次競賽一等獎、二等獎及優(yōu)秀獎的選手名單將公布在學(xué)習(xí)報社網(wǎng)站上。獲得一、二等獎的征文作品將在《學(xué)習(xí)報》各年級相應(yīng)的語文學(xué)科報紙上開設(shè)專欄擇優(yōu)刊登。此次競賽所有獲得一、二等獎的作品將分類結(jié)集出版,具體事宜另行通知。