前言:本站為你精心整理了連接算法應(yīng)用煤礦安全論文范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢(xún)。
1.1連接算法在大數(shù)據(jù)分析應(yīng)用中,連接是必不可少的一項(xiàng)操作。連接算法通常用于合并2個(gè)或多個(gè)數(shù)據(jù)集信息,而連接條件是基于這些數(shù)據(jù)集共同的一些屬性信息。以2個(gè)表連接為例,設(shè)現(xiàn)有數(shù)據(jù)表為R(a,b),S(b,c),表R與表S的關(guān)聯(lián)屬性為b,對(duì)表R和表S做連接操作,根據(jù)條件R.b=S.b,即可找出2個(gè)表中滿(mǎn)足條件的元組,達(dá)到合并2個(gè)表的目的。
1.2Bloom過(guò)濾器Bloom過(guò)濾器是一種空間效率很高的隨機(jī)數(shù)據(jù)結(jié)構(gòu),它主要應(yīng)用于判斷一個(gè)元素是否屬于某個(gè)集合。Bloom過(guò)濾器是一個(gè)包含m位的bitArray,其初始值均為0,它利用k個(gè)相互獨(dú)立的哈希函數(shù)將集合元素映射到{1,2,…,m}范圍內(nèi)的k個(gè)位置上,其對(duì)應(yīng)位置被置為1。在判斷某個(gè)元素是否屬于集合時(shí),將該元素進(jìn)行同樣的k次哈希運(yùn)算,若其對(duì)應(yīng)值不全為1,則該元素不是集合中元素;若其對(duì)應(yīng)值全部為1,則認(rèn)為該元素為集合中元素。但Bloom過(guò)濾器存在一定的誤判率,如圖1所示,X1顯然不是集合中元素,而X2可能是結(jié)合中元素,也可能恰好為一個(gè)誤判元素。
1.3基于Bloom過(guò)濾器的星型連接算法星型連接是一種典型的多路連接,它是將一個(gè)事實(shí)表同多個(gè)維度表進(jìn)行連接的操作?;镜男切瓦B接是將事實(shí)表與每個(gè)維度表分別進(jìn)行連接操作,再把所有產(chǎn)生的中間結(jié)果進(jìn)行合并得到最終結(jié)果。大量中間結(jié)果造成巨大的磁盤(pán)I/O開(kāi)銷(xiāo),降低了執(zhí)行效率?;贐loom過(guò)濾器的星型連接算法是在Map階段建立n個(gè)BF(Ri.Xi)Bloom過(guò)濾器以及n個(gè)BF(R0.Xi)Bloom過(guò)濾器,其中i=1,2,…,n。在執(zhí)行星型連接操作時(shí),利用過(guò)濾器BF(Ri.Xi)對(duì)事實(shí)表R0進(jìn)行過(guò)濾操作,利用過(guò)濾器BF(R0.Xi)分別對(duì)維度表R1,R2,…,Rn進(jìn)行過(guò)濾操作。這樣可在Map階段消除事實(shí)表中無(wú)連接操作的元組以及大量中間結(jié)果。在Reduce階段,只需執(zhí)行一次Reduce任務(wù)便可完成連接操作。
2連接算法在煤礦安全生產(chǎn)中的應(yīng)用
在煤礦安全生產(chǎn)過(guò)程中,瓦斯?jié)舛取⒓淄闈舛?、一氧化碳濃度、采區(qū)溫度、粉塵濃度、通風(fēng)量之間都有著很高的關(guān)聯(lián)性。煤礦安全生產(chǎn)監(jiān)測(cè)系統(tǒng)將采集到的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。在對(duì)各因素進(jìn)行相關(guān)性分析時(shí),需對(duì)各個(gè)數(shù)據(jù)表進(jìn)行連接操作,根據(jù)連接操作結(jié)果可分析出影響煤礦安全生產(chǎn)各因素之間的關(guān)系。例如,對(duì)頂板壓力、溫度以及甲烷濃度3個(gè)數(shù)據(jù)表進(jìn)行連接操作,由連接結(jié)果可知,當(dāng)頂板壓力不穩(wěn)定、溫度過(guò)高、甲烷體積分?jǐn)?shù)大于0.1時(shí),采區(qū)處于不安全狀態(tài),此時(shí)監(jiān)測(cè)系統(tǒng)應(yīng)發(fā)出高危險(xiǎn)等級(jí)的報(bào)警。而通過(guò)對(duì)粉塵濃度與通風(fēng)量的數(shù)據(jù)表連接結(jié)果可知,在粉塵濃度急劇增大時(shí)需要減少系統(tǒng)的通風(fēng)量才能保證煤礦生產(chǎn)的安全性。在MapReduce中利用基于Bloom過(guò)濾器的星型連接算法對(duì)煤礦安全生產(chǎn)數(shù)據(jù)表進(jìn)行連接操作,事實(shí)表R。
3試驗(yàn)結(jié)果分析
試驗(yàn)環(huán)境是擁有30個(gè)配置完全相同的計(jì)算節(jié)點(diǎn)的分布式計(jì)算平臺(tái)。在各個(gè)節(jié)點(diǎn)中均安裝Hadoop包作為MapReduce計(jì)算環(huán)境。試驗(yàn)數(shù)據(jù)為煤礦安全生產(chǎn)過(guò)程中產(chǎn)生的6組真實(shí)數(shù)據(jù)集,表1描述了該6組數(shù)據(jù)的詳細(xì)信息。在MapReduce框架中,分別用星型算法(StarJoin)和基于Bloom過(guò)濾器的星型連接算法(BFStarJoin)對(duì)煤礦安全生產(chǎn)數(shù)據(jù)集進(jìn)行測(cè)試分析,比較其在連接過(guò)程中占用空間的大小和運(yùn)行時(shí)間的長(zhǎng)短,分別得出算法的空間性能和執(zhí)行效率,基于Bloom過(guò)濾器的星型連接算法在進(jìn)行連接操作時(shí)占用空間遠(yuǎn)遠(yuǎn)低于星型算法,其空間性能大幅度提升。由圖5可知,基于Bloom過(guò)濾器的星型連接算法在對(duì)煤礦安全生產(chǎn)數(shù)據(jù)集進(jìn)行分析時(shí)有著更好的執(zhí)行效率。
4結(jié)語(yǔ)
利用大數(shù)據(jù)技術(shù)對(duì)煤礦安全生產(chǎn)數(shù)據(jù)進(jìn)行分析,基于Bloom過(guò)濾器的星型連接算法可以將所需分析的煤礦生產(chǎn)過(guò)程中各因素所對(duì)應(yīng)的數(shù)據(jù)表進(jìn)行有效連接。與傳統(tǒng)連接算法相比,該算法在空間性能和執(zhí)行效率上均有大幅度提升,提高了MapReduce對(duì)煤礦生產(chǎn)數(shù)據(jù)進(jìn)行連接操作時(shí)的處理能力,提升了煤礦安全生產(chǎn)水平。
作者:黃偉力劉影單位:河北工程大學(xué)