前言:本站為你精心整理了概率統(tǒng)計的地址分類辦法探索范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
本文提出的快遞地址自動分類方法以基于概率統(tǒng)計的地址分類模型為核心,該地址分類模型的基本思想是根據(jù)快遞地址中所有最小地址要素對應(yīng)取送點的概率分布情況,綜合評價出該快遞地址對應(yīng)各個取送點的可能性,最終對快遞地址應(yīng)分類到的取送點做出判別。在模型的訓練階段,以人工標記出取送點分類結(jié)果的快遞地址作為訓練數(shù)據(jù),首先過濾訓練數(shù)據(jù)中的停用字符,然后對快遞地址進行分詞得到其包含的最小地址要素,最后統(tǒng)計出最小地址要素對應(yīng)取送點的頻率分布及概率分布,并計算最小地址要素的區(qū)分度系數(shù)d?;诟怕式y(tǒng)計分類模型進行快遞地址分類時,首先過濾待分類地址中的停用字符,然后對地址進行分詞得到其包含的最小地址要素,最后由基于概率統(tǒng)計的地址分類模型判斷出待分類地址所屬的取送點,完成快遞地址的自動分類。
快遞網(wǎng)絡(luò)中的中轉(zhuǎn)點和取送點以不同大小的地域范圍為服務(wù)對象,各級中轉(zhuǎn)點以各級中心城市為基本單位,取送點以各中心城市輻射的周邊市、縣、中心城市內(nèi)的社區(qū)為基本單位。中文地址采用地域范圍由大到小的層級嵌套方式書寫,地址中不同地域范圍大小的地名在取送點分類時提供的信息量是不同的。以北京市地址和快遞取送點的分布情況為例,北京中轉(zhuǎn)點下轄幾十個取送點,分布在北京市各個區(qū)、縣、社區(qū)內(nèi)?!氨本┦小?、“海淀區(qū)”、“朝陽區(qū)”這類地域范圍廣闊的地名,其所指代地域范圍內(nèi)的取送點數(shù)量眾多,對取送點的分類判斷幫助不大。詳細的樓(門)牌號地名,如“9號樓”、“A座”、“204室”,其所指代的地域范圍遠小于取送點的基本服務(wù)單位,在取送點的分類判別時也不需要關(guān)注這類地名。在快遞地址的分類判別中,將這2類地域范圍過大和過小的地名定義為停用字符,從地址中過濾清除出去。物流地址中的特殊字符,如括號、空格、破折號等,對取送點的分類判別也沒有任何指導意義,也定義為停用字符,在地址中予以過濾清除。
中文地址采用連續(xù)字符串的形式書寫,詞與詞之間沒有明確的分隔符。在地理地址編碼領(lǐng)域,中文地址的分詞是近年來的研究熱點之一。中文地址分詞,是將一個中文地址文本拆分為多個最小地址要素[9]的過程。最小地址要素是不可繼續(xù)拆分的地址要素,具有最小的地址意義。如對中文地址“北京市海淀區(qū)西土城路10號北京郵電大學”進行分詞,可以拆分出“北京市”、“海淀區(qū)”、“西土城路”、“10號”、“北京郵電大學”5個最小地址要素。依據(jù)利用信息的不同,目前的中文地址分詞方法主要有2種:基于地名詞典的方法[1011]和基于地址特征字的方法[12]。基于地址詞典的方法維護一個盡可能完備的地名詞典,通過串匹配技術(shù)在地名詞典中查找最小地址要素進行分詞,主要采用最大正向匹配方式和最大逆向匹配方式?;诘孛~典的方法準確率完全依賴地名詞典的完備性,但實際操作中地名詞典的更新維護存在很大難度,地名詞典的完備性難以保障。各類最小地址要素包含一些相同的字符串作為后綴,這樣的后綴字符段稱為地址特征字或地址通名,如“北京市”中的“市”、“海淀區(qū)”中的“區(qū)”就都是地址特征字?;诘刂诽卣髯值姆椒楦黝愖钚〉刂芬囟x特征字并制定相應(yīng)的拆分規(guī)則,通過對特征字和拆分規(guī)則的匹配完成對地址的分詞。這類方法擺脫了對地名詞典的依賴,但特征字和拆分規(guī)則的合理選擇存在一定難度。本文采用地名詞典和特征字相結(jié)合的方式對中文地址進行分詞。采用某物流公司提供的北京市地名詞典作為中文分詞的地名詞典,該詞典共計包括10151個北京市地名。本文依據(jù)國家測繪局頒布的《數(shù)字城市地理空間信息公共平臺地名/地址分類、描述及編碼規(guī)定(CH/Z90022007)》[13]中對最小地址要素的分類方法,將最小地址要素劃分為行政區(qū)劃地名、小區(qū)名、街巷名、標志物名、興趣點名、門(樓)址6個大類。中文地址表示為字符串T=t1t2…tn,n為字符串T的長度。地名詞典表示為字符串集合Pd={p1,p2,…,pr},特征字詞典表示為字符串集合Pf={p1,p2,…,pm}。中文地址分詞后得到的是一組最小地址要素,表示為字符串集合Pr,Pr初始狀態(tài)為空集。本文采用的地名字典與特征字結(jié)合的中文地址分詞方法步驟如下:步步步驟驟驟1如果字符串T為空,轉(zhuǎn)到步驟3;否則,查找T的前綴能否匹配地名詞典Pd中的元素,如果匹配成功,即存在(1,2,,)idp∈Pi=r,使t1,t2,…,tk=pi,其中,k為pi的長度,則將t1,t2,…,tk放入Pr,并將T置為tk+1,tk+2,…,tn,轉(zhuǎn)到步驟1;如果匹配失敗,轉(zhuǎn)到步驟2。步步步驟驟驟2查找T的子串能否匹配特征字詞典Pf中的元素,如果匹配成功,即存在(1,2,,)ifp∈Pi=m,使tj,tj+1,…,tj+k1=pi,其中k為pi的長度,則將t1,t2,…,tj+k+1放入Pr,并將T置為tj+k,tj+k+1,…,tn,轉(zhuǎn)到步驟1;如果不存在,則將則將T放入Pr,轉(zhuǎn)到步驟3。步步步驟驟驟3返回Pr,算法結(jié)束。
基于概率統(tǒng)計的地址分類模型以人工標記出所屬取送點的快遞地址作為訓練數(shù)據(jù)。隨機選取5條訓練數(shù)作為示例,說明該模型的訓練方法,隨機選取的示例訓練數(shù)據(jù)如表2所示。首先以2.1節(jié)和2.2節(jié)介紹的方法過濾掉快遞地址中的停用字符并對地址進行分詞,每條標記數(shù)據(jù)得出一組最小地址要素及其對應(yīng)的取送點,結(jié)果如表3所示。例如“朝陽區(qū)建國路乙118號京匯大廈三層人事部”這個快遞地址,過濾停用字符并地址分詞后,得到最小地址要素集合{建國路,京匯大廈},這組最小地址要素對應(yīng)的取送點為990060。然后,統(tǒng)計出最小地址要素對應(yīng)各取送點的總次數(shù),得出每個最小地址要素對應(yīng)到各取送點的頻率分布情況,結(jié)果如表4所示。在示例標記數(shù)據(jù)中,“建國路”這個最小地址要素對應(yīng)取送點990060的總次數(shù)為3,對應(yīng)取送點990030的總次數(shù)為2。訓練數(shù)據(jù)中所有快遞地址提取出的最小地址要素總數(shù)為m,取送點的總數(shù)為n,那么最小地址要素對應(yīng)到各取送點的頻率分布情況可以用一個m×n的矩陣F表示,F(xiàn)中第i行第j列元素fij為最小地址要素i對應(yīng)取送點j的總次數(shù)。同時,統(tǒng)計出每個最小地址要素對應(yīng)到的取送點的總數(shù),本文將其稱為最小地址要素的區(qū)分度系數(shù)d。根據(jù)示例訓練數(shù)據(jù)求得的最小地址要素對應(yīng)取送點的概率分布和區(qū)分度系數(shù)分別如表5、表6所示?!敖▏贰睂?yīng)取送點990060的概率=3/(3+2)=0.6,對應(yīng)取送點990030的概率=2/(3+2)=0.4。由于“建國路”既對應(yīng)取送點990060,也對應(yīng)取送點990030,因此它的區(qū)分度系數(shù)d=2。至此,基于概率統(tǒng)計的地址分類模型訓練完成。2.4地地地址址址的的的分分分類類類方方方法法法應(yīng)用基于概率統(tǒng)計的地址分類模型對快遞地址進行分類時,先過濾掉待分類快遞地址中的停用字符并對其進行地址分詞,得到一組最小地址要素,表示為字符串集合Pr={p1,p2,…,pk},k為最小地址要素的總數(shù)。
本節(jié)通過實驗對本文提出的基于概率統(tǒng)計分類模型的快遞地址自動分類方法進行性能評估,選取訓練用時、分類用時、準確率和拒絕率作為評價指標。其中,本文對地址自動分類的準確率和拒絕率的定義如下:拒絕率=無法分類的地址總數(shù)/待分類地址總數(shù)準確率=正確分類的地址總數(shù)/(待分類地址總數(shù)無法分類的地址總數(shù))
本文選取某快遞公司提供的已人工標記取送點分類結(jié)果的北京地區(qū)快遞地址作為實驗數(shù)據(jù),從中隨機選取63535條作為訓練數(shù)據(jù),2000條作為測試數(shù)據(jù)。通過本文提出的基于概率統(tǒng)計分類模型的快遞地址自動分類方法對2000條測試數(shù)據(jù)完成自動分類后,將自動分類結(jié)果與原始的人工標記結(jié)果進行對比,對本文提出的快遞地址自動分類方法的性能做出評價。實驗的軟硬件環(huán)境如下:CPU:IntelCorei52400,3.10GHz,雙核;內(nèi)存:4.0GB;Cache:一級數(shù)據(jù)緩存128KB,一級指令緩存128KB,二級緩存1MB;操作系統(tǒng):Windows7專業(yè)版,32位;編譯平臺:VisualStudio2010;編程語言:C++。3.2實實實驗驗驗結(jié)結(jié)結(jié)果果果與與與分分分析析析本文測試了應(yīng)用基于概率統(tǒng)計的地址分類模型進行快遞地址自動分類的效果,測試結(jié)果如表7和圖2所示,由測試結(jié)果可以看出:(1)基于概率統(tǒng)計的地址分類模型的訓練速度快,對快遞地址進行自動分類的分類用時短。采用63535條數(shù)據(jù)對模型進行訓練的平均訓練用時約為5.19s,對2000條待分類地址的分類用時平均約為0.85s,分類速度達到每條0.43ms。(2)置信閾值S(定義詳見2.4節(jié))決定了地址自動分類的準確率和拒絕率。S值越大,地址自動分類的準確率越高,拒絕率也越高;反之,S值越小,地址自動分類的準確率越低,拒絕率也會相應(yīng)越低。應(yīng)用本文提出的快遞地址自動分類方法時,應(yīng)根據(jù)實際的應(yīng)用需求選擇合適的S值,在自動分類的準確率和效率間合理權(quán)衡。(3)置信閾值S為0.75時地址自動分類的準確率為99%,拒絕率為9.3%,可以滿足大多數(shù)應(yīng)用場合的需求。
隨著互聯(lián)網(wǎng)技術(shù)特別是移動互聯(lián)網(wǎng)技術(shù)的進一步普及,我國的電子商務(wù)產(chǎn)業(yè)規(guī)模將進一步擴大。作為電子商務(wù)的支撐行業(yè),快遞行業(yè)必然迎來新的機遇和挑戰(zhàn)。本文介紹的基于概率統(tǒng)計分類模型的快遞地址自動分類方法可以快速、準確地對快遞地址所屬的取送點做出分類判別,提高包裹分揀中的自動化程度,加快分揀速度,降低人力和包裹存儲的成本。本文的快遞地址自動分類方法以基于概率統(tǒng)計的地址分類模型為核心,通過統(tǒng)計出的最小地址要素與取送點的概率分布關(guān)系對快遞地址進行分類。該方法適應(yīng)性強,對人工標記的訓練數(shù)據(jù)規(guī)模要求低,幾萬條訓練數(shù)據(jù)就可以滿足模型訓練的要求。因此,即使運營時間較短、人工分揀的快遞地址歷史數(shù)據(jù)較少的快遞公司也能應(yīng)用本文的方法。本文的研究工作針對北京地區(qū)的快遞分揀配送數(shù)據(jù),在下一步的工作中將繼續(xù)擴充訓練數(shù)據(jù)集,擴大概率統(tǒng)計分類模型的適用范圍。
作者:邵妍單位:北京郵電大學計算機學院