前言:本站為你精心整理了電子商務(wù)日志挖掘管理范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
[摘要]在電子商務(wù)中,根據(jù)客戶的訪問(wèn)數(shù)據(jù)挖掘出有價(jià)值的信息,進(jìn)而劃分客戶群體和發(fā)現(xiàn)潛在的客戶,從而提升業(yè)績(jī),對(duì)電子商務(wù)網(wǎng)站有重要的意義。Web日志挖掘是數(shù)據(jù)挖掘在Web頁(yè)面上的應(yīng)用,文章對(duì)Web日志挖掘進(jìn)行了介紹,給出了Web日志挖掘的步驟和方法,對(duì)Web日子挖掘工具進(jìn)行了分析,并介紹了其在電子商務(wù)網(wǎng)站中的應(yīng)用。
[關(guān)鍵詞]電子商務(wù)數(shù)據(jù)挖掘Web日志挖掘
一、引言
隨著計(jì)算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,電子商務(wù)的發(fā)展也有了越來(lái)越好的技術(shù)平臺(tái),許多公司都建立了自己的網(wǎng)站,這是公司的門戶和電子商務(wù)進(jìn)行的所在。Web數(shù)據(jù)挖掘是當(dāng)前最前沿的研究領(lǐng)域,是把Internet和數(shù)據(jù)挖掘結(jié)合起來(lái)的一種新興技術(shù)。Web數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的特定步驟,也是最核心的部分。Web日志挖掘是Web挖掘的重要內(nèi)容,其技術(shù)和方法在電子商務(wù)中有著巨大的應(yīng)用空間和應(yīng)用價(jià)值。如發(fā)現(xiàn)有價(jià)值的信息、尋找潛在客戶和提供個(gè)性化服務(wù)等。
二、Web挖掘及Web日志挖掘
Web挖掘是將數(shù)據(jù)挖掘的思想和方法應(yīng)用到Web頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶訪問(wèn)信息等各種Web數(shù)據(jù)中,從中抽取隱含的、以前未知的、具有潛在應(yīng)用價(jià)值的信息。根據(jù)挖掘的對(duì)象不同,Web挖掘可分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web日志挖掘。
1.Web內(nèi)容挖掘
Web內(nèi)容挖掘主要從Web文檔的內(nèi)容中抽取出有用的知識(shí)。由于Web文檔的絕大部分內(nèi)容是以文本的形式存在,所以Web內(nèi)容挖掘主要針對(duì)的是Web文檔的文本部分,文本挖掘主要包括對(duì)Web文檔文本的總結(jié)、分類、聚類、關(guān)聯(lián)分析等。除了文本挖掘以外,Web內(nèi)容挖掘還包括Web上的聲音、圖形、圖像信息的挖掘、數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘和信息獲取等。
2.Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘主要通過(guò)Web頁(yè)的組織結(jié)構(gòu)和超鏈接關(guān)系以及Web文檔自身的結(jié)構(gòu)信息(如Title,Heading,Anchor標(biāo)記等)推導(dǎo)出Web內(nèi)容以外的知識(shí),可分為超鏈挖掘、內(nèi)部結(jié)構(gòu)挖掘和URL挖掘。
3.Web日志挖掘
Web日志挖掘即Web使用記錄挖掘,是從用戶的訪問(wèn)記錄中抽取具有意義的模式。其數(shù)據(jù)源有服務(wù)器的日志、用戶注冊(cè)數(shù)據(jù)、跟蹤文件的數(shù)據(jù)記錄、用戶訪問(wèn)期間的事務(wù)、用戶查詢、書(shū)簽數(shù)據(jù)和鼠標(biāo)移動(dòng)點(diǎn)擊的信息。Web日志記錄挖掘應(yīng)用的技術(shù)主要有路徑分析、關(guān)聯(lián)規(guī)則分析、序列模式分析、聚類分析、統(tǒng)計(jì)分析等。Web使用記錄挖掘可以發(fā)現(xiàn)潛在的用戶、改進(jìn)電子商務(wù)網(wǎng)站的建設(shè)、增加個(gè)性化服務(wù)等。
三、Web日志挖掘的步驟
Web日志挖掘步驟主要分為源數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式分析4個(gè)階段。
1.源數(shù)據(jù)收集
源數(shù)據(jù)收集主要是Web日志文件的收集。對(duì)于一個(gè)電子商務(wù)網(wǎng)站來(lái)說(shuō),經(jīng)過(guò)一段時(shí)間后,用戶會(huì)在網(wǎng)站上積累大量有用的信息(如訪問(wèn)日志、注冊(cè)信息、需求信息、定單信息、交流信息等),采用Web日志挖掘技術(shù)就可以充分利用這些有用信息,幫助電子商務(wù)網(wǎng)站的建設(shè)和發(fā)展。
Web日志文件主要包括以下3種類型:服務(wù)器日志文件、錯(cuò)誤日志文件和Cookies。
2.數(shù)據(jù)預(yù)處理
Web日志挖掘首先要對(duì)日志中的原始數(shù)據(jù)進(jìn)行預(yù)處理,因?yàn)閺挠脩舻脑L問(wèn)日志中得到的原始日志記錄并不適于挖掘,必須進(jìn)行適當(dāng)?shù)奶幚?。因此,需要通過(guò)日志清理,去除無(wú)用的記錄。預(yù)處理過(guò)程是保證Web日志挖掘質(zhì)量的關(guān)鍵步驟,下面我們來(lái)闡述數(shù)據(jù)預(yù)處理的過(guò)程。
(1)數(shù)據(jù)凈化。指刪除Web服務(wù)器日志中與挖掘算法無(wú)關(guān)的數(shù)據(jù)。大多數(shù)情況,只有日志中HTML文件與用戶會(huì)話相關(guān),所以通過(guò)檢查URL的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)。
(2)識(shí)別用戶。由于本地緩存、服務(wù)器和防火墻的存在,使得識(shí)別用戶的任務(wù)變得很復(fù)雜,可以使用一些啟發(fā)式規(guī)則幫助識(shí)別用戶。
(3)識(shí)別用戶會(huì)話。用戶會(huì)話是指用戶對(duì)服務(wù)器的一次有效訪問(wèn),通過(guò)其連續(xù)請(qǐng)求的頁(yè)面,我們可以獲得他在網(wǎng)站中的訪問(wèn)行為和瀏覽興趣。
(4)識(shí)別片段。在識(shí)別用戶會(huì)話過(guò)程中的另一個(gè)問(wèn)題是確定訪問(wèn)日志中是否有重要的請(qǐng)求沒(méi)有被記錄。如果當(dāng)前請(qǐng)求頁(yè)與用戶上一次請(qǐng)求頁(yè)之間沒(méi)有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK”按鈕調(diào)用緩存在本機(jī)中的頁(yè)面。檢查引用日志確定當(dāng)前請(qǐng)求來(lái)自哪一頁(yè),如果在用戶的歷史訪問(wèn)記錄上有多個(gè)頁(yè)面都包含與當(dāng)前請(qǐng)求頁(yè)的鏈接,則將請(qǐng)求時(shí)間最接近當(dāng)前請(qǐng)求頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來(lái)源。
3.模式發(fā)現(xiàn)
模式發(fā)現(xiàn)是運(yùn)用各種算法和技術(shù)對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。這些技術(shù)包括人工智能、數(shù)據(jù)挖掘、統(tǒng)計(jì)理論、信息論等多領(lǐng)域的成熟技術(shù)??梢赃\(yùn)用數(shù)據(jù)挖掘中的常用技術(shù)如路徑分析,關(guān)聯(lián)規(guī)則、序列模式以及分類聚類等。
(1)路徑分析。它可以被用于判定在一個(gè)站點(diǎn)中最頻繁訪問(wèn)的路徑,還有一些其它的有關(guān)路徑的信息通過(guò)路徑分析可以得出。利用這些信息就可以改進(jìn)站點(diǎn)的設(shè)計(jì)結(jié)構(gòu)。
(2)關(guān)聯(lián)規(guī)則。使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法,可以從Web的訪問(wèn)事務(wù)中找到相關(guān)性。利用這些相關(guān)性,可以更好的組織站點(diǎn)的Web空間。
(3)序列模式。在時(shí)間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指那些如“一些項(xiàng)跟隨另一個(gè)項(xiàng)”這樣的內(nèi)部事務(wù)模式。發(fā)現(xiàn)序列模式,能夠便于預(yù)測(cè)讀者的訪問(wèn)模式,開(kāi)展有針對(duì)性的服務(wù)。
(4)分類和聚類。發(fā)現(xiàn)分類規(guī)則可以給出識(shí)別一個(gè)特殊群體的公共屬性的描述,這種描述可以用于分類的讀者。聚類分析可以從Web訪問(wèn)信息數(shù)據(jù)中聚類出具有相似特性的讀者,在Web事務(wù)日志中,聚類讀者信息或數(shù)據(jù)項(xiàng)能夠便于開(kāi)發(fā)和設(shè)計(jì)未來(lái)的服務(wù)模式和服務(wù)群體。
4.模式分析
該階段實(shí)現(xiàn)對(duì)用戶訪問(wèn)模式的分析,基本作用是排除模式發(fā)現(xiàn)中沒(méi)有價(jià)值的規(guī)則模式,從而將有價(jià)值的模式提取出來(lái)。
四、Web日志挖掘在電子商務(wù)網(wǎng)站中的應(yīng)用
1.電子商務(wù)網(wǎng)站中Web日志挖掘內(nèi)容
(1)網(wǎng)站的概要統(tǒng)計(jì)。網(wǎng)站的概要統(tǒng)計(jì)包括分析覆蓋的時(shí)間、總的頁(yè)面數(shù)、訪問(wèn)數(shù)、會(huì)話數(shù)、惟一訪問(wèn)者、以及平均訪問(wèn)、最高訪問(wèn)、上周訪問(wèn)、昨日訪問(wèn)等結(jié)果集。
(2)內(nèi)容訪問(wèn)分析。內(nèi)容訪問(wèn)分析包括最多及最少被訪問(wèn)的頁(yè)面、最多訪問(wèn)路徑、最多訪問(wèn)的新聞、最高訪問(wèn)的時(shí)間等。
(3)客戶信息分析。客戶信息分析包括訪問(wèn)者的來(lái)源省份統(tǒng)計(jì)、訪問(wèn)者使用的瀏覽器及操作系統(tǒng)分析、訪問(wèn)來(lái)自的頁(yè)面或者網(wǎng)站、來(lái)自的IP地址以及訪問(wèn)者使用的搜索引擎。
(4)訪問(wèn)者活動(dòng)周期行為分析。訪問(wèn)者活動(dòng)周期行為分析包括一周7天的訪問(wèn)行為、一天24小時(shí)的訪問(wèn)行為、每周的最多的訪問(wèn)日、每天的最多訪問(wèn)時(shí)段等。
(5)主要訪問(wèn)錯(cuò)誤分析。主要訪問(wèn)錯(cuò)誤分析包括服務(wù)端錯(cuò)誤、頁(yè)面找不到錯(cuò)誤等。
(6)網(wǎng)站欄目分析。網(wǎng)站欄目分析包括定制的頻道和欄目設(shè)定,統(tǒng)計(jì)出各個(gè)欄目的訪問(wèn)情況,并進(jìn)行分析。
(7)商務(wù)網(wǎng)站擴(kuò)展分析。商務(wù)網(wǎng)站擴(kuò)展分析是專門針對(duì)專題或多媒體文件或下載等內(nèi)容的訪問(wèn)分析。
2.Web日志挖掘工具
已經(jīng)有部分公司開(kāi)發(fā)出了商用的網(wǎng)站用戶訪問(wèn)分析系統(tǒng),如WebTrends公司的CommerceTrends3.0,它能夠讓電子商務(wù)網(wǎng)站更好地理解其網(wǎng)站訪問(wèn)者的行為,幫助網(wǎng)站采取一些行動(dòng)來(lái)將這些訪問(wèn)者變?yōu)轭櫩?。CommerceTrends主要由3部分組成:ReportGenerationServer、CampainAnalyzer和WebhouseBuilder。
還有Accrue公司的AccrueInsight,它是一個(gè)綜合性的Web分析工具,它能夠?qū)W(wǎng)站的運(yùn)行狀況有個(gè)深入、細(xì)致和準(zhǔn)確的分析,通過(guò)分析顧客的行為模式,幫助網(wǎng)站采取措施來(lái)提高顧客對(duì)于網(wǎng)站的忠誠(chéng)度,從而建立長(zhǎng)期的顧客關(guān)系。
五、結(jié)束語(yǔ)
電子商務(wù)在快速增長(zhǎng),有非常好的前景。Web日志挖掘是數(shù)據(jù)挖掘中的前沿技術(shù),應(yīng)用Web日志挖掘技術(shù),能使電子商務(wù)網(wǎng)站資源的配置更合理化,能發(fā)現(xiàn)隱含的有價(jià)值的信息,改進(jìn)網(wǎng)站設(shè)計(jì),找到潛在的客戶、為已有客戶提供更好的個(gè)性化服務(wù)。Web日志挖掘技術(shù)和Web內(nèi)容挖掘技術(shù)、Web結(jié)構(gòu)挖掘技術(shù)的結(jié)合使用可進(jìn)一步完善和提高電子商務(wù)網(wǎng)站的功能,這是我們今后所要探討的。