在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

電子商務(wù)應(yīng)用

前言:本站為你精心整理了電子商務(wù)應(yīng)用范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。

[摘要]近年來(lái),隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,由于www在全球互連互通,可以從中取得的數(shù)據(jù)量難以計(jì)算,而且www的發(fā)展趨勢(shì)繼續(xù)看好,特別是電子商務(wù)的蓬勃發(fā)展為網(wǎng)絡(luò)應(yīng)用提供了強(qiáng)大支持,如何在www這個(gè)全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息正在成為數(shù)據(jù)挖掘研究的熱點(diǎn)。

[關(guān)鍵詞]web數(shù)據(jù)挖掘電子商務(wù)

一、引言

隨著以數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)為基礎(chǔ)的信息系統(tǒng)在各行各業(yè)的應(yīng)用,使海量數(shù)據(jù)不斷產(chǎn)生。隨之而來(lái)的問(wèn)題是如此多的數(shù)據(jù)讓人難以消化,無(wú)法從表面上看出他們所蘊(yùn)涵的有用信息。如何從大量的數(shù)據(jù)中找到真正有用的信息成為人們關(guān)注的焦點(diǎn),數(shù)據(jù)挖掘技術(shù)也正是伴隨著這種需求從研究走向應(yīng)用。

近年來(lái),隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,由于Internet/WWW在全球互連互通,可以從中取得的數(shù)據(jù)量難以計(jì)算,而且Internet/WWW的發(fā)展趨勢(shì)繼續(xù)看好,特別是電子商務(wù)的蓬勃發(fā)展為網(wǎng)絡(luò)應(yīng)用提供了強(qiáng)大支持,如何在WWW這個(gè)全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息無(wú)疑將成為數(shù)據(jù)挖掘研究的熱點(diǎn)。

二、Web挖掘概述

數(shù)據(jù)挖掘就是從數(shù)據(jù)庫(kù)中抽取隱含的、以前未知的、具有潛在應(yīng)用價(jià)值的信息的過(guò)程。Web挖掘是將數(shù)據(jù)挖掘的思想和方法應(yīng)用到Web頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶訪問(wèn)信息等各種Web數(shù)據(jù)中,從中抽取隱含的、以前未知的、具有潛在應(yīng)用價(jià)值的信息。Web挖掘?qū)υ诤棋木W(wǎng)絡(luò)中發(fā)現(xiàn)有價(jià)值的知識(shí)、改進(jìn)網(wǎng)站設(shè)計(jì)、提供更好的網(wǎng)上服務(wù)有重要的作用。

Web挖掘是針對(duì)包括Web頁(yè)面內(nèi)容,頁(yè)面之間的結(jié)構(gòu),用戶訪問(wèn)信息等在內(nèi)的各種Web數(shù)據(jù)源。在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)現(xiàn)有用的隱含的知識(shí)的過(guò)程。Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有其自身的特點(diǎn)。Web本身是半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的數(shù)據(jù),缺乏機(jī)器可理解的語(yǔ)義,Web挖掘的對(duì)象是大量,異質(zhì),分布的Web文檔,對(duì)Web服務(wù)器上的日志、用戶信息等數(shù)據(jù)所開(kāi)展的挖掘工作也屬于Web數(shù)據(jù)挖掘的范疇。Web信息的多樣性決定了挖掘任務(wù)的多樣性。按照Web處理對(duì)象的不同,一般將Web挖掘分為三類:Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘和Web使用記錄挖掘。

1.Web內(nèi)容挖掘

Web內(nèi)容挖掘是指對(duì)Web頁(yè)面及后臺(tái)交易數(shù)據(jù)庫(kù)進(jìn)行挖掘,從Web文檔內(nèi)容及其描述中的內(nèi)容信息中獲取有價(jià)值的知識(shí)的過(guò)程。它是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理上的應(yīng)用,主要方法有IR(informationretrieve)和數(shù)據(jù)庫(kù)方法。它又可分為Web文本挖掘和Web多媒體挖掘兩種數(shù)據(jù)挖掘方式。Web內(nèi)容挖掘多為這種方式的挖掘,它和平常的平面文本挖掘的功能及方法比較類似。Web文檔多為HTML、XML等自然語(yǔ)言,因此可利用Web文檔中的標(biāo)記,利用這些信息可以提高Web文本挖掘的性能。在對(duì)Web文檔進(jìn)行分類分析中,可以基于一組預(yù)先分好的文檔為每一類文檔賦予一個(gè)類標(biāo)簽。由于超鏈接里包括了有關(guān)頁(yè)面內(nèi)容的高質(zhì)量信息,因此可以利用這些信息對(duì)文檔進(jìn)行分類,并且這種分類比基于關(guān)鍵字的分類更加準(zhǔn)確。隨著網(wǎng)絡(luò)帶寬的擴(kuò)大,多媒體信息在網(wǎng)上迅速增加,這對(duì)Web內(nèi)容挖掘提出了新的要求。Web多媒體挖掘的挖掘主要是指基于音頻的挖掘、基于圖片的靜態(tài)圖像的挖掘和基于視頻的動(dòng)態(tài)圖像的挖掘。

2.Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘是對(duì)Web的組織結(jié)構(gòu)和鏈接關(guān)系進(jìn)行挖掘,從人為的鏈接關(guān)系中獲得有價(jià)值的知識(shí)。由于文檔之間互連,WWW能提供除文檔內(nèi)容以外的有用信息。Web結(jié)構(gòu)挖掘通過(guò)分析一個(gè)網(wǎng)頁(yè)鏈接和被鏈接的網(wǎng)頁(yè)數(shù)量和對(duì)象,建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁(yè)分類,并由此獲得有關(guān)不同頁(yè)面間的相似度和關(guān)聯(lián)度的信息。Web頁(yè)面除了包含頁(yè)面以外還包括一個(gè)頁(yè)面指向另一個(gè)頁(yè)面的超鏈接。超鏈接里包含大量人類潛在的語(yǔ)義,它可用于分析出權(quán)威性語(yǔ)義。當(dāng)一個(gè)Web頁(yè)面的作者建立指向另一個(gè)頁(yè)面的指針時(shí),可以看作是作者對(duì)另一個(gè)頁(yè)面的注解,即對(duì)另一個(gè)頁(yè)面的認(rèn)可。把一個(gè)頁(yè)面的來(lái)自不同作者的注解收集起來(lái),可以用來(lái)反應(yīng)頁(yè)面的重要性。這樣,Web結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn)。

3.Web使用記錄挖掘

Web使用記錄挖掘是對(duì)用戶訪問(wèn)Web時(shí)在服務(wù)器上留下的訪問(wèn)記錄進(jìn)行挖掘。它通過(guò)挖掘Web日志文件及其相關(guān)數(shù)據(jù)來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式,主要技術(shù)有Cookies和遠(yuǎn)程Agent技術(shù)。Web使用記錄挖掘的對(duì)象不是網(wǎng)上的原始數(shù)據(jù)而是從用戶和網(wǎng)絡(luò)交互過(guò)程中抽取出來(lái)的二手?jǐn)?shù)據(jù)。服務(wù)器上的日志文件包括所請(qǐng)求的URL、發(fā)送請(qǐng)求的IP和時(shí)間,這些日志提供了有關(guān)Web動(dòng)態(tài)的豐富信息。因此提取用戶留下的這些日志文件進(jìn)行Web挖掘,提取有關(guān)用戶的知識(shí),對(duì)用戶的訪問(wèn)行為、頻度、內(nèi)容進(jìn)行分析,得到關(guān)于用戶的行為和方式的模式,從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€(gè)性化服務(wù)。對(duì)用戶使用記錄進(jìn)行挖掘的方法主要有兩種。一種方法是通過(guò)對(duì)日志文件進(jìn)行分析,包含兩種方式,一是訪問(wèn)前先進(jìn)行預(yù)處理,即將日志數(shù)據(jù)映射為關(guān)系表采用相應(yīng)的數(shù)據(jù)挖掘技術(shù),如關(guān)聯(lián)規(guī)則或聚類規(guī)則來(lái)訪問(wèn)日志文件。二是對(duì)日志文件直接進(jìn)行訪問(wèn)以獲取用戶的導(dǎo)航信息。二是通過(guò)對(duì)用戶的點(diǎn)擊事件的收集和分析來(lái)發(fā)現(xiàn)用戶的導(dǎo)航行為。

三、Web挖掘的主要技術(shù)

Web數(shù)據(jù)挖掘中常用的技術(shù)有路徑分析技術(shù)、關(guān)聯(lián)規(guī)則、序列模式、分類聚類技術(shù)等。

1.關(guān)聯(lián)規(guī)則挖掘技術(shù)

該技術(shù)主要用于從學(xué)習(xí)者訪問(wèn)序列數(shù)據(jù)庫(kù)的序列項(xiàng)中挖掘出相關(guān)的規(guī)則。在Web數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則挖掘就是要挖掘出學(xué)習(xí)者在一個(gè)訪問(wèn)期間(Session)從服務(wù)器問(wèn)的頁(yè)面/文件之間的聯(lián)系,這些頁(yè)面之間可能并不存在直接的參引(Reference)關(guān)系。在網(wǎng)絡(luò)日志數(shù)據(jù)的預(yù)處理過(guò)程中,將學(xué)習(xí)者訪問(wèn)的頁(yè)面路徑構(gòu)成了學(xué)習(xí)者會(huì)話事務(wù)集,可以通過(guò)關(guān)聯(lián)規(guī)則挖掘得到大量的學(xué)習(xí)者訪問(wèn)請(qǐng)求的URL之間的聯(lián)系,并將挖掘出的規(guī)則按照不同的支持度和置信度進(jìn)行取舍,從而保留一些有用的規(guī)則進(jìn)行應(yīng)用。

2.序列模式挖掘技術(shù)

序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時(shí)間序列的模式。在網(wǎng)站服務(wù)器日志里,學(xué)習(xí)者的訪問(wèn)是以一段時(shí)間為單位記載的。經(jīng)過(guò)數(shù)據(jù)凈化和事件交易確認(rèn)以后是一個(gè)間斷的時(shí)間序列,這些序列反映了學(xué)習(xí)者一定的行為。在網(wǎng)絡(luò)日志文件的預(yù)處理過(guò)程中,抽取了學(xué)習(xí)者對(duì)于每個(gè)URL瀏覽所耗用的時(shí)間,這種元數(shù)據(jù)從側(cè)面描繪出每個(gè)學(xué)習(xí)者對(duì)于頁(yè)面上承載的知識(shí)點(diǎn)的理解程度和思考難度,引用時(shí)間長(zhǎng)的證明此頁(yè)面承載的知識(shí)點(diǎn)比較難于理解。通過(guò)分析可以得出學(xué)習(xí)者對(duì)特定知識(shí)點(diǎn)的掌握程度。但由于網(wǎng)路線路的原因,致使學(xué)習(xí)者在提出URL請(qǐng)求后,很長(zhǎng)時(shí)間才將相應(yīng)的網(wǎng)頁(yè)打開(kāi),所以這種由日志中記錄的瀏覽時(shí)間所分析出的各種模式規(guī)則并不一定真實(shí)反映學(xué)習(xí)者的學(xué)習(xí)過(guò)程,所以我們利用序列模式挖掘方式預(yù)測(cè)出學(xué)習(xí)者后續(xù)要訪問(wèn)的頁(yè)面集,然后將此頁(yè)面集中的URL預(yù)先下載到本地計(jì)算機(jī)的緩存中去,從而降低了頁(yè)面的打開(kāi)時(shí)間,也就使得瀏覽時(shí)間的準(zhǔn)確性和有效性得到了很大的提高。這種Web頁(yè)面的預(yù)取技術(shù)是利用序列模式挖掘方法來(lái)實(shí)現(xiàn)的。

3.聚類分類技術(shù)

聚類技術(shù)可以將具有相同特征的數(shù)據(jù)項(xiàng)聚成一類。聚類分析模式就是將數(shù)據(jù)劃分到不同的組或者簇中,組之間的差別盡可能的大,組內(nèi)的差別盡可能的小,與一般認(rèn)為通過(guò)學(xué)習(xí)者的固定信息進(jìn)行的分類分析不同,聚類前并不知道將要?jiǎng)澐殖蓭讉€(gè)組和什么樣的組,完全依靠服務(wù)器智能化的計(jì)算得出,因此聚類分析也可以稱為無(wú)監(jiān)督分類。通過(guò)聚類得出不同的類后,一旦某學(xué)習(xí)者的特征模式符合某個(gè)類后,推薦引擎自動(dòng)將此學(xué)習(xí)者尚未訪問(wèn)的頁(yè)面或者尚未進(jìn)行的測(cè)試與練習(xí)推薦給學(xué)習(xí)者。這樣就可以智能化地將處在不同學(xué)習(xí)階段的學(xué)習(xí)者得到此類應(yīng)該獲得的學(xué)習(xí)和測(cè)試進(jìn)程。

4.路徑分析技術(shù)

用路徑分析技術(shù)進(jìn)行Web使用模式的數(shù)據(jù)挖掘時(shí),最常用的是圖。因?yàn)橐粋€(gè)圖代表了定義在網(wǎng)站上的頁(yè)面之間的聯(lián)系。圖最直接的來(lái)源是網(wǎng)站結(jié)構(gòu)圖,網(wǎng)站上的頁(yè)面定義成節(jié)點(diǎn),頁(yè)面之間的超鏈接定義成圖中的邊。其他的各式各樣的圖也都是建立在頁(yè)面和頁(yè)面之間聯(lián)系或者是一定數(shù)量的學(xué)習(xí)者瀏覽頁(yè)面順序基礎(chǔ)之上的。那么,基于Web使用模式的數(shù)據(jù)挖掘,就是從圖中確定最頻繁的路徑訪問(wèn)模式或大的參引訪問(wèn)序列。

四、Web挖掘在電子商務(wù)中的應(yīng)用

1.Web挖掘數(shù)據(jù)的來(lái)源

在Web挖掘中,一個(gè)關(guān)鍵性步驟是為Web挖掘提供合適的數(shù)據(jù)即挖掘?qū)ο?。同樣,把Web挖掘技術(shù)應(yīng)用到電子商務(wù)中,也需要選擇合適的目標(biāo)數(shù)據(jù)集合。電子商務(wù)網(wǎng)站每天都可能有上百萬(wàn)次的在線交易,生成大量的記錄文件和登記表。這些數(shù)據(jù)具體分為以下幾種:

(1)服務(wù)器日志數(shù)據(jù)

Web服務(wù)器日志記錄了用戶訪問(wèn)電子商務(wù)站點(diǎn)的瀏覽行為,是使用Web挖掘的主要數(shù)據(jù)來(lái)源。日志文件格式中最常用的公用日志格式(CommonLogFormat)提供了關(guān)于訪問(wèn)者物理訪問(wèn)站點(diǎn)的信息。

(2)Cookie日志數(shù)據(jù)

Cookie日志是服務(wù)器為了自動(dòng)跟蹤電子商務(wù)網(wǎng)站訪問(wèn)者而為單個(gè)瀏覽器生成的標(biāo)志。用于自動(dòng)標(biāo)記和跟蹤站點(diǎn)的訪問(wèn)者,并由客戶端持有。Cookie通常存儲(chǔ)的是類似于購(gòu)物手推車(chē)狀態(tài)信息或者客戶最近連接電子商務(wù)網(wǎng)站所訪問(wèn)的網(wǎng)頁(yè)等信息。在電子商務(wù)網(wǎng)站,存儲(chǔ)在Cookie日志的數(shù)據(jù)主要是交易信息。

(3)客戶信息

在電子商務(wù)的交易過(guò)程中,須經(jīng)過(guò)銀行的信用授權(quán)才能進(jìn)行交易。在這一過(guò)程中,大量有關(guān)客戶的個(gè)人資料等信息會(huì)傳到電子商務(wù)網(wǎng)站。把這些數(shù)據(jù)經(jīng)過(guò)清洗,然后存入網(wǎng)站的數(shù)據(jù)倉(cāng)庫(kù)中作為長(zhǎng)期趨勢(shì)的分析數(shù)據(jù),供數(shù)據(jù)挖掘之用。所需的數(shù)據(jù)類型取決于在線購(gòu)物時(shí)的商業(yè)類型和所使用的數(shù)據(jù)本身。

(4)其他數(shù)據(jù)源

電子商務(wù)是基于Internet進(jìn)行各種交易的,在其上面有大量的異質(zhì)數(shù)據(jù)源,里面隱含了大量的有價(jià)值的信息有待挖掘??梢岳弥悄蹵gent來(lái)進(jìn)行抽取而獲得有用的信息,有助于電子商務(wù)活動(dòng)的開(kāi)展。

2.電子商務(wù)中Web挖掘的過(guò)程

在電子商務(wù)環(huán)境下,主要的挖掘?qū)ο笫欠?wù)器日志。其主要步驟如下。

(1)數(shù)據(jù)預(yù)處理

由于本地緩存、服務(wù)器、防火墻的存在,使得Web日志中的數(shù)據(jù)并不精確,直接進(jìn)行挖掘有可能出現(xiàn)錯(cuò)誤結(jié)果。因此首先對(duì)日志數(shù)據(jù)進(jìn)行預(yù)處理,它包括數(shù)據(jù)凈化、用戶會(huì)話和事務(wù)識(shí)別等。數(shù)據(jù)清洗主要是刪除與挖掘算法無(wú)關(guān)的記錄、判斷是否有重要的訪問(wèn)沒(méi)有被記錄;用戶會(huì)話是一個(gè)用戶在一定時(shí)間內(nèi)請(qǐng)求的所有Web頁(yè)面;事務(wù)識(shí)別主要是將頁(yè)面訪問(wèn)序列劃分為代表Web事務(wù)或用戶會(huì)話的邏輯單元。

(2)模式發(fā)現(xiàn)

模式發(fā)現(xiàn)階段是采用統(tǒng)計(jì)法、機(jī)器學(xué)習(xí)法等成熟技術(shù),從Web使用記錄中挖掘知識(shí)。與電子商務(wù)有關(guān)的模式發(fā)現(xiàn)的方法有統(tǒng)計(jì)分析、聚類規(guī)則和依賴性建模。統(tǒng)計(jì)分析是抽取有關(guān)電子商務(wù)網(wǎng)站訪問(wèn)者的最常用的方法??梢岳锰卣鬟x擇方法來(lái)分析網(wǎng)頁(yè),就能分析出網(wǎng)頁(yè)的某個(gè)特征的點(diǎn)擊流次數(shù),根據(jù)獲得的結(jié)果調(diào)整網(wǎng)頁(yè)的內(nèi)容和鏈接結(jié)構(gòu)。聚類規(guī)則是從一組數(shù)據(jù)項(xiàng)中聚集出相似特征的一個(gè)聚類。在電子商務(wù)中,大致可分為兩類聚類:用戶聚類和網(wǎng)頁(yè)聚類。利用聚類的規(guī)則可以分析顧客的信息便以開(kāi)展電子商務(wù)活動(dòng)。依賴性建模的目標(biāo)是開(kāi)發(fā)出一種能表達(dá)Web域中各變量顯著依賴性的模型。這種模型是根據(jù)已存在的Web數(shù)據(jù),然后抽象出這些數(shù)據(jù)內(nèi)在關(guān)系的模型。模型的建立對(duì)增加網(wǎng)上產(chǎn)品的銷量和改進(jìn)用戶導(dǎo)航的便利性都有很大的作用。除此以外,還有關(guān)聯(lián)規(guī)則、分類、序列模式等其他的模式發(fā)現(xiàn)方法在電子商務(wù)的Web挖掘中有較大應(yīng)用。

(3)模式分析

模式分析主要是采用合適的技術(shù)和工具,進(jìn)行模式的分析來(lái)輔助分析人員的理解。最常見(jiàn)的模式分析方法是采用SQL查詢語(yǔ)句進(jìn)行分析。另一種分析方法是先將數(shù)據(jù)導(dǎo)入到多維數(shù)據(jù)立方體中,再利用OLAP工具進(jìn)行分析并提供可視化的結(jié)果輸出。設(shè)計(jì)出滿足于不同客戶群體需要的個(gè)性化網(wǎng)站,進(jìn)而增加其競(jìng)爭(zhēng)力是電子商務(wù)網(wǎng)站生存和發(fā)展的關(guān)鍵因素。

把Web挖掘的思想和方法應(yīng)用到電子商務(wù)中去,通過(guò)對(duì)用戶訪問(wèn)行為、內(nèi)容和頻度的分析,就可以得到關(guān)于群體用戶訪問(wèn)行為的信息。利用這些挖掘到的有價(jià)值的信息,電子商務(wù)網(wǎng)站可以有針對(duì)性的開(kāi)展商務(wù)活動(dòng)。因此,Web挖掘在電子商務(wù)領(lǐng)域有很大的應(yīng)用前景。

西安市| 灌阳县| 西和县| 衡南县| 子洲县| 玛多县| 平乡县| 郑州市| 蚌埠市| 平陆县| 汽车| 香港| 江油市| 焦作市| 涟水县| 无棣县| 莲花县| 宁蒗| 北辰区| 长沙市| 东至县| 翁牛特旗| 阳朔县| 黄大仙区| 陆川县| 黔东| 富蕴县| 务川| 伊金霍洛旗| 元谋县| 什邡市| 鹤庆县| 韩城市| 静乐县| 惠安县| 定边县| 北海市| 明溪县| 兴仁县| 高密市| 缙云县|