中文字幕综合一区,伊人av网,欧美中日韩在线,亚洲国产香蕉视频,黄视频在线免费,天天操天天爱天天爽,狠狠躁天天躁

軟題庫(kù) 培訓(xùn)課程
當(dāng)前位置:信管網(wǎng) >> 綜合知識(shí) >> 文章內(nèi)容
新技術(shù)專題:Web數(shù)據(jù)挖掘的研究現(xiàn)狀及發(fā)展
來(lái)源:信管網(wǎng) 2012年06月26日 【所有評(píng)論 分享到微信

Web數(shù)據(jù)挖掘的研究現(xiàn)狀及發(fā)展

楊慶躍  北京大學(xué)計(jì)算機(jī)系

摘要:

       隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,如何在這個(gè)全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息成為數(shù)據(jù)挖掘研究的熱點(diǎn)。本文概要介紹了Web數(shù)據(jù)挖掘在三個(gè)研究領(lǐng)域的研究現(xiàn)狀及發(fā)展。

關(guān)鍵詞:數(shù)據(jù)挖掘;Web挖掘;

1.Web挖掘概述

       隨著以數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)為基礎(chǔ)的信息系統(tǒng)在各行各業(yè)的應(yīng)用,使海量數(shù)據(jù)不斷產(chǎn)生。隨之而來(lái)的問(wèn)題是如此多的數(shù)據(jù)讓人難以消化,無(wú)法從表面上看出他們所蘊(yùn)涵的有用信息,更不用說(shuō)有效地指導(dǎo)進(jìn)一步的工作。如何從大量的數(shù)據(jù)中找到真正有用的信息成為人們關(guān)注的焦點(diǎn),數(shù)據(jù)挖掘技術(shù)也正是伴隨著這種需求從研究走向應(yīng)用。

       近年來(lái),隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,由于Internet/WWW在全球互連互通,可以從中取得的數(shù)據(jù)量難以計(jì)算,而且Internet/WWW的發(fā)展趨勢(shì)繼續(xù)看好,特別是電子商務(wù)的蓬勃發(fā)展為網(wǎng)絡(luò)應(yīng)用提供了強(qiáng)大支持,如何在WWW這個(gè)全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息無(wú)疑將成為數(shù)據(jù)挖掘研究的熱點(diǎn)。

       Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個(gè)研究領(lǐng)域,包括數(shù)據(jù)庫(kù)技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。

2.Web挖掘流程

       與傳統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動(dòng)態(tài)的、并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁(yè)上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過(guò)必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如下[3]:

1.  查找資源:任務(wù)是從目標(biāo)Web文檔中得到數(shù)據(jù),值得注意的是有時(shí)信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過(guò)Web形成的交易數(shù)據(jù)庫(kù)中的數(shù)據(jù)。

2.  信息選擇和預(yù)處理:任務(wù)是從取得的Web資源中剔除無(wú)用信息和將信息進(jìn)行必要的整理。例如從Web文檔中自動(dòng)去除廣告連接、去除多余格式標(biāo)記、自動(dòng)識(shí)別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。

3.  模式發(fā)現(xiàn):自動(dòng)進(jìn)行模式發(fā)現(xiàn)??梢栽谕粋€(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。

4.  模式分析:驗(yàn)證、解釋上一步驟產(chǎn)生的模式??梢允菣C(jī)器自動(dòng)完成,也可以是與分析人員進(jìn)行交互來(lái)完成。

Web挖掘作為一個(gè)完整的技術(shù)體系,在進(jìn)行挖掘之前的信息獲得IR(Information Retrieval)和信息抽取IE(Information Extraction)相當(dāng)重要。信息獲得(IR)的目的在于找到相關(guān)Web文檔,它只是把文檔中的數(shù)據(jù)看成未經(jīng)排序的詞組的集合,而信息抽取(IE)的目的在于從文檔中找到需要的數(shù)據(jù)項(xiàng)目,它對(duì)文檔的結(jié)構(gòu)合表達(dá)的含義感興趣,它得一個(gè)重要任務(wù)就是對(duì)數(shù)據(jù)進(jìn)行組織整理并適當(dāng)建立索引。

信息獲得(IR)和信息抽取(IE)技術(shù)的研究已近有很長(zhǎng)時(shí)間,隨著Web技術(shù)的發(fā)展,基于Web技術(shù)的IR、IE得到了更多的重視。由于Web 數(shù)據(jù)量非常大,而且可能動(dòng)態(tài)變化,用原來(lái)手工方式進(jìn)行信息收集早已經(jīng)力不從心,目前的研究方向是用自動(dòng)化、半自動(dòng)化的方法在Web上進(jìn)行IR和IE。在Web環(huán)境下既要處理非結(jié)構(gòu)化文檔,又要處理半結(jié)構(gòu)化的數(shù)據(jù),最近幾年在這兩方面都有相應(yīng)的研究成果和具體應(yīng)用,特別是在大型搜索引擎中得到了很好的應(yīng)用。

3.Web挖掘分類及各自的研究現(xiàn)狀及發(fā)展

根據(jù)對(duì)Web數(shù)據(jù)的感興趣程度不同,Web挖掘一般可以分為三類:Web內(nèi)容挖掘(Web Content mining)、 Web結(jié)構(gòu)挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)

3.1、Web內(nèi)容挖掘:

指從Web內(nèi)容/數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息,Web上的信息五花八門(mén),傳統(tǒng)的Internet由各種類型的服務(wù)和數(shù)據(jù)源組成,包括WWW、FTP、Telnet等,現(xiàn)在有更多的數(shù)據(jù)和端口可以使用,比如政府信息服務(wù)、數(shù)字圖書(shū)館、電子商務(wù)數(shù)據(jù),以及其他各種通過(guò)Web可以訪問(wèn)的數(shù)據(jù)庫(kù)。Web內(nèi)容挖掘的對(duì)象包括文本、圖象、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。其中針對(duì)無(wú)結(jié)構(gòu)化文本進(jìn)行的Web挖掘被歸類到基于文本的知識(shí)發(fā)現(xiàn)(KDT)領(lǐng)域,也稱文本數(shù)據(jù)挖掘或文本挖掘,是Web挖掘中比較重要的技術(shù)領(lǐng)域,也引起了許多研究者的關(guān)注。最近在Web多媒體數(shù)據(jù)挖掘方面的研究成為另一個(gè)熱點(diǎn)。

Web內(nèi)容挖掘一般從兩個(gè)不同的觀點(diǎn)來(lái)進(jìn)行研究。從資源查找(IR)的觀點(diǎn)來(lái)看,Web內(nèi)容挖掘的任務(wù)是從用戶的角度出發(fā),怎樣提高信息質(zhì)量和幫助用戶過(guò)濾信息。而從DB的角度講Web內(nèi)容挖掘的任務(wù)主要是試圖對(duì)Web上的數(shù)據(jù)進(jìn)行集成、建模,以支持對(duì)Web數(shù)據(jù)的復(fù)雜查詢。

3.1.1從資源查找(Information Retrival)的觀點(diǎn)挖掘非結(jié)構(gòu)化文檔:

非結(jié)構(gòu)化文檔主要指Web上的自由文本,包括小說(shuō)、新聞等。在這方面的研究相對(duì)比較多一些,大部分研究都是建立在詞匯袋(bag of words)或稱向量表示法(vector representation)的基礎(chǔ)上,這種方法將單個(gè)的詞匯看成文檔集合中的屬性,只從統(tǒng)計(jì)的角度將詞匯孤立地看待而忽略該詞匯出現(xiàn)的位置和上下文環(huán)境。屬性可以是布爾型,根據(jù)詞匯是否在文檔中出現(xiàn)而定,也可以有頻度,即該詞匯在文檔中的出現(xiàn)頻率。這種方法可以擴(kuò)展為選擇終結(jié)符、標(biāo)點(diǎn)符號(hào)、不常用詞匯的屬性作為考察集合。詞匯袋方法的一個(gè)弊端是自由文本中的數(shù)據(jù)豐富,詞匯量非常大,處理起來(lái)很困難,為解決這個(gè)問(wèn)題人們做了相應(yīng)的研究,采取了不同技術(shù),如信息增益,交叉熵、差異比等,其目的都是為了減少屬性。另外,一個(gè)比較有意義的方法是潛在語(yǔ)義索引(Latent Semantic Indexing),它通過(guò)分析不同文檔中相同主題的共享詞匯,找到他們共同的根,用這個(gè)公共的根代替所有詞匯,以此來(lái)減少維空間。例如:“informing”、“information”、“informer”、“informed”可以用他們的根“inform”來(lái)表示,這樣可以減少屬性集合的規(guī)模。

其他的屬性表示法還有詞匯在文檔中的出現(xiàn)位置、層次關(guān)系、使用短語(yǔ)、使用術(shù)語(yǔ)、命名實(shí)體等,目前還沒(méi)有研究表明一種表示法明顯優(yōu)于另一種。

用資源查找(Information Retrival)的觀點(diǎn)挖掘半結(jié)構(gòu)化文檔:

與非結(jié)構(gòu)化數(shù)據(jù)相比,Web上的半結(jié)構(gòu)化文檔挖掘指在加入了HTML、超連接等附加結(jié)構(gòu)的信息上進(jìn)行挖掘,其應(yīng)用包括超連接文本的分類、聚類、發(fā)現(xiàn)文檔之間的關(guān)系、提出半結(jié)構(gòu)化文檔中的模式和規(guī)則等。

3.1.2從數(shù)據(jù)庫(kù)(Database)的觀點(diǎn)挖掘非結(jié)構(gòu)化文檔:

數(shù)據(jù)庫(kù)技術(shù)應(yīng)用于Web挖掘主要是為了解決Web信息的管理和查詢問(wèn)題。這些問(wèn)題可以分為三類:Web信息的建模和查詢;信息抽取與集成;Web站點(diǎn)建構(gòu)和重構(gòu)。

從數(shù)據(jù)庫(kù)的觀點(diǎn)進(jìn)行Web內(nèi)容挖掘主要是試圖建立Web站點(diǎn)的數(shù)據(jù)模型并加以集成,以支持復(fù)雜查詢,而不止是簡(jiǎn)單的基于關(guān)鍵詞的搜索。這要通過(guò)找到Web文檔的模式、建立Web數(shù)據(jù)倉(cāng)庫(kù)或Web知識(shí)庫(kù)或虛擬數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)。相關(guān)研究主要是基于半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行的。

數(shù)據(jù)庫(kù)觀點(diǎn)主要利用OEM(Object Exchange Model)模型將半結(jié)構(gòu)化數(shù)據(jù)表示成標(biāo)識(shí)圖。OEM中的每個(gè)對(duì)象都有對(duì)象標(biāo)識(shí)(OID)和值,值可以是原子類型,如整型、字符串型、gif、html等,也可以是一個(gè)復(fù)合類型,以對(duì)象引用集合的形式表示。由于Web數(shù)據(jù)量非常龐大,從應(yīng)用的角度考慮,很多研究只處理辦結(jié)構(gòu)化數(shù)據(jù)的一個(gè)常用自集。一些有意義的應(yīng)用是建立多層數(shù)據(jù)庫(kù)(MLDB),每一層是它下面層次的概化,這樣就可以進(jìn)行一些特殊的查詢和信息處理。對(duì)于在半結(jié)構(gòu)化數(shù)據(jù)上的查詢語(yǔ)言研究也得到了人們的重視并做了專題研究。

由于在數(shù)據(jù)庫(kù)觀點(diǎn)下數(shù)據(jù)的表示方法比較特殊,其中包含了關(guān)系層次和圖形化的數(shù)據(jù),所以大部分建立在扁平數(shù)據(jù)集合之上的數(shù)據(jù)挖掘方法不能直接使用,目前已經(jīng)有人針對(duì)多層數(shù)據(jù)庫(kù)挖掘算法進(jìn)行研究。

3.2、Web結(jié)構(gòu)挖掘:

Web結(jié)構(gòu)挖掘的對(duì)象是Web本身的超連接,即對(duì)Web文檔的結(jié)構(gòu)進(jìn)行挖掘。對(duì)于給定的Web文檔集合,應(yīng)該能夠通過(guò)算法發(fā)現(xiàn)他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關(guān)系,引用文檔對(duì)被引用文檔的說(shuō)明往往更客觀、更概括、更準(zhǔn)確。

Web結(jié)構(gòu)挖掘在一定程度上得益于社會(huì)網(wǎng)絡(luò)和引用分析的研究。把網(wǎng)頁(yè)之間的關(guān)系分為incoming連接和outgoing連接,運(yùn)用引用分析方法找到同一網(wǎng)站內(nèi)部以及不同網(wǎng)站之間的連接關(guān)系。在Web結(jié)構(gòu)挖掘領(lǐng)域最著名的算法是HITS算法和PageRank算法。他們的共同點(diǎn)是使用一定方法計(jì)算Web頁(yè)面之間超連接的質(zhì)量,從而得到頁(yè)面的權(quán)重。著名的Clever和Google搜索引擎就采用了該類算法。

此外,Web結(jié)構(gòu)挖掘另一個(gè)嘗試是在Web數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下的挖掘,包括通過(guò)檢查同一臺(tái)服務(wù)器上的本地連接衡量Web結(jié)構(gòu)挖掘Web站點(diǎn)的完全性,在不同的Web數(shù)據(jù)倉(cāng)庫(kù)中檢查副本以幫助定位鏡像站點(diǎn),通過(guò)發(fā)現(xiàn)針對(duì)某一特定領(lǐng)域超連接的層次屬性去探索信息流動(dòng)如何影響Web站點(diǎn)的設(shè)計(jì)。

3.3、Web用法挖掘(Web usage Mining):

即Web使用記錄挖掘,在新興的電子商務(wù)領(lǐng)域有重要意義,它通過(guò)挖掘相關(guān)的Web日志記錄,來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式,通過(guò)分析日志記錄中的規(guī)律,可以識(shí)別用戶的忠實(shí)度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。Web使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶會(huì)話信息、交易信息、Cookie中的信息、用戶查詢、鼠標(biāo)點(diǎn)擊流等一切用戶與站點(diǎn)之間可能的交互記錄。可見(jiàn)Web使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當(dāng)豐富。根據(jù)對(duì)數(shù)據(jù)源的不同處理方法,Web 用法挖掘可以分為兩類,一類是將Web使用記錄的數(shù)據(jù)轉(zhuǎn)換并傳遞進(jìn)傳統(tǒng)的關(guān)系表里,再使用數(shù)據(jù)挖掘算法對(duì)關(guān)系表中的數(shù)據(jù)進(jìn)行常規(guī)挖掘;另一類是將Web 使用記錄的數(shù)據(jù)直接預(yù)處理再進(jìn)行挖掘。Web 用法挖掘中的一個(gè)有趣的問(wèn)題是在多個(gè)用戶使用同一個(gè)代理服務(wù)器的環(huán)境下如何標(biāo)識(shí)某個(gè)用戶,如何識(shí)別屬于該用戶的會(huì)話和使用記錄,這個(gè)問(wèn)題看起來(lái)不大,但卻在很大程度上影響著挖掘質(zhì)量,所以有人專門(mén)在這方面進(jìn)行了研究。通常來(lái)講,經(jīng)典的數(shù)據(jù)挖掘算法都可以直接用到Web 用法挖掘上來(lái),但為了提高挖掘質(zhì)量,研究人員在擴(kuò)展算法上進(jìn)行了努力,包括復(fù)合關(guān)聯(lián)規(guī)則算法、改進(jìn)的序列發(fā)現(xiàn)算法等。

在[4]中,根據(jù)數(shù)據(jù)來(lái)源、數(shù)據(jù)類型、數(shù)據(jù)集合中的用戶數(shù)量、數(shù)據(jù)集合中的服務(wù)器數(shù)量等將Web 用法挖掘分為五類:

●個(gè)性挖掘:針對(duì)單個(gè)用戶的使用記錄對(duì)該用戶進(jìn)行建模,結(jié)合該用戶基本信息分析他的使用習(xí)慣、個(gè)人喜好,目的是在電子商務(wù)環(huán)境下為該用戶提供與眾不同的個(gè)性化服務(wù)。

●系統(tǒng)改進(jìn):Web服務(wù)(數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)等)的性能和其他服務(wù)質(zhì)量是衡量用戶滿意度的關(guān)鍵指標(biāo),Web 用法挖掘可以通過(guò)用戶的擁塞記錄發(fā)現(xiàn)站點(diǎn)的性能瓶頸,以提示站點(diǎn)管理者改進(jìn)Web緩存策略、網(wǎng)絡(luò)傳輸策略、流量負(fù)載平衡機(jī)制和數(shù)據(jù)的分布策略。此外,可以通過(guò)分析網(wǎng)絡(luò)的非法入侵?jǐn)?shù)據(jù)找到系統(tǒng)弱點(diǎn),提高站點(diǎn)安全性,這在電子商務(wù)環(huán)境下尤為重要。

●站點(diǎn)修改:站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵。Web 用法挖掘通過(guò)挖掘用戶的行為記錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依,比如頁(yè)面連接情況應(yīng)如何組織、那些頁(yè)面應(yīng)能夠直接訪問(wèn)等。

●智能商務(wù):用戶怎樣使用Web站點(diǎn)的信息無(wú)疑是電子商務(wù)銷售商關(guān)心的重點(diǎn),用戶一次訪問(wèn)的周期可分為被吸引、駐留、購(gòu)買(mǎi)和離開(kāi)四個(gè)步驟,Web用法挖掘可以通過(guò)分析用戶點(diǎn)擊流等Web日志信息挖掘用戶行為的動(dòng)機(jī),以幫助銷售商合理安排銷售策略。

●Web特征描述:這類研究跟關(guān)注這樣通過(guò)用戶對(duì)站點(diǎn)的訪問(wèn)情況統(tǒng)計(jì)各個(gè)用戶在頁(yè)面上的交互情況,對(duì)用戶訪問(wèn)情況進(jìn)行特征描述。

4.結(jié)束語(yǔ)

       盡管Web挖掘的形式和研究方向?qū)映霾桓F,但我認(rèn)為隨著電子商務(wù)的興起和迅猛發(fā)展,未來(lái)Web挖掘的一個(gè)重要應(yīng)用方向?qū)⑹请娮由虅?wù)系統(tǒng)。而與電子商務(wù)關(guān)系最為密切的是用法挖掘(Usage Mining),也就是說(shuō)在這個(gè)領(lǐng)域?qū)?huì)持續(xù)得到更多的重視。另外,在搜索引擎的研究方面,結(jié)構(gòu)挖掘的研究已經(jīng)相對(duì)成熟,基于文本的內(nèi)容挖掘也已經(jīng)有許多研究,下一步將會(huì)有更多的研究者把多媒體挖掘最為研究方向。

參考文獻(xiàn):

[1] Jiawei Han , Micheline Kamber. DataMining: Concept and Techniques. Morgan Kaufmann Publishers,Inc.2001.

[2] http://www.billinmon.com

[3] R. Kosla and H. Blockeel, “Web mining research a survey,” SIG KDD Explorations, vol. 2, pp. 1–15, July 2000.

[4] J. Srivastava, R. Cooley, M. Deshpande and P. Tan, Web usage mining:discovery and applications of usage patterns from web data. SIGKDDExplorations, 1(2):12–23, 2000.

[5].S.K.Madria,S.S.Bhowmick,W.K.Ng,and E.P.Lim.Research issues in web data mining.In Proceedings of Data Warehousing and Knowledge Discovery,First International Conference,DaWaK’99,pages 303-312,1999.

[6] Pal S.K., Talwar V., and Mitra P., Web Mining in SoftComputing Framework: Relevance, State of he Art andFuture Directions, IEEE Transactions on NeuralNetworks, Volume: 13, Issue: 5, pp.1163 –1177, 2002.

[7] 陳莉,焦李成.Internet/Web數(shù)據(jù)挖掘研究現(xiàn)狀及最新進(jìn)展.西安電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版).2001年2月第28卷第1期.

掃碼關(guān)注公眾號(hào)

溫馨提示:因考試政策、內(nèi)容不斷變化與調(diào)整,信管網(wǎng)網(wǎng)站提供的以上信息僅供參考,如有異議,請(qǐng)以權(quán)威部門(mén)公布的內(nèi)容為準(zhǔn)!

信管網(wǎng)致力于為廣大信管從業(yè)人員、愛(ài)好者、大學(xué)生提供專業(yè)、高質(zhì)量的課程和服務(wù),解決其考試證書(shū)、技能提升和就業(yè)的需求。

信管網(wǎng)軟考課程由信管網(wǎng)依托10年專業(yè)軟考教研傾力打造,官方教材參編作者和資深講師坐鎮(zhèn),通過(guò)深研歷年考試出題規(guī)律與考試大綱,深挖核心知識(shí)與高頻考點(diǎn),為學(xué)員考試保駕護(hù)航。面授、直播&錄播,多種班型靈活學(xué)習(xí),滿足不同學(xué)員考證需求,降低課程學(xué)習(xí)難度,使學(xué)習(xí)效果事半功倍。

相關(guān)內(nèi)容

發(fā)表評(píng)論  查看完整評(píng)論  

推薦文章