您的位置:正保會(huì)計(jì)網(wǎng)校 301 Moved Permanently

301 Moved Permanently


nginx
 > 正文

知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘

2006-04-11 15:51 來(lái)源:

    內(nèi)容提要: 本文介紹了知識(shí)發(fā)現(xiàn)及其數(shù)據(jù)挖掘的發(fā)展歷史,數(shù)據(jù)挖掘常用技術(shù)及應(yīng)用。

  【關(guān)鍵詞】知識(shí)發(fā)現(xiàn),數(shù)據(jù)挖掘

  1、引言

  隨著數(shù)據(jù)庫(kù)技術(shù)的成熟和數(shù)據(jù)應(yīng)用的普及,人類積累的數(shù)據(jù)量正在以指數(shù)速度迅速增長(zhǎng)。進(jìn)入九十年代,伴隨著因特網(wǎng)(Internet)的出現(xiàn)和發(fā)展,以及隨之而來(lái)的企業(yè)內(nèi)部網(wǎng)(Intranet)和企業(yè)外部網(wǎng)(Extranet)以及虛擬私有網(wǎng)(VPNVirtualPrivatenetwork)的產(chǎn)生和應(yīng)用,將整個(gè)世界聯(lián)成一個(gè)小小的地球村,人們可以跨越時(shí)空地在網(wǎng)上交換數(shù)據(jù)信息和協(xié)同工作。這樣,展現(xiàn)在人們面前的已不是局限于本部門,本單位和本行業(yè)的龐大數(shù)據(jù)庫(kù),而是浩瀚無(wú)垠的信息海洋,數(shù)據(jù)洪水正向人們滾滾涌來(lái)。當(dāng)數(shù)據(jù)量極度增長(zhǎng)時(shí),如果沒(méi)有有效的方法,由計(jì)算機(jī)及信息技術(shù)來(lái)提取有用信息和知識(shí),人們也會(huì)感到面對(duì)信息海洋像大海撈針一樣束手無(wú)策。據(jù)估計(jì),一個(gè)大型企業(yè)數(shù)據(jù)庫(kù)中數(shù)據(jù),只有百分之七得到很好應(yīng)用。這樣,相對(duì)于“數(shù)據(jù)過(guò)!焙汀靶畔⒈ā,人們又感到“信息貧乏”(Informationpoor)和“數(shù)據(jù)關(guān)在牢籠中”(datainjail),奈斯伯特(JohnNaisbett) 驚呼“Wearedrowningininformation,butstarvingforknowledge”(人類正被數(shù)據(jù)淹沒(méi),卻饑渴于知識(shí))。

  面臨浩渺無(wú)際的數(shù)據(jù),人們呼喚從數(shù)據(jù)汪洋中來(lái)一個(gè)去粗存精、去偽存真的技術(shù)。從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)(KDD)及其核心技術(shù)——數(shù)據(jù)采掘(DM)便應(yīng)運(yùn)而生了。

  2、知識(shí)發(fā)現(xiàn)過(guò)程

  知識(shí)發(fā)現(xiàn)(KDD)是從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過(guò)程;數(shù)據(jù)開采(DM)是KDD過(guò)程中的一個(gè)特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns)。1996年,F(xiàn)ayyad、PiatetskyShapiror和Smyth將KDD過(guò)程定義為:從數(shù)據(jù)中鑒別出有效模式的非平凡過(guò)程,該模式是新的、可能有用的和最終可理解的。

  KDD過(guò)程是多個(gè)步驟相互連接、反復(fù)進(jìn)行人機(jī)交互的過(guò)程。具體包括:

 、賹W(xué)習(xí)某個(gè)應(yīng)用領(lǐng)域:包括應(yīng)用中的預(yù)先知識(shí)和目標(biāo)。

 、诮⒛繕(biāo)數(shù)據(jù)集:選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。

 、蹟(shù)據(jù)預(yù)處理:去除噪聲或無(wú)關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時(shí)間順序和數(shù)據(jù)變化等。

 、軘(shù)據(jù)轉(zhuǎn)換:找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。

 、葸x定數(shù)據(jù)挖掘功能:決定數(shù)據(jù)挖掘的目的。

 、捱x定數(shù)據(jù)挖掘算法:用KDD過(guò)程中的準(zhǔn)則,選擇某個(gè)特定數(shù)據(jù)挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數(shù)據(jù)中的模式。

 、邤(shù)據(jù)挖掘:搜索或產(chǎn)生一個(gè)特定的感興趣的模式或一個(gè)特定的數(shù)據(jù)集。

 、嘟忉專航忉屇硞(gè)發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉(zhuǎn)換某個(gè)有用的模式,以使用戶明白。

 、岚l(fā)現(xiàn)知識(shí):把這些知識(shí)結(jié)合到運(yùn)行系統(tǒng)中,獲得這些知識(shí)的作用或證明這些知識(shí)。用預(yù)先、可信的知識(shí)檢查和解決知識(shí)中可能的矛盾。

  3、知識(shí)發(fā)現(xiàn)的核心――數(shù)據(jù)挖掘

  所謂數(shù)據(jù)挖掘,就是從數(shù)據(jù)庫(kù)中抽取隱含的、以前未知的、具有潛在應(yīng)用價(jià)值的信息的過(guò)程。數(shù)據(jù)挖掘是KDD最核心的部分。數(shù)據(jù)挖掘與傳統(tǒng)分析工具不同的是數(shù)據(jù)挖掘使用的是基于發(fā)現(xiàn)的方法,運(yùn)用模式匹配和其它算法決定數(shù)據(jù)之間的重要聯(lián)系。

  數(shù)據(jù)挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識(shí)的好壞。目前大多數(shù)的研究都集中在數(shù)據(jù)挖掘算法和應(yīng)用上。需要說(shuō)明的是,有的學(xué)者認(rèn)為,數(shù)據(jù)開采和知識(shí)發(fā)現(xiàn)含義相同,表示成KDD/DM.它是一個(gè)反復(fù)的過(guò)程,通常包含多個(gè)相互聯(lián)系的步驟:預(yù)處理、提出假設(shè)、選取算法、提取規(guī)則、評(píng)價(jià)和解釋結(jié)果、將模式構(gòu)成知識(shí),最后是應(yīng)用。在實(shí)際,人們往往不嚴(yán)格區(qū)分?jǐn)?shù)據(jù)挖掘和數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),把兩者混淆使用。一般在科研領(lǐng)域中稱為KDD,而在工程領(lǐng)域則稱為數(shù)據(jù)挖掘。

  4、數(shù)據(jù)挖掘中常用技術(shù)

  目前市面數(shù)據(jù)挖掘應(yīng)用方面有著種類繁多的商品工具和軟件,大致可以歸納為下列主要類型:

  [1]傳統(tǒng)主觀導(dǎo)向系統(tǒng):這是針對(duì)專業(yè)領(lǐng)域應(yīng)用的系統(tǒng)。如基于技術(shù)分析方法對(duì)金融市場(chǎng)進(jìn)行分析。采用的方法從簡(jiǎn)單的走向分析直到基于高深數(shù)學(xué)基礎(chǔ)的分形理論和譜分析。這種技術(shù)需要有經(jīng)驗(yàn)?zāi)P蜑榍疤。屬于這類商品有美國(guó)的Metastak,SuperCharts, CandlestickForecaster和WallStreetMoney等[2]傳統(tǒng)統(tǒng)計(jì)分析:這類技術(shù)包括相關(guān)分析、回歸分析及因子分析等。一般先由用戶提供假設(shè),再由系統(tǒng)利用數(shù)據(jù)進(jìn)行驗(yàn)證。缺點(diǎn)是需經(jīng)培訓(xùn)后才能使用,同時(shí)在數(shù)據(jù)探索過(guò)程中,用戶需要重復(fù)進(jìn)行一系列操作。屬于這類商品有美國(guó)的SAS,SPSS和Stargraphis等。由于近年來(lái)更先進(jìn)的DM方法的出現(xiàn)和使用,這些廠商在原有系統(tǒng)中綜合一些DM部件,以獲得更完善的功能。以上兩種技術(shù)主要基于傳統(tǒng)的數(shù)理統(tǒng)計(jì)等數(shù)學(xué)的基礎(chǔ)上,一般早已開始用于數(shù)據(jù)分析方面。

  [3]神經(jīng)元網(wǎng)絡(luò)(NN)技術(shù):神經(jīng)元網(wǎng)絡(luò)技術(shù)是屬于軟計(jì)算(SoftComputing)領(lǐng)域內(nèi)一種重要方法,它是多年來(lái)科研人員進(jìn)行人腦神經(jīng)學(xué)習(xí)機(jī)能模擬的成果,已成功地應(yīng)用于各工業(yè)部門。在DM(KDD)的應(yīng)用方面,當(dāng)需要復(fù)雜或不精確數(shù)據(jù)中導(dǎo)出概念和確定走向比較困難時(shí),利用神經(jīng)網(wǎng)絡(luò)技術(shù)特別有效。經(jīng)過(guò)訓(xùn)練后的NN可以想像具有某種專門知識(shí)的“專家”,因此可以像人一樣從經(jīng)驗(yàn)中學(xué)習(xí)。NN有多種結(jié)構(gòu),但最常用的是多層BP(backpropagation)模型。它已廣泛地應(yīng)用于各種 DM(KDD)工具和軟件中。有些是以NN為主導(dǎo)技術(shù),例如俄羅斯的PolyAnalyst,美國(guó)的BrainMaker,Neurosell和OWL 等。NN技術(shù)也已廣泛地做為一種方法嵌入各種DM成套軟件中。其缺點(diǎn)是用它來(lái)分析復(fù)雜的系統(tǒng)諸如金融市場(chǎng),NN就需要復(fù)雜的結(jié)構(gòu)為數(shù)眾多神經(jīng)元以及連接數(shù),從而使現(xiàn)有的事例數(shù)(不同的紀(jì)錄數(shù))無(wú)法滿足訓(xùn)練的需要。另外由受訓(xùn)后的NN所代表的預(yù)測(cè)模型的非透明性也是其缺點(diǎn),盡管如此,它還是廣泛而成功地為各種金融應(yīng)用分析系統(tǒng)所采用。

  [4]決策樹:在知識(shí)工程領(lǐng)域,決策樹是一種簡(jiǎn)單的知識(shí)表示方法,它將事例逐步分類成代表不同的類別。由于分類規(guī)則是比較直觀的,因而比較易于理解,。這種方法一般限于分類任務(wù)。在系統(tǒng)中采用這種方法的有美國(guó)的IDIS,法國(guó)的SIPINA.英國(guó)的 Clementinc和澳大利亞的C5.0. [5]進(jìn)化式程序設(shè)計(jì)(Evolutionaryprogramming):這種方法的獨(dú)特思路是:系統(tǒng)自動(dòng)生成有關(guān)目標(biāo)變量對(duì)其他多種變量依賴關(guān)系的務(wù)種假設(shè),并形成以內(nèi)部編程語(yǔ)言表示的程序。內(nèi)部程序(假設(shè))的產(chǎn)生過(guò)程是進(jìn)化式的,類似于遺傳算法過(guò)程。當(dāng)系統(tǒng)找到較好地描述依賴關(guān)系的一個(gè)假設(shè)時(shí),就對(duì)這程序進(jìn)行各種不同的微小修正,生成子程序組,再在其中選擇能更好地改進(jìn)預(yù)測(cè)精度的子程序,如此依次進(jìn)行,最后獲得達(dá)到所需精度的最好程序時(shí),由系統(tǒng)的專有模塊將所找到的依賴關(guān)系由內(nèi)部語(yǔ)言形式轉(zhuǎn)換成易于為人們理解的顯式形式,如數(shù)學(xué)公式,預(yù)測(cè)表等。由于采用通用編程語(yǔ)言,這種主法在原則上能保證任何一種依賴關(guān)系和算法都能用這種語(yǔ)言來(lái)描述。這種方法的商用產(chǎn)品還只見諸俄羅斯的 PolyAnalyst.據(jù)報(bào)導(dǎo),它用于金融到醫(yī)療方面軍的各種應(yīng)用于,能獲得者很好的結(jié)果。

  [6]基于事例的推理方法(CBR— Casebasedreasoning):這種方法的思路非常簡(jiǎn)單,當(dāng)預(yù)測(cè)未來(lái)情況或進(jìn)行正確決策時(shí),系統(tǒng)尋找與現(xiàn)有情況相類似的事例,并選擇最佳的相同的解決方案,這種方法能用于很多問(wèn)題求解,并獲得好的結(jié)果,其缺點(diǎn)是系統(tǒng)不能生成匯總過(guò)去經(jīng)驗(yàn)的模塊或規(guī)則。采用這種方法的系統(tǒng)有美國(guó)的 PatternRecognitionWorkbench和法國(guó)的KATEtools. [7]遺傳算法(GA— GeneticAlgorithms):嚴(yán)格說(shuō)來(lái),DA不是GA應(yīng)用的主要領(lǐng)域,它是解決各種組合或優(yōu)化問(wèn)題的強(qiáng)有力的手段,但它在現(xiàn)代標(biāo)準(zhǔn)儀器表中也用來(lái)完成DA任務(wù)。這種方法的不足之處是:這種問(wèn)題的生成方式使估計(jì)所得解答的統(tǒng)計(jì)意義的任何一種機(jī)會(huì)不再存在。另外一方面,只有專業(yè)人員才能提出染色體選擇的準(zhǔn)則和有效地進(jìn)行問(wèn)題描述與生成。在系統(tǒng)中包含遺傳算法的有美國(guó)的GeneHunter. [8]非線性回歸方法:這種方法的基礎(chǔ)是,在預(yù)定的函數(shù)的基礎(chǔ)上,尋找目標(biāo)度量對(duì)其它多種變量的依賴關(guān)系。這種方法在金融市場(chǎng)或醫(yī)療診斷的應(yīng)用場(chǎng)合,比較好的提供可信賴的結(jié)果。在俄羅斯的 PalyAnalyst以及美國(guó)的Neuroshell系統(tǒng)中包括了這種技術(shù)。

  上面所列DM技術(shù)不可能是詳盡的囊括,因?yàn)槎嗄陙?lái)數(shù)理統(tǒng)計(jì)分析以及AI與KE的研究提供了種類繁多特點(diǎn)各異的手段,DM開發(fā)人員完全可以根據(jù)不同任務(wù)加以選擇使用,另外近年來(lái)在軟計(jì)算(SoftComputing)和不確定信息處理(dealingwithUncertaintyofinformation)方法的研究,促使DM (KDD)技術(shù)向更深層次發(fā)展。

  需要說(shuō)明的,上面所說(shuō)的DM中的數(shù)據(jù)是指數(shù)據(jù)庫(kù)中表格形式中的記錄和條目,這種數(shù)據(jù)稱作結(jié)構(gòu)型數(shù)據(jù)(Structureddata)。在一個(gè)企業(yè)中,還有一類像文本和網(wǎng)頁(yè)形式的數(shù)據(jù),稱作非結(jié)構(gòu)型數(shù)據(jù)(unstructureddata)。它來(lái)自不同的信息源,如文本圖像影視和音響等,當(dāng)然文本是最主要的一種非結(jié)構(gòu)數(shù)據(jù)。1995年分析家已預(yù)言,像文本這樣非結(jié)構(gòu)型數(shù)據(jù)將是在線存貯方面占支配地位的數(shù)據(jù)形式。到1998年初,在Internet上的信息網(wǎng)頁(yè)數(shù),已超過(guò)5億。隨著Internet的擴(kuò)展和大量在線文本的出現(xiàn),將標(biāo)志這巨大的非結(jié)構(gòu)型數(shù)據(jù)海洋中,蘊(yùn)藏著極其豐富的有用信息即知識(shí)。人們從書本中獲取知識(shí)方法是閱讀和理解。開發(fā)一種工具能協(xié)助用戶從非結(jié)構(gòu)數(shù)據(jù)中抽取關(guān)鍵概念以及快速而有效地檢索到關(guān)心的信息,這將是一個(gè)非常引人入勝的研究領(lǐng)域。目前,基于圖書索引檢索以及超文本技術(shù)的各類搜索引擎,能協(xié)助用戶尋找所需信息,但要深入發(fā)掘這類數(shù)據(jù)中的有用用信息,尚需要更高層次的技術(shù)支持,人工智能領(lǐng)域有關(guān)知識(shí)表示及獲取的方法(如語(yǔ)義網(wǎng)絡(luò)概念映射等),和自然語(yǔ)言理解的研究成果,可望被采用。還可能要涉及到語(yǔ)言學(xué)心理學(xué)等領(lǐng)域。最近已出現(xiàn)針對(duì)文本的DM工具的報(bào)導(dǎo)。如IBM公司的TexMiner,NetQuestion,WedCawler 和megaputer公司的TextAnalyst等。

  5、數(shù)據(jù)挖掘?qū)嶋H應(yīng)用

  DM(KDD)工具和軟件已在各個(gè)部門得到很好的應(yīng)用,并收到明顯的效益。

  [1]金融方面:銀行信用卡和保險(xiǎn)行業(yè),預(yù)測(cè)存/貸款趨勢(shì),優(yōu)化存/貸款策略,用DM將市場(chǎng)分成有意義的群組和部門,從而協(xié)助市場(chǎng)經(jīng)理和業(yè)務(wù)執(zhí)行人員更好地集中于有促進(jìn)作用的活動(dòng)和設(shè)計(jì)新的市場(chǎng)運(yùn)動(dòng)。

  [2]在客戶關(guān)系管理方面:DM能找出產(chǎn)品使用模式或協(xié)助了解客戶行為,從而可以改進(jìn)通道管理(如銀行分支和ATM等)。又如正確時(shí)間銷售(RightTimeMarKeting)就是基于顧客生活周期模型來(lái)實(shí)施的。

  [3]在零售業(yè)/市場(chǎng)營(yíng)銷方面:是數(shù)據(jù)挖掘技術(shù)應(yīng)用最早也是最重要的領(lǐng)域,DM用于顧客購(gòu)貨籃的分析可以協(xié)助貨架布置,促銷活動(dòng)時(shí)間,促銷商品組合以及了解滯銷和暢銷商品狀況等商業(yè)活動(dòng)。通過(guò)對(duì)一種廠家商品在各連鎖店的市場(chǎng)共享分析,客戶統(tǒng)計(jì)以及歷史狀況的分析,可以確定銷售和廣告業(yè)務(wù)的有效性。

  [4]在過(guò)程控制/質(zhì)量監(jiān)督保證方面:DM協(xié)助管理大數(shù)量變量之間的相互作用,DM能自動(dòng)發(fā)現(xiàn)出某些不正常的數(shù)據(jù)分布,暴露制造和裝配操作過(guò)程中變化情況和各種因素,從而協(xié)助質(zhì)量工程師很快地注意到問(wèn)題發(fā)生范圍和采取改正措施。

  [5]在遠(yuǎn)程通訊部門:基于DM的分析協(xié)助組織策略變更以適應(yīng)外部世界的變化,確定市場(chǎng)變化模式以指導(dǎo)銷售計(jì)劃。在網(wǎng)絡(luò)容量利用方面,DM能提供對(duì)客戶組類服務(wù)使用的結(jié)構(gòu)和模式的了解,從而指導(dǎo)容量計(jì)劃人員對(duì)網(wǎng)絡(luò)設(shè)施作出最佳投資決策。

  [6]化學(xué)/制藥行業(yè):從各種文獻(xiàn)資料總自動(dòng)抽取有關(guān)化學(xué)反應(yīng)的信息,發(fā)現(xiàn)新的有用化學(xué)成分。在遙感領(lǐng)域針對(duì)每天從衛(wèi)星上及其它方面來(lái)的巨額數(shù)據(jù),對(duì)氣象預(yù)報(bào),臭氧層監(jiān)測(cè)等能起很大作用。

  [7]軍事方面:使用DM進(jìn)行軍事信息系統(tǒng)中的目標(biāo)特征提取、態(tài)勢(shì)關(guān)聯(lián)規(guī)則挖掘等。

  總之,DM可廣泛應(yīng)用于銀行金融、零售與批發(fā)、制造、保險(xiǎn)、公共設(shè)施、政府、教育、遠(yuǎn)程通訊、軟件開發(fā)、運(yùn)輸?shù)雀鱾(gè)企事業(yè)單位及國(guó)防科研上。據(jù)報(bào)導(dǎo),DM的投資回報(bào)率有達(dá)400%甚至10倍的事例。