| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>管理咨詢 >>ERP實(shí)施培訓(xùn) >>ERP培訓(xùn)教育

m.kaqidy.com拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷(xiāo)存軟件|免費(fèi)倉(cāng)庫(kù)管理軟件|免費(fèi)下載專(zhuān)業(yè)資訊網(wǎng)-數(shù)據(jù)挖掘概念綜述

數(shù)據(jù)挖掘概念綜述

發(fā)布日期：2014-01-20 13:54:41 來(lái)源：m.kaqidy.com 編輯：拓步ERP資訊網(wǎng) 瀏覽：評(píng)論

摘要：本文綜合講述了數(shù)據(jù)挖掘的起源、概念、步驟、特點(diǎn)及突出功能。 原標(biāo)題：數(shù)據(jù)挖掘概念綜述 原作者：發(fā)表時(shí)間：2014/1/20 JBean RU 來(lái)源：JBean博客

　　數(shù)據(jù)挖掘又稱從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持。KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上。隨后在1991年、1993年和1994年都舉行KDD 專(zhuān)題討論會(huì)，匯集來(lái)自各個(gè)領(lǐng)域的研究人員和應(yīng)用開(kāi)發(fā)者，集中討論數(shù)據(jù)統(tǒng)計(jì)、海量數(shù)據(jù)分析算法、知識(shí)表示、知識(shí)運(yùn)用等問(wèn)題。隨著參與人員的不斷增多，KDD國(guó)際會(huì)議發(fā)展成為年會(huì)。1998 年在美國(guó)紐約舉行的第四屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù) 挖掘國(guó)際學(xué)術(shù)會(huì)議不僅進(jìn)行了學(xué)術(shù)討論，并且有30多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品，不少軟件已在北美、歐洲等國(guó)得到應(yīng)用。

　　一、什么是數(shù)據(jù)挖掘

　　1.1、數(shù)據(jù)挖掘的歷史

　　近十幾年來(lái),人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬(wàn)萬(wàn)個(gè)數(shù)據(jù)庫(kù)被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開(kāi)發(fā)等等,這一勢(shì)頭仍將持續(xù)發(fā)展下去。于是,一個(gè)新的挑戰(zhàn)被提了出來(lái):在這被稱之為信息爆炸的時(shí)代,信息過(guò)量幾乎成為人人需要面對(duì)的問(wèn)題。如何才能不被信息的汪洋大海所淹沒(méi),從中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高信息利用率呢?要想使數(shù)據(jù)真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對(duì)”人們被數(shù)據(jù)淹沒(méi),人們卻饑餓于知識(shí)”的挑戰(zhàn)。另一方面計(jì)算機(jī)技術(shù)的另一領(lǐng)域——人工智能自1956年誕生之后取得了重大進(jìn)展。經(jīng)歷了博弈時(shí)期、自然語(yǔ)言理解、知識(shí)工程等階段，目前的研究熱點(diǎn)是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是用計(jì)算機(jī)模擬人類(lèi)學(xué)習(xí)的一門(mén)科學(xué)，比較成熟的算法有神經(jīng)網(wǎng)絡(luò)、遺傳算法等。用數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)存儲(chǔ)數(shù)據(jù)，用機(jī)器學(xué)習(xí)的方法來(lái)分析數(shù)據(jù)，挖掘大量數(shù)據(jù)背后的知識(shí)，這兩者的結(jié)合促成了數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD：Knowledge Discovery in Databases)的產(chǎn)生，因此，數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來(lái)越顯示出其強(qiáng)大的生命力。

　　2.2 數(shù)據(jù)挖掘的概念

　　從1989年到現(xiàn)在，KDD的定義隨著人們研究的不斷深入也在不斷完善，目前比較公認(rèn)的定義是Fayyad 等給出的：KDD是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的以及最終可理解模式的高級(jí)處理過(guò)程。從定義可以看出，數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。人們把原始數(shù)據(jù)看作是形成知識(shí)的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過(guò)程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門(mén)很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。

　　特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè)。

　　一般來(lái)說(shuō)在科研領(lǐng)域中稱為KDD，而在工程領(lǐng)域則稱為數(shù)據(jù)挖掘。

　　二、數(shù)據(jù)挖掘的步驟

　　KDD包括以下步驟：

　　1、數(shù)據(jù)準(zhǔn)備

　　KDD的處理對(duì)象是大量的數(shù)據(jù)，這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中，是長(zhǎng)期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上面進(jìn)行知識(shí)挖掘，需要做數(shù)據(jù)準(zhǔn)備工作，一般包括數(shù)據(jù)的選擇(選擇相關(guān)的數(shù)據(jù)）、凈化（消除噪音、冗余數(shù)據(jù)）、推測(cè)（推算缺失數(shù)據(jù)）、轉(zhuǎn)換（離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換，數(shù)據(jù)值的分組分類(lèi)，數(shù)據(jù)項(xiàng)之間的計(jì)算組合等）、數(shù)據(jù)縮減（減少數(shù)據(jù)量）。如果KDD的對(duì)象是數(shù)據(jù)倉(cāng) 庫(kù)，那么這些工作往往在生成數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)準(zhǔn)備妥當(dāng)。數(shù)據(jù)準(zhǔn)備是KDD 的第一個(gè)步驟，也是比較重要的一個(gè)步驟。數(shù)據(jù)準(zhǔn)備是否做好將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。

　　2、數(shù)據(jù)挖掘

　　數(shù)據(jù)挖掘是KDD最關(guān)鍵的步驟，也是技術(shù)難點(diǎn)所在。研究KDD的人員中大部分都在研究數(shù)據(jù)挖掘技術(shù)，采用較多的技術(shù)有決策樹(shù)、分類(lèi)、聚類(lèi)、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。數(shù)據(jù)挖掘根據(jù)KDD的目標(biāo)，選取相應(yīng)算法的參數(shù)，分析數(shù)據(jù)，得到可能形成知識(shí)的模式模型。

　　3、評(píng)估、解釋模式模型

　　上面得到的模式模型，有可能是沒(méi)有實(shí)際意義或沒(méi)有實(shí)用價(jià)值的，也有可能是其不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義，甚至在某些情況下是與事實(shí)相反的，因此需要評(píng)估，確定哪些是有效的、有用的模式。評(píng)估可以根據(jù)用戶多年的經(jīng)驗(yàn)，有些模式也可以直接用數(shù)據(jù)來(lái)檢驗(yàn)其準(zhǔn)確性。這個(gè)步驟還包括把模式以易于理解的方式呈現(xiàn)給用戶。

　　4、鞏固知識(shí)

　　用戶理解的、并被認(rèn)為是符合實(shí)際和有價(jià)值的模式模型形成了知識(shí)。同時(shí)還要注意對(duì)知識(shí)做一

　　致性檢查，解決與以前得到的知識(shí)互相沖突、矛盾的地方，使知識(shí)得到鞏固。

　　5、運(yùn)用知識(shí)

　　發(fā)現(xiàn)知識(shí)是為了運(yùn)用，如何使知識(shí)能被運(yùn)用也是KDD的步驟之一。運(yùn)用知識(shí)有兩種方法：一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果，就可以對(duì)決策提供支持；另一種是要求對(duì)新的數(shù)據(jù)運(yùn)用知識(shí)，由此可能產(chǎn)生新的問(wèn)題，而需要對(duì)知識(shí)做進(jìn)一步的優(yōu)化

　　三、數(shù)據(jù)挖掘的特點(diǎn)及功能

　　3.1、數(shù)據(jù)挖掘的特點(diǎn)

　　數(shù)據(jù)挖掘具有如下幾個(gè)特點(diǎn)，當(dāng)然，這些特點(diǎn)與數(shù)據(jù)挖掘要處理的數(shù)據(jù)和目的是密切相關(guān)的。

　　1、處理的數(shù)據(jù)規(guī)模十分巨大。

　　2、查詢一般是決策制定者(用戶)提出的即時(shí)隨機(jī)查詢，往往不能形成精確的查詢要求。

　　3、由于數(shù)據(jù)變化迅速并可能很快過(guò)時(shí)，因此需要對(duì)動(dòng)態(tài)數(shù)據(jù)作出快速反應(yīng)，以提供決策支持。

　　4、主要基于大樣本的統(tǒng)計(jì)規(guī)律，其發(fā)現(xiàn)的規(guī)則不一定適用于所有數(shù)據(jù)

　　3.2、數(shù)據(jù)挖掘的功能

　　數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識(shí)有如下幾種:

　　廣義型知識(shí),反映同類(lèi)事物共同性質(zhì)的知識(shí);

　　特征型知識(shí),反映事物各方面的特征知識(shí);

　　差異型知識(shí),反映不同事物之間屬性差別的知識(shí) ;關(guān)聯(lián)型知識(shí),反映事物之間依賴或關(guān)聯(lián)的知識(shí);

　　預(yù)測(cè)型知識(shí),根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測(cè)未來(lái)數(shù)據(jù);偏離型知識(shí),揭示事物偏離常規(guī)的異常現(xiàn)象。

　　所有這些知識(shí)都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹(shù)的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。例如,從一家超市的數(shù)據(jù)倉(cāng)庫(kù)中,可以發(fā)現(xiàn)的一條典型關(guān)聯(lián)規(guī)則可能是”買(mǎi)面包和黃油的顧客十有八九也買(mǎi)牛奶”,也可能是”買(mǎi)食品的顧客幾乎都用信用卡”,這種規(guī)則對(duì)于商家開(kāi)發(fā)和實(shí)施客戶化的銷(xiāo)售計(jì)劃和策略是非常有用的。至于發(fā)現(xiàn)工具和方法,常用的有分類(lèi)、聚類(lèi)、減維、模式識(shí)別、可視化、決策樹(shù)、遺傳算法、不確定性處理等。歸納起來(lái)，數(shù)據(jù)挖掘有如下幾個(gè)功能：

　　預(yù)測(cè)/驗(yàn)證功能：預(yù)測(cè)/驗(yàn)證功能指用數(shù)據(jù)庫(kù)的若干已知字段預(yù)測(cè)或驗(yàn)證其他未知字段值。預(yù)測(cè)方法有統(tǒng)計(jì)分析方法、關(guān)聯(lián)規(guī)則和決策樹(shù)預(yù)測(cè)方法、回歸樹(shù)預(yù)測(cè)方法等。

　　描述功能：描述功能指找到描述數(shù)據(jù)的可理解模式。描述方法包括以下幾種：數(shù)據(jù)分類(lèi)、回歸分析、簇聚、概括、構(gòu)造依賴模式、變化和偏差分析、模式發(fā)現(xiàn)、路徑發(fā)現(xiàn)等。

　　四、數(shù)據(jù)挖掘的模式

　　數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式。模式是一個(gè)用語(yǔ)言L來(lái)表示的一個(gè)表達(dá)式E，它可用來(lái)描述數(shù)據(jù)集F中數(shù)據(jù)的特性，E 所描述的數(shù)據(jù)是集合F的一個(gè)子集FE。E作為一個(gè)模式要求它比列舉數(shù)據(jù)子集FE中所有元素的描述方法簡(jiǎn)單。例如，“如果成績(jī)?cè)?1 ～90之間，則成績(jī)優(yōu)良”可稱為一個(gè)模式，而“如果成績(jī)?yōu)?1、82、83、84、85、86、87、88、89 或90，則成績(jī)優(yōu)良”就不能稱之為一個(gè)模式。

　　模式有很多種，按功能可分有兩大類(lèi)：預(yù)測(cè)型（Predictive）模式和描述型（Descriptive）模式。

　　預(yù)測(cè)型模式是可以根據(jù)數(shù)據(jù)項(xiàng)的值精確確定某種結(jié)果的模式。挖掘預(yù)測(cè)型模式所使用的數(shù)據(jù)也都是可以明確知道結(jié)果的。例如，根據(jù)各種動(dòng)物的資料，可以建立這樣的模式：凡是胎生的動(dòng)物都是哺乳類(lèi)動(dòng)物。當(dāng)有新的動(dòng)物資料時(shí)，就可以根據(jù)這個(gè)模式判別此動(dòng)物是否是哺乳動(dòng)物。

　　描述型模式是對(duì)數(shù)據(jù)中存在的規(guī)則做一種描述，或者根據(jù)數(shù)據(jù)的相似性把數(shù)據(jù)分組。描述型模式不能直接用于預(yù)測(cè)。例如，在地球上，70 ％的表面被水覆蓋，30 ％是土地。

　　在實(shí)際應(yīng)用中，往往根據(jù)模式的實(shí)際作用細(xì)分為以下6 種：

　　1、分類(lèi)模式

　　分類(lèi)模式是一個(gè)分類(lèi)函數(shù)（分類(lèi) 器），能夠把數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類(lèi)上。分類(lèi)模式往往表現(xiàn)為一棵分類(lèi)樹(shù)，根據(jù)數(shù)據(jù)的值從樹(shù)根開(kāi)始搜索，沿著數(shù)據(jù)滿足的分支往上走，走到樹(shù)葉就能確定類(lèi)別。

　　2、回歸模式

　　回歸模式的函數(shù)定義與分類(lèi)模式相似，它們的差別在于分類(lèi)模式的預(yù)測(cè)值是離散的，回歸模式的預(yù)測(cè)值是連續(xù)的。如給出某種動(dòng)物的特征，可以用分類(lèi)模式判定這種動(dòng)物是哺乳動(dòng)物還是鳥(niǎo)類(lèi)；給出某個(gè)人的教育情況、工作經(jīng)驗(yàn)，可以用回歸模式判定這個(gè)人的年工資在哪個(gè)范圍內(nèi)，是在6000元以下，還是在6000元到1萬(wàn)元之間，還是在1萬(wàn)元以上。

　　3、時(shí)間序列模式

　　時(shí)間序列模式根據(jù)數(shù)據(jù)隨時(shí)間變化的趨勢(shì)預(yù)測(cè)將來(lái)的值。這里要考慮到時(shí)間的特殊性質(zhì)，像一些周期性的時(shí)間定義如星期、月、季節(jié)、年等，不同的日子如節(jié)假日可能造成的影響，日期本身的計(jì)算方法，還有一些需要特殊考慮的地方如時(shí)間前后的相關(guān)性（過(guò)去的事情對(duì)將來(lái)有多大的影響力）等。只有充分考慮時(shí)間因素，利用現(xiàn)有數(shù)據(jù)隨時(shí)間變化的一系列的值，才能更好地預(yù)測(cè)將來(lái)的值。

　　4、聚類(lèi)模式

　　聚類(lèi)模式把數(shù)據(jù)劃分到不同的組中，組之間的差別盡可能大，組內(nèi)的差別盡可能小。與分類(lèi)模式不同，進(jìn)行聚類(lèi)前并不知道將要?jiǎng)澐殖蓭?個(gè)組和什么樣的組，也不知道根據(jù)哪一（幾）個(gè)數(shù)據(jù)項(xiàng)來(lái)定義組。一般來(lái)說(shuō)，業(yè)務(wù)知識(shí)豐富的人應(yīng)該可以理解這些組的含義，如果產(chǎn)生的模式無(wú)法理解或不可用，則該模式可能是無(wú)意義的，需要回到上階段重新組織數(shù)據(jù)。

　　5、關(guān)聯(lián)模式

　　關(guān)聯(lián)模式是數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是如下形式的一種規(guī)則：“在無(wú)力償還貸款的人當(dāng)中，60％的人的月收入在3000元以下。”

　　6、序列模式

　　序列模式與關(guān)聯(lián)模式相仿，而把數(shù)據(jù)之間的關(guān)聯(lián)性與時(shí)間聯(lián)系起來(lái)。為了發(fā)現(xiàn)序列模式，不僅需要知道事件是否發(fā)生，而且需要確定事件發(fā)生的時(shí)間。例如，在購(gòu)買(mǎi)彩電的人們當(dāng)中，60％的人會(huì)在3個(gè)月內(nèi)購(gòu)買(mǎi)影碟機(jī)

　　五、數(shù)據(jù)挖掘的發(fā)現(xiàn)任務(wù)

　　數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,有多種分類(lèi)法。根據(jù)挖掘任務(wù)分,可分為分類(lèi)或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類(lèi)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο蠓?有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分,可粗分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。機(jī)器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹(shù)、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計(jì)方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類(lèi)分析(系統(tǒng)聚類(lèi)、動(dòng)態(tài)聚類(lèi)等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP 方法,另外還有面向?qū)傩缘臍w納方法。

　　從挖掘任務(wù)和挖掘方法的角度而言有數(shù)據(jù)總結(jié)、分類(lèi)發(fā)現(xiàn)、聚類(lèi)和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)四種非常重要的發(fā)現(xiàn)任務(wù)。

　　5.1、數(shù)據(jù)總結(jié)

　　數(shù)據(jù)總結(jié)目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)的也是最簡(jiǎn)單的數(shù)據(jù)總結(jié)方法是計(jì)算出數(shù)據(jù)庫(kù)的各個(gè)字段上的求和值、平均值、方差值等統(tǒng)計(jì)值,或者用直方圖、餅狀圖等圖形方式表示。數(shù)據(jù)挖掘主要關(guān)心從數(shù)據(jù)泛化的角度來(lái)討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫(kù)中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過(guò)程。由于數(shù)據(jù)庫(kù)上的數(shù)據(jù)或?qū)ο笏男畔⒖偸亲钤肌⒒镜男畔?這是為了不遺漏任何可能有用的數(shù)據(jù)信息)。人們有時(shí)希望能從較高層次的視圖上處理或?yàn)g覽數(shù)據(jù),因此需要對(duì)數(shù)據(jù)進(jìn)行不同層次上的泛化以適應(yīng)各種查詢要求。數(shù)據(jù)泛化目前主要有兩種技術(shù):多維數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。

　　1、多維數(shù)據(jù)分析方法是一種數(shù)據(jù)倉(cāng)庫(kù)技術(shù),也稱作聯(lián)機(jī)分析處理(OLAP)。數(shù)據(jù)倉(cāng)庫(kù)是面向決策支持的、集成的、穩(wěn)定的、不同時(shí)間的歷史數(shù)據(jù)集合。決策的前提是數(shù)據(jù)分析。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作,這類(lèi)操作的計(jì)算量特別大。因此一種很自然的想法是,把匯集操作結(jié)果預(yù)先計(jì)算并存儲(chǔ)起來(lái),以便于決策支持系統(tǒng)使用。存儲(chǔ)匯集操作結(jié)果的地方稱作多維數(shù)據(jù)庫(kù)。多維數(shù)據(jù)分析技術(shù)已經(jīng)在決策支持系統(tǒng)中獲得了成功的應(yīng)用,如著名的SAS數(shù)據(jù)分析軟件包、Business Object公司的決策支持系統(tǒng)Business Object,以及IBM公司的決策分析工具都使用了多維數(shù)據(jù)分析技術(shù)。

　　采用多維數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)總結(jié),它針對(duì)的是數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的是脫機(jī)的歷史數(shù)據(jù)。

　　2、為了處理聯(lián)機(jī)數(shù)據(jù),研究人員提出了一種面向?qū)傩缘臍w納方法。它的思路是直接對(duì)用戶感興趣的數(shù)據(jù)視圖(用一般的SQL查詢語(yǔ)言即可獲得)進(jìn)行泛化,而不是像多維數(shù)據(jù)分析方法那樣預(yù)先就存儲(chǔ)好了泛化數(shù)據(jù)。方法的提出者對(duì)這種數(shù)據(jù)泛化技術(shù)稱之為面向?qū)傩缘臍w納方法。原始關(guān)系經(jīng)過(guò)泛化操作后得到的是一個(gè)泛化關(guān)系,它從較高的層次上總結(jié)了在低層次上的原始關(guān)系。有了泛化關(guān)系后,就可以對(duì)它進(jìn)行各種深入的操作而生成滿足用戶需要的知識(shí),如在泛化關(guān)系基礎(chǔ)上生成特性規(guī)則、判別規(guī)則、分類(lèi)規(guī)則,以及關(guān)聯(lián)規(guī)則等。

　　5.2、分類(lèi)發(fā)現(xiàn)

　　分類(lèi)在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù),目前在商業(yè)上應(yīng)用最多。分類(lèi)的目的是學(xué)會(huì)一個(gè)分類(lèi)函數(shù)或分類(lèi)模型(也常常稱作分類(lèi)器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè)。分類(lèi)和回歸都可用于預(yù)測(cè)。預(yù)測(cè)的目的是從利用歷史數(shù)據(jù)紀(jì)錄中自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述,從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。和回歸方法不同的是,分類(lèi)的輸出是離散的類(lèi)別值,而回歸的輸出則是連續(xù)數(shù)值。

　　要構(gòu)造分類(lèi)器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類(lèi)別標(biāo)記。一個(gè)具體樣本的形式可為:( v1, v2, …, vn; c );其中vi表示字段值,c表示類(lèi)別。

　　分類(lèi)器的構(gòu)造方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等等。統(tǒng)計(jì)方法包括貝葉斯法和非參數(shù)法(近鄰學(xué)習(xí)或基于事例的學(xué)習(xí)),對(duì)應(yīng)的知識(shí)表示則為判別函數(shù)和原型事例。機(jī)器學(xué)習(xí)方法包括決策樹(shù)法和規(guī)則歸納法,前者對(duì)應(yīng)的表示為決策樹(shù)或判別樹(shù),后者則一般為產(chǎn)生式規(guī)則。神經(jīng)網(wǎng)絡(luò)方法主要是BP算法,它的模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型(由代表神經(jīng)元的節(jié)點(diǎn)和代表聯(lián)接權(quán)值的邊組成的一種體系結(jié)構(gòu)),BP算法本質(zhì)上是一種非線性判別函數(shù)。另外,最近又興起了一種新的方法:粗糙集(rough set),其知識(shí)表示是產(chǎn)生式規(guī)則。

　　不同的分類(lèi)器有不同的特點(diǎn)。有三種分類(lèi)器評(píng)價(jià)或比較尺度:1 預(yù)測(cè)準(zhǔn)確度;2 計(jì)算復(fù)雜度;3 模型描述的簡(jiǎn)潔度。預(yù)測(cè)準(zhǔn)確度是用得最多的一種比較尺度,特別是對(duì)于預(yù)測(cè)型分類(lèi)任務(wù),目前公認(rèn)的方法是10番分層交叉驗(yàn)證法。計(jì)算復(fù)雜度依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境,在數(shù)據(jù)挖掘中,由于操作對(duì)象是巨量的數(shù)據(jù)庫(kù),因此空間和時(shí)間的復(fù)雜度問(wèn)題將是非常重要的一個(gè)環(huán)節(jié)。對(duì)于描述型的分類(lèi)任務(wù),模型描述越簡(jiǎn)潔越受歡迎;例如,采用規(guī)則表示的分類(lèi)器構(gòu)造法就更有用,而神經(jīng)網(wǎng)絡(luò)方法產(chǎn)生的結(jié)果就難以理解。

　　另外要注意的是,分類(lèi)的效果一般和數(shù)據(jù)的特點(diǎn)有關(guān),有的數(shù)據(jù)噪聲大,有的有缺值, 有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強(qiáng),有的屬性是離散的而有的是連續(xù)值或混合式的。目前普遍認(rèn)為不存在某種方法能適合于各種特點(diǎn)的數(shù)據(jù)。

　　5.3、聚類(lèi)

　　聚類(lèi)是把一組個(gè)體按照相似性歸成若干類(lèi)別,即”物以類(lèi)聚”。它的目的是使得屬于同一類(lèi)別的個(gè)體之間的距離盡可能的小,而不同類(lèi)別上的個(gè)體間的距離盡可能的大。聚類(lèi)方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫(kù)的方法。

　　在統(tǒng)計(jì)方法中,聚類(lèi)稱聚類(lèi)分析,它是多元數(shù)據(jù)分析的三大方法之一(其它兩種是回歸分析和判別分析)。它主要研究基于幾何距離的聚類(lèi),如歐式距離、明考斯基距離等。傳統(tǒng)的統(tǒng)計(jì)聚類(lèi)分析方法包括系統(tǒng)聚類(lèi)法、分解法、加入法、動(dòng)態(tài)聚類(lèi)法、有序樣品聚類(lèi)、有重疊聚類(lèi)和模糊聚類(lèi)等。這種聚類(lèi)方法是一種基于全局比較的聚類(lèi),它需要考察所有的個(gè)體才能決定類(lèi)的劃分;因此它要求所有的數(shù)據(jù)必須預(yù)先給定,而不能動(dòng)態(tài)增加新的數(shù)據(jù)對(duì)象。聚類(lèi)分析方法不具有線性的計(jì)算復(fù)雜度,難以適用于數(shù)據(jù)庫(kù)非常大的情況。

　　在機(jī)器學(xué)習(xí)中聚類(lèi)稱作無(wú)監(jiān)督或無(wú)教師歸納;因?yàn)楹头诸?lèi)學(xué)習(xí)相比,分類(lèi)學(xué)習(xí)的例子或數(shù)據(jù)對(duì)象有類(lèi)別標(biāo)記,而要聚類(lèi)的例子則沒(méi)有標(biāo)記,需要由聚類(lèi)學(xué)習(xí)算法來(lái)自動(dòng)確定。很多人工智能文獻(xiàn)中,聚類(lèi)也稱概念聚類(lèi);因?yàn)檫@里的距離不再是統(tǒng)計(jì)方法中的幾何距離 ,而是根據(jù)概念的描述來(lái)確定的。當(dāng)聚類(lèi)對(duì)象可以動(dòng)態(tài)增加時(shí),概念聚類(lèi)則稱是概念形成。

　　在神經(jīng)網(wǎng)絡(luò)中,有一類(lèi)無(wú)監(jiān)督學(xué)習(xí)方法:自組織神經(jīng)網(wǎng)絡(luò)方法;如Kohonen自組織特征映射網(wǎng)絡(luò)、競(jìng)爭(zhēng)學(xué)習(xí)網(wǎng)絡(luò)等等。在數(shù)據(jù)挖掘領(lǐng)域里,見(jiàn)報(bào)道的神經(jīng)網(wǎng)絡(luò)聚類(lèi)方法主要是自組織特征映射方法,IBM在其發(fā)布的數(shù)據(jù)挖掘白皮書(shū)中就特別提到了使用此方法進(jìn)行數(shù)據(jù)庫(kù)聚類(lèi)分割。

　　5.4、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)

　　關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,”在購(gòu)買(mǎi)面包和黃油的顧客中,有90%的人同時(shí)也買(mǎi)了牛奶”(面包+黃油 ( 牛奶 )。用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對(duì)象是事務(wù)型數(shù)據(jù)庫(kù),其中針對(duì)的應(yīng)用則是售貨數(shù)據(jù),也稱貨籃數(shù)據(jù)。一個(gè)事務(wù)一般由如下幾個(gè)部分組成:事務(wù)處理時(shí)間 ,一組顧客購(gòu)買(mǎi)的物品,有時(shí)也有顧客標(biāo)識(shí)號(hào)(如信用卡號(hào))。

　　由于條形碼技術(shù)的發(fā)展,零售部門(mén)可以利用前端收款機(jī)收集存儲(chǔ)大量的售貨數(shù)據(jù)。因此,如果對(duì)這些歷史事務(wù)數(shù)據(jù)進(jìn)行分析,則可對(duì)顧客的購(gòu)買(mǎi)行為提供極有價(jià)值的信息。例如,可以幫助如何擺放貨架上的商品(如把顧客經(jīng)常同時(shí)買(mǎi)的商品放在一起),幫助如何規(guī)劃市場(chǎng)(怎樣相互搭配進(jìn)貨)。由此可見(jiàn),從事務(wù)數(shù)據(jù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,對(duì)于改進(jìn)零售業(yè)等商業(yè)活動(dòng)的決策非常重要。

　　如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在事務(wù)數(shù)據(jù)庫(kù)中存在無(wú)窮多的關(guān)聯(lián)規(guī)則。事實(shí)上,人們一般只對(duì)滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。在文獻(xiàn)中,一般稱滿足一定要求的(如較大的支持度和可信度)的規(guī)則為強(qiáng)規(guī)則。因此,為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:最小支持度和最小可信度。前者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,它表示了一組物品集在統(tǒng)計(jì)意義上的需滿足的最低程度;后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小可信度,它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。

　　在實(shí)際情況下,一種更有用的關(guān)聯(lián)規(guī)則是泛化關(guān)聯(lián)規(guī)則。因?yàn)槲锲犯拍铋g存在一種層次關(guān)系,如夾克衫、滑雪衫屬于外套類(lèi),外套、襯衣又屬于衣服類(lèi)。有了層次關(guān)系后,可以幫助發(fā)現(xiàn)一些更多的有意義的規(guī)則。例如,”買(mǎi)外套，買(mǎi)鞋子”(此處,外套和鞋子是較高層次上的物品或概念,因而該規(guī)則是一種泛化的關(guān)聯(lián)規(guī)則)。由于商店或超市中有成千上萬(wàn)種物品,平均來(lái)講,每種物品(如滑雪衫)的支持度很低,因此有時(shí)難以發(fā)現(xiàn)有用規(guī)則;但如果考慮到較高層次的物品(如外套),則其支持度就較高,從而可能發(fā)現(xiàn)有用的規(guī)則。另外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購(gòu)買(mǎi)物品時(shí),除了具有上述關(guān)聯(lián)規(guī)律,還有時(shí)間上或序列上的規(guī)律,因?yàn)?很多時(shí)候顧客會(huì)這次買(mǎi)這些東西,下次買(mǎi)同上次有關(guān)的一些東西,接著又買(mǎi)有關(guān)的某些東西。

核心關(guān)注：拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊(yùn)涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請(qǐng)注明出處：拓步ERP資訊網(wǎng)http://m.kaqidy.com/

本文標(biāo)題：數(shù)據(jù)挖掘概念綜述

本文網(wǎng)址：http://m.kaqidy.com/html/consultation/10820512239.html

關(guān)鍵詞標(biāo)簽： 數(shù)據(jù)挖掘概念綜述,BI 數(shù)據(jù)挖掘綜述,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷(xiāo)存軟件,財(cái)務(wù)軟件,倉(cāng)庫(kù)管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷(xiāo)存軟件,免費(fèi)進(jìn)銷(xiāo)存,免費(fèi)財(cái)務(wù)軟件,免費(fèi)倉(cāng)庫(kù)管理軟件,免費(fèi)下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門(mén)戶網(wǎng)

本文來(lái)源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識(shí)、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費(fèi)提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對(duì)文章轉(zhuǎn)載有任何疑問(wèn)請(qǐng)告之我們，以便我們及時(shí)糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：基于企業(yè)ERP的煙包高架庫(kù)調(diào)度功能的設(shè)計(jì)與實(shí)現(xiàn)

下一篇：基于MES/ERP的車(chē)間三維輕量可視化工藝指導(dǎo)系統(tǒng)

相關(guān)文章

管理咨詢


	ERP新聞動(dòng)態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點(diǎn)縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類(lèi) 按ERP企業(yè)規(guī)模分類(lèi) 按ERP管理領(lǐng)域分類(lèi) 按ERP軟件功能分類(lèi) 按ERP系統(tǒng)特性分類(lèi) 用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達(dá)ERP解決方案其他ERP解決方案

	ERP顧問(wèn)咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險(xiǎn)分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標(biāo) ERP實(shí)施監(jiān)理 ERP評(píng)審驗(yàn)收 ERP績(jī)效評(píng)價(jià) ERP基礎(chǔ)知識(shí) ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專(zhuān)欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計(jì)算

	ERP技術(shù)支持技術(shù)支持知識(shí)庫(kù) 常見(jiàn)問(wèn)題資料庫(kù) 在線學(xué)習(xí)資料庫(kù) 日常辦公資料庫(kù) 企業(yè)管理知識(shí)庫(kù)

	ERP系統(tǒng)價(jià)格拓步ERP系統(tǒng)價(jià)格體系拓步EIS軟件價(jià)格體系合作品牌ERP價(jià)格體系技術(shù)支持服務(wù)價(jià)格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達(dá)SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠(chéng)聘英才聯(lián)系我們在線留言在線訂購(gòu)意向下載體驗(yàn)登記

国产精品看片_久久探花_草草视频免费_久久男人天堂_久久久免费_jizzzxxxxhd

ERP顧問(wèn)咨詢

ERP原理知識(shí)

ERP實(shí)施培訓(xùn)

ERP培訓(xùn)教育

ERP視頻教材

CIO技術(shù)專(zhuān)欄

即時(shí)聯(lián)系

服務(wù)熱線

快捷互動(dòng)

猜您喜歡