99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀 什么是數(shù)據(jù)挖掘-數(shù)據(jù)挖掘應(yīng)用
什么是數(shù)據(jù)挖掘-數(shù)據(jù)挖掘應(yīng)用
2016-02-15
收藏

什么是數(shù)據(jù)挖掘-數(shù)據(jù)挖掘應(yīng)用

什么是數(shù)據(jù)挖掘

當(dāng)今數(shù)據(jù)庫(kù)的容量已經(jīng)達(dá)到上萬(wàn)億的水平(T)--- 1,000,000,000,000個(gè)字節(jié)。在這些大量數(shù)據(jù)的背后隱藏了很多具有決策意義的信息,那么怎么得到這些“知識(shí)”呢?也就是怎樣通過(guò)一顆顆的樹(shù)木了解到整個(gè)森林的情況?

計(jì)算機(jī)科學(xué)對(duì)這個(gè)問(wèn)題給出的最新回答就是:數(shù)據(jù)挖掘,在“數(shù)據(jù)礦山”中找到蘊(yùn)藏的“知識(shí)金塊”,幫助企業(yè)減少不必要投資的同時(shí)提高資金回報(bào)。數(shù)據(jù)挖掘給企業(yè) 帶來(lái)的潛在的投資回報(bào)幾乎是無(wú)止境的。世界范圍內(nèi)具有創(chuàng)新性的公司都開(kāi)始采用數(shù)據(jù)挖掘技術(shù)來(lái)判斷哪些是他們的最有價(jià)值客戶、重新制定他們的產(chǎn)品推廣策略 (把產(chǎn)品推廣給最需要他們的人),以用最小的花費(fèi)得到最好的銷售。

數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過(guò)程,這些模型和關(guān)系可以用來(lái)做出預(yù)測(cè)。

數(shù)據(jù)挖掘的第一步是描述數(shù)據(jù) --- 計(jì)算統(tǒng)計(jì)變量(比如平均值、均方差等),再用圖表或圖片直觀的表示出來(lái),進(jìn)而可以看出一些變量之間的相關(guān)性(比如有一些值經(jīng)常同時(shí)出現(xiàn))。選擇正確的數(shù)據(jù) 源對(duì)整個(gè)數(shù)據(jù)挖掘項(xiàng)目的成敗至關(guān)重要,在后面數(shù)據(jù)挖掘的步驟中我們會(huì)著重強(qiáng)調(diào)這一點(diǎn)。

單 單是數(shù)據(jù)描述并不能為人們制訂行動(dòng)計(jì)劃提供足夠的依據(jù),你必須用你的這些歷史數(shù)據(jù)建立一個(gè)預(yù)言模型,然后再用另外一些數(shù)據(jù)對(duì)這個(gè)模型進(jìn)行測(cè)試。一個(gè)好的模 型沒(méi)必要與數(shù)據(jù)庫(kù)中的數(shù)據(jù)100%的相符(城市交通圖也不是完全的實(shí)際交通線路的等比縮?。?,但他在你做決策時(shí)是一個(gè)很好的指南和依據(jù)。

最后一步是驗(yàn)證你的模型。比如你用所有對(duì)你的產(chǎn)品推廣計(jì)劃做出回應(yīng)的人的數(shù)據(jù)庫(kù)做了一個(gè)模型,來(lái)預(yù)測(cè)什么樣的人會(huì)對(duì)你的產(chǎn)品感興趣。你能在得到這個(gè)模型后就直接利用這個(gè)模型做出決策或采取行動(dòng)嗎?還是更穩(wěn)妥一點(diǎn)先對(duì)一小部分客戶做一個(gè)實(shí)際的測(cè)試,然后再?zèng)Q定?

數(shù)據(jù)挖掘:不能干什么

數(shù)據(jù)挖掘它無(wú)法告訴你某個(gè)模型對(duì)你的企業(yè)的實(shí)際價(jià)值。而且數(shù)據(jù)挖掘中得到的模型必須要在現(xiàn)實(shí)生活中進(jìn)行驗(yàn)證。

注 意數(shù)據(jù)挖掘中得到的預(yù)言模型并不會(huì)告訴你一個(gè)人為什么會(huì)做一件事、采取某個(gè)行動(dòng),他只會(huì)告訴你他會(huì)這樣做,為什么要人去考慮。比如,數(shù)據(jù)挖掘可能會(huì)告訴 你,如果這個(gè)人是男的、年收入在5萬(wàn)到6萬(wàn)之間,那么他可能會(huì)買你的商品/服務(wù)。你可能會(huì)利用這條規(guī)則,集中向這類人推銷你的商品而從中獲益,但是數(shù)據(jù)挖 掘工具不會(huì)告訴你他們?yōu)槭裁磿?huì)買你的東西,也不能保證所有符合這條規(guī)則的人都會(huì)買。

為 了保證數(shù)據(jù)挖掘結(jié)果的價(jià)值,你自己必須了解你的數(shù)據(jù),這一點(diǎn)至關(guān)重要。輸入數(shù)據(jù)庫(kù)中的異常數(shù)據(jù)、不相關(guān)的字段或互相沖突的字段(比如年齡和生日不一致)、 數(shù)據(jù)的編碼方式等都會(huì)對(duì)數(shù)據(jù)挖掘輸出結(jié)果的質(zhì)量產(chǎn)生影響。雖然一些算法自身會(huì)對(duì)上面提到的這些問(wèn)題做一些考慮,但讓算法自己做所有這些決定是不明智的。

數(shù)據(jù)挖掘不會(huì)在缺乏指導(dǎo)的情況下自動(dòng)的發(fā)現(xiàn)模型。你不能這樣對(duì)數(shù)據(jù)挖掘工具說(shuō),“幫我提高直接郵件推銷的響應(yīng)率”,你應(yīng)該讓數(shù)據(jù)挖掘工具找(1)對(duì)你的推銷回應(yīng)的人,或(2)即回應(yīng)又做了大量訂單的人的特征。在數(shù)據(jù)挖掘中尋找這兩種模型是很不相同的。

雖然數(shù)據(jù)挖掘工具使你不必再掌握艱深的統(tǒng)計(jì)分析技術(shù),但你仍然需要知道你所選用的數(shù)據(jù)挖掘工具是如何工作的,他所采用的算法的原理是什么。你所選用的技術(shù)和優(yōu)化方法會(huì)對(duì)你的模型的準(zhǔn)確度和生成速度產(chǎn)生很大影響。

數(shù) 據(jù)挖掘永遠(yuǎn)不會(huì)替代有經(jīng)驗(yàn)的商業(yè)分析師或管理人員所起的作用,他只是提供一個(gè)強(qiáng)大的工具。每個(gè)成熟的、了解市場(chǎng)的公司都已經(jīng)具有一些重要的、能產(chǎn)生高回報(bào) 的模型,這些模型可能是管理人員花了很長(zhǎng)時(shí)間,作了很多調(diào)查,甚至是經(jīng)過(guò)很多失誤之后得來(lái)的。數(shù)據(jù)挖掘工具要做的就是使這些模型得到的更容易,更方便,而 且有根據(jù)。

數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)

大 部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中。從數(shù)據(jù)倉(cāng)庫(kù)中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們后面會(huì)講到的, 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)清理過(guò),那很可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要在清理一次了,而且所有的數(shù)據(jù)不一 致的問(wèn)題都已經(jīng)被你解決了。

數(shù)據(jù)挖掘庫(kù)可能是你的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫(kù)。但如果你的數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算資源已經(jīng)很緊張,那你最好還是建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫(kù)。

當(dāng) 然為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)不是必需的。建立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問(wèn)題,然 后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)間花上百萬(wàn)的錢才能完成。只是為了數(shù)據(jù)挖掘,你可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫(kù)導(dǎo)到一 個(gè)只讀的數(shù)據(jù)庫(kù)中,就把它當(dāng)作數(shù)據(jù)集市,然后在他上面進(jìn)行數(shù)據(jù)挖掘。

 數(shù)據(jù)挖掘和在線分析處理(OLAP)

一個(gè)經(jīng)常問(wèn)的問(wèn)題是,數(shù)據(jù)挖掘和OLAP到底有何不同。下面將會(huì)解釋,他們是完全不同的工具,基于的技術(shù)也大相徑庭。

OLAP 是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么(what happened),OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣(What next)、和如果我采取這樣的措施又會(huì)怎么樣(What if)。用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。比如,一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的 假定,認(rèn)為低收入的人信用度也低,然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒(méi)有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入 和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。

也就是說(shuō),OLAP分析師是建立一系列的假設(shè),然后通過(guò)OLAP來(lái)證實(shí)或推翻這些假設(shè)來(lái)最終得到自己的結(jié)論。OLAP分析過(guò)程在本質(zhì)上是一個(gè)演繹推理的過(guò)程。但是如果分析的變量達(dá)到幾十或上百個(gè),那么再用OLAP手動(dòng)分析驗(yàn)證這些假設(shè)將是一件非常困難和痛苦的事情。

數(shù) 據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過(guò)程。比如, 一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問(wèn)題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來(lái) 沒(méi)有想過(guò)或試過(guò)的其他因素,比如年齡。

數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前,你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來(lái)什么樣的影響,那么OLAP工具能回答你的這些問(wèn)題。

而且在知識(shí)發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途??梢詭湍闾剿鲾?shù)據(jù),找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識(shí)發(fā)現(xiàn)的過(guò)程。

數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)

數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來(lái)的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。

數(shù) 據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測(cè)的準(zhǔn)確度還 是令人滿意的,但對(duì)使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng),我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過(guò)相對(duì)簡(jiǎn)單和固定的方法完成同樣的功能。

一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹(shù),在足夠多的數(shù)據(jù)和計(jì)算能力下,他們幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能。

數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問(wèn)題。

軟硬件發(fā)展對(duì)數(shù)據(jù)挖掘的影響

使 數(shù)據(jù)挖掘這件事情成為可能的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能價(jià)格比的巨大進(jìn)步。在過(guò)去的幾年里磁盤存儲(chǔ)器的價(jià)格幾乎降低了99%,這在很大程度上改變了企業(yè)界對(duì)數(shù)據(jù) 收集和存儲(chǔ)的態(tài)度。如果每兆的價(jià)格是¥10,那存放1TB的價(jià)格是¥10,000,000,但當(dāng)每兆的價(jià)格降為1毛錢時(shí),存儲(chǔ)同樣的數(shù)據(jù)只有 ¥100,000!

計(jì)算機(jī)計(jì)算能力價(jià)格的降低同樣非常顯著。每一代芯片的誕生都會(huì)把CPU的計(jì)算能力提高一大步。內(nèi)存RAM也同樣降價(jià)迅速,幾年之內(nèi)每兆內(nèi)存的價(jià)格由幾百塊錢降到現(xiàn)在只要幾塊錢。通常PC都有64M內(nèi)存,工作站達(dá)到了256M,擁有上G內(nèi)存的服務(wù)器已經(jīng)不是什么新鮮事了。

在單個(gè)CPU計(jì)算能力大幅提升的同時(shí),基于多個(gè)CPU的并行系統(tǒng)也取得了很大的進(jìn)步。目前幾乎所有的服務(wù)器都支持多個(gè)CPU,這些SMP服務(wù)器簇甚至能讓成百上千個(gè)CPU同時(shí)工作。

基于并行系統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來(lái)了便利。如果你有一個(gè)龐大而復(fù)雜的數(shù)據(jù)挖掘問(wèn)題要求通過(guò)訪問(wèn)數(shù)據(jù)庫(kù)取得數(shù)據(jù),那么效率最高的辦法就是利用一個(gè)本地的并行數(shù)據(jù)庫(kù)。

所有這些都為數(shù)據(jù)挖掘的實(shí)施掃清了道路,隨著時(shí)間的延續(xù),我們相信這條道路會(huì)越來(lái)越平坦。

數(shù)據(jù)挖掘應(yīng)用

由于數(shù)據(jù)挖掘帶來(lái)的顯著的經(jīng)濟(jì)效益,使數(shù)據(jù)挖掘越來(lái)越普及。他不僅能用于控制成本,也能給企業(yè)帶來(lái)效益。

很多企業(yè)都在利用數(shù)據(jù)挖掘技術(shù)幫助管理客戶生命周期的各個(gè)階段,包括爭(zhēng)取新的客戶、在已有客戶的身上賺更多的錢、和保持住好的客戶。如果能夠確定好的客戶的 特點(diǎn),那么就能提供為客戶提供針對(duì)性的服務(wù)。比如,已經(jīng)發(fā)現(xiàn)了購(gòu)買某一商品的客戶的特征,那么就可以向那些具有這些特征但還沒(méi)有購(gòu)買此商品的客戶推銷這個(gè) 商品;找到流失的客戶的特征就可以,在那些具有相似特征的客戶還未流失之前進(jìn)行針對(duì)性的彌補(bǔ),因?yàn)楸A粢粋€(gè)客戶要比爭(zhēng)取一個(gè)客戶便宜的多。

數(shù)據(jù)挖掘可以應(yīng)用在各個(gè)不同的領(lǐng)域。電訊公司和信用卡公司是用數(shù)據(jù)挖掘檢測(cè)欺詐行為的先行者。保險(xiǎn)公司和證券公司也開(kāi)始采用數(shù)據(jù)挖掘來(lái)減少欺詐。醫(yī)療應(yīng)用是 另一個(gè)前景廣闊的產(chǎn)業(yè):數(shù)據(jù)挖掘可以用來(lái)預(yù)測(cè)外科手術(shù)、醫(yī)療試驗(yàn)和藥物治療的效果。零銷商更多的使用數(shù)據(jù)挖掘來(lái)決定每種商品在不同地點(diǎn)的庫(kù)存,通過(guò)數(shù)據(jù)挖 掘更靈活的使用促銷和優(yōu)惠卷手段。制藥公司通過(guò)挖掘巨大的化學(xué)物質(zhì)和基因?qū)膊〉挠绊懙臄?shù)據(jù)庫(kù)來(lái)判斷哪些物質(zhì)可能對(duì)治療某種疾病產(chǎn)生效果。

成功的數(shù)據(jù)挖掘

有保證數(shù)據(jù)挖掘成功的兩個(gè)關(guān)鍵要素。一是準(zhǔn)確的定義你所要解決的問(wèn)題,定位準(zhǔn)確的問(wèn)題通常會(huì)帶來(lái)最好的回報(bào)。二是使用正確的數(shù)據(jù),選定了你所能得到的數(shù)據(jù),也許還要從外部購(gòu)買數(shù)據(jù),你需要對(duì)這些數(shù)據(jù)做有效的數(shù)據(jù)整合和轉(zhuǎn)換。

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }