99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半
學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半
2017-08-09
收藏

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半

在數(shù)據(jù)分析中,模型是非常有用和有效的工具和數(shù)據(jù)分析應(yīng)用的場景,在建立模型的過程中,數(shù)據(jù)挖掘很多時(shí)候能夠起到非常顯著的作用。伴隨著計(jì)算機(jī)科學(xué)的發(fā)展,模型也越來越向智能化和自動(dòng)化發(fā)展。對數(shù)據(jù)分析而言,了解數(shù)據(jù)挖掘背后的思想,可以有助于建立更具穩(wěn)定性的模型和更高效的模型。

數(shù)據(jù)挖掘前世今生

數(shù)據(jù)模型很多時(shí)候就是一個(gè)類似Y=f(X)的函數(shù),這個(gè)函數(shù)貫穿了模型從構(gòu)思到建立,從調(diào)試再到最后落地應(yīng)用的全部過程。

Y=f(X)建立之路

對模型而言,其中的規(guī)則和參數(shù),最初是通過經(jīng)驗(yàn)判斷人為給出的。伴隨著統(tǒng)計(jì)方法和技術(shù)的發(fā)展,在模型的建立過程中,也引入了統(tǒng)計(jì)分析的過程。更進(jìn)一步地,隨著計(jì)算機(jī)科學(xué)的發(fā)展,建模的過程,也被交給了機(jī)器來完成,因此數(shù)據(jù)挖掘也被用到了模型的建立中。

數(shù)據(jù)挖掘,是從大量數(shù)據(jù)中,挖掘出有價(jià)值信息的過程。在有的地方,數(shù)據(jù)挖掘也被成為是數(shù)據(jù)探礦,正如數(shù)據(jù)挖掘的英文data mining一樣,從數(shù)據(jù)中挖掘有價(jià)值的知識(shí),正如在礦山中采集鉆石一般,不斷去蕪存精,不斷發(fā)掘數(shù)據(jù)新的價(jià)值。數(shù)據(jù)挖掘是通過對數(shù)據(jù)不斷的學(xué)習(xí),從中發(fā)掘規(guī)律和信息的過程,因此也被稱為統(tǒng)計(jì)學(xué)習(xí)或者是機(jī)器學(xué)習(xí)。對數(shù)據(jù)挖掘而言,其應(yīng)用范圍廣泛,除了建模,在人工智能領(lǐng)域也有使用。

回到模型中,從經(jīng)驗(yàn)判斷到數(shù)據(jù)挖掘,建立模型的計(jì)算特征發(fā)生了極大的改變。

計(jì)算特征的發(fā)展

首先數(shù)據(jù)的維度開始從少變多,最初只有幾個(gè)維度,到現(xiàn)在有上百個(gè)維度。數(shù)據(jù)的體量,即記錄的條數(shù)也從少量到海量,從過去了百條規(guī)模到了現(xiàn)在億條規(guī)模。伴隨著數(shù)據(jù)獲取的難度下降,數(shù)據(jù)的維度和記錄數(shù)量會(huì)越來越多。在這種情況下,數(shù)據(jù)的處理過程也越來越復(fù)雜,從過去簡單的幾次加減計(jì)算得到結(jié)果,到了現(xiàn)在必須要經(jīng)歷上億次的復(fù)雜運(yùn)算。同時(shí),伴隨著計(jì)算性能的提升,對于從數(shù)據(jù)中提取信息而言,也從漸漸深入,過去只能發(fā)現(xiàn)一眼看出的淺表信息,如今可以不斷去挖掘隱含的知識(shí)。

數(shù)據(jù)挖掘的基本思想

數(shù)據(jù)挖掘的別名機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)一樣,數(shù)據(jù)挖掘的實(shí)質(zhì)是通過計(jì)算機(jī)的計(jì)算能力在一堆數(shù)據(jù)中發(fā)掘出規(guī)律并加以利用的過程。因此對數(shù)據(jù)挖掘而言,就需要經(jīng)歷規(guī)則學(xué)習(xí)、規(guī)則驗(yàn)證和規(guī)則使用的過程。

數(shù)據(jù)挖掘的基本思想

規(guī)則學(xué)習(xí)又稱為模型訓(xùn)練,在這個(gè)步驟中,有一個(gè)數(shù)據(jù)集將作為訓(xùn)練集。按照相關(guān)的算法和輸出規(guī)則的要求,從訓(xùn)練集中篩選出需要使用的變量,并根據(jù)這些變量生成相關(guān)的規(guī)則。有的時(shí)候,是將過去已經(jīng)發(fā)生的數(shù)據(jù)作為訓(xùn)練集,在對比已知的結(jié)果和輸入的變量的過程中,以盡可能降低輸出誤差的原則,擬合出相應(yīng)的模型。

當(dāng)產(chǎn)生了規(guī)則后,就需要驗(yàn)證規(guī)則的效果和準(zhǔn)確度,這個(gè)時(shí)候就需要引入驗(yàn)證集。驗(yàn)證集和訓(xùn)練集具有相同的格式,既包含了已知的結(jié)果也包含了輸入的變量。與訓(xùn)練集不同的是,對驗(yàn)證集的應(yīng)用是直接將規(guī)則應(yīng)用于驗(yàn)證集中,去產(chǎn)生出相應(yīng)的輸出結(jié)果,并用輸出的結(jié)果去對比實(shí)際情況,以來確定模型是否有效。如果有效的話,就可以在實(shí)際的場景中應(yīng)用。如果效果不理想,則回頭去調(diào)整模型

測試集是將模型在實(shí)際的場景中使用,是直接應(yīng)用模型的步驟。在測試集中,只包含輸入變量卻沒有像其他兩個(gè)數(shù)據(jù)一樣存在的已知結(jié)果。正因?yàn)榻Y(jié)果未知,就需要用測試集通過模型去產(chǎn)生的輸出的結(jié)果。這個(gè)輸出結(jié)果,將在為結(jié)果產(chǎn)生以后進(jìn)行驗(yàn)證,只要有效,模型就會(huì)一直使用下去。

數(shù)據(jù)挖掘的流程

數(shù)據(jù)挖掘與數(shù)據(jù)分析的流程相似,都是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的過程,只不過由于數(shù)據(jù)體量和維度的原因,數(shù)據(jù)挖掘在計(jì)算上最大。

數(shù)據(jù)挖掘的流程

數(shù)據(jù)挖掘而言,首先是進(jìn)行數(shù)據(jù)獲取,數(shù)據(jù)獲取的來源很多,有系統(tǒng)中自行記錄的數(shù)據(jù),對這種數(shù)據(jù)只要導(dǎo)出即可,同時(shí)也有外來數(shù)據(jù),比如網(wǎng)頁爬取得數(shù)據(jù),或者是購買的數(shù)據(jù),這些數(shù)據(jù)需要按照分析系統(tǒng)的需求進(jìn)行導(dǎo)入。

在完成了數(shù)據(jù)獲取步驟后,就需要進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)處理即是處理數(shù)據(jù)中的缺失值,錯(cuò)誤值以及異常值,按照相關(guān)的規(guī)則進(jìn)行修正或者刪除,同時(shí)在數(shù)據(jù)處理中也需要根據(jù)變臉之間的關(guān)系,產(chǎn)生出一系列的衍生變量??偠灾?數(shù)據(jù)處理的結(jié)果是可以進(jìn)行分析的數(shù)據(jù),所有數(shù)據(jù)在進(jìn)行分析以前都需要完成數(shù)據(jù)處理的步驟。

如果數(shù)據(jù)在分布上存在較極端的情況,就需要經(jīng)歷數(shù)據(jù)平衡的不走。例如對于要輸出的原始變量而言,存在及其少量的一種類別以及及其大量的另一種類別,就像有大量的0和少量的1一樣,在這種情況下,就需要對數(shù)據(jù)進(jìn)行平衡,通過復(fù)制1或者削減0的形式生成平衡數(shù)據(jù)集。

當(dāng)完成數(shù)據(jù)平衡后,將會(huì)把數(shù)據(jù)處理的結(jié)果分出一部分作為驗(yàn)證集使用,如果數(shù)據(jù)平衡性好,那么剩下的部分作為訓(xùn)練集,如果平衡性不好,那么平衡數(shù)據(jù)集就會(huì)作為訓(xùn)練集使用。當(dāng)有了訓(xùn)練集后,就按照相關(guān)的算法對訓(xùn)練集進(jìn)行學(xué)習(xí),從而產(chǎn)生出相關(guān)的規(guī)則和參數(shù)。當(dāng)有了規(guī)則以后,就將產(chǎn)生的規(guī)則用在驗(yàn)證集中,通過對比已知結(jié)果和輸出結(jié)果之間的誤差情況,來判斷是否通過。如果通過則在后面再測試集中使用,如果未通過,就通過數(shù)據(jù)平衡、參數(shù)調(diào)整,以及變量選擇等手段重新調(diào)整規(guī)則,并再次進(jìn)行驗(yàn)證,直到通過驗(yàn)證。

對于驗(yàn)證集驗(yàn)證的步驟而言,在無監(jiān)督學(xué)習(xí)中沒有這個(gè)步驟,當(dāng)纏上規(guī)則后,就直接用于測試集。

數(shù)據(jù)挖掘周而復(fù)始

數(shù)據(jù)挖掘是一個(gè)周而復(fù)始的過程,在生成規(guī)則的過程中,不斷地對模型進(jìn)行調(diào)整,從而提升精度。同時(shí)也將多批次的歷史數(shù)據(jù)引入到數(shù)據(jù)挖掘的過程中,進(jìn)行多次的驗(yàn)證,從而在時(shí)間上保證模型的穩(wěn)定性。

數(shù)據(jù)挖掘的模式

數(shù)據(jù)挖掘中,對于規(guī)則的獲取,存在三種方式,分別是監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),這三種方式都是通過從數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)來制定規(guī)則。

在一個(gè)數(shù)據(jù)挖掘問題中,變量可以分為自變量和因變量,規(guī)則是以自變量為輸入,以因變量為輸出的結(jié)果,由此對數(shù)據(jù)挖掘問題,就把自變量定義為X,把因變量定義為Y。

獲取規(guī)則的方式,來源于對數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)

對于監(jiān)督學(xué)習(xí)而言,訓(xùn)練集中包括了自變量X和因變量Y,通過對比X和Y的關(guān)系,得除相應(yīng)的規(guī)則,同時(shí)再在驗(yàn)證集中,通過輸入驗(yàn)證集的自變量X,借助規(guī)則得到因變量Y的預(yù)測值,再將Y的預(yù)測值與實(shí)際值進(jìn)行對比,看是否可以將模型驗(yàn)證通過,如果通過了,就把只包含自變量X的測試集用于規(guī)則中,最終輸出因變量Y的預(yù)測值。在監(jiān)督學(xué)習(xí)中,因變量的實(shí)際值和預(yù)測值的對比,就起到監(jiān)督的作用,在規(guī)則制定中需要盡量引導(dǎo)規(guī)則輸出的結(jié)果向?qū)嶋H值靠攏。

對無監(jiān)督學(xué)習(xí)而言,訓(xùn)練集中,就沒有包含因變量Y,需要根據(jù)模型的目標(biāo),通過對自變量X的分析和對比來得出相關(guān)的規(guī)則,并能夠產(chǎn)生合理的輸出結(jié)果,即Y,在制定規(guī)則的過程中,需要有一些人為的原則對規(guī)則進(jìn)行調(diào)整。當(dāng)完成調(diào)整后,就可以把只包含自變量X的測試集放到規(guī)則中,去產(chǎn)生規(guī)則的結(jié)果Y。

對比監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),最大的區(qū)別就是,在制定規(guī)則的過程中,是否有Y用于引導(dǎo)規(guī)則的生成。監(jiān)督學(xué)習(xí)中,有Y存在,生成規(guī)則過程中和生成規(guī)則時(shí),也會(huì)對比Y的預(yù)測值和實(shí)際值。而在無監(jiān)督學(xué)習(xí)中,就沒有Y作為對比的標(biāo)準(zhǔn),相應(yīng)的規(guī)則都直接由X產(chǎn)生。

監(jiān)督學(xué)習(xí),與監(jiān)督學(xué)習(xí)類似,也需要因變量Y參與到規(guī)則生成和規(guī)則驗(yàn)證中去。但是在訓(xùn)練集只用只有一少部分的對象既有自變量X和因變量Y,還有大部分對象只包含了自變量X。因此在對半監(jiān)督學(xué)習(xí)的規(guī)則生成中,需要有一些特殊的手段來處理只包含的自變量X的對象后,再生成相關(guān)的規(guī)則。在后面的驗(yàn)證和測試的流程都與監(jiān)督學(xué)習(xí)一致。因而對于半監(jiān)督學(xué)習(xí),最重要的問題就是如何借助少量的因變量Y而產(chǎn)生出可以適用的規(guī)則。

數(shù)據(jù)挖掘的應(yīng)用場景

數(shù)據(jù)挖掘應(yīng)用的場景很多,通常有四種情況被廣泛的使用。

數(shù)據(jù)挖掘的應(yīng)用場景

首先是聚類分析,就是將不同的對象,根據(jù)其變量特征的分布自然地分成不同的類別。此外是分類模型,這是針對已知的類別,構(gòu)建出分類的模型,通過分類的模型來探求其他未分類對象的類別。第三是預(yù)測估計(jì),集根據(jù)對象的連續(xù)數(shù)據(jù)因變量,通過圍繞已知的維度,構(gòu)建出預(yù)測因變量的模型,從而對因變量未知的對象進(jìn)行估計(jì)。最后是關(guān)聯(lián)分析,即通過探求數(shù)據(jù)對象之間的相關(guān)關(guān)系,來發(fā)現(xiàn)對象之間的聯(lián)系,在關(guān)聯(lián)分析中,更多是以對象之間的關(guān)系作為輸出。

聚類分析

聚類分析是一種無監(jiān)督學(xué)習(xí)數(shù)據(jù)挖掘方法,其目的是基于對象之間的特征,自然地將變量劃分為不同的類別。在聚類分析中,基本的思想就是根據(jù)對象不同特征變量,計(jì)算變量之間的距離,距離理得越近,就越有可能被劃為一類,離得越遠(yuǎn),就越有可能被劃分到不同的類別中去。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

聚類分析基本思想

例如在坐標(biāo)系中,B距離A的距離遠(yuǎn)遠(yuǎn)小于,B到C的距離,因此,AB更容易劃分為一類,而BC更容易為不同的類別。通常來說,一個(gè)對象距離同類的距離是最近的,都小于其他類別中對象的距離。

聚類分析中,有兩種常用的方法,一種是K-means聚類,一種是層次聚類。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

K-means聚類VS層次聚類

在K-means聚類中,是預(yù)先規(guī)定出要產(chǎn)生多少個(gè)類別的數(shù)量,再根據(jù)類別數(shù)量自動(dòng)聚成相應(yīng)的類。對K-means而言,首先是隨機(jī)產(chǎn)生于類別數(shù)相同的初始點(diǎn),然后判斷每個(gè)點(diǎn)與初始點(diǎn)的距離,每個(gè)點(diǎn)選擇最近的一個(gè)初始點(diǎn),作為其類別。當(dāng)類別產(chǎn)生后,在計(jì)算各個(gè)類別的中心點(diǎn),然后計(jì)算每個(gè)點(diǎn)到中心點(diǎn)的距離,并根據(jù)距離再次選擇類別。當(dāng)新類別產(chǎn)生后,再次根據(jù)中心點(diǎn)重復(fù)選擇類別的過程,直到中心點(diǎn)的變化不再明顯。最終根據(jù)中心點(diǎn)產(chǎn)生的類別,就是聚類的結(jié)果。正如圖中所示,一組對象中需要生成三個(gè)類別,各個(gè)類別之間都自然聚焦在一起。

在層次聚類中,不需要規(guī)定出類別的數(shù)量,最終聚類的數(shù)量可以根據(jù)人為要求進(jìn)行劃分。對層次聚類,首先每個(gè)對象都是單獨(dú)的類別,通過比較兩兩之間距離,首先把距離最小的兩個(gè)對象聚成一類。接著把距離次小的聚成一類,然后就是不斷重復(fù)按距離最小的原則,不斷聚成一類的過程,直到所有對象都被聚成一類。在層次聚類中,可以以一張樹狀圖來表示聚類的過程,如果要講對象分類的話,就可以從根節(jié)點(diǎn)觸發(fā),按照樹狀圖的分叉情況,劃分出不同的類別來。在圖中,把一組對象分成了三個(gè)類別,可見這三個(gè)類別就是構(gòu)成了樹狀圖最開始的三個(gè)分支。

聚類分析的過程,和分桔子其實(shí)很很像,人們通常都把特征相同的桔子分成一類,聚類分析中,也是同樣的方式。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

聚類分析案例

正如在這個(gè)例子中,有A-H的8個(gè)桔子,對每個(gè)桔子而言有提體積和變量兩個(gè)變量。通過將各個(gè)桔子投射到重量和體積構(gòu)成的坐標(biāo)系中,可以發(fā)現(xiàn)BEF距離很近,ACG距離很近,而DH距離很近。如果聚成3類的話,可以是ACG、BEF,DH各為一類。如果是聚成兩類,BEFDH與ACG相對更近,因此可以是ACG為一類,而BEFDH為另外一類

分類模型

分類模型通常是通過監(jiān)督學(xué)習(xí)產(chǎn)生的,根據(jù)已知的對象的類別和其具體特征特征的數(shù)據(jù),通過訓(xùn)練從而產(chǎn)生由特征判斷類別的規(guī)則。在分類模型中,規(guī)則的輸出就是具體的類別。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

分類模型基本思想

分類模型的規(guī)則產(chǎn)生的過程中,類別判別的原則與訓(xùn)練集中各特征變量的分布息息相關(guān),通常就是在對比各個(gè)類別下特征變量的互相關(guān)系,而劃分出相關(guān)的規(guī)則,這個(gè)過程遵循的原則就是盡可能讓輸出的類別與實(shí)際的類別保持一致。

當(dāng)前,不管在學(xué)術(shù)研究領(lǐng)域還是業(yè)務(wù)應(yīng)用領(lǐng)域都有大量的分類模型,通常來說,決策樹樸素貝葉斯是非常普遍的分類模型算法,這兩個(gè)算法在一些文獻(xiàn)中也被列為十大數(shù)據(jù)挖掘算法。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

決策樹VS樸素貝葉斯

決策樹的規(guī)則生成算法是將對象按照相關(guān)的特診變量進(jìn)行依次拆分,在拆分中不斷迭代條件,最終劃分為最終的類別。決策樹的劃分過程,就像是一個(gè)樹一樣,從根節(jié)點(diǎn)觸發(fā),依次開支散葉,最終形成分類準(zhǔn)則。

在圖中,首先就按照年齡進(jìn)行分支,直接將所有對象分成了三堆,其中年齡在31-40歲的被劃定為購買類,另外的兩堆對象,還需要繼續(xù)進(jìn)行分支。對年齡小于30歲,按照是否為學(xué)生進(jìn)行分支,其中是學(xué)生的被判定為購買類,不是學(xué)生的被判定為不買類。同樣對年齡大于40歲,按照信用等級進(jìn)行分類,信用等級高的被判定為不買類,信息等級低的被判定為購買類。就這樣,任何一個(gè)對象,都可以根據(jù)條件達(dá)成的情況,最終到達(dá)購買或者不買的節(jié)點(diǎn),完成分類過程。

樸素貝葉斯的規(guī)則生成算法相對決策樹而言,就沒有這么直觀了,其依賴于概率中的貝葉斯公式。由公式P(AB)=P(A/B)×P(B)=P(B/A)×P(A)得來的后驗(yàn)概率公式P(A/B)=P(B/A)×P(A)/P(B),其中A類別,B表示條件即特征變量。P(A/B)表示在特定條件下該類別的概率,P(B/A)表示在特定類別下該條件的分布概率,P(A)表示已知的特定分類的概率,而P(B)表示已知的特定條件的概率。

在算法中,P(B/A)、P(A)、P(B)都通過訓(xùn)練集能夠得到,再加上在條件一定時(shí),P(B)是恒定的,同時(shí)每個(gè)條件互相獨(dú)立,根據(jù)概率公式,P(類別/總條件)是P(類別)和所有P(條件/類別)的乘積。因此在樸素貝葉斯中,最大的P(類別/總條件)對應(yīng)的類別,就是被劃分的類別。

最近這幾年,網(wǎng)上總有要遠(yuǎn)離女司機(jī)的段子,在網(wǎng)友心中女司機(jī)簡直如洪水猛獸一般,這種說法一方面來自于個(gè)別事例的傳播,另外一方面也來自于女司機(jī)在低速駕駛時(shí)對他人的困擾造成的誤解。其實(shí),對于女司機(jī)是不是應(yīng)該害怕的問題,就可以用分類模型的解決。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

用分類模型解決女司機(jī)問題

已知道路上的車輛中的分布如下,會(huì)發(fā)生的事故的概率有0.11,而是安全的概率有0.89,車輛的分布就是對事件的原始分類分布。同時(shí),對發(fā)生條件的分布如下,發(fā)生事故時(shí),男司機(jī)概率為0.9,女司機(jī)概率為0.1,在安全情況下時(shí),男司機(jī)概率為0.2,女司機(jī)概率為0.8。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

分類模型案例計(jì)算流程

那么根據(jù)貝葉斯公式,可以知道,當(dāng)遇到男司機(jī)時(shí),發(fā)生事故的概率為0.1,而女司機(jī)是0.01,兩者的事故的概率都很低。對男女司機(jī)而言,其發(fā)生事故的概率都低于安全的概率,因此在職考慮性別的情況下,所有司機(jī)都是被分為安全類別,尤其是女司機(jī),安全的概率遠(yuǎn)遠(yuǎn)大于事故。因此不能簡單的通過司機(jī)的性別,就做出是否危險(xiǎn)的判別,尤其是遇到女司機(jī)。

關(guān)聯(lián)分析

關(guān)聯(lián)分析模型常用于揭示事件之間的關(guān)系,是通過無監(jiān)督學(xué)習(xí)的方式,產(chǎn)生的輸出事件之間發(fā)生關(guān)系的規(guī)則。關(guān)聯(lián)分析最開始在零售領(lǐng)域常常用到,比如可以提供買了方便面時(shí)很多情況都會(huì)買火腿腸的關(guān)系,因此在某些情況下,關(guān)聯(lián)分析又被稱為購物籃分析。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

關(guān)聯(lián)分析基本思想

在購物籃分析中,其核心思想就是對比單個(gè)事件發(fā)生的概率,和多個(gè)事件同時(shí)發(fā)生的概率的情況,如果同時(shí)發(fā)生的概率與單獨(dú)發(fā)生的概率相近,則可以考慮發(fā)生了一個(gè)事件后,很有可能會(huì)存在同時(shí)發(fā)生另外一個(gè)事件的情況。

有事件X和事件Y,以及XY同時(shí)發(fā)生的概率,在購物籃分析中,支持度是XY同時(shí)發(fā)生的概率,置信度是當(dāng)X發(fā)生了,Y也發(fā)生的條件概率

關(guān)聯(lián)分析算法

如果在規(guī)則中,兩個(gè)事件的支持度和置信度都達(dá)到了制定的閾值,則可以認(rèn)為這兩個(gè)事件具有強(qiáng)關(guān)聯(lián)的關(guān)系。關(guān)聯(lián)分析正是體現(xiàn)了這種強(qiáng)關(guān)系。在強(qiáng)關(guān)系中,還有提升度來確認(rèn)這種強(qiáng)關(guān)系的力度,提升度是指,當(dāng)X出現(xiàn)同時(shí)出現(xiàn)Y的概率,與Y總體出現(xiàn)的概率之比,即X對Y的置信度與Y發(fā)生概率的比值,通常來說提升度都是大于1的,提升度越大,說明強(qiáng)關(guān)系力度越大。

在關(guān)聯(lián)分析中,強(qiáng)關(guān)系存在兩種情況,這種情況具有不同的時(shí)間上的考慮,第一種是序列關(guān)系,即事情順次發(fā)生,比如購買了A了以后又繼續(xù)購買B,另外一種是同時(shí)關(guān)聯(lián),即事件同時(shí)發(fā)生,比如買了A的同時(shí)也買了B。

啤酒和尿布是關(guān)聯(lián)分析中的經(jīng)典案例,盡管最近出現(xiàn)了這個(gè)只是編造的案例而已,然而去仍然能體現(xiàn)出關(guān)聯(lián)分析的價(jià)值出來。

在啤酒和尿布中發(fā)現(xiàn)關(guān)聯(lián)分析的價(jià)值

啤酒和尿布,兩個(gè)看起來不無相關(guān)的物品,卻可以通過關(guān)聯(lián)分析,找出進(jìn)行同時(shí)銷售的機(jī)會(huì)出來,其背后的原理就是發(fā)現(xiàn)了,啤酒和尿布之間的強(qiáng)關(guān)聯(lián)關(guān)系。

關(guān)聯(lián)分析案例計(jì)算過程

假設(shè)有尿布,啤酒,零食,水果和香煙的五種商品,同時(shí)也知道了各個(gè)商品購買的清單,根據(jù)清單可以提取單個(gè)產(chǎn)品的頻數(shù)和其對應(yīng)的概率,以及產(chǎn)品之間兩兩組合帶來頻數(shù)和概率。根據(jù)支持度和置信度的計(jì)算公式,可以得到,每個(gè)產(chǎn)品組合的支持度,以及置信度。設(shè)置強(qiáng)關(guān)聯(lián)最小支出度閾值以及最小置信度閾值都為0.5時(shí),啤酒對尿布達(dá)到了強(qiáng)關(guān)聯(lián)的閾值,因此啤酒對尿布這對組合可以認(rèn)為具有強(qiáng)關(guān)聯(lián),因此在購買啤酒時(shí)推薦購買尿布,能夠增加尿布的銷量。

預(yù)測估計(jì)

預(yù)測估計(jì)的規(guī)則,是用來輸出連續(xù)的數(shù)值,即通過預(yù)測估計(jì)的規(guī)則,模型輸出的是系列的數(shù)值,這些數(shù)值可以進(jìn)行加減乘除的一系列計(jì)算。

預(yù)測估計(jì)基本思想

預(yù)測估計(jì)的規(guī)則通常以一個(gè)公式存在,這個(gè)公式可以體現(xiàn)出要輸出的因變量Y與特征變量X的關(guān)系,最簡單的來說,像一條在坐標(biāo)系反應(yīng)Y和X關(guān)系的直線一樣,知道了X是多少的情況,就可以根據(jù)線性關(guān)系,輸出對應(yīng)的Y。這種思路正式用于生成回歸方程,因此有的時(shí)候預(yù)測估計(jì)也被稱為是回歸。

在預(yù)測估計(jì)中,首先是對比訓(xùn)練集中要輸出的因變量Y和特征變量X的關(guān)系,通常來說,X不只有一個(gè),而是有X1,X2,X3,Xn等多個(gè),在這種情況下,通過學(xué)習(xí)X1到Xn與Y的數(shù)學(xué)關(guān)系,從而產(chǎn)生出能夠基于X1到XN預(yù)測出Y的規(guī)則。如果規(guī)則通過驗(yàn)證集的驗(yàn)證,就可以在實(shí)習(xí)情況中與預(yù)測要輸出的因變量Y。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

預(yù)測估計(jì)算法

預(yù)測估計(jì)的輸出變量可以是絕對值也可以是相對值,在輸出絕對值的情況下,線性回歸是常用的模型,即生成一條關(guān)于Y與X1到Xn的直線方程,用來預(yù)測Y。在輸出相對值得情況,邏輯回歸是常用的模型。在邏輯回歸中,輸出的Y是概率,在規(guī)則中通過擬合X的直線,產(chǎn)生出一個(gè)結(jié)果,再將直線輸出結(jié)果進(jìn)行指數(shù)化轉(zhuǎn)換,最終結(jié)果就是的Y,即事件發(fā)生概率。

下面是一個(gè)用預(yù)測估計(jì)的模型來預(yù)測誰可以得獎(jiǎng)的例子,在這個(gè)例子中,并不是直接用模型預(yù)測得獎(jiǎng)的人員,而是通過對過去得獎(jiǎng)的人員的數(shù)據(jù)進(jìn)行學(xué)習(xí),從而得出計(jì)算得獎(jiǎng)概率的規(guī)則,并通過學(xué)習(xí)到的規(guī)則,根據(jù)本次所有人的表現(xiàn)的數(shù)據(jù),來預(yù)測各自的將概率。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

用預(yù)測估計(jì)知道得獎(jiǎng)概率

在這個(gè)例子中,共有7個(gè)變量,其中過去得獎(jiǎng)是作為0-1因變量存在,1表示得獎(jiǎng),0表示未得獎(jiǎng)。在自變量中有另外6個(gè)變量。通過對歷史的數(shù)據(jù)的學(xué)習(xí),能夠得到logit的計(jì)算公式,并根據(jù)概率換算的公式,得到概率的公式。

學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!

再進(jìn)一步地,取得當(dāng)前數(shù)據(jù)后,根據(jù)概率公式,得到每個(gè)人為的得獎(jiǎng)概率,概率最大的即為最可能得獎(jiǎng)的人。

挖掘思維總結(jié)

在挖掘思維是與數(shù)據(jù)挖掘相關(guān),相比前面幾種思維而言,挖掘思維似乎要晦澀難懂一些,畢竟數(shù)據(jù)挖掘涉及的已經(jīng)不局限于簡單的數(shù)學(xué),而且還擴(kuò)充到了計(jì)算機(jī)科學(xué)層面。這里設(shè)置挖掘思維,其目的就是在解答,當(dāng)數(shù)據(jù)量實(shí)在太大時(shí),維度實(shí)在太多時(shí),應(yīng)該如何來處理的問題。

挖掘思維總結(jié)

數(shù)據(jù)挖掘的實(shí)質(zhì),其實(shí)還是為了得到一個(gè)模型,產(chǎn)生結(jié)果。當(dāng)數(shù)據(jù)需要特別復(fù)雜的計(jì)算過程時(shí),數(shù)據(jù)挖掘就能夠產(chǎn)生作用了。數(shù)據(jù)挖掘通常通過已知輸出的結(jié)果的數(shù)據(jù)中作為訓(xùn)練集產(chǎn)生出模型,再用另外一部分知道已知輸出結(jié)果的數(shù)據(jù)作為驗(yàn)證集來驗(yàn)證模型的可信程度,通過驗(yàn)證后,再用到測試集中去取得實(shí)際的效果。

數(shù)據(jù)挖掘分為四種類型,就像前面所述,四種類型分別是聚類分析、分類模型、關(guān)聯(lián)分析和預(yù)測估計(jì)。聚類分析是將數(shù)據(jù)對象,根據(jù)其特征自然分成不同類別。分類模型是針對已知類別,構(gòu)建分類模型,探求未分類對象的類別。關(guān)聯(lián)分析是通過數(shù)據(jù)對象之間的相關(guān)關(guān)系,發(fā)現(xiàn)對象之間的聯(lián)系。預(yù)測估計(jì)就是根據(jù)已知連續(xù)數(shù)據(jù)對象,構(gòu)建模型,對未知對象估值。

舉一個(gè)簡單的例子,知道一個(gè)班之間學(xué)生平時(shí)作業(yè)的情況,將學(xué)生自動(dòng)分成若干類別,就是聚類分析,這些有可能是學(xué)霸型,學(xué)渣型,還有可能是偏科型,到底類別怎么樣,事前都不知道,要聚類以后才知道。已知一部分學(xué)生的類別,而不知道另外一部分學(xué)生,就用分類模型的方式得出另外一些學(xué)生的類別。知道一些學(xué)生掛語文的同時(shí)還容易掛哪些學(xué)科,就是關(guān)聯(lián)分析。從學(xué)生平時(shí)作業(yè)來預(yù)測他們期末考試分?jǐn)?shù)就是預(yù)測估計(jì)。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }