
學(xué)會(huì)數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半
在數(shù)據(jù)分析中,模型是非常有用和有效的工具和數(shù)據(jù)分析應(yīng)用的場景,在建立模型的過程中,數(shù)據(jù)挖掘很多時(shí)候能夠起到非常顯著的作用。伴隨著計(jì)算機(jī)科學(xué)的發(fā)展,模型也越來越向智能化和自動(dòng)化發(fā)展。對數(shù)據(jù)分析而言,了解數(shù)據(jù)挖掘背后的思想,可以有助于建立更具穩(wěn)定性的模型和更高效的模型。
數(shù)據(jù)挖掘前世今生
數(shù)據(jù)模型很多時(shí)候就是一個(gè)類似Y=f(X)的函數(shù),這個(gè)函數(shù)貫穿了模型從構(gòu)思到建立,從調(diào)試再到最后落地應(yīng)用的全部過程。
Y=f(X)建立之路
對模型而言,其中的規(guī)則和參數(shù),最初是通過經(jīng)驗(yàn)判斷人為給出的。伴隨著統(tǒng)計(jì)方法和技術(shù)的發(fā)展,在模型的建立過程中,也引入了統(tǒng)計(jì)分析的過程。更進(jìn)一步地,隨著計(jì)算機(jī)科學(xué)的發(fā)展,建模的過程,也被交給了機(jī)器來完成,因此數(shù)據(jù)挖掘也被用到了模型的建立中。
數(shù)據(jù)挖掘,是從大量數(shù)據(jù)中,挖掘出有價(jià)值信息的過程。在有的地方,數(shù)據(jù)挖掘也被成為是數(shù)據(jù)探礦,正如數(shù)據(jù)挖掘的英文data mining一樣,從數(shù)據(jù)中挖掘有價(jià)值的知識(shí),正如在礦山中采集鉆石一般,不斷去蕪存精,不斷發(fā)掘數(shù)據(jù)新的價(jià)值。數(shù)據(jù)挖掘是通過對數(shù)據(jù)不斷的學(xué)習(xí),從中發(fā)掘規(guī)律和信息的過程,因此也被稱為統(tǒng)計(jì)學(xué)習(xí)或者是機(jī)器學(xué)習(xí)。對數(shù)據(jù)挖掘而言,其應(yīng)用范圍廣泛,除了建模,在人工智能領(lǐng)域也有使用。
回到模型中,從經(jīng)驗(yàn)判斷到數(shù)據(jù)挖掘,建立模型的計(jì)算特征發(fā)生了極大的改變。
計(jì)算特征的發(fā)展
首先數(shù)據(jù)的維度開始從少變多,最初只有幾個(gè)維度,到現(xiàn)在有上百個(gè)維度。數(shù)據(jù)的體量,即記錄的條數(shù)也從少量到海量,從過去了百條規(guī)模到了現(xiàn)在億條規(guī)模。伴隨著數(shù)據(jù)獲取的難度下降,數(shù)據(jù)的維度和記錄數(shù)量會(huì)越來越多。在這種情況下,數(shù)據(jù)的處理過程也越來越復(fù)雜,從過去簡單的幾次加減計(jì)算得到結(jié)果,到了現(xiàn)在必須要經(jīng)歷上億次的復(fù)雜運(yùn)算。同時(shí),伴隨著計(jì)算性能的提升,對于從數(shù)據(jù)中提取信息而言,也從漸漸深入,過去只能發(fā)現(xiàn)一眼看出的淺表信息,如今可以不斷去挖掘隱含的知識(shí)。
數(shù)據(jù)挖掘的基本思想
數(shù)據(jù)挖掘的別名機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)一樣,數(shù)據(jù)挖掘的實(shí)質(zhì)是通過計(jì)算機(jī)的計(jì)算能力在一堆數(shù)據(jù)中發(fā)掘出規(guī)律并加以利用的過程。因此對數(shù)據(jù)挖掘而言,就需要經(jīng)歷規(guī)則學(xué)習(xí)、規(guī)則驗(yàn)證和規(guī)則使用的過程。
數(shù)據(jù)挖掘的基本思想
規(guī)則學(xué)習(xí)又稱為模型訓(xùn)練,在這個(gè)步驟中,有一個(gè)數(shù)據(jù)集將作為訓(xùn)練集。按照相關(guān)的算法和輸出規(guī)則的要求,從訓(xùn)練集中篩選出需要使用的變量,并根據(jù)這些變量生成相關(guān)的規(guī)則。有的時(shí)候,是將過去已經(jīng)發(fā)生的數(shù)據(jù)作為訓(xùn)練集,在對比已知的結(jié)果和輸入的變量的過程中,以盡可能降低輸出誤差的原則,擬合出相應(yīng)的模型。
當(dāng)產(chǎn)生了規(guī)則后,就需要驗(yàn)證規(guī)則的效果和準(zhǔn)確度,這個(gè)時(shí)候就需要引入驗(yàn)證集。驗(yàn)證集和訓(xùn)練集具有相同的格式,既包含了已知的結(jié)果也包含了輸入的變量。與訓(xùn)練集不同的是,對驗(yàn)證集的應(yīng)用是直接將規(guī)則應(yīng)用于驗(yàn)證集中,去產(chǎn)生出相應(yīng)的輸出結(jié)果,并用輸出的結(jié)果去對比實(shí)際情況,以來確定模型是否有效。如果有效的話,就可以在實(shí)際的場景中應(yīng)用。如果效果不理想,則回頭去調(diào)整模型
測試集是將模型在實(shí)際的場景中使用,是直接應(yīng)用模型的步驟。在測試集中,只包含輸入變量卻沒有像其他兩個(gè)數(shù)據(jù)一樣存在的已知結(jié)果。正因?yàn)榻Y(jié)果未知,就需要用測試集通過模型去產(chǎn)生的輸出的結(jié)果。這個(gè)輸出結(jié)果,將在為結(jié)果產(chǎn)生以后進(jìn)行驗(yàn)證,只要有效,模型就會(huì)一直使用下去。
數(shù)據(jù)挖掘與數(shù)據(jù)分析的流程相似,都是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的過程,只不過由于數(shù)據(jù)體量和維度的原因,數(shù)據(jù)挖掘在計(jì)算上最大。
對數(shù)據(jù)挖掘而言,首先是進(jìn)行數(shù)據(jù)獲取,數(shù)據(jù)獲取的來源很多,有系統(tǒng)中自行記錄的數(shù)據(jù),對這種數(shù)據(jù)只要導(dǎo)出即可,同時(shí)也有外來數(shù)據(jù),比如網(wǎng)頁爬取得數(shù)據(jù),或者是購買的數(shù)據(jù),這些數(shù)據(jù)需要按照分析系統(tǒng)的需求進(jìn)行導(dǎo)入。
在完成了數(shù)據(jù)獲取步驟后,就需要進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)處理即是處理數(shù)據(jù)中的缺失值,錯(cuò)誤值以及異常值,按照相關(guān)的規(guī)則進(jìn)行修正或者刪除,同時(shí)在數(shù)據(jù)處理中也需要根據(jù)變臉之間的關(guān)系,產(chǎn)生出一系列的衍生變量??偠灾?數(shù)據(jù)處理的結(jié)果是可以進(jìn)行分析的數(shù)據(jù),所有數(shù)據(jù)在進(jìn)行分析以前都需要完成數(shù)據(jù)處理的步驟。
如果數(shù)據(jù)在分布上存在較極端的情況,就需要經(jīng)歷數(shù)據(jù)平衡的不走。例如對于要輸出的原始變量而言,存在及其少量的一種類別以及及其大量的另一種類別,就像有大量的0和少量的1一樣,在這種情況下,就需要對數(shù)據(jù)進(jìn)行平衡,通過復(fù)制1或者削減0的形式生成平衡數(shù)據(jù)集。
當(dāng)完成數(shù)據(jù)平衡后,將會(huì)把數(shù)據(jù)處理的結(jié)果分出一部分作為驗(yàn)證集使用,如果數(shù)據(jù)平衡性好,那么剩下的部分作為訓(xùn)練集,如果平衡性不好,那么平衡數(shù)據(jù)集就會(huì)作為訓(xùn)練集使用。當(dāng)有了訓(xùn)練集后,就按照相關(guān)的算法對訓(xùn)練集進(jìn)行學(xué)習(xí),從而產(chǎn)生出相關(guān)的規(guī)則和參數(shù)。當(dāng)有了規(guī)則以后,就將產(chǎn)生的規(guī)則用在驗(yàn)證集中,通過對比已知結(jié)果和輸出結(jié)果之間的誤差情況,來判斷是否通過。如果通過則在后面再測試集中使用,如果未通過,就通過數(shù)據(jù)平衡、參數(shù)調(diào)整,以及變量選擇等手段重新調(diào)整規(guī)則,并再次進(jìn)行驗(yàn)證,直到通過驗(yàn)證。
對于驗(yàn)證集驗(yàn)證的步驟而言,在無監(jiān)督學(xué)習(xí)中沒有這個(gè)步驟,當(dāng)纏上規(guī)則后,就直接用于測試集。
數(shù)據(jù)挖掘周而復(fù)始
數(shù)據(jù)挖掘是一個(gè)周而復(fù)始的過程,在生成規(guī)則的過程中,不斷地對模型進(jìn)行調(diào)整,從而提升精度。同時(shí)也將多批次的歷史數(shù)據(jù)引入到數(shù)據(jù)挖掘的過程中,進(jìn)行多次的驗(yàn)證,從而在時(shí)間上保證模型的穩(wěn)定性。
在數(shù)據(jù)挖掘中,對于規(guī)則的獲取,存在三種方式,分別是監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),這三種方式都是通過從數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)來制定規(guī)則。
在一個(gè)數(shù)據(jù)挖掘問題中,變量可以分為自變量和因變量,規(guī)則是以自變量為輸入,以因變量為輸出的結(jié)果,由此對數(shù)據(jù)挖掘問題,就把自變量定義為X,把因變量定義為Y。
獲取規(guī)則的方式,來源于對數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)
對于監(jiān)督學(xué)習(xí)而言,訓(xùn)練集中包括了自變量X和因變量Y,通過對比X和Y的關(guān)系,得除相應(yīng)的規(guī)則,同時(shí)再在驗(yàn)證集中,通過輸入驗(yàn)證集的自變量X,借助規(guī)則得到因變量Y的預(yù)測值,再將Y的預(yù)測值與實(shí)際值進(jìn)行對比,看是否可以將模型驗(yàn)證通過,如果通過了,就把只包含自變量X的測試集用于規(guī)則中,最終輸出因變量Y的預(yù)測值。在監(jiān)督學(xué)習(xí)中,因變量的實(shí)際值和預(yù)測值的對比,就起到監(jiān)督的作用,在規(guī)則制定中需要盡量引導(dǎo)規(guī)則輸出的結(jié)果向?qū)嶋H值靠攏。
對無監(jiān)督學(xué)習(xí)而言,訓(xùn)練集中,就沒有包含因變量Y,需要根據(jù)模型的目標(biāo),通過對自變量X的分析和對比來得出相關(guān)的規(guī)則,并能夠產(chǎn)生合理的輸出結(jié)果,即Y,在制定規(guī)則的過程中,需要有一些人為的原則對規(guī)則進(jìn)行調(diào)整。當(dāng)完成調(diào)整后,就可以把只包含自變量X的測試集放到規(guī)則中,去產(chǎn)生規(guī)則的結(jié)果Y。
對比監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),最大的區(qū)別就是,在制定規(guī)則的過程中,是否有Y用于引導(dǎo)規(guī)則的生成。監(jiān)督學(xué)習(xí)中,有Y存在,生成規(guī)則過程中和生成規(guī)則時(shí),也會(huì)對比Y的預(yù)測值和實(shí)際值。而在無監(jiān)督學(xué)習(xí)中,就沒有Y作為對比的標(biāo)準(zhǔn),相應(yīng)的規(guī)則都直接由X產(chǎn)生。
半監(jiān)督學(xué)習(xí),與監(jiān)督學(xué)習(xí)類似,也需要因變量Y參與到規(guī)則生成和規(guī)則驗(yàn)證中去。但是在訓(xùn)練集只用只有一少部分的對象既有自變量X和因變量Y,還有大部分對象只包含了自變量X。因此在對半監(jiān)督學(xué)習(xí)的規(guī)則生成中,需要有一些特殊的手段來處理只包含的自變量X的對象后,再生成相關(guān)的規(guī)則。在后面的驗(yàn)證和測試的流程都與監(jiān)督學(xué)習(xí)一致。因而對于半監(jiān)督學(xué)習(xí),最重要的問題就是如何借助少量的因變量Y而產(chǎn)生出可以適用的規(guī)則。
數(shù)據(jù)挖掘的應(yīng)用場景
數(shù)據(jù)挖掘應(yīng)用的場景很多,通常有四種情況被廣泛的使用。
數(shù)據(jù)挖掘的應(yīng)用場景
首先是聚類分析,就是將不同的對象,根據(jù)其變量特征的分布自然地分成不同的類別。此外是分類模型,這是針對已知的類別,構(gòu)建出分類的模型,通過分類的模型來探求其他未分類對象的類別。第三是預(yù)測估計(jì),集根據(jù)對象的連續(xù)數(shù)據(jù)因變量,通過圍繞已知的維度,構(gòu)建出預(yù)測因變量的模型,從而對因變量未知的對象進(jìn)行估計(jì)。最后是關(guān)聯(lián)分析,即通過探求數(shù)據(jù)對象之間的相關(guān)關(guān)系,來發(fā)現(xiàn)對象之間的聯(lián)系,在關(guān)聯(lián)分析中,更多是以對象之間的關(guān)系作為輸出。
聚類分析
聚類分析是一種無監(jiān)督學(xué)習(xí)的數(shù)據(jù)挖掘方法,其目的是基于對象之間的特征,自然地將變量劃分為不同的類別。在聚類分析中,基本的思想就是根據(jù)對象不同特征變量,計(jì)算變量之間的距離,距離理得越近,就越有可能被劃為一類,離得越遠(yuǎn),就越有可能被劃分到不同的類別中去。
聚類分析基本思想
例如在坐標(biāo)系中,B距離A的距離遠(yuǎn)遠(yuǎn)小于,B到C的距離,因此,AB更容易劃分為一類,而BC更容易為不同的類別。通常來說,一個(gè)對象距離同類的距離是最近的,都小于其他類別中對象的距離。
在聚類分析中,有兩種常用的方法,一種是K-means聚類,一種是層次聚類。
在K-means聚類中,是預(yù)先規(guī)定出要產(chǎn)生多少個(gè)類別的數(shù)量,再根據(jù)類別數(shù)量自動(dòng)聚成相應(yīng)的類。對K-means而言,首先是隨機(jī)產(chǎn)生于類別數(shù)相同的初始點(diǎn),然后判斷每個(gè)點(diǎn)與初始點(diǎn)的距離,每個(gè)點(diǎn)選擇最近的一個(gè)初始點(diǎn),作為其類別。當(dāng)類別產(chǎn)生后,在計(jì)算各個(gè)類別的中心點(diǎn),然后計(jì)算每個(gè)點(diǎn)到中心點(diǎn)的距離,并根據(jù)距離再次選擇類別。當(dāng)新類別產(chǎn)生后,再次根據(jù)中心點(diǎn)重復(fù)選擇類別的過程,直到中心點(diǎn)的變化不再明顯。最終根據(jù)中心點(diǎn)產(chǎn)生的類別,就是聚類的結(jié)果。正如圖中所示,一組對象中需要生成三個(gè)類別,各個(gè)類別之間都自然聚焦在一起。
在層次聚類中,不需要規(guī)定出類別的數(shù)量,最終聚類的數(shù)量可以根據(jù)人為要求進(jìn)行劃分。對層次聚類,首先每個(gè)對象都是單獨(dú)的類別,通過比較兩兩之間距離,首先把距離最小的兩個(gè)對象聚成一類。接著把距離次小的聚成一類,然后就是不斷重復(fù)按距離最小的原則,不斷聚成一類的過程,直到所有對象都被聚成一類。在層次聚類中,可以以一張樹狀圖來表示聚類的過程,如果要講對象分類的話,就可以從根節(jié)點(diǎn)觸發(fā),按照樹狀圖的分叉情況,劃分出不同的類別來。在圖中,把一組對象分成了三個(gè)類別,可見這三個(gè)類別就是構(gòu)成了樹狀圖最開始的三個(gè)分支。
聚類分析的過程,和分桔子其實(shí)很很像,人們通常都把特征相同的桔子分成一類,聚類分析中,也是同樣的方式。
聚類分析案例
正如在這個(gè)例子中,有A-H的8個(gè)桔子,對每個(gè)桔子而言有提體積和變量兩個(gè)變量。通過將各個(gè)桔子投射到重量和體積構(gòu)成的坐標(biāo)系中,可以發(fā)現(xiàn)BEF距離很近,ACG距離很近,而DH距離很近。如果聚成3類的話,可以是ACG、BEF,DH各為一類。如果是聚成兩類,BEFDH與ACG相對更近,因此可以是ACG為一類,而BEFDH為另外一類
分類模型
分類模型通常是通過監(jiān)督學(xué)習(xí)產(chǎn)生的,根據(jù)已知的對象的類別和其具體特征特征的數(shù)據(jù),通過訓(xùn)練從而產(chǎn)生由特征判斷類別的規(guī)則。在分類模型中,規(guī)則的輸出就是具體的類別。
分類模型基本思想
分類模型的規(guī)則產(chǎn)生的過程中,類別判別的原則與訓(xùn)練集中各特征變量的分布息息相關(guān),通常就是在對比各個(gè)類別下特征變量的互相關(guān)系,而劃分出相關(guān)的規(guī)則,這個(gè)過程遵循的原則就是盡可能讓輸出的類別與實(shí)際的類別保持一致。
當(dāng)前,不管在學(xué)術(shù)研究領(lǐng)域還是業(yè)務(wù)應(yīng)用領(lǐng)域都有大量的分類模型,通常來說,決策樹和樸素貝葉斯是非常普遍的分類模型算法,這兩個(gè)算法在一些文獻(xiàn)中也被列為十大數(shù)據(jù)挖掘算法。
決策樹的規(guī)則生成算法是將對象按照相關(guān)的特診變量進(jìn)行依次拆分,在拆分中不斷迭代條件,最終劃分為最終的類別。決策樹的劃分過程,就像是一個(gè)樹一樣,從根節(jié)點(diǎn)觸發(fā),依次開支散葉,最終形成分類準(zhǔn)則。
在圖中,首先就按照年齡進(jìn)行分支,直接將所有對象分成了三堆,其中年齡在31-40歲的被劃定為購買類,另外的兩堆對象,還需要繼續(xù)進(jìn)行分支。對年齡小于30歲,按照是否為學(xué)生進(jìn)行分支,其中是學(xué)生的被判定為購買類,不是學(xué)生的被判定為不買類。同樣對年齡大于40歲,按照信用等級進(jìn)行分類,信用等級高的被判定為不買類,信息等級低的被判定為購買類。就這樣,任何一個(gè)對象,都可以根據(jù)條件達(dá)成的情況,最終到達(dá)購買或者不買的節(jié)點(diǎn),完成分類過程。
樸素貝葉斯的規(guī)則生成算法相對決策樹而言,就沒有這么直觀了,其依賴于概率中的貝葉斯公式。由公式P(AB)=P(A/B)×P(B)=P(B/A)×P(A)得來的后驗(yàn)概率公式P(A/B)=P(B/A)×P(A)/P(B),其中A類別,B表示條件即特征變量。P(A/B)表示在特定條件下該類別的概率,P(B/A)表示在特定類別下該條件的分布概率,P(A)表示已知的特定分類的概率,而P(B)表示已知的特定條件的概率。
在算法中,P(B/A)、P(A)、P(B)都通過訓(xùn)練集能夠得到,再加上在條件一定時(shí),P(B)是恒定的,同時(shí)每個(gè)條件互相獨(dú)立,根據(jù)概率公式,P(類別/總條件)是P(類別)和所有P(條件/類別)的乘積。因此在樸素貝葉斯中,最大的P(類別/總條件)對應(yīng)的類別,就是被劃分的類別。
最近這幾年,網(wǎng)上總有要遠(yuǎn)離女司機(jī)的段子,在網(wǎng)友心中女司機(jī)簡直如洪水猛獸一般,這種說法一方面來自于個(gè)別事例的傳播,另外一方面也來自于女司機(jī)在低速駕駛時(shí)對他人的困擾造成的誤解。其實(shí),對于女司機(jī)是不是應(yīng)該害怕的問題,就可以用分類模型的解決。
用分類模型解決女司機(jī)問題
已知道路上的車輛中的分布如下,會(huì)發(fā)生的事故的概率有0.11,而是安全的概率有0.89,車輛的分布就是對事件的原始分類分布。同時(shí),對發(fā)生條件的分布如下,發(fā)生事故時(shí),男司機(jī)概率為0.9,女司機(jī)概率為0.1,在安全情況下時(shí),男司機(jī)概率為0.2,女司機(jī)概率為0.8。
分類模型案例計(jì)算流程
那么根據(jù)貝葉斯公式,可以知道,當(dāng)遇到男司機(jī)時(shí),發(fā)生事故的概率為0.1,而女司機(jī)是0.01,兩者的事故的概率都很低。對男女司機(jī)而言,其發(fā)生事故的概率都低于安全的概率,因此在職考慮性別的情況下,所有司機(jī)都是被分為安全類別,尤其是女司機(jī),安全的概率遠(yuǎn)遠(yuǎn)大于事故。因此不能簡單的通過司機(jī)的性別,就做出是否危險(xiǎn)的判別,尤其是遇到女司機(jī)。
關(guān)聯(lián)分析
關(guān)聯(lián)分析模型常用于揭示事件之間的關(guān)系,是通過無監(jiān)督學(xué)習(xí)的方式,產(chǎn)生的輸出事件之間發(fā)生關(guān)系的規(guī)則。關(guān)聯(lián)分析最開始在零售領(lǐng)域常常用到,比如可以提供買了方便面時(shí)很多情況都會(huì)買火腿腸的關(guān)系,因此在某些情況下,關(guān)聯(lián)分析又被稱為購物籃分析。
關(guān)聯(lián)分析基本思想
在購物籃分析中,其核心思想就是對比單個(gè)事件發(fā)生的概率,和多個(gè)事件同時(shí)發(fā)生的概率的情況,如果同時(shí)發(fā)生的概率與單獨(dú)發(fā)生的概率相近,則可以考慮發(fā)生了一個(gè)事件后,很有可能會(huì)存在同時(shí)發(fā)生另外一個(gè)事件的情況。
有事件X和事件Y,以及XY同時(shí)發(fā)生的概率,在購物籃分析中,支持度是XY同時(shí)發(fā)生的概率,置信度是當(dāng)X發(fā)生了,Y也發(fā)生的條件概率。
關(guān)聯(lián)分析算法
如果在規(guī)則中,兩個(gè)事件的支持度和置信度都達(dá)到了制定的閾值,則可以認(rèn)為這兩個(gè)事件具有強(qiáng)關(guān)聯(lián)的關(guān)系。關(guān)聯(lián)分析正是體現(xiàn)了這種強(qiáng)關(guān)系。在強(qiáng)關(guān)系中,還有提升度來確認(rèn)這種強(qiáng)關(guān)系的力度,提升度是指,當(dāng)X出現(xiàn)同時(shí)出現(xiàn)Y的概率,與Y總體出現(xiàn)的概率之比,即X對Y的置信度與Y發(fā)生概率的比值,通常來說提升度都是大于1的,提升度越大,說明強(qiáng)關(guān)系力度越大。
在關(guān)聯(lián)分析中,強(qiáng)關(guān)系存在兩種情況,這種情況具有不同的時(shí)間上的考慮,第一種是序列關(guān)系,即事情順次發(fā)生,比如購買了A了以后又繼續(xù)購買B,另外一種是同時(shí)關(guān)聯(lián),即事件同時(shí)發(fā)生,比如買了A的同時(shí)也買了B。
啤酒和尿布是關(guān)聯(lián)分析中的經(jīng)典案例,盡管最近出現(xiàn)了這個(gè)只是編造的案例而已,然而去仍然能體現(xiàn)出關(guān)聯(lián)分析的價(jià)值出來。
在啤酒和尿布中發(fā)現(xiàn)關(guān)聯(lián)分析的價(jià)值
啤酒和尿布,兩個(gè)看起來不無相關(guān)的物品,卻可以通過關(guān)聯(lián)分析,找出進(jìn)行同時(shí)銷售的機(jī)會(huì)出來,其背后的原理就是發(fā)現(xiàn)了,啤酒和尿布之間的強(qiáng)關(guān)聯(lián)關(guān)系。
關(guān)聯(lián)分析案例計(jì)算過程
假設(shè)有尿布,啤酒,零食,水果和香煙的五種商品,同時(shí)也知道了各個(gè)商品購買的清單,根據(jù)清單可以提取單個(gè)產(chǎn)品的頻數(shù)和其對應(yīng)的概率,以及產(chǎn)品之間兩兩組合帶來頻數(shù)和概率。根據(jù)支持度和置信度的計(jì)算公式,可以得到,每個(gè)產(chǎn)品組合的支持度,以及置信度。設(shè)置強(qiáng)關(guān)聯(lián)最小支出度閾值以及最小置信度閾值都為0.5時(shí),啤酒對尿布達(dá)到了強(qiáng)關(guān)聯(lián)的閾值,因此啤酒對尿布這對組合可以認(rèn)為具有強(qiáng)關(guān)聯(lián),因此在購買啤酒時(shí)推薦購買尿布,能夠增加尿布的銷量。
預(yù)測估計(jì)
預(yù)測估計(jì)的規(guī)則,是用來輸出連續(xù)的數(shù)值,即通過預(yù)測估計(jì)的規(guī)則,模型輸出的是系列的數(shù)值,這些數(shù)值可以進(jìn)行加減乘除的一系列計(jì)算。
預(yù)測估計(jì)基本思想
預(yù)測估計(jì)的規(guī)則通常以一個(gè)公式存在,這個(gè)公式可以體現(xiàn)出要輸出的因變量Y與特征變量X的關(guān)系,最簡單的來說,像一條在坐標(biāo)系反應(yīng)Y和X關(guān)系的直線一樣,知道了X是多少的情況,就可以根據(jù)線性關(guān)系,輸出對應(yīng)的Y。這種思路正式用于生成回歸方程,因此有的時(shí)候預(yù)測估計(jì)也被稱為是回歸。
在預(yù)測估計(jì)中,首先是對比訓(xùn)練集中要輸出的因變量Y和特征變量X的關(guān)系,通常來說,X不只有一個(gè),而是有X1,X2,X3,Xn等多個(gè),在這種情況下,通過學(xué)習(xí)X1到Xn與Y的數(shù)學(xué)關(guān)系,從而產(chǎn)生出能夠基于X1到XN預(yù)測出Y的規(guī)則。如果規(guī)則通過驗(yàn)證集的驗(yàn)證,就可以在實(shí)習(xí)情況中與預(yù)測要輸出的因變量Y。
預(yù)測估計(jì)算法
預(yù)測估計(jì)的輸出變量可以是絕對值也可以是相對值,在輸出絕對值的情況下,線性回歸是常用的模型,即生成一條關(guān)于Y與X1到Xn的直線方程,用來預(yù)測Y。在輸出相對值得情況,邏輯回歸是常用的模型。在邏輯回歸中,輸出的Y是概率,在規(guī)則中通過擬合X的直線,產(chǎn)生出一個(gè)結(jié)果,再將直線輸出結(jié)果進(jìn)行指數(shù)化轉(zhuǎn)換,最終結(jié)果就是的Y,即事件發(fā)生概率。
下面是一個(gè)用預(yù)測估計(jì)的模型來預(yù)測誰可以得獎(jiǎng)的例子,在這個(gè)例子中,并不是直接用模型預(yù)測得獎(jiǎng)的人員,而是通過對過去得獎(jiǎng)的人員的數(shù)據(jù)進(jìn)行學(xué)習(xí),從而得出計(jì)算得獎(jiǎng)概率的規(guī)則,并通過學(xué)習(xí)到的規(guī)則,根據(jù)本次所有人的表現(xiàn)的數(shù)據(jù),來預(yù)測各自的將概率。
用預(yù)測估計(jì)知道得獎(jiǎng)概率
在這個(gè)例子中,共有7個(gè)變量,其中過去得獎(jiǎng)是作為0-1因變量存在,1表示得獎(jiǎng),0表示未得獎(jiǎng)。在自變量中有另外6個(gè)變量。通過對歷史的數(shù)據(jù)的學(xué)習(xí),能夠得到logit的計(jì)算公式,并根據(jù)概率換算的公式,得到概率的公式。
再進(jìn)一步地,取得當(dāng)前數(shù)據(jù)后,根據(jù)概率公式,得到每個(gè)人為的得獎(jiǎng)概率,概率最大的即為最可能得獎(jiǎng)的人。
挖掘思維總結(jié)
在挖掘思維是與數(shù)據(jù)挖掘相關(guān),相比前面幾種思維而言,挖掘思維似乎要晦澀難懂一些,畢竟數(shù)據(jù)挖掘涉及的已經(jīng)不局限于簡單的數(shù)學(xué),而且還擴(kuò)充到了計(jì)算機(jī)科學(xué)層面。這里設(shè)置挖掘思維,其目的就是在解答,當(dāng)數(shù)據(jù)量實(shí)在太大時(shí),維度實(shí)在太多時(shí),應(yīng)該如何來處理的問題。
挖掘思維總結(jié)
數(shù)據(jù)挖掘的實(shí)質(zhì),其實(shí)還是為了得到一個(gè)模型,產(chǎn)生結(jié)果。當(dāng)數(shù)據(jù)需要特別復(fù)雜的計(jì)算過程時(shí),數(shù)據(jù)挖掘就能夠產(chǎn)生作用了。數(shù)據(jù)挖掘通常通過已知輸出的結(jié)果的數(shù)據(jù)中作為訓(xùn)練集產(chǎn)生出模型,再用另外一部分知道已知輸出結(jié)果的數(shù)據(jù)作為驗(yàn)證集來驗(yàn)證模型的可信程度,通過驗(yàn)證后,再用到測試集中去取得實(shí)際的效果。
數(shù)據(jù)挖掘分為四種類型,就像前面所述,四種類型分別是聚類分析、分類模型、關(guān)聯(lián)分析和預(yù)測估計(jì)。聚類分析是將數(shù)據(jù)對象,根據(jù)其特征自然分成不同類別。分類模型是針對已知類別,構(gòu)建分類模型,探求未分類對象的類別。關(guān)聯(lián)分析是通過數(shù)據(jù)對象之間的相關(guān)關(guān)系,發(fā)現(xiàn)對象之間的聯(lián)系。預(yù)測估計(jì)就是根據(jù)已知連續(xù)數(shù)據(jù)對象,構(gòu)建模型,對未知對象估值。
舉一個(gè)簡單的例子,知道一個(gè)班之間學(xué)生平時(shí)作業(yè)的情況,將學(xué)生自動(dòng)分成若干類別,就是聚類分析,這些有可能是學(xué)霸型,學(xué)渣型,還有可能是偏科型,到底類別怎么樣,事前都不知道,要聚類以后才知道。已知一部分學(xué)生的類別,而不知道另外一部分學(xué)生,就用分類模型的方式得出另外一些學(xué)生的類別。知道一些學(xué)生掛語文的同時(shí)還容易掛哪些學(xué)科,就是關(guān)聯(lián)分析。從學(xué)生平時(shí)作業(yè)來預(yù)測他們期末考試分?jǐn)?shù)就是預(yù)測估計(jì)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03