
從大數(shù)據(jù)中挖掘什么_數(shù)據(jù)分析師培訓(xùn)
概要:大數(shù)據(jù)挖掘中最重要的是決定挖掘什么樣的知識,這是在數(shù)據(jù)的收集、處理、挖掘的整個過程中都需要認(rèn)真考慮的問題。本文首先提出大數(shù)據(jù)挖掘的幾項(xiàng)策略,即盡量設(shè)想挖掘的場景,盡量多方面收集數(shù)據(jù),盡量將數(shù)據(jù)整合,悉心觀察數(shù)據(jù)特征。之后結(jié)合自己在互聯(lián)網(wǎng)搜索中的大數(shù)據(jù)挖掘工作經(jīng)驗(yàn),分享對這些策略的體會。最后介紹一個互聯(lián)網(wǎng)搜索中大規(guī)模日志數(shù)據(jù)挖掘的工作,展示大數(shù)據(jù)挖掘的威力,呈現(xiàn)大數(shù)據(jù)挖掘的挑戰(zhàn)。
1. “挖什么”與“怎么挖”
大數(shù)據(jù)技術(shù)涉及存儲、搜索、傳輸、計(jì)算、挖掘等多方面,本文只考慮大數(shù)據(jù)的挖掘。大數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中挖掘出未知且有用的知識。通過挖掘,大數(shù)據(jù)的價值才得以體現(xiàn),所以挖掘?qū)Υ髷?shù)據(jù)有著舉足輕重的意義。
大數(shù)據(jù)挖掘有兩個基本問題,即“挖什么(what to mine)”與“怎么挖(how to mine)”。前者決定從數(shù)據(jù)中抽取什么樣的信息,統(tǒng)計(jì)什么樣的規(guī)律,后者決定怎樣具體進(jìn)行抽取與統(tǒng)計(jì)。前者是在數(shù)據(jù)的收集、處理、挖掘中都要考慮的問題,后者往往僅限于挖掘。“怎么挖”通常是數(shù)據(jù)挖掘研究的核心,但是“挖什么”在數(shù)據(jù)挖掘的應(yīng)用中往往更為重要,因?yàn)樗鼪Q定了挖掘結(jié)果的價值。在實(shí)際問題中,決定是挖金銀,還是挖銅鐵,比決定是用鋤頭挖,還是用鏟子挖更為關(guān)鍵。
2. 大數(shù)據(jù)挖掘的策略
本文總結(jié)了大數(shù)據(jù)挖掘中判斷“挖什么”的四項(xiàng)策略,即盡量設(shè)想挖掘的場景,盡量多方面收集數(shù)據(jù),盡量將數(shù)據(jù)整合,以及悉心觀察數(shù)據(jù)特征。下面,結(jié)合自己在互聯(lián)網(wǎng)搜索中的大數(shù)據(jù)挖掘工作經(jīng)驗(yàn),介紹對這些策略的體會。
盡量設(shè)想挖掘的場景
收集數(shù)據(jù)是數(shù)據(jù)挖掘的第一步,需要判斷記錄、采集哪些數(shù)據(jù),這直接影響了能從數(shù)據(jù)中挖掘什么樣的知識。巧婦難為無米之炊,沒有某一方面的數(shù)據(jù),也就無法從中進(jìn)行相關(guān)的挖掘。但是,存儲、處理數(shù)據(jù)是有代價的,提高數(shù)據(jù)挖掘效率的關(guān)鍵也在于只記錄、采集有用的數(shù)據(jù)。所以,需要對收集數(shù)據(jù)的內(nèi)容進(jìn)行合理的判斷,這時,應(yīng)該盡量設(shè)想挖掘的場景,在此基礎(chǔ)上將可能有用的數(shù)據(jù)全部記錄、采集下來。
某公司的工程師們開發(fā)了一個互聯(lián)網(wǎng)瀏覽器中的工具欄(toolbar)。用戶安裝了工具欄后,在瀏覽器中的操作,如點(diǎn)擊網(wǎng)頁鏈接,拖動鼠標(biāo)等,都會被記錄下來。在得到用戶允許的條件下,這些數(shù)據(jù)會被傳送到該公司的云端服務(wù)器。工具欄記錄的用戶瀏覽器使用行為數(shù)據(jù),可以用于互聯(lián)網(wǎng)搜索引擎等諸多方面。工程師們對工具欄記錄數(shù)據(jù)內(nèi)容進(jìn)行了精心的設(shè)計(jì),考慮了各種可能的情況,希望收集的數(shù)據(jù)能支持多種挖掘任務(wù)。用戶的IP地址,網(wǎng)頁鏈接的點(diǎn)擊時間等都被記錄下來。然而,他們忘記記錄了一個重要的信息,使得到的數(shù)據(jù)不利于挖掘使用。原來,用戶關(guān)閉瀏覽器的時間沒有被記錄下來,從數(shù)據(jù)中無法判斷用戶何時結(jié)束了搜索或?yàn)g覽行為。由于工程師們沒有很好的想象如何使用數(shù)據(jù),給之后的挖掘帶來了一定的困難。
判斷收集什么樣的數(shù)據(jù)牽涉到如何認(rèn)識世界這一哲學(xué)問題。哲學(xué)家康德的一個核心觀點(diǎn)是:我們所認(rèn)識的世界是我們用自己擁有的理論對自己觀察的現(xiàn)象做出的解釋。紙上的一條墨跡,數(shù)學(xué)家把它看成是平面上的直線,中國人把它看成漢字的“一”。其實(shí),我們想怎樣看世界決定了我們看到的世界是什么樣的。只有當(dāng)對數(shù)據(jù)挖掘的內(nèi)容有比較清晰的想法的時候,才能對數(shù)據(jù)的收集范圍有比較明確的界定。所以,盡量設(shè)想挖掘場景是必不可少的。
盡量多方面收集數(shù)據(jù)
事實(shí)上,我們很難事先窮盡所有可能的挖掘場景,所以也就很難完全準(zhǔn)確地判斷應(yīng)該收集哪些數(shù)據(jù),不應(yīng)該收集哪些數(shù)據(jù)。作為彌補(bǔ)措施,可以考慮在存儲、處理能力允許的條件下,盡量多方面收集數(shù)據(jù)。這是另一項(xiàng)策略。多收集數(shù)據(jù)總有可能對數(shù)據(jù)挖掘產(chǎn)生某些幫助。
回到工具欄的例子。工具欄記錄的用戶互聯(lián)網(wǎng)訪問的行為數(shù)據(jù),能大大幫助搜索引擎提高對用戶的理解,提高搜索結(jié)果的相關(guān)性。研究發(fā)現(xiàn),從用戶在瀏覽器中的簡單操作中都可以發(fā)現(xiàn)許多有用的信息,幫助推斷用戶的興趣、意圖等[1]。比如,從用戶在瀏覽器中的鼠標(biāo)移動軌跡中可以估計(jì)出他對網(wǎng)頁的關(guān)注范圍,從用戶對網(wǎng)頁鏈接的點(diǎn)擊可以猜測出他的信息需求,從用戶對窗口的關(guān)閉動作可以推測出他的興趣轉(zhuǎn)移。
盡量將數(shù)據(jù)整合
讓數(shù)據(jù)發(fā)揮更大作用的辦法是將相關(guān)數(shù)據(jù)整合在一起,用于挖掘。數(shù)據(jù)整合有助于幫助了解事物的全貌,發(fā)現(xiàn)未知的關(guān)系,提升預(yù)測的準(zhǔn)確率。局部數(shù)據(jù)只是“羅之一目”,而整體數(shù)據(jù)才是“彌天大網(wǎng)”。
圖1所示為互聯(lián)網(wǎng)搜索中的用戶行為模型。該模型雖簡單,但屬于基本模型,互聯(lián)網(wǎng)搜索中用戶的行為數(shù)據(jù)都可以納入其中,可以對用戶的行為進(jìn)行描述。現(xiàn)實(shí)中,該模型的數(shù)據(jù)需要從多個數(shù)據(jù)源中獲取,并通過整合處理而得到。
互聯(lián)網(wǎng)搜索中首先有許多用戶。每個用戶會多次使用搜索引擎,每次使用完成一個查詢?nèi)蝿?wù),構(gòu)成一個會話(session),每個會話又由多個查詢組成。每個查詢中,用戶提交查詢語句,搜索引擎返回結(jié)果,用戶根據(jù)其內(nèi)容判斷網(wǎng)頁的相關(guān)性,點(diǎn)擊相關(guān)網(wǎng)頁的鏈接,瀏覽網(wǎng)頁。瀏覽過程中,用戶可能按照網(wǎng)頁的鏈接,瀏覽多個網(wǎng)頁,之后返回搜索結(jié)果,也可能直接離開。用戶在瀏覽器中的動作,可以通過工具欄記錄下來,傳送給搜索引擎,但是,基于效率等考慮,搜索引擎返回的結(jié)果往往不會被工具欄記錄。相反,搜索的結(jié)果會被搜索引擎記錄下來。所以,將客戶端與搜索引擎端的數(shù)據(jù)進(jìn)行整合變成互聯(lián)網(wǎng)搜索數(shù)據(jù)挖掘工作中的一項(xiàng)重要任務(wù)。瀏覽器記錄的用戶ID與搜索引擎記錄的用戶ID往往不一致,將同一用戶的不同ID聯(lián)系起來并非易事。
悉心觀察數(shù)據(jù)特征
決定從數(shù)據(jù)中挖掘什么,首先需要對數(shù)據(jù)有深入的了解,需要對數(shù)據(jù)進(jìn)行認(rèn)真細(xì)致地觀察。只有對數(shù)據(jù)有深刻的認(rèn)識,才有可能從中挖掘出深層的知識。AOL隱私泄露事件是一個著名的“人肉數(shù)據(jù)挖掘”成功事例,說明只要細(xì)致觀察與推理,我們可以從數(shù)據(jù)中發(fā)現(xiàn)許多事情。
2006年AOL公司,為了促進(jìn)研究,發(fā)布了搜索查詢數(shù)據(jù)集,包括65萬用戶三個月中在AOL搜索提交的2千多萬查詢。為了保護(hù)用戶隱私,AOL將用戶的個人信息刪除,對每個用戶賦予了一個ID。紐約時報的一個記者對AOL數(shù)據(jù)進(jìn)行了觀察、分析,利用電話號碼簿,很快確定出ID為4417749的用戶是居住在佐治亞州的60歲的單身婦女Thelma Arnold[3]。具體地,這位用戶提交了“l(fā)andscapers in Lilburn, Ga”的查詢,從此可以推斷此人大概住在佐治亞州Lilburn。該用戶又提交了多個含有Arnold的人名查詢,可以揣測此人大概姓Arnold。該用戶又搜了“60 single men”,可以猜想此人可能是60歲左右的婦女,等等。
AOL事件說明了數(shù)據(jù)挖掘中保護(hù)用戶隱私問題的重要性(本文不討論隱私保護(hù)問題),同時也說明了認(rèn)真觀察數(shù)據(jù),可以挖掘到許多深層的信息。
3. 大數(shù)據(jù)挖掘事例
互聯(lián)網(wǎng)搜索引擎,索引幾十億以上的網(wǎng)頁,每天有幾十億次查詢,收集幾十TB的日志數(shù)據(jù)。這些數(shù)據(jù)是典型的大數(shù)據(jù)。
下面介紹一個互聯(lián)網(wǎng)搜索日志數(shù)據(jù)挖掘例子:查詢副主題挖掘。這是與微軟前同事等的工作[4]?;ヂ?lián)網(wǎng)搜索中的查詢,或者表示多個語義,或者表示事物的多個側(cè)面,統(tǒng)稱為副主題(subtopic)。前者的例子,如圖2所示, 查詢“harry shum”意味著用戶可能要搜索微軟的副總裁,也可能是搜索美國的演員。后者的例子,如查詢“xbox”意味著用戶可能想找游戲攻略,也可能想購買游戲機(jī)。如果能判斷查詢的副主題,那么可以將該搜索結(jié)果進(jìn)行聚類,把同一個副主題的網(wǎng)頁放在一起,幫助用戶迅速找到想要找的所有信息。根據(jù)副主題對搜索結(jié)果聚類是一個熱門研究課題。傳統(tǒng)的方法根據(jù)搜索結(jié)果中網(wǎng)頁摘要的相似度對網(wǎng)頁進(jìn)行聚類,效果并不理想。我們提出的方法事先從搜索日志數(shù)據(jù)中挖掘出查詢的副主題,用戶搜索時,根據(jù)挖掘好的副主題,對查詢結(jié)果進(jìn)行聚類,效果提升顯著。副主題挖掘利用了用戶搜索的兩個現(xiàn)象。
我們觀察到的第一個現(xiàn)象是“同一查詢同一副主題(one subtopic per search)”。用戶每次進(jìn)行查詢時,往往只考慮一個副主題,要搜副總裁的Harry Shum,就不會搜演員的Harry Shum,反之亦然。這一點(diǎn)會反映在用戶的日志點(diǎn)擊數(shù)據(jù)上。在同一次搜索中,用戶點(diǎn)擊的多個網(wǎng)頁鏈接往往集中在同一個副主題上。將某一查詢的大量的點(diǎn)擊數(shù)據(jù)匯集起來,根據(jù)鏈接是否常在同一次搜索中被共同點(diǎn)擊,可以將它們聚類,就可以挖掘到該查詢的副主題,這時,鏈接的每個類對應(yīng)一個副主題。
第二個現(xiàn)象是“加關(guān)鍵詞明確副主題(Subtopic Clarification by Additional Keyword)”,也可以用于副主題挖掘。用戶在查詢時,會主動明確副主題,在主查詢詞的后面(或前面)加上關(guān)鍵詞,如“harry shum microsoft”,“harry shum jr”。屬于同一副主題的網(wǎng)頁鏈接往往在被加同樣關(guān)鍵詞的查詢中點(diǎn)擊,根據(jù)鏈接是否在加同樣關(guān)鍵詞查詢中被點(diǎn)擊,可以將它們聚類,得到的類也對應(yīng)于副主題。
我們的方法能夠根據(jù)以上兩個現(xiàn)象商業(yè)智能平臺挖掘出查詢的每個副主題,副主題由網(wǎng)頁鏈接、以及附加關(guān)鍵詞表示。利用特殊的數(shù)據(jù)結(jié)構(gòu),可以將Bing的三個月日志數(shù)據(jù)在一天內(nèi)進(jìn)行一次高效的挖掘。對于高頻查詢,可以得到非常精準(zhǔn)的挖掘結(jié)果(詳見[4])??梢钥闯觯髷?shù)據(jù)確實(shí)能夠發(fā)揮巨大作用。
另一方面,我們的方法對低頻查詢無法適用,因?yàn)闆]有足夠的點(diǎn)擊數(shù)據(jù),也就是說會遇到長尾挑戰(zhàn)[5]。用戶的行為數(shù)據(jù)大多遵循冪率分布(power law distribution),現(xiàn)在基于統(tǒng)計(jì)的數(shù)據(jù)挖掘方法對尾部數(shù)據(jù)依然是束手無策。
4. 總結(jié)
大數(shù)據(jù)挖掘關(guān)鍵是決定挖什么,這比決定怎么挖更為重要。收集數(shù)據(jù)時,應(yīng)該盡量設(shè)想挖掘的場景,盡量多方面地記錄、采集數(shù)據(jù);收集商業(yè)智能數(shù)據(jù)后,應(yīng)該盡量將數(shù)據(jù)整合在一起;數(shù)據(jù)挖掘前,應(yīng)該悉心觀察數(shù)據(jù),以幫助判斷挖掘什么樣的知識。只有這樣,大數(shù)據(jù)挖掘的價值才能得以體現(xiàn)。
大數(shù)據(jù)挖掘極具威力,但也有局限性,會遇到長尾挑戰(zhàn)。結(jié)合事先給定的知識進(jìn)行挖掘,或許是解決長尾挑戰(zhàn)的一條出路。紐約時報記者能從搜索查詢數(shù)據(jù)中挖掘出用戶的身份,也是因?yàn)橛昧嘶诔WR的推理。機(jī)器要變得具有同樣的智能,需要采用相同的手段。
大數(shù)據(jù)時代剛剛開始,相信今后在各個領(lǐng)域,各種應(yīng)用中,大數(shù)據(jù)挖掘都會推動創(chuàng)新,對技術(shù)發(fā)展帶來巨大影響。這一點(diǎn)確實(shí)令人振奮。
大家都想一想從自己擁有的數(shù)據(jù)中可以挖掘出什么樣的金子吧!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03