99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀從大數(shù)據(jù)中挖掘什么_數(shù)據(jù)分析師培訓(xùn)
從大數(shù)據(jù)中挖掘什么_數(shù)據(jù)分析師培訓(xùn)
2015-04-15
收藏

從大數(shù)據(jù)中挖掘什么_數(shù)據(jù)分析師培訓(xùn)


概要:大數(shù)據(jù)挖掘中最重要的是決定挖掘什么樣的知識,這是在數(shù)據(jù)的收集、處理、挖掘的整個過程中都需要認(rèn)真考慮的問題。本文首先提出大數(shù)據(jù)挖掘的幾項(xiàng)策略,即盡量設(shè)想挖掘的場景,盡量多方面收集數(shù)據(jù),盡量將數(shù)據(jù)整合,悉心觀察數(shù)據(jù)特征。之后結(jié)合自己在互聯(lián)網(wǎng)搜索中的大數(shù)據(jù)挖掘工作經(jīng)驗(yàn),分享對這些策略的體會。最后介紹一個互聯(lián)網(wǎng)搜索中大規(guī)模日志數(shù)據(jù)挖掘的工作,展示大數(shù)據(jù)挖掘的威力,呈現(xiàn)大數(shù)據(jù)挖掘的挑戰(zhàn)。

1. “挖什么”與“怎么挖”

大數(shù)據(jù)技術(shù)涉及存儲、搜索、傳輸、計(jì)算、挖掘等多方面,本文只考慮大數(shù)據(jù)的挖掘。大數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中挖掘出未知且有用的知識。通過挖掘,大數(shù)據(jù)的價值才得以體現(xiàn),所以挖掘?qū)Υ髷?shù)據(jù)有著舉足輕重的意義。

數(shù)據(jù)挖掘有兩個基本問題,即“挖什么(what to mine)”與“怎么挖(how to mine)”。前者決定從數(shù)據(jù)中抽取什么樣的信息,統(tǒng)計(jì)什么樣的規(guī)律,后者決定怎樣具體進(jìn)行抽取與統(tǒng)計(jì)。前者是在數(shù)據(jù)的收集、處理、挖掘中都要考慮的問題,后者往往僅限于挖掘。“怎么挖”通常是數(shù)據(jù)挖掘研究的核心,但是“挖什么”在數(shù)據(jù)挖掘的應(yīng)用中往往更為重要,因?yàn)樗鼪Q定了挖掘結(jié)果的價值。在實(shí)際問題中,決定是挖金銀,還是挖銅鐵,比決定是用鋤頭挖,還是用鏟子挖更為關(guān)鍵。

2. 大數(shù)據(jù)挖掘的策略

本文總結(jié)了大數(shù)據(jù)挖掘中判斷“挖什么”的四項(xiàng)策略,即盡量設(shè)想挖掘的場景,盡量多方面收集數(shù)據(jù),盡量將數(shù)據(jù)整合,以及悉心觀察數(shù)據(jù)特征。下面,結(jié)合自己在互聯(lián)網(wǎng)搜索中的大數(shù)據(jù)挖掘工作經(jīng)驗(yàn),介紹對這些策略的體會。

盡量設(shè)想挖掘的場景

收集數(shù)據(jù)是數(shù)據(jù)挖掘的第一步,需要判斷記錄、采集哪些數(shù)據(jù),這直接影響了能從數(shù)據(jù)中挖掘什么樣的知識。巧婦難為無米之炊,沒有某一方面的數(shù)據(jù),也就無法從中進(jìn)行相關(guān)的挖掘。但是,存儲、處理數(shù)據(jù)是有代價的,提高數(shù)據(jù)挖掘效率的關(guān)鍵也在于只記錄、采集有用的數(shù)據(jù)。所以,需要對收集數(shù)據(jù)的內(nèi)容進(jìn)行合理的判斷,這時,應(yīng)該盡量設(shè)想挖掘的場景,在此基礎(chǔ)上將可能有用的數(shù)據(jù)全部記錄、采集下來。

某公司的工程師們開發(fā)了一個互聯(lián)網(wǎng)瀏覽器中的工具欄(toolbar)。用戶安裝了工具欄后,在瀏覽器中的操作,如點(diǎn)擊網(wǎng)頁鏈接,拖動鼠標(biāo)等,都會被記錄下來。在得到用戶允許的條件下,這些數(shù)據(jù)會被傳送到該公司的云端服務(wù)器。工具欄記錄的用戶瀏覽器使用行為數(shù)據(jù),可以用于互聯(lián)網(wǎng)搜索引擎等諸多方面。工程師們對工具欄記錄數(shù)據(jù)內(nèi)容進(jìn)行了精心的設(shè)計(jì),考慮了各種可能的情況,希望收集的數(shù)據(jù)能支持多種挖掘任務(wù)。用戶的IP地址,網(wǎng)頁鏈接的點(diǎn)擊時間等都被記錄下來。然而,他們忘記記錄了一個重要的信息,使得到的數(shù)據(jù)不利于挖掘使用。原來,用戶關(guān)閉瀏覽器的時間沒有被記錄下來,從數(shù)據(jù)中無法判斷用戶何時結(jié)束了搜索或?yàn)g覽行為。由于工程師們沒有很好的想象如何使用數(shù)據(jù),給之后的挖掘帶來了一定的困難。

判斷收集什么樣的數(shù)據(jù)牽涉到如何認(rèn)識世界這一哲學(xué)問題。哲學(xué)家康德的一個核心觀點(diǎn)是:我們所認(rèn)識的世界是我們用自己擁有的理論對自己觀察的現(xiàn)象做出的解釋。紙上的一條墨跡,數(shù)學(xué)家把它看成是平面上的直線,中國人把它看成漢字的“一”。其實(shí),我們想怎樣看世界決定了我們看到的世界是什么樣的。只有當(dāng)對數(shù)據(jù)挖掘的內(nèi)容有比較清晰的想法的時候,才能對數(shù)據(jù)的收集范圍有比較明確的界定。所以,盡量設(shè)想挖掘場景是必不可少的。

盡量多方面收集數(shù)據(jù)

事實(shí)上,我們很難事先窮盡所有可能的挖掘場景,所以也就很難完全準(zhǔn)確地判斷應(yīng)該收集哪些數(shù)據(jù),不應(yīng)該收集哪些數(shù)據(jù)。作為彌補(bǔ)措施,可以考慮在存儲、處理能力允許的條件下,盡量多方面收集數(shù)據(jù)。這是另一項(xiàng)策略。多收集數(shù)據(jù)總有可能對數(shù)據(jù)挖掘產(chǎn)生某些幫助。

回到工具欄的例子。工具欄記錄的用戶互聯(lián)網(wǎng)訪問的行為數(shù)據(jù),能大大幫助搜索引擎提高對用戶的理解,提高搜索結(jié)果的相關(guān)性。研究發(fā)現(xiàn),從用戶在瀏覽器中的簡單操作中都可以發(fā)現(xiàn)許多有用的信息,幫助推斷用戶的興趣、意圖等[1]。比如,從用戶在瀏覽器中的鼠標(biāo)移動軌跡中可以估計(jì)出他對網(wǎng)頁的關(guān)注范圍,從用戶對網(wǎng)頁鏈接的點(diǎn)擊可以猜測出他的信息需求,從用戶對窗口的關(guān)閉動作可以推測出他的興趣轉(zhuǎn)移。

盡量將數(shù)據(jù)整合

讓數(shù)據(jù)發(fā)揮更大作用的辦法是將相關(guān)數(shù)據(jù)整合在一起,用于挖掘。數(shù)據(jù)整合有助于幫助了解事物的全貌,發(fā)現(xiàn)未知的關(guān)系,提升預(yù)測的準(zhǔn)確率。局部數(shù)據(jù)只是“羅之一目”,而整體數(shù)據(jù)才是“彌天大網(wǎng)”。

圖1所示為互聯(lián)網(wǎng)搜索中的用戶行為模型。該模型雖簡單,但屬于基本模型,互聯(lián)網(wǎng)搜索中用戶的行為數(shù)據(jù)都可以納入其中,可以對用戶的行為進(jìn)行描述。現(xiàn)實(shí)中,該模型的數(shù)據(jù)需要從多個數(shù)據(jù)源中獲取,并通過整合處理而得到。

互聯(lián)網(wǎng)搜索中首先有許多用戶。每個用戶會多次使用搜索引擎,每次使用完成一個查詢?nèi)蝿?wù),構(gòu)成一個會話(session),每個會話又由多個查詢組成。每個查詢中,用戶提交查詢語句,搜索引擎返回結(jié)果,用戶根據(jù)其內(nèi)容判斷網(wǎng)頁的相關(guān)性,點(diǎn)擊相關(guān)網(wǎng)頁的鏈接,瀏覽網(wǎng)頁。瀏覽過程中,用戶可能按照網(wǎng)頁的鏈接,瀏覽多個網(wǎng)頁,之后返回搜索結(jié)果,也可能直接離開。用戶在瀏覽器中的動作,可以通過工具欄記錄下來,傳送給搜索引擎,但是,基于效率等考慮,搜索引擎返回的結(jié)果往往不會被工具欄記錄。相反,搜索的結(jié)果會被搜索引擎記錄下來。所以,將客戶端與搜索引擎端的數(shù)據(jù)進(jìn)行整合變成互聯(lián)網(wǎng)搜索數(shù)據(jù)挖掘工作中的一項(xiàng)重要任務(wù)。瀏覽器記錄的用戶ID與搜索引擎記錄的用戶ID往往不一致,將同一用戶的不同ID聯(lián)系起來并非易事。

悉心觀察數(shù)據(jù)特征

決定從數(shù)據(jù)中挖掘什么,首先需要對數(shù)據(jù)有深入的了解,需要對數(shù)據(jù)進(jìn)行認(rèn)真細(xì)致地觀察。只有對數(shù)據(jù)有深刻的認(rèn)識,才有可能從中挖掘出深層的知識。AOL隱私泄露事件是一個著名的“人肉數(shù)據(jù)挖掘”成功事例,說明只要細(xì)致觀察與推理,我們可以從數(shù)據(jù)中發(fā)現(xiàn)許多事情。

2006年AOL公司,為了促進(jìn)研究,發(fā)布了搜索查詢數(shù)據(jù)集,包括65萬用戶三個月中在AOL搜索提交的2千多萬查詢。為了保護(hù)用戶隱私,AOL將用戶的個人信息刪除,對每個用戶賦予了一個ID。紐約時報的一個記者對AOL數(shù)據(jù)進(jìn)行了觀察、分析,利用電話號碼簿,很快確定出ID為4417749的用戶是居住在佐治亞州的60歲的單身婦女Thelma Arnold[3]。具體地,這位用戶提交了“l(fā)andscapers in Lilburn, Ga”的查詢,從此可以推斷此人大概住在佐治亞州Lilburn。該用戶又提交了多個含有Arnold的人名查詢,可以揣測此人大概姓Arnold。該用戶又搜了“60 single men”,可以猜想此人可能是60歲左右的婦女,等等。

AOL事件說明了數(shù)據(jù)挖掘中保護(hù)用戶隱私問題的重要性(本文不討論隱私保護(hù)問題),同時也說明了認(rèn)真觀察數(shù)據(jù),可以挖掘到許多深層的信息。

3. 大數(shù)據(jù)挖掘事例

互聯(lián)網(wǎng)搜索引擎,索引幾十億以上的網(wǎng)頁,每天有幾十億次查詢,收集幾十TB的日志數(shù)據(jù)。這些數(shù)據(jù)是典型的大數(shù)據(jù)。

下面介紹一個互聯(lián)網(wǎng)搜索日志數(shù)據(jù)挖掘例子:查詢副主題挖掘。這是與微軟前同事等的工作[4]?;ヂ?lián)網(wǎng)搜索中的查詢,或者表示多個語義,或者表示事物的多個側(cè)面,統(tǒng)稱為副主題(subtopic)。前者的例子,如圖2所示, 查詢“harry shum”意味著用戶可能要搜索微軟的副總裁,也可能是搜索美國的演員。后者的例子,如查詢“xbox”意味著用戶可能想找游戲攻略,也可能想購買游戲機(jī)。如果能判斷查詢的副主題,那么可以將該搜索結(jié)果進(jìn)行聚類,把同一個副主題的網(wǎng)頁放在一起,幫助用戶迅速找到想要找的所有信息。根據(jù)副主題對搜索結(jié)果聚類是一個熱門研究課題。傳統(tǒng)的方法根據(jù)搜索結(jié)果中網(wǎng)頁摘要的相似度對網(wǎng)頁進(jìn)行聚類,效果并不理想。我們提出的方法事先從搜索日志數(shù)據(jù)中挖掘出查詢的副主題,用戶搜索時,根據(jù)挖掘好的副主題,對查詢結(jié)果進(jìn)行聚類,效果提升顯著。副主題挖掘利用了用戶搜索的兩個現(xiàn)象。

我們觀察到的第一個現(xiàn)象是“同一查詢同一副主題(one subtopic per search)”。用戶每次進(jìn)行查詢時,往往只考慮一個副主題,要搜副總裁的Harry Shum,就不會搜演員的Harry Shum,反之亦然。這一點(diǎn)會反映在用戶的日志點(diǎn)擊數(shù)據(jù)上。在同一次搜索中,用戶點(diǎn)擊的多個網(wǎng)頁鏈接往往集中在同一個副主題上。將某一查詢的大量的點(diǎn)擊數(shù)據(jù)匯集起來,根據(jù)鏈接是否常在同一次搜索中被共同點(diǎn)擊,可以將它們聚類,就可以挖掘到該查詢的副主題,這時,鏈接的每個類對應(yīng)一個副主題。

第二個現(xiàn)象是“加關(guān)鍵詞明確副主題(Subtopic Clarification by Additional Keyword)”,也可以用于副主題挖掘。用戶在查詢時,會主動明確副主題,在主查詢詞的后面(或前面)加上關(guān)鍵詞,如“harry shum microsoft”,“harry shum jr”。屬于同一副主題的網(wǎng)頁鏈接往往在被加同樣關(guān)鍵詞的查詢中點(diǎn)擊,根據(jù)鏈接是否在加同樣關(guān)鍵詞查詢中被點(diǎn)擊,可以將它們聚類,得到的類也對應(yīng)于副主題。

我們的方法能夠根據(jù)以上兩個現(xiàn)象商業(yè)智能平臺挖掘出查詢的每個副主題,副主題由網(wǎng)頁鏈接、以及附加關(guān)鍵詞表示。利用特殊的數(shù)據(jù)結(jié)構(gòu),可以將Bing的三個月日志數(shù)據(jù)在一天內(nèi)進(jìn)行一次高效的挖掘。對于高頻查詢,可以得到非常精準(zhǔn)的挖掘結(jié)果(詳見[4])??梢钥闯觯髷?shù)據(jù)確實(shí)能夠發(fā)揮巨大作用。

另一方面,我們的方法對低頻查詢無法適用,因?yàn)闆]有足夠的點(diǎn)擊數(shù)據(jù),也就是說會遇到長尾挑戰(zhàn)[5]。用戶的行為數(shù)據(jù)大多遵循冪率分布(power law distribution),現(xiàn)在基于統(tǒng)計(jì)的數(shù)據(jù)挖掘方法對尾部數(shù)據(jù)依然是束手無策。

4. 總結(jié)

數(shù)據(jù)挖掘關(guān)鍵是決定挖什么,這比決定怎么挖更為重要。收集數(shù)據(jù)時,應(yīng)該盡量設(shè)想挖掘的場景,盡量多方面地記錄、采集數(shù)據(jù);收集商業(yè)智能數(shù)據(jù)后,應(yīng)該盡量將數(shù)據(jù)整合在一起;數(shù)據(jù)挖掘前,應(yīng)該悉心觀察數(shù)據(jù),以幫助判斷挖掘什么樣的知識。只有這樣,大數(shù)據(jù)挖掘的價值才能得以體現(xiàn)。

數(shù)據(jù)挖掘極具威力,但也有局限性,會遇到長尾挑戰(zhàn)。結(jié)合事先給定的知識進(jìn)行挖掘,或許是解決長尾挑戰(zhàn)的一條出路。紐約時報記者能從搜索查詢數(shù)據(jù)中挖掘出用戶的身份,也是因?yàn)橛昧嘶诔WR的推理。機(jī)器要變得具有同樣的智能,需要采用相同的手段。

大數(shù)據(jù)時代剛剛開始,相信今后在各個領(lǐng)域,各種應(yīng)用中,大數(shù)據(jù)挖掘都會推動創(chuàng)新,對技術(shù)發(fā)展帶來巨大影響。這一點(diǎn)確實(shí)令人振奮。

大家都想一想從自己擁有的數(shù)據(jù)中可以挖掘出什么樣的金子吧!

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }