99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀淺談數(shù)據(jù)分析中的“暗物質(zhì)”
淺談數(shù)據(jù)分析中的“暗物質(zhì)”
2018-03-31
收藏

淺談數(shù)據(jù)分析中的“暗物質(zhì)”

我們分析數(shù)據(jù),更重要的是看到數(shù)據(jù)中所隱藏的暗物質(zhì),即數(shù)據(jù)圖中你看不見的數(shù)據(jù)\邏輯\知識。

開門見山,以下是某新聞媒體WAP\APP\PC三端的分周中和周末的PV曲線,下面嘗試分析其中是否存在某種規(guī)律。

圖一:newsAPP某周一庫存

圖二:newsAPP某周日庫存

1.數(shù)據(jù)的準確性和代表性

在分析數(shù)據(jù)之前,有一個非常重要的事情,大家往往會忽略,那就是數(shù)據(jù)的置信度是多少。

如果數(shù)據(jù)的準確性本身存在問題,那能產(chǎn)出正確結(jié)果的概率與買彩票中獎的概率大概相差無幾。即便數(shù)據(jù)是準確地,那還得證明數(shù)據(jù)具有代表性,你是不是只抽取了一天的數(shù)據(jù),你是不是只抽取了一端的數(shù)據(jù)。

自然,很多時候,你必須要進行抽樣,那你更要謹慎了,因素那么多,你要保證自己在數(shù)據(jù)采樣過程中,考慮了應該考慮的因素。當然,這些數(shù)據(jù)對于這個結(jié)論很具有代表性,對于另一個分析目的卻有可能完全沒有代表性,這些都不能一概而論。

總之,數(shù)據(jù)準確性這個問題基本上要在分析之前給出確定的答案。而數(shù)據(jù)是否具有代表性這個問題由于比較復雜,盡可能的在分析之前考慮清楚的同時,在分析過程中,一定要隨時保持著質(zhì)疑精神,每向前一步,都要重新考慮數(shù)據(jù)樣本是否還具有代表性。

圖三:newsWAP某周一庫存

圖四:newsWAP某周末庫存

2.看圖說話

以下圖中數(shù)據(jù)經(jīng)受過了我們多方位的考驗,所以數(shù)據(jù)基本準確,代表性具體要看你的分析目的。

基本確定了準確性和代表性后,懷著高度質(zhì)疑的精神,讓我們開始我們的分析之旅。

首先,單獨來看每一個圖,大家可以很清晰的理解,這六條PV曲線都是與用戶的行為息息相關(guān)的。從各條PV曲線的變化來看,用戶7:00-8:00起床的比較多,22:00是一個大家進入休息比較集中的時間點。凌晨的2:00-5:00是用戶活動的低谷,而波峰在時間上一般是20:00-22:00。

圖五:newsPC某周一庫存

圖六:newsPC某周日庫存

3.多項對比

說到這里,細心的大家可能對圖五\圖六中的數(shù)據(jù)表示質(zhì)疑。因為它不符合我們剛才推出來的規(guī)律。

比如說,PC端一天中的波峰時間是每天的9:00-10:00,而且周一和周日的PV曲線變化非常大。 周一的數(shù)據(jù)量大周日一兩倍的樣子,而且周日白天的波動比較緩和,而周一的波動非常大,存在多個波峰波谷。相反,APP\WAP在周日和周一的PV總量并未出現(xiàn)明顯變化,而且曲線變化規(guī)律也大抵相同。

4.挖掘暗物質(zhì)

所謂暗物質(zhì),就是數(shù)據(jù)圖中你看不見的數(shù)據(jù)\邏輯\知識。

所謂的數(shù)據(jù)分析或者挖掘就是挖掘各個數(shù)據(jù)之前的關(guān)聯(lián),數(shù)據(jù)與暗物質(zhì)之間的關(guān)聯(lián)。

仔細想來,我在“看圖說話”中的推理其實利用了先驗知識,也就是說大家有起床后看新聞和睡覺前看新聞的習慣,事實真的是這樣嗎?事實大概確實如此,但是在分端上可就不同了。

APP\WAP都是移動設備上可以觸及的渠道,所以基本可以與用戶的起居習慣相吻合。但是PC端并非觸手所及,并不能完全和用戶的起居相吻合,畢竟你零碎時間里可以打開手機,卻不太可能去打開電腦。

上面我說到PC端并不能很好的反映用戶的起居,那他能反映用戶的什么呢。想想我們平時使用PC的場景,PC端數(shù)據(jù)是否能反映用戶的上班時間特性?這點確實能給出數(shù)據(jù)支持。

一是周一比周日PV量大,說明周末使用PC的用戶少,周中上班時間就身不由己了,所以PV量比較大。周日和周一的曲線波動也完全能理解了,周一的PV的上漲時間落后于起居時間是因為那是上班時間,延遲的一小時左右要吃飯\要擠地鐵啊,9:00左右(上班的集中時間點)大家都坐定了,刷一下新聞,PV量也就達到最大。

9:00-11:00期間的PV量幾乎沒有太大變化,但11:00開始就開始慢慢下跌了,一直持續(xù)到12:00,這個可能與大家要逐漸去吃午飯相關(guān),經(jīng)過了12:00-14:00的午休階段,PV量存在一定上漲。

等到下午17:00,又開始下降了,到了18:00基本降得差不多了。大家基本都已經(jīng)下班了。所以,我們可以說周日創(chuàng)造PV的這些用戶,周中也會同樣創(chuàng)造PV,而周一多出來的這些PV,其用戶特征完全符合上班特性,或者說其特性完全符合朝九晚五的上班族。

5.反復求證

你的數(shù)據(jù)真的對了嗎? 那我們可以說創(chuàng)造PC端PV波動的這些朝九晚五的用戶是國企員工嗎?我們可以說國企員工上班就是看看新聞,聊聊天嗎?那我們是否可以說互聯(lián)網(wǎng)員工上班就不看新聞。

我們?nèi)〉镁褪莵砜葱侣劦腢V產(chǎn)生的PV數(shù)據(jù),得出來的數(shù)據(jù)當然是這樣了。互聯(lián)網(wǎng)員工的行為是否被湮沒在其他原因中了?這是我上面提到的,始終要保持質(zhì)疑精神。你的數(shù)據(jù)對于之前的分析是有代表性的,可是分析以上問題,可以說是一點代表性都沒有。

有些人數(shù)據(jù)分析時已經(jīng)早有結(jié)論,往往數(shù)據(jù)選擇和分析時便會不自覺的有所傾向,難免會得出與自己假設相同的結(jié)論。所以我們在得出結(jié)論時,其實還要從其他很多方面進行求證,包括去掉某因素后,現(xiàn)象是否會消失等等。

6.你的結(jié)論真的對了嗎?

之前朋友圈流傳著這樣一個消息:有權(quán)威分析機構(gòu)經(jīng)過數(shù)據(jù)分析發(fā)現(xiàn),戰(zhàn)狼2和瘋狂動物城的票房都很高,但兩者用戶重合度并不高。戰(zhàn)狼2的觀看用戶更喜歡喝冷飲,而瘋狂動物城的用戶卻更喜歡奶茶。但其實瘋狂動物城上映在冬季,而戰(zhàn)狼2上映在夏季。即便經(jīng)過反復求證,我們也只能說是結(jié)論的置信度越來越高了,并不能證明這是對的。所以,除了盡可能的反復求證,剩下的方法是就是進行數(shù)據(jù)驅(qū)動策略的驗證了。驗證可以分為對照組等等,此處不再贅述。

7.猜猜他的用戶

如果你細心一點,便會發(fā)現(xiàn)newsAPP\WAP兩端在周日的變動相比周一稍稍延后,這估計和大家的周末作息習慣延后有關(guān),至于為什么延后并不多,那說明主流用戶肯定不是那些“上班睡不醒,周末睡不著的”年輕人啊。

8.寫在最后

就是這幾張平時用來做實時監(jiān)控的曲線還能扯出這么多東西來?來張照片給大家。

【以下內(nèi)容來自百度】中國最著名“照片泄密案”,是由1964年《中國畫報》封面刊出的一張照片引起的。在這張照片中,大慶油田的“鐵人”王進喜頭戴大狗皮帽,身穿厚棉襖,頂著鵝毛大雪,握著鉆機手柄眺望遠方,在他身后散布著星星點點的高大井架。日本情報專家據(jù)此解開了中國當時最大的石油基地–大慶油田的秘密。

1、他們根據(jù)照片上王進喜的衣著判斷,只有在北緯46度至48度的區(qū)域內(nèi),冬季才有可能穿這樣的衣服,因此推斷大慶油田位于齊齊哈爾與哈爾濱之間。

2、通過照片中王進喜所握手柄的架式,推斷出油井的直徑;

3、從王進喜所站的鉆井與背后油田間的距離和井架密度,推斷出油田的大致儲量和產(chǎn)量。有了如此多的準確情報,日本人迅速設計出適合大慶油田開采用的石油設備。當中國政府向世界各國征求開采大慶油田的設備方案時,日本人一舉中標。

慶幸的是,日本當時是出于經(jīng)濟危機,根據(jù)情報分析結(jié)果,向我國高價推銷煉油設施,而不是用于軍事戰(zhàn)略意圖。

所以數(shù)據(jù)分析中最重要的是什么?暗物質(zhì)啊!


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }