99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀如何像數(shù)據(jù)科學(xué)家一樣思考
如何像數(shù)據(jù)科學(xué)家一樣思考
2017-05-22
收藏
作為一名數(shù)據(jù)科學(xué)家需要很挑剔,并且善于發(fā)現(xiàn)他人會遺漏的東西。那么我們應(yīng)該如何做到像數(shù)據(jù)科學(xué)家一樣思考呢?

1. 注意干凈數(shù)據(jù)

在著手處理數(shù)據(jù)前,你需要問自己,這個數(shù)據(jù)有意義嗎? 若錯誤地認為數(shù)據(jù)是干凈的,那么很可能會導(dǎo)致錯誤的結(jié)論。除此之外,你還可以通過查看數(shù)據(jù)的差異來辨別一些模式。例如,當(dāng)注意到某列數(shù)據(jù)有超過 50% 的值丟失,那么你可能會考慮不使用該列?;蛘吣銜此际欠衲承?shù)據(jù)收集工具出了問題。

或者從女性化妝品市場中得到的男女用戶人數(shù)比為 9:1 。此時你可以認為數(shù)據(jù)沒問題,從而就此得出結(jié)論;或者根據(jù)常識,反思標簽是否被交換了。

2. 理智地處理離群值

離群值可以幫助你更好地了解那些時時刻刻使用你的網(wǎng)站或產(chǎn)品的人。但是,在構(gòu)建模型時包含這些離群值會對數(shù)據(jù)造成很大的干擾。

3. 留意異常的情況


數(shù)據(jù)科學(xué)家需要在尋常中發(fā)現(xiàn)不尋常。如果你有幸發(fā)現(xiàn)些什么的話,可能你就中獎了。

例如,F(xiàn)lickr 最初是一個多人游戲。當(dāng)創(chuàng)始人注意到,人們大多情況下而是將其作為照片上傳工具使用時,他們才開始轉(zhuǎn)型。

另一個例子,F(xiàn)ab.com 的前身是 Fabulis.com,它本是男同性戀交友的網(wǎng)站。該網(wǎng)站最受歡迎的功能之一是“每日秒殺活動”。某天的秒殺商品是漢堡包,而其中一半的買家都是女性。這使團隊意識到存在著給女性銷售商品的市場。所以 Fabulis 便轉(zhuǎn)型成了 Fab,一個針對設(shè)計師品牌商品的限時搶購網(wǎng)站。

4. 關(guān)注正確的指標


? 謹防虛榮指標。
首先,活躍用戶本身并沒有帶來多大信息。我寧愿說“活躍用戶中增加了 5% 的媽媽用戶”而不是說“活躍用戶增加了 10000 人”。這就是虛榮指標,因為活躍用戶總是會增加的。我更愿意關(guān)注那些活躍的用戶百分比,從而了解產(chǎn)品的情況。

? 試著找出與商業(yè)目標相關(guān)的衡量標準。
例如,一個月的平均銷售量或用戶數(shù)量。

5. 統(tǒng)計數(shù)據(jù)也可能說謊


對每件事都要持懷疑態(tài)度。過去,統(tǒng)計數(shù)據(jù)在廣告、工作和其他許多營銷場合時常常會作假。有時為了獲得業(yè)績、升職,人們愿意做任何事情。

比如,你真的相信高露潔聲稱的有 80% 的牙醫(yī)推薦他們的牙膏嗎?

這些數(shù)據(jù)一開始看起來還不錯。事實證明,在采訪牙醫(yī)的時,他們會推薦好幾個,而不僅僅是一個品牌。因此,其他品牌也可能像高露潔一樣受歡迎。

另一個例子,99% 的正確率并沒什么用。如果讓我構(gòu)建一個癌癥預(yù)測模型,我可以在一行代碼中給你一個 99% 準確的模型。怎么做?只要每一個都預(yù)測“沒有癌癥”即可。因為癌癥還是一種較為罕見的疾病,這么看來我的正確率可能會高于 99% 。即便如此我也一無所獲。

6. 理解概率的原理


1913 年夏天的某天,在摩納哥的一家賭場,賭客們驚訝地目睹了賭盤的篩子連續(xù) 26 次都落在黑色區(qū)域。因為落在紅色和黑色區(qū)域的概率正好對半,所以他們就確信總要輪到紅色了。賭場在這天賺翻了。這就是一個賭徒謬論的完美例子,也就是蒙特卡羅謬論。

這同樣也發(fā)生在現(xiàn)實生活中。人們傾向于避免連續(xù)相同的答案。有時為了得到看似更公平或更有可能的決策而犧牲判斷的準確性。

例如,如果一個招生負責(zé)人已經(jīng)通過了三份簡歷,那么下一份簡歷很可能被拒絕,即使該生能力出眾。

7. 相關(guān)性不等于因果關(guān)系


數(shù)據(jù)科學(xué)家需要看清事物的本質(zhì)。僅僅因為兩個變量相繼發(fā)生改變并不一定意味著兩者是因果關(guān)系。

過去有過這樣的例子,比如:通過消防局的數(shù)據(jù),你似乎可以就此推斷,隨著更多的消防員到達火災(zāi)現(xiàn)場,造成的損失就越大。

當(dāng)調(diào)查紐約市 80 年代的犯罪原因時,一位學(xué)者發(fā)現(xiàn):重大犯罪發(fā)生的數(shù)量和街頭小販出售冰淇淋的數(shù)量有很強的相關(guān)性。顯然,這當(dāng)中存在一個未發(fā)現(xiàn)的變量促使了兩者的發(fā)生。夏天是犯罪最嚴重的時候,同時也是冰淇淋熱銷的時候。所以銷售冰淇淋不會導(dǎo)致犯罪。犯罪的產(chǎn)生也沒有增加冰淇淋銷售。

8. 數(shù)據(jù)越多越好


有時額外的數(shù)據(jù)可能會產(chǎn)生奇跡。通過從不同角度看問題,才能夠?qū)栴}看得越透徹。獲得更多的數(shù)據(jù)源至關(guān)重要。

例如,通過一個城市的犯罪數(shù)據(jù),這可能會幫助銀行為居住在貧困地區(qū)的人提供更好的信用額度,并反過來提高改善這一情況。


原作者 Rahul Agarwal
編譯 CDA 編譯團隊
本文為  CDA 數(shù)據(jù)分析師原創(chuàng)作品,轉(zhuǎn)載需授權(quán)



數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }