99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀為什么Kaggle不會讓你成為一名出色的數(shù)據(jù)科學家？

為什么Kaggle不會讓你成為一名出色的數(shù)據(jù)科學家？

2019-01-08

作者 | Pranay Dave

CDA 數(shù)據(jù)分析師原創(chuàng)作品，轉(zhuǎn)載需授權(quán)

毫無疑問，Kaggle是非常適合學習數(shù)據(jù)科學的平臺。許多數(shù)據(jù)科學家在Kaggle上投入了大量時間。

但同時，你不應該只依靠Kaggle來學習數(shù)據(jù)科學技能。

以下就是當中的原因：

1.數(shù)據(jù)科學不僅僅是預測

Kaggle主要針對預測相關的問題。然而許多現(xiàn)實問題是與預測無關的。

例如，許多公司都想知道用戶流失的最常見途徑。這些類型的問題需要了解不同的數(shù)據(jù)類型和用戶接觸點，例如web導航、計費、客服中心交互、商店訪問等問題。同時還需要識別重要事件，例如超額計費或?qū)Ш藉e誤。在確定所有事件后，你需要應用路徑算法來了解導致用戶流失的常見路徑。解決這類問題不能僅靠預測算法，而需要能夠根據(jù)事件構(gòu)建時間線的算法。

同樣，解決許多其他問題也需要預測之外的技能。能夠解決預測性問題是很強大的，但作為數(shù)據(jù)科學家你需要解決多種類型的問題?，F(xiàn)實情況中有更多類型的問題需要解決，因此你不能僅局限于Kaggle，還需要用其他技能解決現(xiàn)實的數(shù)據(jù)科學挑戰(zhàn)。

2.無法提高圖算法方面的技能

社交網(wǎng)絡分析、影響預測、社區(qū)分析、欺詐網(wǎng)絡分析等，這些有趣的分析問題都是數(shù)據(jù)科學家需要解決。解決這類問題需要有關圖形算法的知識，如Pagerank、Modularity、ShortestPath、EigenVectorCentrality等等。

網(wǎng)絡或社區(qū)類型問題在Kaggle中很少見。解決圖形和網(wǎng)絡方面問題需要節(jié)點和鏈接相關數(shù)據(jù)，而Kaggle中大多數(shù)數(shù)據(jù)并不是這種形式的。

當然，你可以將問題轉(zhuǎn)換為使用圖算法，但這種情況很少。Kaggle上缺少這類的比賽，這也表明了于數(shù)據(jù)科學家日常需要解決問題的巨大差距。

3.無法提高算法可解釋性

算法的可解釋性越來越重要。你可以使用高大上的方法和最復雜的算法，但如果無法解釋算法是怎樣得到預測的，在企業(yè)中這將是一個大問題。這種說不清緣由的算法被稱為“黑匣子”算法。

使用黑盒算法存在一定的隱患，而且也可能造成法律方面的問題。假設，你開發(fā)了一種非常精確的算法集合來預測信用風險。在投入生產(chǎn)時，它將用于預測信貸風險。其中有些人的信用得分會很低，被拒絕貸款的人有權(quán)知道他們申請被拒的原因。如果算法無法提供解釋，則可能會產(chǎn)生法律問題。

在Kaggle比賽中，獲勝者是基于準確性，而不是基于可解釋性。這意味著比賽中數(shù)據(jù)科學家可以使用復雜的算法來保證高準確性，而不必關心可解釋性。這種方法能夠贏得比賽，但在企業(yè)的數(shù)據(jù)科學項目中就行不通了。

4.缺少投資回報率的分析環(huán)節(jié)

公司正在加大數(shù)據(jù)科學技能方面的投入。他們希望數(shù)據(jù)科學項目能夠提供投資回報率。通常，成功的分析項目需要數(shù)據(jù)科學算法與投資回報率緊密相關。

其中一個例子是預測性維護，其中能夠?qū)υO備故障進行預測。假設設備的故障率為10％，那么你需要派維護人員去進行檢查嗎？可能并不需要。但如果故障率為95％，那是肯定需要的。

然而在實際情況中，故障率通常為55％，63％等，這時就不確定了。如果公司派維護人員檢查所有這些設備，則可能產(chǎn)生巨大的成本。如果不派人檢查，則會有很大的設備故障風險。

那么故障率的閾值應該是多少呢？這時就需要計算投資回報率了。因此非常需要數(shù)據(jù)科學家給出當中的閾值，從而幫助公司確定相關決策。

Kaggle并不涉及這方面的分析，而只專注預測，并不考慮如何把數(shù)據(jù)科學結(jié)果應用于投資回報率。

5.不會涉及到模擬和優(yōu)化問題

關于模擬和優(yōu)化算法，比如系統(tǒng)動態(tài)仿真、基于代理模擬或蒙特卡羅模擬等應該是所有數(shù)據(jù)科學家的必備技能。金融優(yōu)化、路線優(yōu)化、定價等許多問題都是數(shù)據(jù)科學家需要解決的問題。

以價格預測為例，你可以使用機器學習，根據(jù)季節(jié)、日期、地點、競爭對手價格等數(shù)據(jù)來預測產(chǎn)品價格。但機器學習算法預測的價格是否是最優(yōu)價格？也許不是。為了確定最優(yōu)價格，你首先要確定優(yōu)化目標。

優(yōu)化目標可以設為利潤優(yōu)化。在這種情況下，你需要確定提供最佳利潤的價格范圍。為了留住用戶，這樣的價格不能設太高。同時，為了保持良好的利潤率，也不應該太低。

因此，你需要通過優(yōu)化算法來確定最佳價格范圍。如果預測價格在價格范圍內(nèi)，那么機器學習的結(jié)果是可以接受的，否則應被拒絕。

在Kaggle上，通常不會給出利潤優(yōu)化等優(yōu)化目標。因此，當中涉及的問題仍然局限于機器學習，而并沒有探索優(yōu)化方面的問題。

6.無法體驗模型部署和操作

假設你的模型在Kaggle排行榜位居前列。然而部署模型是完全另外一回事，這是在Kaggle上無法體驗的。

生產(chǎn)部署模型會涉及到docker、kubernetes等技術(shù)。雖然數(shù)據(jù)科學家并不需要成為docker和kubernetes方面的專家，但至少要能夠熟練使用。很多情況下，數(shù)據(jù)科學家需要用docker創(chuàng)建評分管道。

操作和部署還包括定期監(jiān)控模型性能，并在必要時采取改進措施。假設有一個產(chǎn)品推薦模型。你在某個時間點觀察到，由于推薦而導致銷售額下降。那么問題是出在模型上嗎？還是其他方面呢？

數(shù)據(jù)科學家需要參與到模型部署環(huán)節(jié)，從而獲得獲得真實而豐富的體驗。

結(jié)語

數(shù)據(jù)科學家需要涉及算法可解釋性、投資回報率評估、優(yōu)化等技能。在這一系列問題中，你將解決各種有趣的現(xiàn)實問題，從而更全面的提高數(shù)據(jù)科學相關技能。

對于數(shù)據(jù)科學家而言，不要僅局限于Kaggle，而是要從其他角度解決不同類型的數(shù)據(jù)科學問題。

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

機器學習 docker 大數(shù)據(jù) 數(shù)據(jù)分析

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇什么數(shù)據(jù)分析方法能夠提升工作效率（二）

下一篇入行數(shù)據(jù)科學一定要有研究生學歷嗎？

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

為什么Kaggle不會讓你成為一名出色的數(shù)據(jù)科學家？

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

為什么Kaggle不會讓你成為一名出色的數(shù)據(jù)科學家？

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

為什么Kaggle不會讓你成為一名出色的數(shù)據(jù)科學家？

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...