
作者 | Pranay Dave
CDA 數(shù)據(jù)分析師原創(chuàng)作品,轉(zhuǎn)載需授權
毫無疑問,Kaggle是非常適合學習數(shù)據(jù)科學的平臺。許多數(shù)據(jù)科學家在Kaggle上投入了大量時間。
但同時,你不應該只依靠Kaggle來學習數(shù)據(jù)科學技能。
以下就是當中的原因:
1.數(shù)據(jù)科學不僅僅是預測
Kaggle主要針對預測相關的問題。然而許多現(xiàn)實問題是與預測無關的。
例如,許多公司都想知道用戶流失的最常見途徑。這些類型的問題需要了解不同的數(shù)據(jù)類型和用戶接觸點,例如web導航、計費、客服中心交互、商店訪問等問題。同時還需要識別重要事件,例如超額計費或?qū)Ш藉e誤。在確定所有事件后,你需要應用路徑算法來了解導致用戶流失的常見路徑。解決這類問題不能僅靠預測算法,而需要能夠根據(jù)事件構建時間線的算法。
同樣,解決許多其他問題也需要預測之外的技能。能夠解決預測性問題是很強大的,但作為數(shù)據(jù)科學家你需要解決多種類型的問題?,F(xiàn)實情況中有更多類型的問題需要解決,因此你不能僅局限于Kaggle,還需要用其他技能解決現(xiàn)實的數(shù)據(jù)科學挑戰(zhàn)。
2.無法提高圖算法方面的技能
社交網(wǎng)絡分析、影響預測、社區(qū)分析、欺詐網(wǎng)絡分析等,這些有趣的分析問題都是數(shù)據(jù)科學家需要解決。解決這類問題需要有關圖形算法的知識,如Pagerank、Modularity、ShortestPath、EigenVectorCentrality等等。
網(wǎng)絡或社區(qū)類型問題在Kaggle中很少見。解決圖形和網(wǎng)絡方面問題需要節(jié)點和鏈接相關數(shù)據(jù),而Kaggle中大多數(shù)數(shù)據(jù)并不是這種形式的。
當然,你可以將問題轉(zhuǎn)換為使用圖算法,但這種情況很少。Kaggle上缺少這類的比賽,這也表明了于數(shù)據(jù)科學家日常需要解決問題的巨大差距。
3.無法提高算法可解釋性
算法的可解釋性越來越重要。你可以使用高大上的方法和最復雜的算法,但如果無法解釋算法是怎樣得到預測的,在企業(yè)中這將是一個大問題。這種說不清緣由的算法被稱為“黑匣子”算法。
使用黑盒算法存在一定的隱患,而且也可能造成法律方面的問題。假設,你開發(fā)了一種非常精確的算法集合來預測信用風險。在投入生產(chǎn)時,它將用于預測信貸風險。其中有些人的信用得分會很低,被拒絕貸款的人有權知道他們申請被拒的原因。如果算法無法提供解釋,則可能會產(chǎn)生法律問題。
在Kaggle比賽中,獲勝者是基于準確性,而不是基于可解釋性。這意味著比賽中數(shù)據(jù)科學家可以使用復雜的算法來保證高準確性,而不必關心可解釋性。這種方法能夠贏得比賽,但在企業(yè)的數(shù)據(jù)科學項目中就行不通了。
4.缺少投資回報率的分析環(huán)節(jié)
公司正在加大數(shù)據(jù)科學技能方面的投入。他們希望數(shù)據(jù)科學項目能夠提供投資回報率。通常,成功的分析項目需要數(shù)據(jù)科學算法與投資回報率緊密相關。
其中一個例子是預測性維護,其中能夠?qū)υO備故障進行預測。假設設備的故障率為10%,那么你需要派維護人員去進行檢查嗎?可能并不需要。但如果故障率為95%,那是肯定需要的。
然而在實際情況中,故障率通常為55%,63%等,這時就不確定了。如果公司派維護人員檢查所有這些設備,則可能產(chǎn)生巨大的成本。如果不派人檢查,則會有很大的設備故障風險。
那么故障率的閾值應該是多少呢?這時就需要計算投資回報率了。因此非常需要數(shù)據(jù)科學家給出當中的閾值,從而幫助公司確定相關決策。
Kaggle并不涉及這方面的分析,而只專注預測,并不考慮如何把數(shù)據(jù)科學結(jié)果應用于投資回報率。
5.不會涉及到模擬和優(yōu)化問題
關于模擬和優(yōu)化算法,比如系統(tǒng)動態(tài)仿真、基于代理模擬或蒙特卡羅模擬等應該是所有數(shù)據(jù)科學家的必備技能。金融優(yōu)化、路線優(yōu)化、定價等許多問題都是數(shù)據(jù)科學家需要解決的問題。
以價格預測為例,你可以使用機器學習,根據(jù)季節(jié)、日期、地點、競爭對手價格等數(shù)據(jù)來預測產(chǎn)品價格。但機器學習算法預測的價格是否是最優(yōu)價格?也許不是。為了確定最優(yōu)價格,你首先要確定優(yōu)化目標。
優(yōu)化目標可以設為利潤優(yōu)化。在這種情況下,你需要確定提供最佳利潤的價格范圍。為了留住用戶,這樣的價格不能設太高。同時,為了保持良好的利潤率,也不應該太低。
因此,你需要通過優(yōu)化算法來確定最佳價格范圍。如果預測價格在價格范圍內(nèi),那么機器學習的結(jié)果是可以接受的,否則應被拒絕。
在Kaggle上,通常不會給出利潤優(yōu)化等優(yōu)化目標。因此,當中涉及的問題仍然局限于機器學習,而并沒有探索優(yōu)化方面的問題。
6.無法體驗模型部署和操作
假設你的模型在Kaggle排行榜位居前列。然而部署模型是完全另外一回事,這是在Kaggle上無法體驗的。
生產(chǎn)部署模型會涉及到docker、kubernetes等技術。雖然數(shù)據(jù)科學家并不需要成為docker和kubernetes方面的專家,但至少要能夠熟練使用。很多情況下,數(shù)據(jù)科學家需要用docker創(chuàng)建評分管道。
操作和部署還包括定期監(jiān)控模型性能,并在必要時采取改進措施。假設有一個產(chǎn)品推薦模型。你在某個時間點觀察到,由于推薦而導致銷售額下降。那么問題是出在模型上嗎?還是其他方面呢?
數(shù)據(jù)科學家需要參與到模型部署環(huán)節(jié),從而獲得獲得真實而豐富的體驗。
結(jié)語
數(shù)據(jù)科學家需要涉及算法可解釋性、投資回報率評估、優(yōu)化等技能。在這一系列問題中,你將解決各種有趣的現(xiàn)實問題,從而更全面的提高數(shù)據(jù)科學相關技能。
對于數(shù)據(jù)科學家而言,不要僅局限于Kaggle,而是要從其他角度解決不同類型的數(shù)據(jù)科學問題。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03