
對于了解機(jī)器學(xué)習(xí)的人來說,數(shù)據(jù)挖掘無疑是一個范圍更大且錢力無限的方向。但隨著這兩年越來越多的有IT編程經(jīng)驗的職場老鳥轉(zhuǎn)行到數(shù)據(jù)分析大賽道,企業(yè)對人才的要求也越來越高了。前一陣,廣大碼農(nóng)們被官方劃成了“新生代農(nóng)民工”,引起了咱圈里或多或少的不服不忿。咱作為技術(shù)人才,怎么就成了工具人了?
算法崗的你也別不服氣,問個問題:雖然手上掌握大幾套算法理論,但換個應(yīng)用場景或業(yè)務(wù)需求,你還那么底氣十足嗎?
我在互聯(lián)網(wǎng)公司工作多年,看過大量的類似案例,給我最深的感覺就是:同樣一個算法大多用在同樣的業(yè)務(wù)場景。我們在做精準(zhǔn)營銷的時候,大家往往會用邏輯回歸做一個,神經(jīng)網(wǎng)絡(luò)再做一個,然后對比兩者之間的結(jié)果,再從中選擇最優(yōu)者,其實這樣的研究很多時候只能說是在浪費(fèi)資源。
因為大家都知道神經(jīng)網(wǎng)絡(luò)是非線性模型,效果肯定好。但是做研究的目的并不是為了創(chuàng)造一個神經(jīng)網(wǎng)絡(luò)算法,所以類似的研究結(jié)果沒有任何實質(zhì)意義。
長此以往下,精于算法理論的你會產(chǎn)生一種挫敗感:費(fèi)了這么大功夫,產(chǎn)生的價值只是測試了這套算法的可行性。至于當(dāng)被質(zhì)問如何能用算法更好解決復(fù)雜多變的實際業(yè)務(wù)問題時,可能在一臉滄桑的淡定面孔下是慌亂一批的心。
所以,如果你才剛踏入這個行業(yè)或者還有心力把能力和薪資都往上提一提,那么你一定要看看更值錢的那批頂尖的人,除了技術(shù)比你強(qiáng)在哪里。
我們分析了BOSS上的3000個算法崗位發(fā)現(xiàn),想要拿到年薪百萬,把算法應(yīng)用摸透了或者說將算法用到該用到的地方是你一定要具備的能力。
在企業(yè)當(dāng)中,數(shù)據(jù)主要是為了支持我們做決策,一般也就是在四個層級產(chǎn)生價值:戰(zhàn)略、管理、運(yùn)營和操作。
戰(zhàn)略層級,毋庸置疑,C-Level的這群企業(yè)高管一般要定的是1年周期計劃或是3-5年的戰(zhàn)略方向。哪個賽道有機(jī)會?企業(yè)增長點在哪里?這時候,主要用到的是PEST分析,通過研究報告、行業(yè)分析、宏觀經(jīng)濟(jì)等維度,對數(shù)據(jù)進(jìn)行直接的采集和應(yīng)用。
第二層級就是我們企業(yè)的中堅力量——重要部門的管理者,這一Part考驗的是咱數(shù)據(jù)人商業(yè)策略的優(yōu)化能力。再往下每個分支機(jī)構(gòu)的管理者,就是咱最基層的廣大執(zhí)行部門小領(lǐng)導(dǎo)了。數(shù)據(jù)在這個層面主要就是以報表的形式幫助管理者進(jìn)行業(yè)務(wù)決策。
最下面一個層級的執(zhí)行操作層環(huán)境復(fù)雜,工作繁復(fù),拿著民工的錢操著老板的心。這一層級絕對是數(shù)據(jù)和算法崗相愛相殺的好戰(zhàn)友,既依賴你給策略又埋怨你不落地。如果你不懂應(yīng)用場景,怎么能搞定這幫眼冒綠光的狼人呢?
比如做節(jié)點大促,需要通過你的算法支持進(jìn)行用戶運(yùn)營和市場觸達(dá)。如果你不清楚用戶畫像、沒搞明白前后端的部門協(xié)同關(guān)系、SOP流轉(zhuǎn)關(guān)鍵結(jié)點和流量的轉(zhuǎn)化路徑,再牛的算法理論都只能是紙上談兵。
不管哪個行業(yè),都需要這樣一個能給操作層級進(jìn)行AI賦能,讓業(yè)務(wù)效果肉眼可見的蹭蹭漲起來的數(shù)據(jù)大神。
看了上面這些,你一定想問:算法在我們實際工作中到底能應(yīng)用于哪些領(lǐng)域?
在波特的價值鏈模型中,真正產(chǎn)生價值的是哪些呢?主要集中在最下端的基本活動。
比如說我們是賣手機(jī)的,從進(jìn)料、后勤生產(chǎn)、后勤銷售、售后服務(wù),這個就是我們真正的價值鏈。
我們說工業(yè)革命,其實是實現(xiàn)了制造業(yè)的自動化,使得我們的物質(zhì)極為豐富了。那么這次數(shù)字化,其實是在非生產(chǎn)領(lǐng)域產(chǎn)生顛覆性的價值體現(xiàn)。
有些學(xué)者會認(rèn)為,生產(chǎn)領(lǐng)域也是數(shù)字化轉(zhuǎn)型很重要的一個部分,這點不可否認(rèn)。但是我們說在數(shù)字化概念提出之前,像德國這種制造業(yè)的老牌國家,它的生產(chǎn)領(lǐng)域已經(jīng)非常智能,基本上實現(xiàn)了機(jī)器人的完全自動化。
那么問題來了,人家在數(shù)字化概念提出之前,就已經(jīng)實現(xiàn)了完全智能化,那么我們的數(shù)字化特點體現(xiàn)在哪里?就像我上文所說的,非生產(chǎn)領(lǐng)域是我們數(shù)字化轉(zhuǎn)型的重點方向。比如說庫存管理階段的進(jìn)料、后勤、發(fā)貨,銷售營銷,數(shù)字化運(yùn)營,售后服務(wù),還有研究與開發(fā)等等。
此外,如人力資源管理和一些其他的企業(yè)基礎(chǔ)設(shè)施,比如說財務(wù),在這次的數(shù)字化革命當(dāng)中,體現(xiàn)的也非常多。
價值鏈上環(huán)節(jié)那么多,如果你還是不懂變通的花費(fèi)大量精力去啃那些只適用于固定場景的算法理論,那么我勸你不如看看我們總結(jié)的能解決你99%業(yè)務(wù)需求的“三大分析范式,九大算法模板”。
學(xué)術(shù)研究講求標(biāo)新立異,而數(shù)據(jù)挖掘商業(yè)應(yīng)用實踐講求的是標(biāo)準(zhǔn)化和模型質(zhì)量穩(wěn)定。因此CDA.F認(rèn)證委員會提出數(shù)據(jù)挖掘建模框架的三個原則,即以成本-收益分析為單一分析框架、區(qū)分分析主體和客體兩個視角、全模型生命周期工作模板。并且將紛繁多樣的數(shù)據(jù)挖掘應(yīng)用主題歸納為以下“三大分析范式和九大算法模板”。
想要用好這些范式和模板,首先要明確的是要以“成本-收益分析”為單一分析框架。
世界萬事萬物都具有矛盾的兩面性,數(shù)據(jù)挖掘建模力圖通過數(shù)據(jù)反應(yīng)行為背后的規(guī)律,緊抓主要矛盾就是找尋規(guī)律的捷徑。大家都知道,挖掘有效的入模特征是數(shù)據(jù)挖掘建模的難點,一旦我們了解了分析課題的主要矛盾,這個難點就迎刃而解了?!疤煜挛跷踅詾槔麃?,天下攘攘皆為利往”,因此行為分析建模以成本-收益為主要矛盾便是不二的選擇。下面講解如何使用這個框架進(jìn)行分析。
以金融行業(yè)為例,舉三個常見應(yīng)用:
01
信用評分模型中,是否逾期是被預(yù)測變量,而解釋變量中經(jīng)常出現(xiàn)的收入穩(wěn)定性、職業(yè)穩(wěn)定性、家庭穩(wěn)定性、個人社會資本都是在度量其違約成本。信用歷史既是被解釋變量的滯后項,而且也反應(yīng)了違約成本,這就是所謂“破罐子破摔”的人違約程度低。收益會用貸存比、貸收比、首付占比等指標(biāo)來衡量。
02
申請欺詐模型,其標(biāo)簽往往是客觀存在的。入模的特征構(gòu)建以反應(yīng)異常為主,比如異常高的收入、異常高的學(xué)歷、異常密集的關(guān)系人網(wǎng)絡(luò)等。這背后有其統(tǒng)一的成本-收益分析框架。之所以會顯示出異常,是因為造假是有成本的,信用卡申請欺詐者知道收入證明造假可以獲得更高的信用額度,但是由于其居住地、職業(yè)和學(xué)歷沒有造假,因此按照這三個維度對其收入進(jìn)行標(biāo)準(zhǔn)化之后很容易發(fā)現(xiàn)其收入會異常的高。這個可以說是公開的秘密,因為信用卡公司會根據(jù)造假成本對非可靠申請者進(jìn)行授信,使得欺詐者無利可圖。
03
運(yùn)營優(yōu)化模型比如資產(chǎn)組合的持倉問題,其收益是資產(chǎn)的收益率,而成本是其帶來的風(fēng)險,即波動率。建模人員需要選擇收益-成本最優(yōu)的組合。
其次是要區(qū)分分析主體和客體兩個視角。
在數(shù)據(jù)挖掘建模中,定義標(biāo)簽是主體視角。比如營銷預(yù)測模型中客戶是否響應(yīng),是建模人員自己定的規(guī)則,這個規(guī)則有可能是收到營銷短信后三天內(nèi)注冊賬號并產(chǎn)生訂單。在構(gòu)建入模的特征集時需要采用客體視角,比如手機(jī)銀行的營銷響應(yīng)模型中,入模的特征應(yīng)該反應(yīng)客體的成本-收益的變量,比如年齡反應(yīng)的是使用手機(jī)銀行和去實體渠道的成本。當(dāng)建模人員意識到標(biāo)簽是自己主觀臆斷的時候,便會對該標(biāo)簽的選擇更用心,當(dāng)意識到入模的特征來自于客體時,才會從客體的視角出發(fā)更高效的構(gòu)建特征集。
最后討論全模型生命周期工作模板。
CDA.F認(rèn)證委員會在CRIP-DM和SEMMA的基礎(chǔ)上提出 “高質(zhì)量數(shù)據(jù)挖掘模型開發(fā)的七步法”。在以上七步中,前三步是蓄勢階段,更多的是從業(yè)務(wù)人員、數(shù)據(jù)中吸收經(jīng)驗、形成感知。制作特征、變量處理和建立模型階段是豐富特征、尋找有效模型的階段,幾十個變量和一兩個模型顯然是沒什么選擇必要性的,因此需要通過各種手段探查到最有效的特征和精度最高的模型。最后,模型輸出階段,選出的模型不但精度高,還要穩(wěn)定性強(qiáng),在業(yè)務(wù)人員使用時要有清晰的業(yè)務(wù)表述。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10