
對(duì)于了解機(jī)器學(xué)習(xí)的人來(lái)說(shuō),數(shù)據(jù)挖掘無(wú)疑是一個(gè)范圍更大且錢力無(wú)限的方向。但隨著這兩年越來(lái)越多的有IT編程經(jīng)驗(yàn)的職場(chǎng)老鳥轉(zhuǎn)行到數(shù)據(jù)分析大賽道,企業(yè)對(duì)人才的要求也越來(lái)越高了。前一陣,廣大碼農(nóng)們被官方劃成了“新生代農(nóng)民工”,引起了咱圈里或多或少的不服不忿。咱作為技術(shù)人才,怎么就成了工具人了?
算法崗的你也別不服氣,問個(gè)問題:雖然手上掌握大幾套算法理論,但換個(gè)應(yīng)用場(chǎng)景或業(yè)務(wù)需求,你還那么底氣十足嗎?
我在互聯(lián)網(wǎng)公司工作多年,看過大量的類似案例,給我最深的感覺就是:同樣一個(gè)算法大多用在同樣的業(yè)務(wù)場(chǎng)景。我們?cè)谧?a href='/map/jingzhunyingxiao/' style='color:#000;font-size:inherit;'>精準(zhǔn)營(yíng)銷的時(shí)候,大家往往會(huì)用邏輯回歸做一個(gè),神經(jīng)網(wǎng)絡(luò)再做一個(gè),然后對(duì)比兩者之間的結(jié)果,再?gòu)闹羞x擇最優(yōu)者,其實(shí)這樣的研究很多時(shí)候只能說(shuō)是在浪費(fèi)資源。
因?yàn)榇蠹叶贾?a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)是非線性模型,效果肯定好。但是做研究的目的并不是為了創(chuàng)造一個(gè)神經(jīng)網(wǎng)絡(luò)算法,所以類似的研究結(jié)果沒有任何實(shí)質(zhì)意義。
長(zhǎng)此以往下,精于算法理論的你會(huì)產(chǎn)生一種挫敗感:費(fèi)了這么大功夫,產(chǎn)生的價(jià)值只是測(cè)試了這套算法的可行性。至于當(dāng)被質(zhì)問如何能用算法更好解決復(fù)雜多變的實(shí)際業(yè)務(wù)問題時(shí),可能在一臉滄桑的淡定面孔下是慌亂一批的心。
所以,如果你才剛踏入這個(gè)行業(yè)或者還有心力把能力和薪資都往上提一提,那么你一定要看看更值錢的那批頂尖的人,除了技術(shù)比你強(qiáng)在哪里。
我們分析了BOSS上的3000個(gè)算法崗位發(fā)現(xiàn),想要拿到年薪百萬(wàn),把算法應(yīng)用摸透了或者說(shuō)將算法用到該用到的地方是你一定要具備的能力。
在企業(yè)當(dāng)中,數(shù)據(jù)主要是為了支持我們做決策,一般也就是在四個(gè)層級(jí)產(chǎn)生價(jià)值:戰(zhàn)略、管理、運(yùn)營(yíng)和操作。
戰(zhàn)略層級(jí),毋庸置疑,C-Level的這群企業(yè)高管一般要定的是1年周期計(jì)劃或是3-5年的戰(zhàn)略方向。哪個(gè)賽道有機(jī)會(huì)?企業(yè)增長(zhǎng)點(diǎn)在哪里?這時(shí)候,主要用到的是PEST分析,通過研究報(bào)告、行業(yè)分析、宏觀經(jīng)濟(jì)等維度,對(duì)數(shù)據(jù)進(jìn)行直接的采集和應(yīng)用。
第二層級(jí)就是我們企業(yè)的中堅(jiān)力量——重要部門的管理者,這一Part考驗(yàn)的是咱數(shù)據(jù)人商業(yè)策略的優(yōu)化能力。再往下每個(gè)分支機(jī)構(gòu)的管理者,就是咱最基層的廣大執(zhí)行部門小領(lǐng)導(dǎo)了。數(shù)據(jù)在這個(gè)層面主要就是以報(bào)表的形式幫助管理者進(jìn)行業(yè)務(wù)決策。
最下面一個(gè)層級(jí)的執(zhí)行操作層環(huán)境復(fù)雜,工作繁復(fù),拿著民工的錢操著老板的心。這一層級(jí)絕對(duì)是數(shù)據(jù)和算法崗相愛相殺的好戰(zhàn)友,既依賴你給策略又埋怨你不落地。如果你不懂應(yīng)用場(chǎng)景,怎么能搞定這幫眼冒綠光的狼人呢?
比如做節(jié)點(diǎn)大促,需要通過你的算法支持進(jìn)行用戶運(yùn)營(yíng)和市場(chǎng)觸達(dá)。如果你不清楚用戶畫像、沒搞明白前后端的部門協(xié)同關(guān)系、SOP流轉(zhuǎn)關(guān)鍵結(jié)點(diǎn)和流量的轉(zhuǎn)化路徑,再牛的算法理論都只能是紙上談兵。
不管哪個(gè)行業(yè),都需要這樣一個(gè)能給操作層級(jí)進(jìn)行AI賦能,讓業(yè)務(wù)效果肉眼可見的蹭蹭漲起來(lái)的數(shù)據(jù)大神。
看了上面這些,你一定想問:算法在我們實(shí)際工作中到底能應(yīng)用于哪些領(lǐng)域?
在波特的價(jià)值鏈模型中,真正產(chǎn)生價(jià)值的是哪些呢?主要集中在最下端的基本活動(dòng)。
比如說(shuō)我們是賣手機(jī)的,從進(jìn)料、后勤生產(chǎn)、后勤銷售、售后服務(wù),這個(gè)就是我們真正的價(jià)值鏈。
我們說(shuō)工業(yè)革命,其實(shí)是實(shí)現(xiàn)了制造業(yè)的自動(dòng)化,使得我們的物質(zhì)極為豐富了。那么這次數(shù)字化,其實(shí)是在非生產(chǎn)領(lǐng)域產(chǎn)生顛覆性的價(jià)值體現(xiàn)。
有些學(xué)者會(huì)認(rèn)為,生產(chǎn)領(lǐng)域也是數(shù)字化轉(zhuǎn)型很重要的一個(gè)部分,這點(diǎn)不可否認(rèn)。但是我們說(shuō)在數(shù)字化概念提出之前,像德國(guó)這種制造業(yè)的老牌國(guó)家,它的生產(chǎn)領(lǐng)域已經(jīng)非常智能,基本上實(shí)現(xiàn)了機(jī)器人的完全自動(dòng)化。
那么問題來(lái)了,人家在數(shù)字化概念提出之前,就已經(jīng)實(shí)現(xiàn)了完全智能化,那么我們的數(shù)字化特點(diǎn)體現(xiàn)在哪里?就像我上文所說(shuō)的,非生產(chǎn)領(lǐng)域是我們數(shù)字化轉(zhuǎn)型的重點(diǎn)方向。比如說(shuō)庫(kù)存管理階段的進(jìn)料、后勤、發(fā)貨,銷售營(yíng)銷,數(shù)字化運(yùn)營(yíng),售后服務(wù),還有研究與開發(fā)等等。
此外,如人力資源管理和一些其他的企業(yè)基礎(chǔ)設(shè)施,比如說(shuō)財(cái)務(wù),在這次的數(shù)字化革命當(dāng)中,體現(xiàn)的也非常多。
價(jià)值鏈上環(huán)節(jié)那么多,如果你還是不懂變通的花費(fèi)大量精力去啃那些只適用于固定場(chǎng)景的算法理論,那么我勸你不如看看我們總結(jié)的能解決你99%業(yè)務(wù)需求的“三大分析范式,九大算法模板”。
學(xué)術(shù)研究講求標(biāo)新立異,而數(shù)據(jù)挖掘商業(yè)應(yīng)用實(shí)踐講求的是標(biāo)準(zhǔn)化和模型質(zhì)量穩(wěn)定。因此CDA.F認(rèn)證委員會(huì)提出數(shù)據(jù)挖掘建??蚣艿娜齻€(gè)原則,即以成本-收益分析為單一分析框架、區(qū)分分析主體和客體兩個(gè)視角、全模型生命周期工作模板。并且將紛繁多樣的數(shù)據(jù)挖掘應(yīng)用主題歸納為以下“三大分析范式和九大算法模板”。
想要用好這些范式和模板,首先要明確的是要以“成本-收益分析”為單一分析框架。
世界萬(wàn)事萬(wàn)物都具有矛盾的兩面性,數(shù)據(jù)挖掘建模力圖通過數(shù)據(jù)反應(yīng)行為背后的規(guī)律,緊抓主要矛盾就是找尋規(guī)律的捷徑。大家都知道,挖掘有效的入模特征是數(shù)據(jù)挖掘建模的難點(diǎn),一旦我們了解了分析課題的主要矛盾,這個(gè)難點(diǎn)就迎刃而解了?!疤煜挛跷踅詾槔麃?lái),天下攘攘皆為利往”,因此行為分析建模以成本-收益為主要矛盾便是不二的選擇。下面講解如何使用這個(gè)框架進(jìn)行分析。
以金融行業(yè)為例,舉三個(gè)常見應(yīng)用:
01
信用評(píng)分模型中,是否逾期是被預(yù)測(cè)變量,而解釋變量中經(jīng)常出現(xiàn)的收入穩(wěn)定性、職業(yè)穩(wěn)定性、家庭穩(wěn)定性、個(gè)人社會(huì)資本都是在度量其違約成本。信用歷史既是被解釋變量的滯后項(xiàng),而且也反應(yīng)了違約成本,這就是所謂“破罐子破摔”的人違約程度低。收益會(huì)用貸存比、貸收比、首付占比等指標(biāo)來(lái)衡量。
02
申請(qǐng)欺詐模型,其標(biāo)簽往往是客觀存在的。入模的特征構(gòu)建以反應(yīng)異常為主,比如異常高的收入、異常高的學(xué)歷、異常密集的關(guān)系人網(wǎng)絡(luò)等。這背后有其統(tǒng)一的成本-收益分析框架。之所以會(huì)顯示出異常,是因?yàn)樵旒偈怯谐杀镜?,信用卡申?qǐng)欺詐者知道收入證明造假可以獲得更高的信用額度,但是由于其居住地、職業(yè)和學(xué)歷沒有造假,因此按照這三個(gè)維度對(duì)其收入進(jìn)行標(biāo)準(zhǔn)化之后很容易發(fā)現(xiàn)其收入會(huì)異常的高。這個(gè)可以說(shuō)是公開的秘密,因?yàn)樾庞每ü緯?huì)根據(jù)造假成本對(duì)非可靠申請(qǐng)者進(jìn)行授信,使得欺詐者無(wú)利可圖。
03
運(yùn)營(yíng)優(yōu)化模型比如資產(chǎn)組合的持倉(cāng)問題,其收益是資產(chǎn)的收益率,而成本是其帶來(lái)的風(fēng)險(xiǎn),即波動(dòng)率。建模人員需要選擇收益-成本最優(yōu)的組合。
其次是要區(qū)分分析主體和客體兩個(gè)視角。
在數(shù)據(jù)挖掘建模中,定義標(biāo)簽是主體視角。比如營(yíng)銷預(yù)測(cè)模型中客戶是否響應(yīng),是建模人員自己定的規(guī)則,這個(gè)規(guī)則有可能是收到營(yíng)銷短信后三天內(nèi)注冊(cè)賬號(hào)并產(chǎn)生訂單。在構(gòu)建入模的特征集時(shí)需要采用客體視角,比如手機(jī)銀行的營(yíng)銷響應(yīng)模型中,入模的特征應(yīng)該反應(yīng)客體的成本-收益的變量,比如年齡反應(yīng)的是使用手機(jī)銀行和去實(shí)體渠道的成本。當(dāng)建模人員意識(shí)到標(biāo)簽是自己主觀臆斷的時(shí)候,便會(huì)對(duì)該標(biāo)簽的選擇更用心,當(dāng)意識(shí)到入模的特征來(lái)自于客體時(shí),才會(huì)從客體的視角出發(fā)更高效的構(gòu)建特征集。
最后討論全模型生命周期工作模板。
CDA.F認(rèn)證委員會(huì)在CRIP-DM和SEMMA的基礎(chǔ)上提出 “高質(zhì)量數(shù)據(jù)挖掘模型開發(fā)的七步法”。在以上七步中,前三步是蓄勢(shì)階段,更多的是從業(yè)務(wù)人員、數(shù)據(jù)中吸收經(jīng)驗(yàn)、形成感知。制作特征、變量處理和建立模型階段是豐富特征、尋找有效模型的階段,幾十個(gè)變量和一兩個(gè)模型顯然是沒什么選擇必要性的,因此需要通過各種手段探查到最有效的特征和精度最高的模型。最后,模型輸出階段,選出的模型不但精度高,還要穩(wěn)定性強(qiáng),在業(yè)務(wù)人員使用時(shí)要有清晰的業(yè)務(wù)表述。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03