
CDA數(shù)據(jù)分析師 出品
作者:王真達(dá)
CDA LEVEL II 持證人
編輯:Mika
掃描二維碼
觀看完整分享視頻
大家好,今天跟大家?guī)?lái)一個(gè)分享,主題是關(guān)于我如何從文科生轉(zhuǎn)行為數(shù)據(jù)挖掘工程師的。
主要內(nèi)容分成以下三塊:
首先看到第一部分的內(nèi)容,也就是我的轉(zhuǎn)行歷程。
我高中那會(huì)兒讀的是文科,大學(xué)期間學(xué)習(xí)了社會(huì)學(xué)專(zhuān)業(yè)。在本科期間,我也接觸過(guò)一些統(tǒng)計(jì)學(xué)的知識(shí),線性代數(shù)等知識(shí)也學(xué)過(guò),但當(dāng)時(shí)對(duì)這些學(xué)科將來(lái)的用途并不是很清楚。
參加工作后,最初我從事產(chǎn)品運(yùn)營(yíng)的相關(guān)工作。在工作過(guò)程中,我接觸到了數(shù)據(jù)分析相關(guān)的內(nèi)容。當(dāng)時(shí)我感覺(jué)自己工作內(nèi)容比較雜,也沒(méi)有拿得出來(lái)的技能。
我認(rèn)為數(shù)據(jù)分析很有前景,無(wú)論是文科生還是理科生都可以學(xué),學(xué)起來(lái)也比較有趣,內(nèi)容不枯燥,所以我漸漸開(kāi)始學(xué)習(xí)數(shù)據(jù)分析。
這里我列了幾個(gè)對(duì)我比較關(guān)鍵的節(jié)點(diǎn),這些對(duì)我未來(lái)的工作有了較大的影響。
首先就是學(xué)數(shù)據(jù)挖掘,用的是SPSS Modeler。比較容易上手,入門(mén)也比較簡(jiǎn)單。SPSS Modeler雖然很好用,但其實(shí)很多時(shí)候不能滿足數(shù)據(jù)清洗的一些需求,也有一些劣勢(shì),比如算法更新很慢,只有比較常規(guī)的算法,如果想用比較先進(jìn)的算法,還是開(kāi)源的軟件提供的比較多。
之后我學(xué)習(xí)了Python,比較容易上手,語(yǔ)法也比較簡(jiǎn)潔。通過(guò)大量練習(xí)掌握了爬蟲(chóng)、數(shù)據(jù)清洗、數(shù)據(jù)可視化等技能點(diǎn)。Python基本能滿足日常工作的需求。
第三個(gè)節(jié)點(diǎn)是我學(xué)習(xí)了SQL和統(tǒng)計(jì)知識(shí)。SQL本身基礎(chǔ)的知識(shí)不是特別復(fù)雜,然后主要靠練習(xí),包括統(tǒng)計(jì)的一些知識(shí),這也是我在之后的工作中不斷學(xué)習(xí)的。
目前我目前從事的是數(shù)據(jù)挖掘的相關(guān)工作,接下來(lái)講一下工作中所需要的一些技能。
這部分可以分為硬技能和軟技能。
硬技能
硬技能這里我分為理論基礎(chǔ)、算法能力、分析工具和通用工具。下面具體來(lái)看一看。理論基礎(chǔ)中統(tǒng)計(jì)知識(shí)是不可或缺的。后面的概率論、線性代數(shù)、微積分其實(shí)是跟偏算法相關(guān)。
算法方面主要需要一些機(jī)器學(xué)習(xí)跟深度學(xué)習(xí)的算法。比如分類(lèi)、回歸、聚類(lèi)等一些比較基礎(chǔ)的算法。
不同于算法工程師對(duì)算法的要求會(huì)比較高,像偏業(yè)務(wù)的數(shù)據(jù)挖掘的崗位,對(duì)算法的要求沒(méi)那么高。你能夠做到理解算法的基本原理跟應(yīng)用場(chǎng)景,能夠應(yīng)用工具去實(shí)現(xiàn)它,能夠解讀算法最后的結(jié)果,也就差不多了,對(duì)數(shù)學(xué)的要求也并不太高。
關(guān)于深度學(xué)習(xí),現(xiàn)在數(shù)據(jù)挖掘等算法崗也相對(duì)內(nèi)卷,如果你不會(huì)也不了解深度學(xué)習(xí)就有點(diǎn)說(shuō)不過(guò)去了,這方面可以了解一下。還需要掌握一些工具庫(kù),現(xiàn)在深度學(xué)習(xí)的工具庫(kù)比較多,也有一些比較簡(jiǎn)便的工具庫(kù)能協(xié)助實(shí)現(xiàn)相關(guān)的功能。
然后看到分析工具。其實(shí)目前主要用的也就是SQL跟Python,主要是看你公司的數(shù)據(jù)量,如果數(shù)據(jù)量不是很大的話,基礎(chǔ)的一些SQL知識(shí)就夠了,可能關(guān)系數(shù)據(jù)庫(kù)就可以了,包括在單機(jī)里面,去運(yùn)行Python也可以的;但是如果公司的數(shù)據(jù)量特別大的話,比如我目前是在Hadoop的平臺(tái)做一些數(shù)據(jù)分析跟數(shù)據(jù)挖掘。如果本身的數(shù)據(jù)量就比較大,可能會(huì)用到Hive數(shù)據(jù)倉(cāng)庫(kù)等。
再看到建模工具,目前其實(shí)主流是Python,還有集成了Pyspark,這是用得比較多的。然后建模的話,考慮到數(shù)據(jù)量Python在80%的情況上都是夠用的。
關(guān)于通用工具,Excel跟PPT都是比較基礎(chǔ)的。下面這個(gè)Shell是開(kāi)發(fā)工具,很多時(shí)候會(huì)涉及到一些開(kāi)發(fā)的工作,比如說(shuō)標(biāo)簽表的開(kāi)發(fā),然后就會(huì)用到Shell結(jié)合ETL自動(dòng)化平臺(tái),調(diào)用需要的腳本進(jìn)行自動(dòng)化的運(yùn)行。就相當(dāng)于是每天它會(huì)自動(dòng)的跑一些腳本,而不需要去手工或者是在單機(jī)操作,這些都是在平臺(tái)上面自動(dòng)完成的。
軟技能
軟技能這塊簡(jiǎn)單看一下,包括像業(yè)務(wù)的理解,比如你進(jìn)入任何一個(gè)行業(yè),你前幾個(gè)月會(huì)多花時(shí)間了解該行業(yè)的業(yè)務(wù)表,業(yè)務(wù)涉及的一些內(nèi)容,核心的盈利業(yè)務(wù)是哪些。還有一些通用的能力,比如溝通、匯報(bào)能力等,因?yàn)槟憬?jīng)常會(huì)需要將模型和分析報(bào)告講給別人聽(tīng),因此這些能力也是十分重要的。還有學(xué)習(xí)能力。數(shù)據(jù)行業(yè)的迭代比較快,需要有持續(xù)學(xué)習(xí)的能力。
下面來(lái)講一個(gè)電信產(chǎn)品的項(xiàng)目案例,在此之前讓看一下目前會(huì)涉及到的主要模型。
這邊將用戶生命周期劃分為這樣幾塊:第一、新用戶獲取階段;第二、入網(wǎng)期;第三、成長(zhǎng)期;第四、成熟期;第五、衰退期。
在不同的時(shí)期會(huì)有不同的模型。當(dāng)然要根據(jù)具體的業(yè)務(wù),就不同行業(yè)可能它的業(yè)務(wù)不一樣,但是用戶生命周期都是類(lèi)似的。都需要獲取用戶,用戶在平臺(tái)上成長(zhǎng),包括會(huì)有成熟到衰退的生命周期,會(huì)有一個(gè)曲線。比如在新用戶獲取這邊,會(huì)有很多像家庭圈模型等類(lèi)型。
下面介紹一下入網(wǎng)期中天翼看家這個(gè)模型。它是一個(gè)看家的智能設(shè)備,一般在農(nóng)村比較多,安裝在家里,在外務(wù)工的人群就可以通過(guò)它看到家里老人和小孩的情況。
還有一類(lèi)是滿意度的模型。這邊核心關(guān)注就是三塊,第一塊是像這種開(kāi)源的營(yíng)銷(xiāo)模型。第二塊是用于節(jié)流的,減少損失的離網(wǎng)模型。第三種是提升用戶滿意度的模型。
電信產(chǎn)品辦理預(yù)測(cè)模型
整體模型的建置分為以下4個(gè)步驟,第一個(gè)步驟是數(shù)據(jù)的準(zhǔn)備;第二個(gè)步驟是模型的構(gòu)建;第三個(gè)是預(yù)測(cè)感知,也就是模型預(yù)測(cè);第四個(gè)是結(jié)果應(yīng)用。
首先第一點(diǎn)是基于產(chǎn)品營(yíng)銷(xiāo)模型,也就是基于客戶的一些產(chǎn)品數(shù)據(jù),還有行為數(shù)據(jù)、消費(fèi)數(shù)據(jù)等維度,從而去構(gòu)造樣本空間。
樣本空間包括特征空間,樣本空間就是正負(fù)樣本。正樣本就是已經(jīng)辦理,比如說(shuō)11月已經(jīng)辦理的用戶作為正樣本,同時(shí)這個(gè)月沒(méi)有辦理的用戶都可以作為負(fù)樣本。接著進(jìn)行抽樣,構(gòu)造樣本空間。
特征工程也就是特征構(gòu)造,基于客戶的一些基本屬性信息,還有套餐信息,包括產(chǎn)品訂購(gòu)的信息,包括消費(fèi)信息。其實(shí)還有很多其他維度的信息,比如說(shuō)瀏覽內(nèi)容、訪問(wèn)軌跡、位置信息等都可以考慮進(jìn)來(lái)。
構(gòu)造產(chǎn)品預(yù)測(cè)模型可分為這樣幾塊。將數(shù)據(jù)分割成訓(xùn)練集,測(cè)試集跟驗(yàn)證集。測(cè)試集本身應(yīng)該是在下一步構(gòu)造的,指的是沒(méi)有用戶的標(biāo)簽,需要預(yù)測(cè)其將來(lái)的標(biāo)簽,給每個(gè)用戶打標(biāo)簽。
在訓(xùn)練集里劃分成訓(xùn)練集跟測(cè)試集,訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于修正模型。
接著看到數(shù)據(jù)探索,這部分會(huì)進(jìn)行一些統(tǒng)計(jì)分析,還有每個(gè)變量跟目標(biāo)變量之間的關(guān)系,這些都都需要做一些探索。模型的話,當(dāng)時(shí)是用了幾種集成模型做建置,進(jìn)行模型間對(duì)比,最后輸出模型的重要特征。
然后第三步對(duì)用戶辦理預(yù)測(cè)。對(duì)未辦理的用戶拿過(guò)來(lái),輸入剛才訓(xùn)練的模型,預(yù)測(cè)出其對(duì)產(chǎn)品營(yíng)銷(xiāo)的辦理可能會(huì)響應(yīng)的概率。最后輸出的就是用戶是否會(huì)辦理的產(chǎn)品,以及辦理的產(chǎn)品的預(yù)測(cè)概率值。從而根據(jù)預(yù)測(cè)概率值,劃定閾值。比如說(shuō)想營(yíng)銷(xiāo)響應(yīng)概率在40%以上的用戶,這時(shí)就可以將這些用戶篩選出來(lái),然后最后生成關(guān)聯(lián)標(biāo)簽,交給營(yíng)銷(xiāo)平臺(tái),做營(yíng)銷(xiāo)派單,之后做一些短信或電話觸達(dá)。最后可以針對(duì)轉(zhuǎn)化進(jìn)行跟蹤,以上就是該項(xiàng)目的整體流程。
下面分步驟講一下模型的情況。首先是模型的背景,目前已辦理天翼看家用戶的規(guī)模,建置模型的預(yù)期等目標(biāo)。
樣本選擇方面,已辦理的作為正樣本,接觸過(guò)沒(méi)辦理的作為負(fù)樣本,這里正負(fù)樣本有些不均衡。針對(duì)這種樣本不均衡的數(shù)據(jù),可以采用采樣的技術(shù)。
下面是關(guān)于取數(shù)的問(wèn)題。取數(shù)會(huì)有一個(gè)時(shí)間窗口的問(wèn)題,在這邊會(huì)分成訓(xùn)練數(shù)據(jù)跟測(cè)試數(shù)據(jù),假設(shè)預(yù)測(cè)變量y是10月到11月,訓(xùn)練數(shù)據(jù)的x就要往前取。這里是要看用戶過(guò)去的行為,可能會(huì)對(duì)將來(lái)產(chǎn)生什么影響。所以訓(xùn)練特征要往前取,比如看用戶在7到10月的通話行為。
下面是關(guān)于模型特征的一些構(gòu)建。
這邊是分了很多,比如技術(shù)信息、家庭結(jié)構(gòu)、消費(fèi)行為、行為偏好、地域特點(diǎn)等因素。
建模過(guò)程方面,也是一些常規(guī)的流程。比如數(shù)據(jù)清洗中,錯(cuò)誤值的填充,錯(cuò)誤值的處理。離群值可以使用蓋帽法進(jìn)行處理,對(duì)于套餐價(jià)值量可以進(jìn)行離群值的處理。然后空值的填補(bǔ),比如說(shuō)像分類(lèi)變量連續(xù)性變量,可以用一些統(tǒng)計(jì)方法或模型方法來(lái)做。
數(shù)據(jù)編碼這塊,對(duì)于連續(xù)性變量可以去做一些分箱,在字段分箱之后,看一下對(duì)目標(biāo)變量是否有一些顯著的影響。建模調(diào)參方面,對(duì)模型參數(shù)進(jìn)行調(diào)整,選擇最佳模型。
接著我們看到模型評(píng)估。
模型評(píng)估會(huì)輸出混淆矩陣,行是實(shí)際值,實(shí)際有沒(méi)有辦理,列可能是預(yù)測(cè)值,預(yù)測(cè)它有沒(méi)有辦理。營(yíng)銷(xiāo)比較關(guān)注的是命中率,也就是說(shuō)預(yù)測(cè)差不多有8000多個(gè)人會(huì)辦理這個(gè)產(chǎn)品,但實(shí)際上辦理了多少,這里實(shí)際辦理有6000多,所以命中率是68%。預(yù)測(cè)得準(zhǔn)不準(zhǔn)非常重要。
之后會(huì)跟蹤營(yíng)銷(xiāo)活動(dòng)的轉(zhuǎn)化率。
預(yù)測(cè)用戶可能是比較高概率的用戶,在將來(lái)的一段時(shí)間可能是一到兩個(gè)月,預(yù)測(cè)家裝的用戶中的加裝比例,也就是營(yíng)銷(xiāo)活動(dòng)的轉(zhuǎn)化的情況。
再看到地域特點(diǎn)部分。
比如說(shuō)農(nóng)村用戶家裝的是33萬(wàn),城市用戶家裝是9萬(wàn)多。這里看到百分比,農(nóng)村占比70%,其實(shí)是遠(yuǎn)遠(yuǎn)超過(guò)城市的。在城市這個(gè)群體中,家裝概率是2.58%,然后在農(nóng)村這個(gè)群體中,它加裝的概率是9.82%。可以看到,如果營(yíng)銷(xiāo)農(nóng)村這個(gè)區(qū)域,響應(yīng)概率來(lái)說(shuō)相對(duì)會(huì)比較高。
以上就是我分享的內(nèi)容了,希望對(duì)大家能有所幫助。
更多考試介紹及備考福利請(qǐng)點(diǎn)擊:CDA 認(rèn)證考試中心官網(wǎng)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問(wèn)題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價(jià)值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案 ...
2025-09-09