
去年的CDAS 2016 第三屆中國數(shù)據(jù)分析師行業(yè)峰會上,有一個比較特別的分論壇。這個論壇的嘉賓有些原本并不是業(yè)內(nèi)人士,但經(jīng)過一段時間的學(xué)習(xí),他們成功轉(zhuǎn)型,成為一名數(shù)據(jù)分析師。他們也有一個共同的身份—— CDA 數(shù)據(jù)分析師學(xué)員。
李運超同學(xué)在論壇上分享了自己從一個財會從業(yè)者到一名數(shù)據(jù)分析師的成長歷程。本文根據(jù)李運超在峰會上的分享整理而成。
大家好!我叫李運超,我目前是在中國人壽保險分公司做分析師,我是CDA第四期的學(xué)員,也是剛剛從一個數(shù)據(jù)分析的學(xué)習(xí)者變成從業(yè)人員。
我以前其實是做財務(wù)會計的,在座可能有的人對財務(wù)會計有些了解,它和數(shù)據(jù)分析師中間差別很大。大家會好奇,我是為什么要從財務(wù)會計到一個數(shù)據(jù)分析師呢?
跟大家分享一下我自身思維的轉(zhuǎn)變。我以前是在一個央企做財務(wù)會計的,當(dāng)時負(fù)責(zé)整個項目,包括會計的核算、稅務(wù)的管理,整個項目下來大概半年多到一年,通過這份工作對自己大學(xué)、研究生的知識有一個充分的應(yīng)用。但是通過工作會發(fā)現(xiàn),在工作中和你自己想象其實是不太一樣的,我個人對于我自身的一個定位始,終是要將我所學(xué)到的一些知識應(yīng)用到企業(yè)的管理上,能夠發(fā)揮自身的一些價值。但是在工作中,我發(fā)現(xiàn)其實長期看,我的工作會是一個項目一個項目下去,對一個財務(wù)人員來說,跟我的性格不太相符。我想轉(zhuǎn)變,想發(fā)揮自己更大的作用。
怎么做呢?當(dāng)時我剛一開始并沒有想一步跨越到數(shù)據(jù)分析師這個職業(yè)上來,當(dāng)時我是想做偏向于財務(wù)預(yù)算的,但是在不斷地了解過程中,發(fā)現(xiàn)我原來上學(xué)時,對于工具使用和數(shù)據(jù)分析方面的知識儲備不足,后來我找工作的時候都會提出要求懂一些數(shù)據(jù)庫的東西,當(dāng)時就感覺蒙了,就不知道自己原來差得這么多。
經(jīng)過幾個月的考量,我最后決定用一段時間去系統(tǒng)地學(xué)習(xí)一下這個東西,做數(shù)據(jù)分析相關(guān)的工作。這樣可以讓數(shù)據(jù)的應(yīng)用發(fā)揮一個更大的價值,而不僅僅是對于一些事務(wù)性的簡單的處理。就這樣,我從一個財務(wù)人員逐步地走到了數(shù)據(jù)分析這個行業(yè)里來了。
要做數(shù)據(jù)分析,我們要學(xué)習(xí)的東西其實還是很多的,包括一些工具、數(shù)據(jù)庫,還有一些財務(wù)統(tǒng)計的知識,以及一些算法。
從工具來說,我們首先會應(yīng)用到的是Excel。我們在后期應(yīng)用一些專業(yè)的工具進(jìn)行處理的時候,對于數(shù)據(jù)的格式還是有要求的,還有數(shù)據(jù)的拆分。我們所應(yīng)用到的最基礎(chǔ)的工具就是Excel,除了可以數(shù)據(jù)拆分,還能進(jìn)行數(shù)據(jù)分析。
當(dāng)時我做的一個工作就是將數(shù)據(jù)產(chǎn)品拆分出來,剛開始我想用SAS進(jìn)行拆分,我的機(jī)子比較老,就帶不動,后來我發(fā)現(xiàn)Excel可以輕松地搞定。Excel有很多函數(shù),可以進(jìn)行一對一的匹配。另外,Excel有些數(shù)據(jù)透視表,對分類的匯總,以及后期把數(shù)據(jù)帶入到工具里面是很有用的;數(shù)據(jù)透視圖,可以做可視化展現(xiàn)的方式。如果你對Excel的VBA再熟悉一些的話,處理數(shù)據(jù)就很方便了。
另外,學(xué)完Excel之后,我又學(xué)了STATA和SAS。這些軟件相對來說比較菜單化,能夠做很多東西,包括一些簡單的統(tǒng)計分析,求一下最大值、最小值,中位數(shù),還有可以做一些上學(xué)學(xué)到的分析檢驗等。但不僅僅停留在這個層次,數(shù)據(jù)分析會涉及到包括回歸、聚類和分類、時間序列等方法。
比如回歸,學(xué)的就是一個方程,這是最基本的,其實還可以擴(kuò)展。它是干什么用的呢?就是對于發(fā)生額的預(yù)測。比如說一條訂單記錄會有一些變量,包括性別、年齡、收入等等。通過它其實我們就可以列出一個方程來,預(yù)測一個未來值,在我們銷售和一個發(fā)生值相關(guān)的時候,就可以定位。可以把客戶分成幾類,哪些人屬于高價值的客戶,哪些人屬于相對來說一般的。
還有一個與此相關(guān)的邏輯回歸,看名字很相似,之所以放到一塊是因為它最后的展現(xiàn)形式。不同的是邏輯回歸是一個事件的發(fā)生概率,這個事情發(fā)生不發(fā)生,他會不會購買,這是我們常會遇到一個問題。通過邏輯回歸就可以根據(jù)原有數(shù)據(jù)歸納出結(jié)論。
回歸和邏輯回歸通常來說都是綜合結(jié)合來用的,比如說我們把預(yù)測出來的金額分成十個檔,第一是金額最大的,那么在分析的時候還會有一個問題,這就是種購買金額最高的人,他購買的發(fā)生概率是什么?這需要做一個橫向的匹配,這樣的話我們就會歸納出在實際應(yīng)用中,發(fā)生額和發(fā)生概率的排序。我們企業(yè)資源都是有限的,在實踐應(yīng)用中我們會根據(jù)排序截取前50%的比例,或者20%的比例進(jìn)行資源投入,這樣會獲得最大的收益。
聚類和分類,這兩個東西看起來很相似,都是跟類別有關(guān)系,它們的不同在于聚類是一個無監(jiān)督學(xué)習(xí),分類是一個有監(jiān)督學(xué)習(xí)。
聚類是干嗎的?我們其實不知道這里邊有幾類,弄到一堆這就是聚類。這對一些未知領(lǐng)域的探索很有幫助,我們在聚類的時候都會把它規(guī)劃成一圈,在聚類之前做一個分析。這樣的話可以降低緯度,避免一些緯度災(zāi)難。
做好了聚類之后下面就可以分類了,比如說可分成三堆,又來了一個東西,看看它跟哪個是一堆的,就分類了。其實我們常用的算法,包括前面提到的邏輯回歸,到決策樹、神經(jīng)網(wǎng)絡(luò)都是可以用來分類的。
還有第三類就是時間序列,炒股的話就會發(fā)現(xiàn)股票的價格會隨著時間的波動而波動。還有銷量,從某種意義上講時間是有相關(guān)性的。
數(shù)據(jù)并不是直接拿過來就能用。更多的情況下,企業(yè)會把數(shù)據(jù)放在數(shù)據(jù)庫,量大的話還會放在數(shù)據(jù)倉庫里面。我在面試的時候遇到的兩個常見的問題,第一個你為什么會做數(shù)據(jù)分析師,另外一個就是你的數(shù)據(jù)庫應(yīng)用能力。數(shù)據(jù)庫的接收是不需要掌握的,主要是數(shù)據(jù)庫的查詢,數(shù)據(jù)庫里面各種資料的認(rèn)識是必須要具備的,我們常用的一個整體查詢就是各種字段,從哪個表分類一下,分類端再做一個排序,一般都會涉及到多張表。
對于數(shù)據(jù)庫這塊還是要多掌握一些知識。常用的數(shù)據(jù)庫都是關(guān)系型數(shù)據(jù)庫,如果有能力非關(guān)系型數(shù)據(jù)庫還是要多學(xué)習(xí)一下,還沒有工作的同學(xué)可以把精力投入一些,找工作數(shù)據(jù)庫不行的話就直接被Pass掉了。
除了數(shù)據(jù)分析的工具,也懂?dāng)?shù)據(jù)庫,在數(shù)據(jù)分析里邊還有一些內(nèi)在的思想,包括一些傳統(tǒng)的統(tǒng)計方法,還有算法。算法很多,因為時間有限,我不打算多講。邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)都可以學(xué)一下,這些算法有一些是常用的和非常用的,有些是針對同一個問題有不同的角度,如果時間有限的話,可以專精于某一類。不管是做回歸,還是做分類、聚類,你可以挑一兩個算法進(jìn)行研究,算法研究精了之后對數(shù)據(jù)分析可以有很深刻的理解。
下邊一個問題是數(shù)據(jù)的可視化的問題。不管你是用了回歸還是聚類,最后一個問題就是展現(xiàn),展現(xiàn)給你們的Boss你到底做了什么?不見得要展示你的成果,更多的是對于企業(yè)里面的各種信息的生動展示。
我個人用得多的是Excel和Tableau,我們從集團(tuán)到各個下面的子公司都在用這個東西。我覺得在數(shù)據(jù)可視化這一塊要遵循兩點,第一點就是化繁為簡。我們每個月報給最高層有一份報告是50多頁,當(dāng)時我看了都頭大。最后我們同事之間大家相互協(xié)作,把50多頁的東西弄成了9頁,它的緯度卻可以細(xì)化到中層子公司。不要再把一堆Excel表、PPT拿出來了,那樣就很Low了,你要想到的第一個問題如何將你的大量的工作成果展現(xiàn)在很少的一個界面上。
第二帶你就是直觀。最簡單的,比如在Excel里用數(shù)據(jù)透視圖,做一個柱狀圖和一個線,反映未來的趨勢,或者橫向的對比,都是一個直觀的展現(xiàn),你能做到化繁為簡、深入淺出,你的可視化是很成功的。
說了這么多,我們最終還是要有一個系統(tǒng)的數(shù)據(jù)應(yīng)用。
第一步是獲取數(shù)據(jù),數(shù)據(jù)的來源很多,包括Excel表、數(shù)據(jù)庫,還有通過其他的一些網(wǎng)上的抓取,包括爬蟲、網(wǎng)絡(luò)分析等。
第二步是處理數(shù)據(jù)。在我實際的工作中,包括我與其他同行溝通,數(shù)據(jù)處理的過程可以占到整個工作任務(wù)的將近70%多。為什么呢?數(shù)據(jù)價值的認(rèn)知是一個逐步完善的過程,很多企業(yè)原先對于數(shù)據(jù)的認(rèn)識沒那么強(qiáng),可能就是某個部門,比如企劃、風(fēng)控、運營等部門,會把數(shù)據(jù)庫里面有關(guān)的數(shù)據(jù)拿出來,自己做報告?,F(xiàn)在又上升到一個更高的層次,做數(shù)據(jù)分析、數(shù)據(jù)可視化的時候,就發(fā)現(xiàn)數(shù)據(jù)亂七八糟,看了之后就頭大,就需要通過各種工具,用SAS,Python進(jìn)行整理,一方面把數(shù)據(jù)整理成自己需要的形式,整理成一定的字段和緯度,這樣才可以做分析。
其實目前我在工作的這一段時間中并沒有用到很復(fù)雜的算法,應(yīng)用的主要是三個方面。
第一,我會用Python、Tableau對數(shù)據(jù)進(jìn)行處理。我和同事進(jìn)行了反復(fù)的溝通,不斷地了解這些高層人員到底想看什么,我按照自身的理解把它展示出來,后來老板說這個東西沒有把核心的需求拿出來。
這其實就犯了一個毛病,我在剛一開始的需求分析就不夠深入。其實也是可以理解的,因為剛一開始接觸工作,對于整個行業(yè)也是一個初步的認(rèn)識,你可能拿捏不好。隨著業(yè)務(wù)的逐步深入,你首先要了解你這個業(yè)務(wù)整體老板的需求是什么,再去通過數(shù)據(jù)、分析、展示,這樣才能有的放矢。老板其實不太關(guān)心你用了什么復(fù)雜的方法做了這個東西,他關(guān)心的就是我想要展示什么。
上周我還遇到一個問題。從2015年1月份到2016年6月份整體業(yè)績的達(dá)成情況,最初是用柱狀圖展示折現(xiàn)額,老板說這個東西對我來說沒用,因為我更關(guān)心的是同期之間的對比。我就只能去改了,其實這就反映一個問題,我們要抓住領(lǐng)導(dǎo)所關(guān)心的關(guān)鍵的業(yè)務(wù)需求。
第二就是數(shù)據(jù)共享中心的建設(shè),我司目前的系統(tǒng)有很多,包括財務(wù)組織系統(tǒng)、還有AGC、ERP的,數(shù)據(jù)很分散,整體系統(tǒng)是由IT系統(tǒng)管理。我自身在做Tableau所以可視化也在做,我就找到一些接口,它其實并不完備。從總公司的角度來說,不僅要掌握財務(wù)數(shù)據(jù),還要掌握運營的數(shù)據(jù),前端企劃的數(shù)據(jù),包括風(fēng)控的數(shù)據(jù)等。建設(shè)數(shù)據(jù)共享中心就是要把各個數(shù)據(jù)做一種整合。
其實這就是一個數(shù)據(jù)字典的問題,我們原來有200多個指標(biāo),好多重復(fù)的、口徑不同的。做數(shù)據(jù)分析的時候,如果同一個問題有不同的名稱、不同的口徑,后期根本就干不了。我在入職之前有一個同事做預(yù)算的時候就很頭大,最簡單的一個業(yè)務(wù)費用,分解到中心子公司之后,從企劃或者其他方面拿過來的口徑是不同的,需要再反復(fù)各處去了解,調(diào)整口徑的調(diào)整。這是分析人員最怵的問題,很耗費精力。
因此我覺得,在工作中一方面就要加強(qiáng)自己對于需求端的理解,不跑偏,少走彎路。第二,如果公司的數(shù)據(jù)現(xiàn)狀不好,你要發(fā)揮利用自己的一些知識和整體地推動公司建設(shè),這個推動過程中不僅對公司的管理有很深入的認(rèn)識,對于數(shù)據(jù)分析能力的提高也很有幫助。
CDAS 2017 中國數(shù)據(jù)分析師行業(yè)峰會火力全開!
峰會報名
掃碼回復(fù)“峰會”進(jìn)群了解活動詳情
聯(lián)系我們
嘉賓及商務(wù)合作
王海龍
電話: 13488782942
郵箱: whl@cda.cn
微信: w25092205
票務(wù)及渠道合作
王仲謀
電話:18311031693
郵箱:wzm@cda.cn
微信:18311031693
媒體合作
高萌
電話:13611274210
郵箱:gaomeng@cda.cn
微信:13611274210
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10