
去年的CDAS 2016 第三屆中國數(shù)據(jù)分析師行業(yè)峰會上,有一個比較特別的分論壇。這個論壇的嘉賓有些原本并不是業(yè)內(nèi)人士,但經(jīng)過一段時間的學習,他們成功轉(zhuǎn)型,成為一名數(shù)據(jù)分析師。他們也有一個共同的身份—— CDA 數(shù)據(jù)分析師學員。
李運超同學在論壇上分享了自己從一個財會從業(yè)者到一名數(shù)據(jù)分析師的成長歷程。本文根據(jù)李運超在峰會上的分享整理而成。
大家好!我叫李運超,我目前是在中國人壽保險分公司做分析師,我是CDA第四期的學員,也是剛剛從一個數(shù)據(jù)分析的學習者變成從業(yè)人員。
我以前其實是做財務(wù)會計的,在座可能有的人對財務(wù)會計有些了解,它和數(shù)據(jù)分析師中間差別很大。大家會好奇,我是為什么要從財務(wù)會計到一個數(shù)據(jù)分析師呢?
跟大家分享一下我自身思維的轉(zhuǎn)變。我以前是在一個央企做財務(wù)會計的,當時負責整個項目,包括會計的核算、稅務(wù)的管理,整個項目下來大概半年多到一年,通過這份工作對自己大學、研究生的知識有一個充分的應(yīng)用。但是通過工作會發(fā)現(xiàn),在工作中和你自己想象其實是不太一樣的,我個人對于我自身的一個定位始,終是要將我所學到的一些知識應(yīng)用到企業(yè)的管理上,能夠發(fā)揮自身的一些價值。但是在工作中,我發(fā)現(xiàn)其實長期看,我的工作會是一個項目一個項目下去,對一個財務(wù)人員來說,跟我的性格不太相符。我想轉(zhuǎn)變,想發(fā)揮自己更大的作用。
怎么做呢?當時我剛一開始并沒有想一步跨越到數(shù)據(jù)分析師這個職業(yè)上來,當時我是想做偏向于財務(wù)預(yù)算的,但是在不斷地了解過程中,發(fā)現(xiàn)我原來上學時,對于工具使用和數(shù)據(jù)分析方面的知識儲備不足,后來我找工作的時候都會提出要求懂一些數(shù)據(jù)庫的東西,當時就感覺蒙了,就不知道自己原來差得這么多。
經(jīng)過幾個月的考量,我最后決定用一段時間去系統(tǒng)地學習一下這個東西,做數(shù)據(jù)分析相關(guān)的工作。這樣可以讓數(shù)據(jù)的應(yīng)用發(fā)揮一個更大的價值,而不僅僅是對于一些事務(wù)性的簡單的處理。就這樣,我從一個財務(wù)人員逐步地走到了數(shù)據(jù)分析這個行業(yè)里來了。
要做數(shù)據(jù)分析,我們要學習的東西其實還是很多的,包括一些工具、數(shù)據(jù)庫,還有一些財務(wù)統(tǒng)計的知識,以及一些算法。
從工具來說,我們首先會應(yīng)用到的是Excel。我們在后期應(yīng)用一些專業(yè)的工具進行處理的時候,對于數(shù)據(jù)的格式還是有要求的,還有數(shù)據(jù)的拆分。我們所應(yīng)用到的最基礎(chǔ)的工具就是Excel,除了可以數(shù)據(jù)拆分,還能進行數(shù)據(jù)分析。
當時我做的一個工作就是將數(shù)據(jù)產(chǎn)品拆分出來,剛開始我想用SAS進行拆分,我的機子比較老,就帶不動,后來我發(fā)現(xiàn)Excel可以輕松地搞定。Excel有很多函數(shù),可以進行一對一的匹配。另外,Excel有些數(shù)據(jù)透視表,對分類的匯總,以及后期把數(shù)據(jù)帶入到工具里面是很有用的;數(shù)據(jù)透視圖,可以做可視化展現(xiàn)的方式。如果你對Excel的VBA再熟悉一些的話,處理數(shù)據(jù)就很方便了。
另外,學完Excel之后,我又學了STATA和SAS。這些軟件相對來說比較菜單化,能夠做很多東西,包括一些簡單的統(tǒng)計分析,求一下最大值、最小值,中位數(shù),還有可以做一些上學學到的分析檢驗等。但不僅僅停留在這個層次,數(shù)據(jù)分析會涉及到包括回歸、聚類和分類、時間序列等方法。
比如回歸,學的就是一個方程,這是最基本的,其實還可以擴展。它是干什么用的呢?就是對于發(fā)生額的預(yù)測。比如說一條訂單記錄會有一些變量,包括性別、年齡、收入等等。通過它其實我們就可以列出一個方程來,預(yù)測一個未來值,在我們銷售和一個發(fā)生值相關(guān)的時候,就可以定位??梢园芽蛻舴殖蓭最?,哪些人屬于高價值的客戶,哪些人屬于相對來說一般的。
還有一個與此相關(guān)的邏輯回歸,看名字很相似,之所以放到一塊是因為它最后的展現(xiàn)形式。不同的是邏輯回歸是一個事件的發(fā)生概率,這個事情發(fā)生不發(fā)生,他會不會購買,這是我們常會遇到一個問題。通過邏輯回歸就可以根據(jù)原有數(shù)據(jù)歸納出結(jié)論。
回歸和邏輯回歸通常來說都是綜合結(jié)合來用的,比如說我們把預(yù)測出來的金額分成十個檔,第一是金額最大的,那么在分析的時候還會有一個問題,這就是種購買金額最高的人,他購買的發(fā)生概率是什么?這需要做一個橫向的匹配,這樣的話我們就會歸納出在實際應(yīng)用中,發(fā)生額和發(fā)生概率的排序。我們企業(yè)資源都是有限的,在實踐應(yīng)用中我們會根據(jù)排序截取前50%的比例,或者20%的比例進行資源投入,這樣會獲得最大的收益。
聚類和分類,這兩個東西看起來很相似,都是跟類別有關(guān)系,它們的不同在于聚類是一個無監(jiān)督學習,分類是一個有監(jiān)督學習。
聚類是干嗎的?我們其實不知道這里邊有幾類,弄到一堆這就是聚類。這對一些未知領(lǐng)域的探索很有幫助,我們在聚類的時候都會把它規(guī)劃成一圈,在聚類之前做一個分析。這樣的話可以降低緯度,避免一些緯度災(zāi)難。
做好了聚類之后下面就可以分類了,比如說可分成三堆,又來了一個東西,看看它跟哪個是一堆的,就分類了。其實我們常用的算法,包括前面提到的邏輯回歸,到決策樹、神經(jīng)網(wǎng)絡(luò)都是可以用來分類的。
還有第三類就是時間序列,炒股的話就會發(fā)現(xiàn)股票的價格會隨著時間的波動而波動。還有銷量,從某種意義上講時間是有相關(guān)性的。
數(shù)據(jù)并不是直接拿過來就能用。更多的情況下,企業(yè)會把數(shù)據(jù)放在數(shù)據(jù)庫,量大的話還會放在數(shù)據(jù)倉庫里面。我在面試的時候遇到的兩個常見的問題,第一個你為什么會做數(shù)據(jù)分析師,另外一個就是你的數(shù)據(jù)庫應(yīng)用能力。數(shù)據(jù)庫的接收是不需要掌握的,主要是數(shù)據(jù)庫的查詢,數(shù)據(jù)庫里面各種資料的認識是必須要具備的,我們常用的一個整體查詢就是各種字段,從哪個表分類一下,分類端再做一個排序,一般都會涉及到多張表。
對于數(shù)據(jù)庫這塊還是要多掌握一些知識。常用的數(shù)據(jù)庫都是關(guān)系型數(shù)據(jù)庫,如果有能力非關(guān)系型數(shù)據(jù)庫還是要多學習一下,還沒有工作的同學可以把精力投入一些,找工作數(shù)據(jù)庫不行的話就直接被Pass掉了。
除了數(shù)據(jù)分析的工具,也懂數(shù)據(jù)庫,在數(shù)據(jù)分析里邊還有一些內(nèi)在的思想,包括一些傳統(tǒng)的統(tǒng)計方法,還有算法。算法很多,因為時間有限,我不打算多講。邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)都可以學一下,這些算法有一些是常用的和非常用的,有些是針對同一個問題有不同的角度,如果時間有限的話,可以專精于某一類。不管是做回歸,還是做分類、聚類,你可以挑一兩個算法進行研究,算法研究精了之后對數(shù)據(jù)分析可以有很深刻的理解。
下邊一個問題是數(shù)據(jù)的可視化的問題。不管你是用了回歸還是聚類,最后一個問題就是展現(xiàn),展現(xiàn)給你們的Boss你到底做了什么?不見得要展示你的成果,更多的是對于企業(yè)里面的各種信息的生動展示。
我個人用得多的是Excel和Tableau,我們從集團到各個下面的子公司都在用這個東西。我覺得在數(shù)據(jù)可視化這一塊要遵循兩點,第一點就是化繁為簡。我們每個月報給最高層有一份報告是50多頁,當時我看了都頭大。最后我們同事之間大家相互協(xié)作,把50多頁的東西弄成了9頁,它的緯度卻可以細化到中層子公司。不要再把一堆Excel表、PPT拿出來了,那樣就很Low了,你要想到的第一個問題如何將你的大量的工作成果展現(xiàn)在很少的一個界面上。
第二帶你就是直觀。最簡單的,比如在Excel里用數(shù)據(jù)透視圖,做一個柱狀圖和一個線,反映未來的趨勢,或者橫向的對比,都是一個直觀的展現(xiàn),你能做到化繁為簡、深入淺出,你的可視化是很成功的。
說了這么多,我們最終還是要有一個系統(tǒng)的數(shù)據(jù)應(yīng)用。
第一步是獲取數(shù)據(jù),數(shù)據(jù)的來源很多,包括Excel表、數(shù)據(jù)庫,還有通過其他的一些網(wǎng)上的抓取,包括爬蟲、網(wǎng)絡(luò)分析等。
第二步是處理數(shù)據(jù)。在我實際的工作中,包括我與其他同行溝通,數(shù)據(jù)處理的過程可以占到整個工作任務(wù)的將近70%多。為什么呢?數(shù)據(jù)價值的認知是一個逐步完善的過程,很多企業(yè)原先對于數(shù)據(jù)的認識沒那么強,可能就是某個部門,比如企劃、風控、運營等部門,會把數(shù)據(jù)庫里面有關(guān)的數(shù)據(jù)拿出來,自己做報告?,F(xiàn)在又上升到一個更高的層次,做數(shù)據(jù)分析、數(shù)據(jù)可視化的時候,就發(fā)現(xiàn)數(shù)據(jù)亂七八糟,看了之后就頭大,就需要通過各種工具,用SAS,Python進行整理,一方面把數(shù)據(jù)整理成自己需要的形式,整理成一定的字段和緯度,這樣才可以做分析。
其實目前我在工作的這一段時間中并沒有用到很復雜的算法,應(yīng)用的主要是三個方面。
第一,我會用Python、Tableau對數(shù)據(jù)進行處理。我和同事進行了反復的溝通,不斷地了解這些高層人員到底想看什么,我按照自身的理解把它展示出來,后來老板說這個東西沒有把核心的需求拿出來。
這其實就犯了一個毛病,我在剛一開始的需求分析就不夠深入。其實也是可以理解的,因為剛一開始接觸工作,對于整個行業(yè)也是一個初步的認識,你可能拿捏不好。隨著業(yè)務(wù)的逐步深入,你首先要了解你這個業(yè)務(wù)整體老板的需求是什么,再去通過數(shù)據(jù)、分析、展示,這樣才能有的放矢。老板其實不太關(guān)心你用了什么復雜的方法做了這個東西,他關(guān)心的就是我想要展示什么。
上周我還遇到一個問題。從2015年1月份到2016年6月份整體業(yè)績的達成情況,最初是用柱狀圖展示折現(xiàn)額,老板說這個東西對我來說沒用,因為我更關(guān)心的是同期之間的對比。我就只能去改了,其實這就反映一個問題,我們要抓住領(lǐng)導所關(guān)心的關(guān)鍵的業(yè)務(wù)需求。
第二就是數(shù)據(jù)共享中心的建設(shè),我司目前的系統(tǒng)有很多,包括財務(wù)組織系統(tǒng)、還有AGC、ERP的,數(shù)據(jù)很分散,整體系統(tǒng)是由IT系統(tǒng)管理。我自身在做Tableau所以可視化也在做,我就找到一些接口,它其實并不完備。從總公司的角度來說,不僅要掌握財務(wù)數(shù)據(jù),還要掌握運營的數(shù)據(jù),前端企劃的數(shù)據(jù),包括風控的數(shù)據(jù)等。建設(shè)數(shù)據(jù)共享中心就是要把各個數(shù)據(jù)做一種整合。
其實這就是一個數(shù)據(jù)字典的問題,我們原來有200多個指標,好多重復的、口徑不同的。做數(shù)據(jù)分析的時候,如果同一個問題有不同的名稱、不同的口徑,后期根本就干不了。我在入職之前有一個同事做預(yù)算的時候就很頭大,最簡單的一個業(yè)務(wù)費用,分解到中心子公司之后,從企劃或者其他方面拿過來的口徑是不同的,需要再反復各處去了解,調(diào)整口徑的調(diào)整。這是分析人員最怵的問題,很耗費精力。
因此我覺得,在工作中一方面就要加強自己對于需求端的理解,不跑偏,少走彎路。第二,如果公司的數(shù)據(jù)現(xiàn)狀不好,你要發(fā)揮利用自己的一些知識和整體地推動公司建設(shè),這個推動過程中不僅對公司的管理有很深入的認識,對于數(shù)據(jù)分析能力的提高也很有幫助。
CDAS 2017 中國數(shù)據(jù)分析師行業(yè)峰會火力全開!
峰會報名
掃碼回復“峰會”進群了解活動詳情
聯(lián)系我們
嘉賓及商務(wù)合作
王海龍
電話: 13488782942
郵箱: whl@cda.cn
微信: w25092205
票務(wù)及渠道合作
王仲謀
電話:18311031693
郵箱:wzm@cda.cn
微信:18311031693
媒體合作
高萌
電話:13611274210
郵箱:gaomeng@cda.cn
微信:13611274210
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03