
想要成為數(shù)據(jù)分析師,需要學(xué)什么
我想要成為一名數(shù)據(jù)分析師,可是數(shù)據(jù)分析師需要學(xué)些什么東西?
數(shù)據(jù)分析師分布在不同行業(yè)中,專門從事行業(yè)數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)研究、評估和預(yù)測。數(shù)據(jù)分析師需要敏銳的數(shù)字洞察力,因此,統(tǒng)計、會計、保險、工程經(jīng)濟、金融、數(shù)學(xué)、計算機等專業(yè)的同學(xué)對這個行業(yè)有明顯優(yōu)勢,但其他行業(yè)的同學(xué)如果對這個職業(yè)感興趣,通過日常學(xué)習(xí),掌握一些統(tǒng)計必備技能,亦可以從事此類工作.
數(shù)據(jù)分析師主要工作領(lǐng)域:
1、從事投資項目審核審批和招商引資、項目評估、投資決策等工作的政府機構(gòu)、企業(yè)的相關(guān)領(lǐng)導(dǎo)以及從業(yè)人員。
2、在銀行或非銀行金融機構(gòu)、投資管理公司、投資管理顧問公司從事風(fēng)險投資、產(chǎn)業(yè)投資、信貸和投資管理等方面工作的專業(yè)從業(yè)人員。
3、會計師事務(wù)所、資產(chǎn)評估事務(wù)所及稅務(wù)師事務(wù)所、律師相關(guān)專業(yè)人員。
4、學(xué)習(xí)財務(wù)、統(tǒng)計、投資、金融和企業(yè)管理等相關(guān)專業(yè)的在校應(yīng)屆學(xué)生。
5、在企事業(yè)單位從事市場調(diào)查與宣傳工作的人士以及具有策劃與決策工作職能要求的人士。
6、在不同領(lǐng)域嘗試創(chuàng)業(yè)以及在投資、金融、資本運營、房地產(chǎn)和企業(yè)管理領(lǐng)域發(fā)展的各界人士。
數(shù)據(jù)分析師的工作內(nèi)容分為四個層面:
1、處理臨時需求:解決業(yè)務(wù)一次性,臨時性的數(shù)據(jù)需求
2、報表開發(fā):根據(jù)業(yè)務(wù)需要,與開發(fā)工程師討論進行相關(guān)報表開發(fā)。
3、數(shù)據(jù)分析與挖掘:與業(yè)務(wù)同事一起溝通,分析業(yè)務(wù)問題,提供建議;根據(jù)業(yè)務(wù)需要建立各類挖掘模型。
4、數(shù)據(jù)產(chǎn)品化:通過數(shù)據(jù)產(chǎn)品化方式解決結(jié)構(gòu)化業(yè)務(wù)問題。
數(shù)據(jù)分析師的基本要求:
1、懂得建立目標
數(shù)據(jù)分析是為了解決問題而去分析,不是單純?yōu)榉治龆治觥?shù)據(jù)分析是有目的性的。比如:一季度ABC產(chǎn)品的銷售情況,是按月份為橫坐標建立各部門的圖表;各產(chǎn)品線ABC在一季度的銷售情況,是按部門為橫坐標建立對應(yīng)的圖表。
2、針對不同人群提供不同的結(jié)論報告
數(shù)據(jù)分析要有結(jié)論報告,不同的人群報告的側(cè)重點不同。比如管理層,看的是趨勢和異常點;營銷人員看的是ROI((Return On Investment)產(chǎn)出比率和高用戶質(zhì)量的導(dǎo)入情況;業(yè)務(wù)人員看的是產(chǎn)品對用戶的活躍度等。
3、掌握數(shù)據(jù)分析工具
如果是互聯(lián)網(wǎng)數(shù)據(jù)分析,可以從google GA入門,EXCEL輔助,了解數(shù)據(jù)分析的基本算法。至于SAS,SPSS這些高級工具不一定需要。
4、不同時期要有不同的KPI(Key Performance Indicator,關(guān)鍵績效指標)
不斷的調(diào)整目標和發(fā)現(xiàn)問題是數(shù)據(jù)分析精細化的必經(jīng)過程。
例如:騰訊的數(shù)據(jù)分析關(guān)鍵指標集不斷調(diào)整,從2007年的關(guān)注會員基數(shù),到現(xiàn)在的會員活躍度、用戶體驗度、性能度等等。建立對應(yīng)的模型,幫助產(chǎn)品和項目的同事更好的了解用戶
Q&A如何迅速成長成為一名數(shù)據(jù)分析師?
如從編程零基礎(chǔ),知道一些簡單的統(tǒng)計知識的情況下
回答 Terry Meng,Data Scientist
牧心、朱孝軒、春天已經(jīng)不遠了 等人贊同
從業(yè)多年,跨行業(yè),跨專業(yè),跨公司文化,跨地域,覺得有些東西可以分享。
我認為數(shù)據(jù)分析/數(shù)據(jù)科學(xué)/商業(yè)智能(或是其它類似名字)的職業(yè),最核心的部分在于兩點:業(yè)和術(shù)。
“業(yè)”更偏向于你的soft skills,你的理解能力,分析能力,溝通能力,mind-set。其中當然包括最重要的一個能力:
將復(fù)雜的商業(yè)問題轉(zhuǎn)化為數(shù)學(xué)模型,并利用編程能力進行分析,預(yù)測和評估,再轉(zhuǎn)化為合適的Business Plan,執(zhí)行。
你可以看到,這是一個生態(tài)圈,其中并不是只是包含了其它答案所描述的數(shù)學(xué)模型,統(tǒng)計理論,也不只是包含用什么工具sas,r,excel??偨Y(jié)來說是一種完全設(shè)身處地去為商業(yè)模型思考的mind-set。這是我很多國內(nèi)數(shù)據(jù)從業(yè)者身上很少看到的。很多同事更喜歡強調(diào)自己的統(tǒng)計模型多好,算法多牛,當然,別理解錯,這些優(yōu)化都是好事,但從一個Business function (我把analytic當作一種服務(wù)我們的商業(yè)目標的商業(yè)職能) 的角度來說,這只是一個從過程中的小部分。這可能是因為很多大型企業(yè),比如銀行,電商,IT,智能太細分導(dǎo)致,很少有人能真正退一步去思考我們做分析的意義何在,如何落地,能賺多少錢。
“術(shù)”更偏向于你的技術(shù),包括你的數(shù)學(xué),統(tǒng)計,編程,硬件的技術(shù)。這個技術(shù)對很多技術(shù)愛好者來說是數(shù)據(jù)分析最有意思的一部分,但對很多更喜歡business的朋友來說,很乏味。當然,沒有好與壞,高級和低級的區(qū)別。術(shù)業(yè)有專攻就是這道理,譬如我們公司,Data science for infrastructure engineering負責數(shù)據(jù)倉庫的朋友工資反而最高。 而抽象一點去說:
為了解決商業(yè)問題所需要的技術(shù),能力。
看到這里你應(yīng)該明白了,很多時候我們說的數(shù)據(jù)分析師實則是這個層面的。而再細分,這個技術(shù)其實分為三層:
1 統(tǒng)計理論,模型
2 數(shù)據(jù)庫查詢類編程SQL
3 底層數(shù)據(jù)存儲技術(shù)hadoop, hive, spark, etc.
成為一個合格的數(shù)據(jù)科學(xué)家,你需要上面1,2的本事。有能力利用統(tǒng)計模型解決問題,也有能力通過編程將這些模型實現(xiàn),并且自動化。這里很多人爭論SAS,R,Python,SPSS,在我看來,無非只是工具,都是相同的,只要能用就好。而數(shù)理統(tǒng)計,則是要同時結(jié)合Q quant和P quant(具體請參照數(shù)說工作室,具體名字我忘了,一個微信號)。區(qū)別在于一個強調(diào)隨機概率,一個強調(diào)根據(jù)歷史數(shù)據(jù)的統(tǒng)計。所以,基本理論要知道,比如如何判別模型顯著,如何優(yōu)化模型?;灸P鸵惨獣?,回歸,Clustering, sequence analysis等等。只有精通這些模型,才能知道怎么從統(tǒng)計角度去解決商業(yè)文體。analytic里面經(jīng)常有個說法:
report 告訴你過去發(fā)生什么
BI告訴你現(xiàn)在發(fā)生什么
modeling 告訴你將來發(fā)生什么
其中的意義可以好好體會一下。
再到數(shù)據(jù)庫查詢,那基本SAS,SQL,python的指令要會,這些花不了太多時間去學(xué),但是用得好就很關(guān)鍵。俗話說80%的時間data cleansing, 20%作模型。大家體會下。因為CS出身,所以編程好些,處理數(shù)據(jù)確實幫我省了不少時間。
這里再強調(diào)一個mind set很重要:作模型,是要在結(jié)論,結(jié)果符合商業(yè)邏輯的前提下進行詮釋。我看到很多剛畢業(yè)的stats的人,很喜歡用復(fù)雜的stats變量用在模型,結(jié)果當然模型很fit,但是卻很難解釋。這一點一直都很有爭議,不是因為用了不好,而是用的話你要知道用這個變量的好與壞是什么。比如很多人喜歡用interaction變量放在回歸模型,2維,3維,請自行體會下。
最后,底層數(shù)據(jù)存儲技術(shù)。這塊我涉足不深,不敢亂說。但基本體會是,有個高效的,高容錯,高吞吐量,兼容性強的數(shù)據(jù)庫是做數(shù)據(jù)分析的基礎(chǔ)。
恩,差不多到這。至于先學(xué)什么后學(xué)什么可以自己根據(jù)實際需求安排下。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10