
數據分析入門之隨筆記
數據的一面是銀彈(Silver Bullet):無所不能,增長黑客(Growth Hacking),決策分析(Decision Making);數據的另外一面是鏡子(Reflection):可以看清楚很多茍且和遠方的田野。如何發(fā)現(xiàn)利用數據的價值,就是數據分析的目標。
數據分析的重要性可以分為兩點:
第一是幫助核心業(yè)務(Business)成長,找到和驗證業(yè)務增長點
第二是有效的業(yè)務推動(Marketing),提高推廣的效率(ROI)。
我把營銷(Marketing)作為獨立的數據分析角度,因為數字營銷極度依賴于數據分析,并且有一些通用的分析模型,它同時也是一個非常大的產業(yè),它是各個軟件巨擘必爭之地。
最近十幾年,數據的收集和處理能力大大提升,越來越多的傳感器和數據收集,許多大公司的數據正在從TB級別走向PB級別?;ヂ?lián)網公司之間的模式競爭,也轉戰(zhàn)到對于數據價值的挖掘的能力上,很多時候也就是速度和效率的競爭。不要迷信數據,更不要忽視數據。很多時候,數據是你業(yè)務的指南針和護城河。
數據量快速增長,數據分析人才緊缺,數據分析工具依賴性,數據分析服務的強需求都反映了公司從粗放型到精細化的轉型。
1.什么是數據分析(Data Analysis)?
為了理解數據分析,首先理解一下數據的概念。管理學家羅素·艾可夫在1989的《 “From Data to Wisdom”,Human SystemsManagement 》提出了DIKW體系體系,這是關于數據、信息、知識及智慧的一個模型,完美詮釋了四者的關系。Data(數據)->Information(信息)->Knowledge(知識)->Wisdom(智慧)。
2. 數據分析的技術
技術上就是以發(fā)現(xiàn)有用信息,知識和洞察為目的,進行數據收集,處理,清晰,過濾,以支持決策制定。有好幾概念有些混淆,花點時間解釋一下:
a. 數據挖掘(Data Mining):數據挖掘是以預測為目標的數據建模和知識探索的一個子學科,好多年前,它一直是一個熱門的研究生專業(yè),直到信息檢索專業(yè)的出現(xiàn)。
b. 商務智能(Business Intelligence):BI是一個利用數據的聚合(Aggregation)和分片(Slice)的能力,進行業(yè)務監(jiān)控和洞察發(fā)掘。
數據分析也是一種藝術(Art),所謂藝術就是結合技術,想象力,經驗和意愿的綜合因素的平衡和融合。數據分析也是一個經驗和想象力的融合:它涉及到數學算法,統(tǒng)計分析,工具和軟件工程的一種結合,最后的目的是解決業(yè)務的問題,幫助人從數據中獲得智慧。
下面列了幾個常用的分析技術范式:
1. 統(tǒng)計模型:利用統(tǒng)計模型處理數據的方法
2. 探索式(exploratory):不設定假設目標,自由發(fā)掘和探索
3. 穩(wěn)定性(Stability ofResults):分析結果的穩(wěn)定性評估,又是進行交叉驗證。
4. 假定驗證(HypothesisTesting):預先設定好結論,通過測試校驗結論
下面是涉及到算法,工程,統(tǒng)計等的相關技術,每一種細分技術都是一個大學問,好的數據科學家,可以游曳穿行其中,找到數據中有價值的洞察。
3.數據從業(yè)者的職業(yè)名稱
從事數據的工作者,歷史上我見識過了不少名稱,包括“數據分析師”,“數據經理”,“運營分析師”,“軟件工程師”,“算法工程師”,“策略分析師”,“數據科學家” 等等。其中最酷的名字還是LinkedIn發(fā)明的“數據科學家(Data Scientist)”,這個名稱也被Forbes評為本世紀最”性感“的工作了。我估計,這是全世界最多的科學家團體了,小時候總覺得科學家必須白發(fā)蒼蒼才行的,現(xiàn)在很多同學剛畢業(yè)就是”數據科學家“,很讓人羨慕。
數據分析實際上是三個方面的融合,包括數據,工程和業(yè)務。數據是智慧的原礦石,工程是采礦機,業(yè)務是指北針,只有三個方面融合起來,才能最有效的發(fā)現(xiàn)數據的價值。我相信一個好的數據分析師必須有工程背景,必須對數據敏感,而且愿意主動解決業(yè)務問題。
4.數據分析公司的生態(tài)圈
數據分析的的公司非常多,大大小小,林林總總。有小而美的硅谷創(chuàng)業(yè)公司,有老牌大公司的老樹新花。很多創(chuàng)業(yè)公司的市值一路飆升到無法接盤的狀態(tài)。例如,Palantir估值已經到了200億美元,但是最近可持續(xù)的收入卻不斷減少,引來不少麻煩。
我把數據分析公司分為三類:
第一類是基礎服務提供者,主要提供一些軟件工具,Hadoop和Spark的生態(tài)公司,幫助數據基礎架構的建設,也包括一些數據可視化公司。
第二類是通用分析服務提供公司,包括Palantir,IBM的Watson Analytics,SAS, Google Analytics 等等,這類公司提供數據分析服務或者工具,利用專家背景,系統(tǒng)規(guī)模和數據資源,幫助解決客戶的問題,特別是很多老牌公司通過收購傳統(tǒng)數據分析公司,快速重新包裝成新的高大上產品。
第三類是專注行業(yè)的數據分析公司,例如生物信息,市場營銷分析等等。
5.三種常見的業(yè)務分析模型:
GrowthHacker,AARRR,LTV
看完了欣欣向榮的數據分析行業(yè),是不是感到有些熱血沸騰。不過我們還是要回到現(xiàn)實的的,落地的數據分析任務。大部分互聯(lián)網公司,面臨的業(yè)務增長的壓力,都希望通過數據分析來提升競爭力。其中,有三種常見的業(yè)務運營增長模型。
1. 黑客文化的Growth Hacker
2. 經典的AARRR漏斗模型
3. 游戲中的LTV模型
1) 增長黑客(Growth Hacker)的數據和分析
GrowthHacking,它指的是一種用戶增長的方式,簡單說就是通過某些手段和策略幫幫助公司形成快速成長,通常是數據驅動的方法。對創(chuàng)業(yè)公司、特別是初創(chuàng)公司來說,在沒有廣告預算、市場營銷活動以及市場推廣專員的情況下,GrowthHacking 也可以獲得良好的效果。
2) AARRR模型
AARRR是Acquisition、Activation、Retention、Revenue、Refer,這個五個單詞的縮寫,分別對應這一款移動應用生命周期中的5個重要環(huán)節(jié)。每一個環(huán)節(jié)都有些關鍵指標,可以進行數據分析,找到提升的機會。
3) 生命周期價值(LTV)模型:
LTV是LifeTime Value,它是游戲行業(yè)用于衡量用戶價值的一種方式和模型。LTV是指在一定時間內,某一客戶可能為企業(yè)帶來的利潤額.顧客終身價值是指企業(yè)在獲得新顧客后的一段時間內,每一位顧客的平均利潤凈現(xiàn)值。由于游戲有很強的時間相關性,因此LTV會累計一段時間的數據。
6. 幾個有特點的數據分析工具
從公司類型上來說,數據分析公司簡單可以分為兩類:1傳統(tǒng)大型IT公司 2互聯(lián)網創(chuàng)新公司。很多傳統(tǒng)大公司都涌入數據分析行業(yè),大多都是希望利用自己的客戶,硬件和軟件優(yōu)勢,通過數據分析轉型成SaaS服務提供商,例如IBM,Oracle等。另外一個就是互聯(lián)網創(chuàng)新公司,大量數據科學家形成了大大小小數據分析創(chuàng)業(yè)公司,
數據分析從來就是一個熱門詞,像人工智能一樣,從來都吸引眼球;很多時候,數據被濫用成了一把上方寶劍,誰不服就用數據砸誰。實際上,數據告訴你的更多的眼前的茍且,而我們需要思考的更多的是詩和遠方。數據分析可以給我提供很多的數字,但卻無法代替的人的思考:如何簡化問題?如何抽象和分解復雜?如何排除萬難?數據分析只會讓工作更加有意思和挑戰(zhàn)!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數據生態(tài)中兩類核心工具的差異與協(xié)同 在數字化轉型加速的今天,企業(yè)對數據的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數據分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數據分析的 “基礎語言”—— 從描述數據分布的 “均 ...
2025-09-19CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-19SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11