
數(shù)據(jù)分析師眼中的數(shù)據(jù)真相
隨著大數(shù)據(jù)概念的普及和人們對(duì)數(shù)據(jù)價(jià)值認(rèn)識(shí)的不斷深入,數(shù)據(jù)分析越來(lái)越受到人們的重視,尤其是在企業(yè)中,現(xiàn)在很多做銷售、市場(chǎng)的企業(yè)人員已經(jīng)開始用數(shù)據(jù)說(shuō)話,很多企業(yè)也已經(jīng)開始借助數(shù)據(jù)進(jìn)行決策和管理,量化經(jīng)營(yíng)的理念正逐步深入人心。與此同時(shí),專業(yè)的數(shù)據(jù)分析師也逐漸進(jìn)入人們的視野,被評(píng)為未來(lái)十年最有前途的十大職業(yè)之一。
作為一名數(shù)據(jù)分析師,保持對(duì)數(shù)據(jù)的敏感性是最基本的要求之一,這里所說(shuō)的數(shù)據(jù)敏感性不僅是指能夠發(fā)現(xiàn)隱藏在數(shù)據(jù)之間的關(guān)系和規(guī)律,還包括能夠辨別數(shù)據(jù)的真?zhèn)?。因?yàn)殡S著數(shù)據(jù)產(chǎn)生量的爆炸式增長(zhǎng),一些假的、有問題的數(shù)據(jù)也不斷出現(xiàn),這些數(shù)據(jù)有些是由抽樣誤差或采集過(guò)程引起的,有的則是出于某種目的人為造成的,而且有些錯(cuò)誤的數(shù)據(jù)還非常隱蔽,往往容易被人忽視,從而造成錯(cuò)誤的判斷甚至因此蒙受巨大的經(jīng)濟(jì)損失。作為一名數(shù)據(jù)分析師,對(duì)待這類數(shù)據(jù)不能人云亦云,需要有自己的認(rèn)識(shí)和理解,要透過(guò)數(shù)據(jù)的表面看背后的真相和存在的問題,下面舉幾個(gè)日常生活中常見的數(shù)據(jù)案例來(lái)說(shuō)明如何看清數(shù)據(jù)的真相。
1、失業(yè)率
失業(yè)率是我們大家都非常熟悉的一個(gè)指標(biāo),也是政府制定相關(guān)政策的一個(gè)重要依據(jù)。這些年,中國(guó)政府一直將失業(yè)率控制在4%以下作為一項(xiàng)重要的執(zhí)政目標(biāo),每年也都基本實(shí)現(xiàn)了這一目標(biāo),然而,以大多數(shù)人的感受來(lái)說(shuō),實(shí)際的失業(yè)率似乎比4%要大,而且有時(shí)候感覺會(huì)差很多。那么,到底是什么原因造成了實(shí)際統(tǒng)計(jì)數(shù)據(jù)與民眾自身感受之間的這種差距呢?要弄清這一問題,我們首先應(yīng)該看一下失業(yè)率的概念和統(tǒng)計(jì)方法。
失業(yè)率是失業(yè)人口占勞動(dòng)力人口的百分比。世界上大多數(shù)國(guó)家都采用兩種失業(yè)統(tǒng)計(jì)方法。一種是行政登記失業(yè)率,另一種是勞動(dòng)力抽樣調(diào)查失業(yè)率。兩種失業(yè)率都是政府決策的重要依據(jù)。中國(guó)之前一直采用城鎮(zhèn)登記失業(yè)率來(lái)衡量失業(yè)情況。城鎮(zhèn)登記失業(yè)率是指在報(bào)告期末城鎮(zhèn)登記失業(yè)人數(shù)占期末城鎮(zhèn)從業(yè)人員總數(shù)與期末實(shí)有城鎮(zhèn)登記失業(yè)人數(shù)之和的比重。分子是登記的失業(yè)人數(shù),分母是從業(yè)的人數(shù)與登記失業(yè)人數(shù)之和。在城鎮(zhèn)單位從業(yè)人員中,不包括使用的農(nóng)村勞動(dòng)力、聘用的離退休人員、港澳臺(tái)及外方人員。城鎮(zhèn)登記失業(yè)人員是指有非農(nóng)業(yè)戶口,在一定的勞動(dòng)年齡內(nèi)(16歲以上及男50歲以下、女45歲以下),有勞動(dòng)能力,無(wú)業(yè)而要求就業(yè),并在當(dāng)?shù)鼐蜆I(yè)服務(wù)機(jī)構(gòu)進(jìn)行求職登記的人員。
由城鎮(zhèn)登記失業(yè)率的計(jì)算方法我們不難看出,一系列限制使得這一指標(biāo)的代表性大為降低。由于很多真正失業(yè)的人不一定去登記,加上農(nóng)村的農(nóng)民就業(yè)沒有包括在里面,而最近幾年2.5億農(nóng)民工群體已成為一支不容忽視的就業(yè)群體,而且隨著人們壽命的延長(zhǎng),45到60歲之間的人仍工作在第一線,然而他們卻都沒有被納入到城鎮(zhèn)登記失業(yè)率的統(tǒng)計(jì)范圍之內(nèi),因此實(shí)際每年公布的登記失業(yè)率數(shù)字,比調(diào)查失業(yè)率要低。這也成為城鎮(zhèn)登記失業(yè)率飽受詬病的原因,也是造成實(shí)際每年公布的失業(yè)率與我們每個(gè)人的切身感受相差較大的最根本原因。
正是基于城鎮(zhèn)登記失業(yè)率這些明顯的缺陷,中國(guó)政府決定,從2011年開始,不再使用“城鎮(zhèn)登記失業(yè)率”這一指標(biāo),而采用“調(diào)查失業(yè)率”。 2013年9月9日,中國(guó)首次向外公開了調(diào)查失業(yè)率的有關(guān)數(shù)據(jù)。國(guó)務(wù)院總理李克強(qiáng)在英國(guó)《金融時(shí)報(bào)》發(fā)表署名文章《中國(guó)將給世界傳遞持續(xù)發(fā)展的訊息》透露,“今年以來(lái),中國(guó)經(jīng)濟(jì)運(yùn)行穩(wěn)中有進(jìn),上半年GDP同比增長(zhǎng)7.6%;5%的調(diào)查失業(yè)率和2.4%的通脹率,均處于合理、可控范圍?!?%的調(diào)查失業(yè)率,高于此前人社部公布的一二季度均為4.1%的登記失業(yè)率,可以說(shuō)更具有說(shuō)服力。但這一數(shù)據(jù)到底是否準(zhǔn)確、代表性如何,需要對(duì)調(diào)查失業(yè)率的計(jì)算方法、抽樣方式、方法、調(diào)查范圍等深入研究之后才能判斷其最終的代表性。
二、死亡率
死亡率的概念大家都不陌生,而且一般也不會(huì)產(chǎn)生歧義。但是如果死亡率被用在不恰當(dāng)?shù)膱?chǎng)合,那么同樣會(huì)出現(xiàn)問題。
以一個(gè)經(jīng)常被引用的故事為例。在美國(guó)和西班牙交戰(zhàn)期間,美國(guó)海軍的死亡率是千分之九,而同時(shí)期紐約居民的死亡率是千分之十六。后來(lái),海軍征兵人員就用這兩個(gè)死亡率來(lái)證明參軍更安全。那么,這個(gè)結(jié)論正確嗎?顯然是不正確,因?yàn)檫@兩個(gè)數(shù)字根本就是不匹配的,當(dāng)兵的一般都是身強(qiáng)力壯的年輕人,而居民的死亡率是包括老弱病殘等各類人群的一個(gè)綜合數(shù)據(jù),而老弱病殘者又是主要的死亡人群構(gòu)成者,這些人拉抬了整個(gè)居民的死亡率。所以正常應(yīng)該是用同年齡段的海軍和紐約居民的死亡率來(lái)作對(duì)比,從而判斷參軍是否安全。一般情況下,相同年齡段的海軍死亡率應(yīng)該是高于居民死亡率的。
這一案例說(shuō)明數(shù)據(jù)之間要具有匹配性才能進(jìn)行對(duì)比。不具有可比性的數(shù)據(jù)有時(shí)候會(huì)很隱蔽。不容易發(fā)現(xiàn),這就需要分析師有更敏銳的觀察能力。比如某個(gè)零售企業(yè)想計(jì)算2013年11月前十天的銷售比去年同期增長(zhǎng)了多少,表面上來(lái)看這兩個(gè)數(shù)據(jù)是可以直接對(duì)比的,有匹配性。實(shí)際上對(duì)以規(guī)律性非常強(qiáng)的零售企業(yè)來(lái)說(shuō),周末對(duì)銷售的影響是非常大的。翻開日歷會(huì)發(fā)現(xiàn),2013年11月的1~10日比2012年11月同期多一個(gè)“星期天”,這就容易使對(duì)比結(jié)果出現(xiàn)誤差。 因此,對(duì)零售企業(yè)來(lái)說(shuō),最好以周來(lái)進(jìn)行對(duì)比。
三、離婚率
中國(guó)離婚率連年遞增,婚外情成婚姻最大殺手,從年齡結(jié)構(gòu)看22~35歲人群是離婚主力軍,36~50歲年齡段是婚姻平穩(wěn)期,50歲以上人群離婚率上揚(yáng),從教育背景看,學(xué)歷高低與離婚率高低成反比,學(xué)歷越低,離婚率越高,學(xué)歷越高,離婚率越低。這些結(jié)論似乎與我們的日常感受比較吻合,但需要注意的是離婚率的計(jì)算公式是否科學(xué)合理?,F(xiàn)行的離婚率公式是這樣的:離婚率=離婚數(shù)/結(jié)婚總數(shù),乍一看,沒有任何問題。以2012年為例,2012年的離婚率就是2012年離婚數(shù)除以2012年結(jié)婚數(shù)?但仔細(xì)研究會(huì)發(fā)現(xiàn),2012年離婚的人和結(jié)婚的人根本就不是一個(gè)概念。這樣計(jì)算的結(jié)果容易廣大人民群眾造成誤解!
實(shí)際的離婚率計(jì)算公式應(yīng)該是:2002年結(jié)婚人群在2012年的離婚率=2002年結(jié)婚且2012年離婚總數(shù)/2002年的結(jié)婚總數(shù)。此外,如果我們對(duì)2002年結(jié)婚人群從2002年開始到2012年為止,每年都計(jì)算一個(gè)離婚率的話,還可以分析每年的離婚率變化情況,是否真在第七年的時(shí)候達(dá)到最高值,即通常所說(shuō)的七年之癢是否真的存在。
與離婚率的概念類似,很多零售企業(yè)每個(gè)月都會(huì)計(jì)算的退貨率,也需要分門別類才能正確的計(jì)算出來(lái)的。
以上僅僅列舉了幾個(gè)日常生活中常見指標(biāo)的數(shù)據(jù)陷阱問題,實(shí)際生活中這樣的例子還有很多。有時(shí)候是數(shù)據(jù)的確有錯(cuò)誤,有時(shí)候數(shù)據(jù)雖然正確,但計(jì)算方法或者使用場(chǎng)合不正確,或者對(duì)比不匹配,同樣會(huì)誤導(dǎo)我們。因此,雖然我們不能每個(gè)人都成為數(shù)據(jù)分析師,但多嘗試從數(shù)據(jù)背后看問題,多培養(yǎng)數(shù)據(jù)敏感性,仍然會(huì)使我們獲益匪淺。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10