
大數(shù)據(jù)時代要識數(shù)
怎么樣才算識數(shù),怎么才能做到識數(shù),在羅輯思維的【得到】APP上開設付費專欄《硅谷來信》的吳軍博士給出了自己的理解和建議。
大約從4年前開始,我們就說進入了大數(shù)據(jù)時代,大約從2年前開始,它的應用越來越普及,使得我們社會運行的效率(很多大公司賺錢的效率)大大提升。
在思維上,我們也接受了數(shù)據(jù)驅(qū)動的思維方式。在這樣一個時代,我們都必須做到識數(shù),而不是看到一個數(shù)據(jù)后,給出情緒化的反應。
幾個月前,王健林說的“掙一個億”的小目標,經(jīng)常被大家拿來調(diào)侃。因為在大家的眼里,一個億是一個巨大無比的數(shù)字,甚至近乎一個天文數(shù)字。即便在人均GDP為五萬元的美國,95%以上的人一輩子是掙不到一億人民幣的。
但是對一個國家而言,一個億就是一個非常小的數(shù)字了。比如中國政府的債務。根據(jù)國際貨幣基金組織提供的數(shù)據(jù),截止到2016年3月底,是28萬億人民幣。
哇,25萬億耶,是不是永遠都還不清了?
其實,一個億,對任何一個國家來說,都不是什么了不得的數(shù)字,對中國來說,一萬億都只是一小顆花生米而已。因為中國當時的GDP大約是68萬億人民幣,債務占到GDP的41%左右。
41%,都快接近一半了,那這個債務水平算不算高呢?
對一個年收入10萬的家庭來說,40%的債務,即4萬的債務確實很高。但是對于中央政府(有些國家叫聯(lián)邦政府),或者像中國這樣可以得到中央撥款支持的地方政府,這個比例非常低。
美國聯(lián)邦政府的國債到今天累計已經(jīng)達到21萬億美元(大約相當于146萬億人民幣),占其GDP的125%,這個還不算州政府借的一些錢呢。
日本的國債占GDP的200%,法國占100%,英國占90%,意大利占130%,并且都在上升。只有德國占73%左右,但是也比中國高得多。
怎么樣,這樣一比較,中國算是非常非常低的吧?其實,越是經(jīng)濟不太好的國家,債務水平反而越低。比如俄羅斯,債務只占了GDP的不到20%。
對中國這樣的國家,什么算是大數(shù)呢?十萬億或者一百萬億!100萬億,用數(shù)字表示就是100,000,000,000,000,也就是1后面14個零。如果用小時來度量宇宙的年齡,宇宙到今天大約是100萬億小時。
我們不僅對大數(shù)字要敏感,對小數(shù)字也應如此。吳軍老師說,一位離開Google到某個電商公司負責廣告業(yè)務的員工有一天跟他抱怨說,他的老板對0.8%的廣告點擊率相當不滿意,覺得太低了。當時,正好北大光華管理學院的一位統(tǒng)計學教授也在場,他開玩笑地說“你回去和他講,他怎么不上天呢?”
實際上,0.8%的點擊率對互聯(lián)網(wǎng)展示廣告來說已經(jīng)很高了,因為整個行業(yè)的水平大約是0.4%。搜索廣告的點擊率要高很多,但也只有2%。因此,數(shù)據(jù)的大和小完全要看場景,在互聯(lián)網(wǎng)廣告這個場景下,即使不到1%,也是很大的數(shù)字。
比廣告點擊率更小的數(shù)字是支付系統(tǒng)的出錯率。在這個行業(yè),千分之一都是很大的數(shù)了。因為這個領域最關(guān)鍵的事控制被欺詐的概率,如果做不到千分之一,就不用在這個行業(yè)混了。
一般來講,這個行業(yè)的欺詐率是用基點(也就是萬分之一,即0.01%)來衡量的。大部分信用卡公司和銀行都能講欺詐率控制在幾個基點這樣的數(shù)量級。支付寶因為有大數(shù)據(jù)支持,大約能做到一個基點以下,這就使得其他產(chǎn)品難以和他競爭。
與大和小相比,有些時候“準確率”(或者比率)這樣的概念更是隨著應用場景的不同,標準相差很多。
比如語音識別,如果準確率達不到95%,可用性就不是很好。而對于指紋識別,如果做不到99%以上,就沒有太大的意義。
我們經(jīng)??吹竭@樣的洗滌劑廣告,能夠殺死99%的細菌。事實上,對那些細菌特別多的東西,殺死99%是遠遠不夠的。因為細菌的繁殖在合適的環(huán)境里繁殖速度很快,一天下來可以繁殖上萬倍。但是,如果一個過濾器能夠過濾掉99%的PM2.5顆粒,在室內(nèi)大致可以滿意了。
那我們怎么知道每一個領域數(shù)字的大和小呢?怎樣才能不被人忽悠呢?吳軍老師說可以從三個層次培養(yǎng)自己對數(shù)字的敏感性。
首先,不要一看到別人給的數(shù)字,就被唬住了。對它既要關(guān)注,也要留個心眼。要牢記數(shù)字的大小和場景密切相關(guān)。
其次,對于很多事情要有大致的概念,不需要了解細節(jié),但在數(shù)量級上要有常識。比如我們在報紙上經(jīng)??吹健昂勒眱蓚€字,標題黨常常用它來吸引眼球。其實只要把那個價錢放到一個地區(qū)和當?shù)氐姆績r或者收入水平做一個對比,就能大致做出判斷了。
數(shù)量級的概念也就是10的多少次方,一個數(shù)量級的差距就是差10倍。
最后,我們看到一個數(shù)字,在下結(jié)論之前,最好問一下自己,它的參照物是什么,凡事大小多少都需要有參照物,在互聯(lián)網(wǎng)發(fā)達的今天,這些參照物并不難找。
對數(shù)字敏感,很多時候是我們不吃虧,乃至事業(yè)成功的基礎。
最后,拜托你幫我個忙,如果你覺得這篇文章對你有所啟發(fā),歡迎轉(zhuǎn)發(fā)到朋友圈讓你的朋友們也看看。謝謝你!
我把每一次的寫作都當作一次分享的機會,希望借此遇見更好的自己。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10