
數(shù)據(jù)的秘密(上)為什么要關(guān)注數(shù)據(jù)
由于科技的進(jìn)步,以及數(shù)據(jù)「數(shù)字化」地存儲(chǔ),使得現(xiàn)代人類可以獲得海量的數(shù)據(jù)。而有了這些海量的數(shù)據(jù)之后,借助于一些數(shù)據(jù)分析工具和方法,我們就可以從數(shù)據(jù)中找到社會(huì)運(yùn)行的「秘密」。
在工作中,借助這些「秘密」,我們有可能發(fā)現(xiàn)商業(yè)中的新機(jī)會(huì),也可能驗(yàn)證或推翻自己的一些猜想。數(shù)據(jù)分析,使得我們對(duì)「秘密」的探索有了一個(gè)可靠的方法。
在本文中,我想分享一下工作中學(xué)到的發(fā)現(xiàn)數(shù)據(jù)中秘密的心得。
我們先看看 稻盛和夫 挽救日航的故事吧。他的這段傳奇經(jīng)歷曾經(jīng)被很多媒體報(bào)道,我將故事摘要如下:
2010 年 1 月 19 日,日本航空公司申請(qǐng)破產(chǎn)保護(hù)。日航有 58 年歷史,一度被視作日本戰(zhàn)后經(jīng)濟(jì)繁榮的驕傲象征。
2010 年 2 月 1 日,受日本首相邀請(qǐng),稻盛和夫答應(yīng)出日航董事長(zhǎng),一年之后,日航扭虧為盈,利潤(rùn)是對(duì)手全日空的三倍。 僅僅用了一年時(shí)間,日航做到了三個(gè)第一,一個(gè)是利潤(rùn)世界第一,一個(gè)是準(zhǔn)點(diǎn)率世界第一,一個(gè)是服務(wù)水平世界第一。
在日航重新上市之后,稻盛和夫分享了他 挽救日航的秘密。這里面涉及的內(nèi)容很多,其中有很重要的一條,就是稻盛和夫非常重視日航具體的運(yùn)營(yíng)數(shù)據(jù),他花了很大的力氣來優(yōu)化數(shù)據(jù)的獲取,從而能夠?qū)θ蘸降默F(xiàn)狀進(jìn)行判斷。
稻盛和夫是這樣說的:
我擔(dān)任董事長(zhǎng)后,最為吃驚的是,公司的各項(xiàng)統(tǒng)計(jì)數(shù)據(jù)不僅不全,而且統(tǒng)計(jì)時(shí)間很長(zhǎng)很慢,往往需要 3 個(gè)月之后才能搞全數(shù)據(jù),以至于經(jīng)營(yíng)者無法迅速掌握公司的運(yùn)營(yíng)情況。 所以,在對(duì)企業(yè)內(nèi)部進(jìn)行改革時(shí),我特別關(guān)注統(tǒng)計(jì)工作。經(jīng)過改革,現(xiàn)在各個(gè)部門的數(shù)據(jù)做到即有即報(bào),公司詳盡的經(jīng)營(yíng)報(bào)告,做到了一個(gè)月內(nèi)完成。
如果把日航看過一個(gè)生病了的病人,稻盛和夫的做法其實(shí)和現(xiàn)代醫(yī)學(xué)的做法類似,就是首先進(jìn)行各項(xiàng)檢查,獲得病人的身體指標(biāo)信息,有了這些檢查數(shù)據(jù),我們就可以利用各種基于數(shù)據(jù)的經(jīng)驗(yàn),來進(jìn)行病情診斷和治療。所有的治療手段又可以通過再次的檢查來驗(yàn)證,從而進(jìn)一步改進(jìn)治療方法。
人做為一個(gè)生命體,全身密布的神經(jīng)負(fù)責(zé)著各種信息的傳遞,所以我們的大腦能夠接受到各種信息,從而做出決策,餓了吃飯,冷了加衣服,保證著我們身體的健康。
而企業(yè)沒有天生的神經(jīng)系統(tǒng),所以數(shù)據(jù)收集和分析就顯得異常重要了。日航作為一家運(yùn)營(yíng)了 50 多年的公司,居然在這方面做得非常差,難怪會(huì)進(jìn)入破產(chǎn)的邊緣。而稻盛和夫用的辦法也很簡(jiǎn)單,先讓數(shù)據(jù)能夠收集起來,那么后續(xù)依據(jù)數(shù)據(jù)做決策就不再那么困難了。
我剛畢業(yè)的時(shí)候加入的是網(wǎng)易公司,當(dāng)時(shí)負(fù)責(zé)做網(wǎng)易郵箱的底層 Restful Api。當(dāng)時(shí)我們部門的老大郭常圳常常講要「monitor your data」,我當(dāng)時(shí)作為一個(gè)應(yīng)屆生,剛開始對(duì)這個(gè)口號(hào)不太理解。我當(dāng)時(shí)想:數(shù)據(jù)當(dāng)然是重要的,但是也不值得老掛在嘴邊講吧?但是后來我才慢慢發(fā)現(xiàn),這其實(shí)確實(shí)非常重要。
作為程序員,我們開發(fā)一個(gè)后臺(tái)服務(wù),大家有沒有測(cè)試過以下數(shù)據(jù):
當(dāng)時(shí)郭常圳帶領(lǐng)我們,將我們做的每一個(gè)服務(wù)都進(jìn)行了詳細(xì)的壓力測(cè)試,我們對(duì)于我們的服務(wù)承受力有著非常詳細(xì)的數(shù)據(jù)測(cè)試結(jié)果。
這一點(diǎn)每個(gè)公司都做到了嗎?其實(shí)不是。我還記得我們后來和網(wǎng)易的網(wǎng)站部共同開發(fā)網(wǎng)易微博后臺(tái),當(dāng)時(shí)我們因?yàn)橐獙⑧]箱微博和網(wǎng)易微博數(shù)據(jù)合并,需要進(jìn)行在線的數(shù)據(jù)遷移。我當(dāng)時(shí)負(fù)責(zé)數(shù)據(jù)遷移工作,在我向網(wǎng)站部詢問我應(yīng)該用多大的請(qǐng)求壓力來遷移數(shù)據(jù)時(shí),對(duì)方只是回答:“盡量慢點(diǎn)”。
我當(dāng)時(shí)就傻掉了,誰能告訴我什么叫 “盡量慢點(diǎn)”?于是我只能小心翼翼,一點(diǎn)一點(diǎn)地增加壓力,最后我發(fā)現(xiàn),他們的數(shù)據(jù)庫(kù)其實(shí)一點(diǎn)壓力都沒有,我根本就不用控制壓力都不會(huì)影響線上服務(wù)。但是,由于他們「monitor your data」做得不好,所以他們對(duì)任何可能的壓力都心懷恐懼,不敢亂動(dòng)。
后來我也私下和他們求證了一下,他們果然完全不知道他們的服務(wù)器能夠承受多少 QPS。大家也可以問問自己公司的服務(wù)器同事,自己的服務(wù)器能夠承受的 QPS 是多少,就知道自己的公司在這一點(diǎn)上做得好不好了。
而現(xiàn)在,數(shù)據(jù)驅(qū)動(dòng)的思維更加深入到互聯(lián)網(wǎng)開發(fā)中了。因此,國(guó)外的 New Relic 這類公司,才可以獲得上億美金的估值。 New Relic 的工作原理是放很多小的探針到你的程序代碼中,這些探針收集到非常詳細(xì)的程序運(yùn)行數(shù)據(jù),就可以為你優(yōu)化服務(wù)器提供有效的建議。
如果說技術(shù)上的「monitor your data」只是影響服務(wù)穩(wěn)定性的話,那么產(chǎn)品上的「monitor your data」就會(huì)決定產(chǎn)品的成敗了。
我認(rèn)為產(chǎn)品上的數(shù)據(jù)分析有以下作用。
在互聯(lián)網(wǎng)行業(yè)工作這么多年,我發(fā)現(xiàn)了一個(gè)秘密,就是任何新的互聯(lián)網(wǎng)產(chǎn)品,都不是靠用戶調(diào)研或數(shù)據(jù)分析來的。
因?yàn)橛脩粽{(diào)研非常難做,稍不注意就會(huì)被別的因素影響,所以喬布斯曾經(jīng)說他從來不做用戶調(diào)研。而數(shù)據(jù)分析對(duì)于一個(gè)新產(chǎn)品來說,會(huì)陷入無米之炊的尷尬境地。
所以很多新產(chǎn)品的第一版都是創(chuàng)始人或產(chǎn)品經(jīng)理「拍腦袋」的產(chǎn)物。這一點(diǎn)其實(shí)是非?,F(xiàn)實(shí)的做法?!概哪X袋」依賴于創(chuàng)始人的經(jīng)驗(yàn),如果創(chuàng)始人經(jīng)驗(yàn)豐富,那么很可能產(chǎn)品對(duì)了 7 分,錯(cuò)了 3 分。另外那 3 分的錯(cuò)誤假設(shè),可以在產(chǎn)品上線后迅速通過數(shù)據(jù)來驗(yàn)證,從而迭代修正這些假設(shè)。
所以數(shù)據(jù)分析對(duì)于產(chǎn)品來說,第一大作用就是驗(yàn)證(或推翻)產(chǎn)品經(jīng)理的假設(shè),從而使產(chǎn)品能夠得到快速迭代改進(jìn)。
很多時(shí)候,數(shù)據(jù)分析不光會(huì)得到你的產(chǎn)品本身的狀態(tài),還會(huì)發(fā)現(xiàn)一些新的機(jī)會(huì)。借助這些新發(fā)現(xiàn),我們對(duì)產(chǎn)品產(chǎn)生新的認(rèn)識(shí)。
拿我們的創(chuàng)業(yè)產(chǎn)品「小猿搜題」來說,我們一直在監(jiān)控它的 NPS(凈推薦值) 數(shù)據(jù)。為了把數(shù)據(jù)分析得更加細(xì)致,我們把打 NPS 0 分的用戶行為進(jìn)行了抽樣分析,最終我們發(fā)現(xiàn),雖然我們的 slogon 叫「初高中拍照搜題利器」,但是卻有大量的小學(xué)生用戶在使用我們的產(chǎn)品。
我們并沒有為小學(xué)生做任何的產(chǎn)品上的優(yōu)化,所以造成了這部分用戶沒有被很好的滿足。所以,我們最近在內(nèi)容和搜索算法上針對(duì)小學(xué)生做了特別優(yōu)化,同時(shí)將產(chǎn)品的 slogon 修改成了「中小學(xué)拍照搜題利器」。
如果沒有細(xì)致的數(shù)據(jù)分析,我們可能就錯(cuò)過了幾千萬的潛在用戶。
一個(gè)產(chǎn)品會(huì)有非常多的指標(biāo),日活,月活,留存率,年齡分布,用戶使用習(xí)慣等,產(chǎn)品經(jīng)理應(yīng)該對(duì)這些指標(biāo)了如指掌,在對(duì)這些數(shù)據(jù)熟悉之后,產(chǎn)品經(jīng)理就可以發(fā)現(xiàn)數(shù)據(jù)中的變化規(guī)律或異常點(diǎn),從而對(duì)產(chǎn)品帶來一些改進(jìn)。
在這一點(diǎn)上,我喜歡講林彪的一個(gè)故事。
1948 年遼沈戰(zhàn)役開始之后,在東北野戰(zhàn)軍前線指揮所里面,每天深夜都要進(jìn)行例常的 “每日軍情匯報(bào)”:由值班參謀讀出下屬各個(gè)縱隊(duì)、師、團(tuán)用電臺(tái)報(bào)告的當(dāng)日戰(zhàn)況和繳獲情況。
那幾乎是重復(fù)著千篇一律的枯燥無味的數(shù)據(jù):每支部隊(duì)殲敵多少、俘虜多少;繳獲的火炮、車輛多少、槍支、物資多少。
司令員林彪的要求很細(xì),俘虜要分清軍官和士兵,繳獲的槍支,要統(tǒng)計(jì)出機(jī)槍、長(zhǎng)槍、短槍;擊毀和繳獲尚能使用的汽車,也要分出大小和類別。
經(jīng)過一天緊張的戰(zhàn)斗指揮工作,人們都非常疲勞。整個(gè)作戰(zhàn)室里面估計(jì)只有定下這個(gè)規(guī)矩的司令員林彪本人、還有那個(gè)讀電報(bào)的倒霉參謀在用心留意。
1948 年 10 月 14 日,東北野戰(zhàn)軍以迅雷不及掩耳之勢(shì),僅用了 30 小時(shí)就攻克了對(duì)手原以為可以長(zhǎng)期堅(jiān)守的錦州之后,不顧疲勞,揮師北上與從沈陽(yáng)出援的敵精銳廖耀湘基團(tuán)二十余萬在遼西相遇,一時(shí)間形成了混戰(zhàn)。戰(zhàn)局瞬息萬變,誰勝誰負(fù)實(shí)難預(yù)料。
在大戰(zhàn)緊急中,林彪無論有多忙,仍然堅(jiān)持每晚必作的 “功課”。一天深夜,值班參謀正在讀著下面某師上報(bào)的其下屬部隊(duì)的戰(zhàn)報(bào)。說他們下面的部隊(duì)碰到了一個(gè)不大的遭遇戰(zhàn),殲敵部分、其余逃走。與其它之前所讀的戰(zhàn)報(bào)看上去并無明顯異樣,值班參謀就這樣讀著讀著,林彪突然叫了一聲 “停!” 他的眼里閃出了光芒,問:“剛才念的在胡家窩棚那個(gè)戰(zhàn)斗的繳獲,你們聽到了嗎?”
大家?guī)е獾哪樕铣霈F(xiàn)了茫然,因?yàn)槿绱藨?zhàn)斗每天都有幾十起,不都是差不多一模一樣的枯燥數(shù)字嗎?林彪掃視一周,見無人回答,便接連問了三句:
“為什么那里繳獲的短槍與長(zhǎng)槍的比例比其它戰(zhàn)斗略高”? “為什么那里繳獲和擊毀的小車與大車的比例比其它戰(zhàn)斗略高”? “為什么在那里俘虜和擊斃的軍官與士兵的比例比其它戰(zhàn)斗略高”?
人們還沒有來得及思索,等不及的林彪司令員大步走向掛滿軍用地圖的墻壁,指著地圖上的那個(gè)點(diǎn)說:“我猜想,不,我斷定!敵人的指揮所就在這里!”
隨后林彪口授命令,追擊從胡家窩棚逃走的那部分?jǐn)橙?,并?jiān)決把他們打掉。各部隊(duì)要采取分割包圍的辦法,把失去指揮中樞后會(huì)變得混亂的幾十萬敵軍切成小塊,逐一殲滅。
廖耀湘對(duì)自己靜心隱蔽的精悍野戰(zhàn)司令部那么快就被發(fā)現(xiàn)、打掉,覺得實(shí)在不可思議,認(rèn)為那是一個(gè)偶然事件,輸?shù)貌桓市?。?dāng)他得知林彪是如何得出判斷之后說,“我服了,敗在他手下,不丟人?!?/span>
有些時(shí)候,一個(gè)數(shù)據(jù)中的異常點(diǎn),就是一次決定性的機(jī)會(huì)。而產(chǎn)品經(jīng)理只有做好「monitor your data」,才能抓住這樣的機(jī)會(huì)。
有一些產(chǎn)品,產(chǎn)品經(jīng)理自己就是目標(biāo)用戶,所以可以比較容易用同理心來分析出用戶的需求。但是像我們?cè)愁}庫(kù)這次創(chuàng)業(yè),目標(biāo)用戶都是初高中生,我怎么知道這些 00 后的需求、想法和興趣愛好?
除了多和他們聊天,多用他們喜歡的產(chǎn)品外,分析他們的行為數(shù)據(jù)也至關(guān)重要。郭常圳常常說:“我們做產(chǎn)品要有場(chǎng)景化思維,要還原用戶當(dāng)時(shí)真實(shí)的使用場(chǎng)景”。而通過分析一些用戶使用數(shù)據(jù),就有助于我們還原用戶使用場(chǎng)景。
這種事情做得多了,我們就會(huì)更加了解用戶了,慢慢就形成了產(chǎn)品的直覺。
關(guān)注數(shù)據(jù)和數(shù)據(jù)分析能力,是互聯(lián)網(wǎng)時(shí)代生存的基本技能。不管是做產(chǎn)品還是做技術(shù),養(yǎng)成「monitor your data」的習(xí)慣,都可以讓你將工作做得更加出色。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11