
脫掉大數(shù)據(jù)外衣 走出大數(shù)據(jù)困境 _數(shù)據(jù)分析師
如果要評(píng)選最近兩年出現(xiàn)在媒體上的十大熱詞,大數(shù)據(jù)毫無(wú)意外會(huì)入選其中。
然而,似乎所有人都意識(shí)到大數(shù)據(jù)的能力,但卻找不到運(yùn)用大數(shù)據(jù)的方法。不管是企業(yè)、政府或者其他社團(tuán)組織,大數(shù)據(jù)離他們那么近,卻那么遠(yuǎn)。
大數(shù)據(jù)成了人們競(jìng)相議論的熱詞,但鮮有人提及這場(chǎng)巨大變革中人們需要具備的能力,無(wú)數(shù)的企業(yè)及個(gè)人忘‘?dāng)?shù)’興嘆。
作為阿里巴巴集團(tuán)商業(yè)智能部副總裁、國(guó)內(nèi)大數(shù)據(jù)實(shí)踐的先行者和數(shù)據(jù)觀察家,擁有十幾年豐富的數(shù)據(jù)實(shí)戰(zhàn)經(jīng)驗(yàn)的車品覺(jué),或許是國(guó)內(nèi)對(duì)于如何利用大數(shù)據(jù)這個(gè)問(wèn)題最有話語(yǔ)權(quán)的那個(gè)人。
未來(lái)是大數(shù)據(jù)的時(shí)代,未來(lái)的競(jìng)爭(zhēng)就是數(shù)據(jù)的競(jìng)爭(zhēng),也許,我們?cè)缭撏裟切┤A而不實(shí)的喧囂,讓大數(shù)據(jù)真正從‘看’到‘用’,真正地活起來(lái)。
為了能讓更多的人學(xué)會(huì)怎么用大數(shù)據(jù),車品覺(jué)寫作了《決戰(zhàn)大數(shù)據(jù)》一書。在該書中,他試圖呈現(xiàn)出自己所理解的大數(shù)據(jù)的本質(zhì)以及如何才能讓企業(yè)走出用大數(shù)據(jù)的困境。
作為一個(gè)跟數(shù)據(jù)打了十幾年交道的人,我深深地知道,從‘看’到‘用’,再?gòu)摹谩健B(yǎng)’運(yùn)營(yíng)數(shù)據(jù),本身就是一個(gè)復(fù)雜的過(guò)程。目前我們最應(yīng)該做的,就是暫且忘記大數(shù)據(jù)的概念。
我希望從一個(gè)實(shí)用的角度來(lái)?yè)荛_(kāi)大數(shù)據(jù)的‘迷霧’,告訴每個(gè)人大數(shù)據(jù)的具體運(yùn)作應(yīng)該是什么樣的;我們要的不是數(shù)據(jù)的量,而是有‘質(zhì)’的量,這正是我寫作本書的重要目的。
脫掉大數(shù)據(jù)外衣
研究、實(shí)踐大數(shù)據(jù)多年的車品覺(jué),對(duì)于大數(shù)據(jù)有著自己獨(dú)特的看法。在他看來(lái),大數(shù)據(jù)就像是國(guó)王的新衣:每個(gè)人都在說(shuō)著動(dòng)聽(tīng)的話,卻沒(méi)有人看到那件衣服。
網(wǎng)絡(luò)上有很多人在談大數(shù)據(jù),但是他們只會(huì)談,不會(huì)做。那些所謂的大數(shù)據(jù)專家,根本就沒(méi)有做過(guò)。
對(duì)于為何沒(méi)有好的辦法去做,車品覺(jué)《決戰(zhàn)大數(shù)據(jù)》一書稱:用數(shù)據(jù)的人不知道大數(shù)據(jù)從哪里來(lái),做數(shù)據(jù)的人不知道大數(shù)據(jù)如何用。
用的人不敢用,因?yàn)榇髷?shù)據(jù)的真實(shí)性;做的人不知道怎么用,因?yàn)榇髷?shù)據(jù)的復(fù)雜性。這一問(wèn)題造成的結(jié)果就是,數(shù)據(jù)量變得越來(lái)越大,而且越來(lái)越無(wú)法有效地被使用。
大數(shù)據(jù)從來(lái)不是免費(fèi)的午餐,伴隨著大數(shù)據(jù)熱潮的到來(lái),關(guān)于大數(shù)據(jù)的一些問(wèn)題也會(huì)層出不窮大數(shù)據(jù)會(huì)夾雜著虛假信息;大數(shù)據(jù)的來(lái)源是多種渠道的,偏倚、隨機(jī)的誤差總是存在
除了上述問(wèn)題,人才的斷層,才是大數(shù)據(jù)所面臨的最嚴(yán)重的問(wèn)題。
現(xiàn)在,收集數(shù)據(jù)的人并不清楚未來(lái)使用數(shù)據(jù)的人要做什么,這是目前大數(shù)據(jù)的一大命門。
車品覺(jué)解釋,在使用大數(shù)據(jù)時(shí),我們通常的做法是先把數(shù)據(jù)收集起來(lái),因?yàn)檫@些數(shù)據(jù)在未來(lái)可能有用。不過(guò),未來(lái)可能有用就注定會(huì)引發(fā)一個(gè)問(wèn)題收集數(shù)據(jù)的人不知道未來(lái)使用數(shù)據(jù)的人要做什么。
這時(shí)候,如果你再問(wèn)收集數(shù)據(jù)的人如何才能更好地收集數(shù)據(jù),那么,數(shù)據(jù)的使用就會(huì)陷入一個(gè)死循環(huán)。
在書中,車品覺(jué)舉了搜索感冒藥的例子,來(lái)佐證自己的這一論斷,他寫道:比如我在搜索引擎里面發(fā)現(xiàn)某個(gè)地方搜索感冒藥的頻率非常高,于是,我就斷定這個(gè)地方可能出現(xiàn)了流行性感冒。但是,這樣是否就是正確地使用大數(shù)據(jù)呢?
答案是否定的。因此,車品覺(jué)說(shuō),生產(chǎn)數(shù)據(jù)的人,并沒(méi)有給使用者這個(gè)數(shù)據(jù)的人一些參數(shù),而使用者在其使用之后如果效果不好,就會(huì)面臨損失。而這樣的信息不對(duì)稱,最終受到損害的是那些使用數(shù)據(jù)的人。
問(wèn)題就是答案
在車品覺(jué)看來(lái),企業(yè)如果想要真正用好大數(shù)據(jù),需要看清楚大數(shù)據(jù)能給企業(yè)帶來(lái)怎樣的價(jià)值,以及它的本質(zhì)到底是什么。
當(dāng)回歸到這個(gè)問(wèn)題時(shí),如果你自己都沒(méi)有弄清楚,那么就算給你再多的數(shù)據(jù),你也只會(huì)手足無(wú)措。
那么,大數(shù)據(jù)究竟能給企業(yè)帶來(lái)怎樣的價(jià)值呢?大數(shù)據(jù)的本質(zhì)又是什么呢?在《決戰(zhàn)大數(shù)據(jù)》一書中,車品覺(jué)給出了自己的理解:大數(shù)據(jù)能讓企業(yè)合理地分配資源,以及帶來(lái)更好的用戶體驗(yàn),而大數(shù)據(jù)的本質(zhì)則在于還原用戶的真實(shí)需求。
數(shù)據(jù)收集實(shí)現(xiàn)的是企業(yè)資源的合理分配,例如,把推薦系統(tǒng)做得更好,讓更多的用戶可以有更高的概率找到他們想要的商品,這樣就能提高商品的購(gòu)買率,為企業(yè)創(chuàng)造更大的經(jīng)濟(jì)效益;數(shù)據(jù)收集實(shí)現(xiàn)的也是顧客體驗(yàn)的提升,例如,便捷的搜索引擎可以使顧客更容易地找到他們所需要的商品,為他們創(chuàng)造更加優(yōu)質(zhì)的購(gòu)物體驗(yàn)。
而關(guān)于大數(shù)據(jù)本質(zhì)的判斷,車品覺(jué)則在書中作出了如下論斷:數(shù)據(jù)的本質(zhì)就是還原,這是收集元數(shù)據(jù)的關(guān)鍵方法,如果沒(méi)有這個(gè)概念,你就不知道未來(lái)你需要什么數(shù)據(jù),就更不懂得什么是重要的數(shù)據(jù),到最后只會(huì)產(chǎn)生越來(lái)越多的無(wú)從辨別的數(shù)據(jù)。
在車品覺(jué)看來(lái),數(shù)據(jù)的這一還原功能,就像是一個(gè)瞄準(zhǔn)器,瞄準(zhǔn)消費(fèi)者的購(gòu)物行為,并且以數(shù)據(jù)的形式記錄下來(lái)。
如何更好地理解用戶在各個(gè)不同場(chǎng)景下表現(xiàn)出來(lái)的不同需求,如何更好地理解數(shù)據(jù)融合后產(chǎn)生的價(jià)值,將是未來(lái)商業(yè)中每一個(gè)企業(yè)都必須考慮的問(wèn)題。
阿里巴巴的秘訣
作為阿里巴巴集團(tuán)副總裁和數(shù)據(jù)委員會(huì)會(huì)長(zhǎng),車品覺(jué)是少數(shù)幾個(gè)對(duì)阿里巴巴從IT戰(zhàn)略轉(zhuǎn)型到DT戰(zhàn)略(大數(shù)據(jù)戰(zhàn)略)享有發(fā)言權(quán)的人之一。在《決戰(zhàn)大數(shù)據(jù)》一書中,他總結(jié)了阿里巴巴在踐行DT戰(zhàn)略中的經(jīng)驗(yàn)分享給后來(lái)者。
當(dāng)談到阿里巴巴的數(shù)據(jù)化運(yùn)營(yíng)時(shí),我首先想到的就是‘人’,我們太多的時(shí)間都在討論我們應(yīng)該做什么,卻很少會(huì)反過(guò)來(lái)想如果讓數(shù)據(jù)化運(yùn)營(yíng)落地首先要從‘人’做起。
因此,在《決戰(zhàn)大數(shù)據(jù)》一書中,車品覺(jué)首先跟讀者分享的,便是阿里巴巴數(shù)據(jù)化運(yùn)營(yíng)的內(nèi)功混、通、曬這三板斧。
所謂的混,是指數(shù)據(jù)分析師要跟管理業(yè)務(wù)部門的人打成一片。車品覺(jué)認(rèn)為,作為數(shù)據(jù)分析師,如果不和業(yè)務(wù)部門混在一起,就不會(huì)知道業(yè)務(wù)部門在做什么,商業(yè)敏感是要靠‘混’出來(lái)的,它并不會(huì)憑空出現(xiàn)在你的面前。
只有具備商業(yè)敏感的數(shù)據(jù)分析師,才會(huì)懂得使用什么數(shù)據(jù)來(lái)驅(qū)動(dòng)公司實(shí)現(xiàn)經(jīng)營(yíng)目標(biāo),現(xiàn)在在公司里,我最不希望看到數(shù)據(jù)分析師長(zhǎng)時(shí)間坐在自己的位置上埋頭苦干,我更愿意看到他們和業(yè)務(wù)人員混成一片。
而車品覺(jué)所謂的通,則是指企業(yè)判斷數(shù)據(jù)是否有價(jià)值的一種能力,如果做到了這一點(diǎn),就做到了通。
堅(jiān)持帶著業(yè)務(wù)問(wèn)題來(lái)觀察數(shù)據(jù)或者帶著數(shù)據(jù)來(lái)觀察業(yè)務(wù),兼?zhèn)涠叩拿舾?,就是做到了‘通’,有些人在很短的時(shí)間里就能判斷出數(shù)據(jù)是否有價(jià)值,就是因?yàn)椤焱ā恕?/span>
但是,想要打通數(shù)據(jù),并不容易。在書中,車品覺(jué)提出了打通數(shù)據(jù)的三個(gè)關(guān)鍵點(diǎn):首先是要做好數(shù)據(jù)安全工作,以保證公司內(nèi)部不同職位的員工可以查看不同的數(shù)據(jù);然后,統(tǒng)一不同部門的數(shù)據(jù)標(biāo)準(zhǔn),使公司內(nèi)部數(shù)據(jù)有統(tǒng)一的接口,避免混亂;最后,關(guān)聯(lián)不同部門的數(shù)據(jù),創(chuàng)造機(jī)會(huì)讓數(shù)據(jù)的運(yùn)營(yíng)可以擴(kuò)散至部門之外。
在打通數(shù)據(jù)之后,阿里巴巴所做的便是曬數(shù)據(jù)。在‘曬’數(shù)據(jù)層面上,通常是通過(guò)數(shù)據(jù)來(lái)回答這幾個(gè)問(wèn)題:業(yè)務(wù)好還是不好;數(shù)據(jù)如何改變可以讓業(yè)務(wù)更好;如何利用數(shù)據(jù)幫助業(yè)務(wù)發(fā)現(xiàn)機(jī)會(huì),甚至產(chǎn)生出新的商業(yè)價(jià)值。
混、通、曬這三板斧,是阿里巴巴在實(shí)施大數(shù)據(jù)戰(zhàn)略時(shí)的核心法寶,車品覺(jué)說(shuō):它們其實(shí)是配合了數(shù)據(jù)方法論與人的修煉,能做到借事修人,讓用數(shù)據(jù)的人在數(shù)據(jù)中成長(zhǎng),循序漸進(jìn)地讓每個(gè)人成為數(shù)據(jù)分析師。
當(dāng)然,這三板斧只是阿里巴巴大數(shù)據(jù)戰(zhàn)略的內(nèi)核部分。在書中,車品覺(jué)還提到了實(shí)施大數(shù)據(jù)戰(zhàn)略所需要的外延策略,而要了解大數(shù)據(jù)的最佳實(shí)現(xiàn)方式,無(wú)疑是直接閱讀他所撰寫的《決戰(zhàn)大數(shù)據(jù)》一書。
數(shù)據(jù)的5大價(jià)值
01.識(shí)別和串聯(lián)價(jià)值
能夠辨別關(guān)系和身份的數(shù)據(jù)是最重要的,這些數(shù)據(jù)應(yīng)該是有多少存多少,永遠(yuǎn)不要放棄。在大數(shù)據(jù)時(shí)代,越能夠還原用戶真實(shí)身份和真實(shí)行為的數(shù)據(jù),就越能夠讓企業(yè)在大數(shù)據(jù)競(jìng)爭(zhēng)中保持戰(zhàn)略優(yōu)勢(shì)。
02.描述價(jià)值
描述業(yè)務(wù)的數(shù)據(jù)包括成交額、成交用戶數(shù)、網(wǎng)站的流量、網(wǎng)站詳細(xì)頁(yè)的流量、成交的賣家數(shù)等等,我們可以通過(guò)數(shù)據(jù)對(duì)業(yè)務(wù)的描述來(lái)觀察交易活動(dòng)是否正常。
03.時(shí)間價(jià)值
數(shù)據(jù)的時(shí)間價(jià)值是大數(shù)據(jù)運(yùn)用最直接的體現(xiàn),通過(guò)對(duì)時(shí)間的分析,能夠很好地歸納出一個(gè)用戶對(duì)于一種場(chǎng)景的偏好。
04.預(yù)測(cè)價(jià)值
數(shù)據(jù)的預(yù)測(cè)價(jià)值分成兩個(gè)部分,第一是對(duì)于某一個(gè)單品進(jìn)行預(yù)測(cè),第二是數(shù)據(jù)對(duì)于經(jīng)營(yíng)狀況的預(yù)測(cè),即對(duì)公司的整體經(jīng)營(yíng)進(jìn)行預(yù)測(cè),并能夠用預(yù)測(cè)的結(jié)論指導(dǎo)公司的經(jīng)營(yíng)策略。
05.產(chǎn)出數(shù)據(jù)的價(jià)值
從數(shù)據(jù)的價(jià)值來(lái)說(shuō),很多數(shù)據(jù)本身并沒(méi)有特別的含義,但是在幾個(gè)數(shù)據(jù)組合在一起或者對(duì)部分?jǐn)?shù)據(jù)進(jìn)行整合之后,就產(chǎn)生了新的價(jià)值。文章來(lái)自:CDA數(shù)據(jù)分析師培訓(xùn)官網(wǎng)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10