
大數(shù)據(jù)是一種方法論_數(shù)據(jù)分析師考試
忽如一夜春風來,無人不談大數(shù)據(jù)。當然,它有足夠的理由值得被探討,伴隨著技術的迅猛發(fā)展,人類的數(shù)據(jù)也在以指數(shù)級增長――最近兩年,人類產(chǎn)生的所有數(shù)據(jù)量是2010年以前的總和。而以下這個知名結論似乎也已不證自明:“在未來,數(shù)據(jù)將會像土地、石油和資本一樣,成為經(jīng)濟運行中的根本性資源。”
作為阿里巴巴集團副總裁、數(shù)據(jù)委員會會長,車品覺無疑是探討大數(shù)據(jù)的好人選。不同于雨后春筍般冒出來的“大數(shù)據(jù)專家”,車品覺屬于大數(shù)據(jù)實踐方面的先行者。“大數(shù)據(jù)成了人們競相爭議的熱詞,但鮮有人提及這巨大變革中需要具備的能力。也許,我們早該忘掉那些華而不實的喧囂,讓大數(shù)據(jù)真正從‘看’到‘用’,真正‘活’起來。”他這樣總結道。
方法論
不久之前,車品覺把公司的商業(yè)智能部門,改成了數(shù)據(jù)技術與產(chǎn)品部?!斑@是我響應了馬總DT的戰(zhàn)略。”――此前,馬云在內(nèi)部信件中明確了阿里未來的戰(zhàn)略:以走向激活生產(chǎn)力為目的的DT(datatechnology)數(shù)據(jù)時代?!艾F(xiàn)在大部分公司都是中央管理數(shù)據(jù),然后報告做出來給業(yè)務部門去用。在阿里我們的痛苦是,發(fā)現(xiàn)我的部門越來越多,但如果業(yè)務部門越來越不能直接使用數(shù)據(jù),很難成為一個數(shù)據(jù)化公司,所以我把BI(商業(yè)智能)部門干掉,用另外一個方法來處理今天數(shù)據(jù)的理念。”車品覺說。
就在此刻,無數(shù)人正在成為大數(shù)據(jù)的提供者和受益者。那么,究竟何為大數(shù)據(jù)?相比明確的定義,大數(shù)據(jù)似乎更像一種方法論。無論是塔吉特百貨“比父親更早一步獲悉女兒懷孕了”,還是沃爾瑪“啤酒與尿布”的故事,這些營銷經(jīng)典案例都在表明:大數(shù)據(jù)的關鍵不是“量大”,而是“全面”――用多維手段記錄消費者的行為跡象,如同讓偵探一直住在電腦和移動終端里,通過對信息的交叉比對從而形成決策?!耙磺卸急挥涗?,一切都被數(shù)字化”是時代的核心理念。
你能想象阿里巴巴數(shù)據(jù)的海量。據(jù)報道,目前在阿里數(shù)據(jù)平臺事業(yè)部的服務器上,攢下了超過100PB已處理過的數(shù)據(jù)――也就是104857600個GB。這相當于4萬個西雅圖中央圖書館,580億本藏書。阿里巴巴已沉淀了包括交易、金融、SNS、地圖、生活服務等多種類型的數(shù)據(jù),當這些數(shù)據(jù)之間相互關聯(lián),將產(chǎn)生巨大的能量。
變革與爆發(fā)
互聯(lián)網(wǎng)已經(jīng)令工業(yè)文明積攢下的不少經(jīng)驗分崩離析,而大數(shù)據(jù)則又是一記重拳?!拔覀兌际怯袉栴}找數(shù)據(jù),大數(shù)據(jù)時代則不同,其最核心的特質(zhì)是‘用數(shù)據(jù)找機會’”車品覺在書中寫道。
大數(shù)據(jù)降低了決策成本,讓人們在一定程度上繞開因果和理論,直奔應用環(huán)節(jié)。美國《連線》雜志主編克里斯?安德森甚至早在2008年就已斷言:數(shù)據(jù)的洪流或?qū)砝碚摰慕K結?!懊鎸Υ笠?guī)模數(shù)據(jù),科學家‘假設、模型、檢驗’的方法變得過時了?!?/span>
事實上,這并非人類第一次經(jīng)歷信息風暴,也一定不是最后一次。“大數(shù)據(jù)遠未到它的爆發(fā)點。未來,數(shù)據(jù)的種類將超出我們的想象?!避嚻酚X寫道,“今天的大數(shù)據(jù)就是明天的小數(shù)據(jù)?!睅缀蹩梢钥隙?,未來人們所接受的服務,將以更加數(shù)字化和個性化的方式呈現(xiàn)?!拔磥砣祟惖纳砩狭鲃又氖茄阂约皵?shù)據(jù)?!?/span>
車品覺這樣解釋:“以前的數(shù)據(jù)更多集中在外部行為監(jiān)控上,不論是網(wǎng)絡購買行為,還是網(wǎng)上社交行為,都是用戶在‘遠距離’提供數(shù)據(jù),即便這樣,我們?nèi)匀贿€沒有運用好這些數(shù)據(jù)。隨著可穿戴式設備的出現(xiàn),數(shù)據(jù)和人將真正融為一體,類似谷歌眼鏡這樣的設備,將讓我們看到的東西即時數(shù)據(jù)化;類似健康手環(huán)類設備和可以深度收集腦電波數(shù)據(jù)的設備,將隨時會使人體的活動轉化成數(shù)據(jù)。
目前,記錄睡眠狀況只是其初步的應用,在不遠的未來,用數(shù)據(jù)記錄我們每一秒鐘的生活也將成為可能。當萬物皆數(shù)據(jù)的時刻到來,商業(yè)發(fā)展的更多新機會將會出現(xiàn),數(shù)據(jù)將幫助我們更好地做出判斷,比如什么時候最適合吃飯、什么時候身體疲憊適合睡覺和什么時候記憶力最好等,這些都能通過數(shù)據(jù)來進行預判。甚至于,當記錄了人的足夠數(shù)據(jù)之后,數(shù)據(jù)就可能告訴我們此時此刻應該做些什么及最佳的策略?!?/span>
如此看來,大數(shù)據(jù)似乎在一定程度上滿足了人類預測未來的遠古奢望(著名物理學家巴拉巴西則在《爆發(fā)》中指出“人類93%的行為可以預測”)。但正如車品覺所言:“大數(shù)據(jù)的本質(zhì)是人,數(shù)據(jù)研究的極點就是莫測的人性?!蹦獪y也許就意味著盲點。數(shù)據(jù)的確定性和人性的不確定性,或許是平衡未來人類行為天平兩端的砝碼。
大數(shù)據(jù)的邊界
記者:我了解到,在現(xiàn)階段,很多企業(yè)在面對大數(shù)據(jù)時是將信將疑的態(tài)度,這是什么原因?
車品覺:第一是不知道如何起步。很多企業(yè)只知道大數(shù)據(jù)現(xiàn)在很重要,但卻不知道如何去實現(xiàn)。以企業(yè)的BI(商業(yè)智能)部門為例,是否應該有個BI部門,BI部門能為企業(yè)做什么,以及這個部門應該怎么去做?這幾個問題對很多企業(yè)來說答案都是不清楚的,這必然會導致企業(yè)對大數(shù)據(jù)存在疑問。
還有一部分企業(yè),雖然本身有BI部門,但可能連一些KPI指標都不一定能定得好,他們在企業(yè)中所扮演的角色通常是支持部門,而非創(chuàng)新部門。當大數(shù)據(jù)來臨時,如果突然讓這個部門的角色轉變成為創(chuàng)新部門,他們肯定在一時之間難以轉換;第二是人才不匹配。不知如何起步同時也與人才不匹配的問題相關聯(lián),如果企業(yè)連BI部門是否該存在以及如何定位都不清楚的話,必然也不知道吸引什么樣的人才以及如何去用;第三是沒有數(shù)據(jù)收集策略。過去,企業(yè)大部分是在用數(shù)據(jù),有什么數(shù)據(jù)就用什么。但現(xiàn)在,企業(yè)需要轉型到“你需要什么數(shù)據(jù),收集數(shù)據(jù)的目的是什么?”盡可能比較前瞻的數(shù)據(jù)策略,而不能在需要用數(shù)據(jù)時再去看自己有沒有。
對于企業(yè)來講,首先要明白,自己有什么,然后再根據(jù)自己所擁有和自己缺乏的,去做相應策略調(diào)整。比如有數(shù)據(jù)的可以通過吸引人才來豐富自己的數(shù)據(jù)技術水平,而有技術沒有充足數(shù)據(jù)的,則可以通過合作來完善數(shù)據(jù)。
記者:在一些企業(yè),采集數(shù)據(jù)的人和使用數(shù)據(jù)的人往往是分開的,這會帶來什么影響?
車品覺:在我的新書里面,有一章提及到這個問題?!澳壳霸诖髷?shù)據(jù)方面,無法深入應用的原因在于,從收集到使用的數(shù)據(jù)價值鏈出現(xiàn)了問題。從理論上來說,從收到用的螺旋式循環(huán),只有在先用好數(shù)據(jù)的前提下,然后才能運營數(shù)據(jù)。而現(xiàn)在的情況是,用數(shù)據(jù)的人不知道數(shù)據(jù)從哪里來,做數(shù)據(jù)的人不知道數(shù)據(jù)如何使用。用的人用得不好,采集數(shù)據(jù)的人很難做好數(shù)據(jù)。這一問題造成的結果就是,數(shù)據(jù)量變得越來越大,而且越來越困難有效地使用。”從用到養(yǎng),從養(yǎng)到用的閉環(huán)可以使數(shù)據(jù)“活”起來,數(shù)據(jù)與商業(yè)場景的互動才可以確保企業(yè)不因為數(shù)據(jù)而數(shù)據(jù)。
記者:數(shù)據(jù)收集存在所謂的“邊界”嗎?
車品覺:大數(shù)據(jù)的收集很難定義邊界。因為,大數(shù)據(jù)的應用講求創(chuàng)新以及跨界。所以我主張以企業(yè)自身的業(yè)務需要建立數(shù)據(jù)收集策略。首先,企業(yè)得先清楚知道,什么樣的數(shù)據(jù)對你來說是重要的。其次,再去尋找這個數(shù)據(jù)在哪里。然后,再因此去建立數(shù)據(jù)收集策略。而這個時候,你才有可能知道數(shù)據(jù)收集的一個相對有點輪廓的邊界。但是,這個邊界并非是具象的,而是動態(tài)的。
數(shù)據(jù)無所不在
記者:如何培養(yǎng)一名數(shù)據(jù)分析師的商業(yè)敏感性?
車品覺:我認為,首先不要強調(diào)“數(shù)據(jù)”分析師,分析師的本質(zhì)就是對商業(yè)的敏感性,培養(yǎng)分析師最重要的是“混”在商業(yè)場景中,然后才用數(shù)據(jù)去洞察對錯。做個好的分析師還要把自己作為分析對象,從錯判中找出正判。最后還要注意數(shù)據(jù)切勿濫用,數(shù)據(jù)是一種信仰。分析師最主要的是分析,數(shù)據(jù)只是其中的一種方式。如果過于強調(diào)數(shù)據(jù)分析師的話,反而會失去分析師的本質(zhì)。
記者:能否分享一下你個人最得意的一個數(shù)據(jù)分析案例?
車品覺:小賣家的成長案例――對于小賣家來說,很容易出現(xiàn)一個問題:你能接待的客戶有多少個?我們通過數(shù)據(jù)發(fā)現(xiàn),小賣家隨著接待的客戶量的增長,會出現(xiàn)一個營收的臨界點。在臨界點之前,客戶量越多,賣家的營收就越高;而在過了臨界點之后,營收反而是隨著客戶量的增加而減少的。這個分析能夠給予小賣家以一定指導:對于他們來說,需要了解自己在發(fā)展過程中,那個臨界點在哪里,以及如何去改善。
記者:有觀點認為,大數(shù)據(jù)時代的來臨,將人類從探尋因果關系的邏輯中解放,你怎么看?
車品覺:中國人的思想特別強調(diào)每件事情的本質(zhì)與現(xiàn)象,數(shù)據(jù)挖掘可以從大量數(shù)據(jù)的現(xiàn)象中找出事情發(fā)生的規(guī)律,但要充分理解一件事情的現(xiàn)象也需要從本質(zhì)出發(fā)去洞悉變化。
記者:可穿戴設備,包括未來更先進的人工智能,甚至隨著人類對大腦活動認知的全面理解,將迎來一個數(shù)據(jù)無所不在的世界,你對此有何展望?
車品覺:有了大數(shù)據(jù)之后,人工智能會有一個比較大的突破。未來,人會越來越懂得利用機器來幫助改善今天的生活和工作。也許目前我們比較的是自我的能力,在將來,人與人之間的競爭比較的是機器的能力而非個人的IQ能力。而人工智能的重要原材料也是數(shù)據(jù)。就像在原始社會,人與動物最關鍵的差別之一是,人類懂得使用工具。而從現(xiàn)代社會進化到data時代,與現(xiàn)在區(qū)別在于,未來人類不僅懂得用工具,還要懂得用和營運數(shù)據(jù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10