
阿里巴巴分析企業(yè)如何利用大數(shù)據(jù)解決問題
從以前必須求老板看看他做的數(shù)據(jù),到現(xiàn)在老板會挑剔他準備的數(shù)據(jù)沒有用,他認為,這是企業(yè)利用數(shù)據(jù)進化的結(jié)果,他發(fā)現(xiàn)美國許多企業(yè)不只擁有數(shù)據(jù)科學家,甚至還多了決策科學家,負責用數(shù)據(jù)替公司確定決策。
市值全球第2名的阿里巴巴,旗下諸多服務包括阿里巴巴B2B平臺、淘寶網(wǎng)C2C平臺、天貓商城B2C平臺,還有全國最大的第三方支付平臺支付寶等, 而這些服務所產(chǎn)生的數(shù)據(jù)全歸一個人管,他就是阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部副總裁車品覺。
車品覺以8年打滾于數(shù)據(jù)界的經(jīng)驗,以及在阿里巴巴實務應用下發(fā)展出「數(shù)據(jù)10誡」,現(xiàn)已修正到了4.0版本。作為阿里巴巴集團的數(shù)據(jù)最高領導人,車品覺說,他是虔誠的數(shù)據(jù)信仰者,喜歡用數(shù)據(jù)做決策解決問題。
企業(yè)要用數(shù)據(jù)解決問題,首先要履行數(shù)據(jù)10誡的第一條,清楚定義欲分析解決的問題是什么?車品覺舉例,現(xiàn)在中國各大都市都極力發(fā)展智慧城市,但是對于城市來說,什么樣的建設或是應用才能稱為智慧,他說,如果沒有定義智慧城市,那就難以衡量專案的成效,「定義問題是從知道到不知道的過程?!?/span>
雖然數(shù)據(jù)科學議題很熱,企業(yè)有許多問題都能從數(shù)據(jù)中找出答案,但也「不是每一個問題都是數(shù)據(jù)的問題,不是每一個問題都是大數(shù)據(jù)的問題。」車品覺說,要知道該問題是否能靠數(shù)據(jù)解決,必須先思考5件事,以明確了解需要解決的問題,「這是什么問題?誰的問題?這問題你來解決嗎?需要現(xiàn)在解決嗎?數(shù)據(jù)能解決嗎?」當這5個問題的答案皆為是,那或許就是當下可以靠數(shù)據(jù)解決的問題。
阿里巴巴大數(shù)據(jù)心法:數(shù)據(jù)10誡 4.0版
1. 一切從定義「問題」開始,已知到未知的過程
2. 先假設數(shù)據(jù)都能獲取來思考問題,包括衍生及循環(huán)思考
3. 讓數(shù)據(jù)來幫助描述、診斷、預測以及行動建議
4.「快+準」的數(shù)據(jù)能從已知規(guī)律中產(chǎn)生價值
5.「廣+亂」的數(shù)據(jù)能從發(fā)現(xiàn)中顛覆已知
6. 大數(shù)據(jù)不是獨奏,而是不斷連接無處不在的資料
7. 大數(shù)據(jù)技術(shù)就是加速和累積「數(shù)據(jù)、分析與服務」的能力
8. 數(shù)據(jù)生態(tài)的連接需要建立標準與規(guī)范
9. 大數(shù)據(jù)是來自很多小數(shù)據(jù)的組合
10. 數(shù)據(jù)是一種信仰!
然而不少企業(yè)知道要解決的問題,卻苦無解決問題的數(shù)據(jù),車品覺認為,思考問題解法時,不能把沒有數(shù)據(jù)當作借口,因為現(xiàn)在可以取得數(shù)據(jù)的方式太多了。車品覺舉例,調(diào)查研討會的品質(zhì)可以用最傳統(tǒng)的問卷,也能用科技的方法解決,只要在場內(nèi)跟場外架設手機探測器掃描會眾手機ID,便能記錄會眾進出場內(nèi)外的狀況,進一步分析演講品質(zhì)。清楚定義分析的問題,不怕沒數(shù)據(jù)。
車品覺另外舉了「快的打車」App的例子,他們想解決司機拒載乘客的問題,因此提供了評價的機制,當司機拒載的時候乘客得以反應,而這些評價數(shù)據(jù)也是在思考想解決的問題后才出現(xiàn)。所以「只要問題定義好, 需要的數(shù)據(jù)都存在,思考應該凌駕在數(shù)據(jù)技術(shù)之上,思考方法才是產(chǎn)生價值最重要的一點?!?/span>
因此數(shù)據(jù)并非不存在,重點在于企業(yè)能否周全收集數(shù)據(jù),為了更清楚理解數(shù)據(jù),歸納不同類型數(shù)據(jù)能發(fā)揮長處的時機,他用不同面向剖析數(shù)據(jù)。
首先,車品覺以能否預料以及意見正反作為X與Y軸,畫出四大象限描述企業(yè)所收集的數(shù)據(jù)。他舉例,餐廳紀錄客人的餐點,這是收集Expect Positive(預料中的正面)的數(shù)據(jù),而Expect Negative(預料中的反面)的例子則是客人沒吃完餐點的紀錄。另一個電子商務例子則是,當有人到周大福買珠寶,記錄了客戶買了哪一個商品,這就是Expect Positive的紀錄,而調(diào)查客戶看了哪5個商品才買到了想要的戒指,則是Expect Negative,車品覺說,Expect Negative對于機器學習是重要的訓練樣本。
另外,他也依可用性將數(shù)據(jù)分為「快+準」和「廣+亂」2類?!缚欤珳省沟臄?shù)據(jù)是那些企業(yè)能很快速地取得,或是經(jīng)常性使用的數(shù)據(jù),能從已知的規(guī)律中產(chǎn)生價值,能做的改善是加速數(shù)據(jù)更新的頻率,抑或是加速數(shù)據(jù)整合的速度,以更快速的做出決策,或許過去須3小時才更新數(shù)據(jù),改進后期望能進步到即時。他認為,「快+準」的數(shù)據(jù)要思考的議題是「有沒有、準不準、細不細、全不全、穩(wěn)不穩(wěn)以及快不快?!?/span>
相對于「快+準」則是「廣+亂」,「廣+亂」的數(shù)據(jù)就是現(xiàn)今稱作大數(shù)據(jù)的類型,來源廣泛且格式多元,特性是能從發(fā)現(xiàn)中顛覆已知,車品覺認為,從「廣+亂」的數(shù)據(jù)中,才能發(fā)現(xiàn)意料之外的事情,因此從這些數(shù)據(jù)提煉出來的信息也比較有明顯價值。
能有意料之外的發(fā)現(xiàn),正是數(shù)據(jù)的價值,品覺認為,大部分人思考方法是演繹法形式,從已知推論未知,但是運用大數(shù)據(jù)技術(shù)可以逆轉(zhuǎn)這個程序。他以營銷作為例子,過去一項產(chǎn)品的營銷,企業(yè)會主動設定目標人群,比如是三十幾歲的女性等,針對這群人投放廣告,但是現(xiàn)在的方法,可以透過歷史的銷售數(shù)據(jù),找出購買行為的特征,逆向圈出目標人群。
車品覺也用時間維度分析數(shù)據(jù)特性,不同周期的數(shù)據(jù)所提供的價值也不一樣,以天為周期的數(shù)據(jù)可以描述狀況,而1周需要知道的則是,上星期做的決策是正確還是錯誤的,1個月就必須了解競爭對手的策略與狀態(tài),1季就需要檢討組織是否達到設定的KPI。
阿里巴巴使用數(shù)據(jù)最大的分水嶺在于「從看到用」,從數(shù)據(jù)用來分析現(xiàn)象,到用于控制全自動化的設備上。車品覺分享前些日子所做的工作,正是以自動化無人機器取代一整個既有的部門,他說,在那個時候他領悟到,數(shù)據(jù)的目的直接影響對數(shù)據(jù)品質(zhì)的要求,因為用于分析觀察還是實際使用,需要的數(shù)據(jù)屬于不同等級。
他提到,像是無人機器的動作控制,需要多個復雜模型交互作用,而穩(wěn)定且充足的數(shù)據(jù)來源是必要條件,在他們找出實際可用數(shù)據(jù)的過程,發(fā)現(xiàn)有很多數(shù)據(jù)的基本功沒扎穩(wěn),像是數(shù)據(jù)須達高可用性等項目,需要一塊一塊的補上。
而當企業(yè)達到?jīng)]有數(shù)據(jù)就無法提供服務的狀態(tài),就如同無人機器沒有足夠的數(shù)據(jù)就無法運作,車品覺認為,「此時企業(yè)就走在對的道路上」。也因為數(shù)據(jù)的重要性提升,企業(yè)看待數(shù)據(jù)中斷應該要等同于IT系統(tǒng)錯誤一樣的嚴重,一旦數(shù)據(jù)出錯就必須有人負責。
不只是無人機器的控制需要有非常完整的數(shù)據(jù),在很多情境下,當沒有完整的數(shù)據(jù)描述事件發(fā)生的細節(jié),企業(yè)往往會把事件原因歸于運氣。在零售業(yè)中,顧客的購物欲望可能起始于朋友推薦,經(jīng)過了商品搜尋以及品牌官網(wǎng)收集信息,顧客逛了電子商務網(wǎng)站,最后卻在大賣場購買,這樣的過程或許看似大賣場比較幸運最后成功銷售商品給這位顧客,但其實不然,過程中有許多企業(yè)應該要知道的數(shù)據(jù)。像是顧客信用卡的還款時間,因為要繳交信用卡的費用感到心痛,因此購物欲望下降,此時要顧客消費是困難重重,這雖然只是一項小數(shù)據(jù),卻也是整個顧客購物鏈很重要的一環(huán),車品覺認為,企業(yè)應該檢視所收集的數(shù)據(jù)是否完整,因為企業(yè)忽略顧客的數(shù)據(jù),有時候?qū)Y(jié)果影響很大。
「大數(shù)據(jù)是一種能力,企業(yè)要有愛因斯坦的大腦以及健壯的身體」,大數(shù)據(jù)能力組成的因素有思想、血液以及骨骼,思想就是數(shù)據(jù)運算邏輯或模型等,血液則是企業(yè)的數(shù)據(jù),而骨骼便是最基礎的硬件設備。
從以前必須求老板看看他做的數(shù)據(jù),到現(xiàn)在老板會挑剔他準備的數(shù)據(jù)沒有用,他認為,這是企業(yè)利用數(shù)據(jù)進化的結(jié)果,他發(fā)現(xiàn)美國許多企業(yè)不只擁有數(shù)據(jù)科學家,甚至還多了決策科學家,負責用數(shù)據(jù)替公司確定決策。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11