
運營商數(shù)據(jù)量最大但不是大數(shù)據(jù)_數(shù)據(jù)分析師
2014年3月8日,在大數(shù)據(jù)領(lǐng)域非常有名的阿里巴巴數(shù)據(jù)分析靈魂人物車品覺接受了媒體的專訪,就數(shù)據(jù)領(lǐng)域的問題談了自己的認識,應該對很多正在進行大數(shù)據(jù)應用的專業(yè)人士有很大幫助。
大數(shù)據(jù)應用很重要的問題是:關(guān)于他的定位
大數(shù)據(jù)里面有一塊非常重要的數(shù)據(jù),而可能對未來的一兩年特別重要,就是我們所講的“關(guān)于他的定位”。我想知道一個人是誰?你是不是你?你在PC前面買了一件東西,不一定代表是你買的,有可能是你的老公或者是你的老婆在用你的PC去買,怎么知道到你就是你?這個在收集數(shù)據(jù)的時候相當重要。
另外,當我知道你就是你的時候?我下一個問題是你在PC或者手機上做了什么行為?以及你在哪里做了什么行為?這個對數(shù)據(jù)上的還原非常重要,否則的話很多東西是無法還原的。比如說你買這個東西是在公司里面,在移動還是不移動。我現(xiàn)在非常想知道一個人在用手機來買東西的時候,到底他在移動的還是在定在一個地方買東西的,這個數(shù)據(jù)對我非常重要。所以對一個點上的定位非常重要。
其實整個大數(shù)據(jù)來講,用一個比較簡單的說法是,當你去看完電影之后的五分鐘,你餓了你想吃東西了,淘點點突然在這個時間給你一個信息說,旁邊有個什么茶餐廳很好吃的,那個時候就是最對的時候,只要你送他一個優(yōu)惠券可能就會去了。所以你到底怎么樣去利用這個時間點的信息去推送更及時的東西,不一定是廣告,很重要。但是這個首先要知道他準確的地理位置。
當我們講大數(shù)據(jù)的時候,并不是一堆的數(shù)據(jù),實際上是分為幾塊很重要的數(shù)據(jù)。第一個,你怎么去識別一個人,他就是他?另外一個,你怎么知道他在哪里他在做什么行為?第三個,這個行為是什么?再者,我們想知道他當時的關(guān)系是什么?這四種數(shù)據(jù)對未來很重要的。
過去PC的時代,對數(shù)據(jù)定位是比較少關(guān)注,今天會變得越來越重要。一個數(shù)據(jù)很有意思,在營銷上的成功率。如果我們拿到準確的當?shù)沫h(huán)境的話,我們會可以增加132%,如果我們很準確的知道人文數(shù)據(jù),就是他是男的還是女的還是什么年紀等等,我們可以增長5倍。但是當我們知道他的行為數(shù)據(jù)的時候,我們就可以增加12倍。這三組數(shù)據(jù)是以行為數(shù)據(jù)最容易識別一個人的,但是他做什么之外還要知道他是誰,然后知道他的環(huán)境是什么樣。
最重要的東西是三者的交叉。一個三十歲的男生,他在電影院剛出來的五分鐘,他剛?cè)タ赐觌娪暗倪@個時候,你猜你應該推送一個什么樣的東西給他,會讓他滿意呢?這個精準性對推送的整個營銷會產(chǎn)生一種倍數(shù)增長的作用。
舉個例子:早上的時候,我看見朋友穿了一件T恤覺得挺好看的,所以回到淘寶搜索一下T恤出來1萬個結(jié)果,然后我老板在我旁邊說開會,我站起來就去開會了,開會的時候我還是拿個手機過來看看,再搜這件T恤,結(jié)果旁邊有個廣告跟我說有個手表很便宜了,就買了一個手表。今天,我們大部分記錄數(shù)據(jù)的方法,都只會記錄有一個人買了一個手表一百元,但是,實際上整個東西的還原應該是剛才的樣子。早上我的朋友穿了一件T恤我去淘寶搜索,我們不知道他為什么進來搜索,特別他為什么會停下來。但是,我們很多時候分析,會假定他停下來肯定是沒找到東西,其實不一定的,可能旁邊由于環(huán)境上的影響,就沒有去再繼續(xù)搜索了。后來時間許可之后,我拿個手機出來,問題是這個手機跟PC是沒關(guān)系的,還以為另外一個人進來,因為我沒有留下烙印,跳了一個東西出來說這個手表很便宜,已經(jīng)把我剛才想找T恤的意圖打破了,然后我就去買了一個手表。
整個鏈條中多少的東西無法還原,整個大數(shù)據(jù)我們說都很清楚了,其實我們也不是很清楚。所以,不要自己騙自己說,大數(shù)據(jù)什么都知道。很多的數(shù)據(jù),事實上都還原不過來,真實的人告訴你的時候你會發(fā)現(xiàn),是這樣的。
昨天我臺下問到樣品數(shù)據(jù)跟大數(shù)據(jù)的關(guān)系,很多人在鄙視樣品數(shù)據(jù)了,認為已經(jīng)有大數(shù)據(jù)了,沒必要發(fā)一個問卷出來問一下人家。但是我覺得,其實我們很多時候是用問卷的方法來找出一些方向,再用大數(shù)據(jù)來驗證。有時候,大數(shù)據(jù)里面看到一些數(shù)據(jù)無法解釋,會找一個問卷來去問問。因為什么?態(tài)度是沒有辦法用行為數(shù)據(jù)來知道的,就是一個人的態(tài)度只能在你一對一或者真的是問他的時候才能問出這個態(tài)度。所以,用樣品數(shù)據(jù)可能會找到一些方向,在大數(shù)據(jù)里面尋找這個可能性的結(jié)果。
不要因為大數(shù)據(jù)出現(xiàn)之后,我們就對小數(shù)據(jù)或者對樣品數(shù)據(jù)突然之間就據(jù)的很鄙視。沒有必要鄙視的,其實都是一種工具。其實,大數(shù)據(jù)讓我們用更多的角度來看一件事,并不是萬能的。其實大數(shù)據(jù)并沒有這么厲害,但是我們在努力,讓大數(shù)據(jù)能再推到可以服務更多的社會大眾。
心理狀態(tài)數(shù)據(jù)很重要,但用起來很難
我們記錄一個人是偏向于白天買東西還是晚上買東西,買東西的時間點到底習慣是怎么樣?我們也把這個叫做他的心理狀態(tài),當時所買這個東西的心理狀態(tài),我們還沒有到這個層次,但是有些大數(shù)據(jù)的美國專家已經(jīng)到了這個層次,他的心理的狀態(tài)對這個購買的影響,但是我們沒有到。
一個數(shù)據(jù)沒有人的屬性的時候意義小
以前為什么要記錄線下的交易數(shù)據(jù)呢?因為他想比較,比如說我是聯(lián)華,同一個地區(qū)我賣的是不是賣少了,他買了一個餅干,這種類別的餅干賣得好不好?你是這種類別的餅干賣得好不好?他們會對一下,這是純粹交易的情況會對一下,但是很難關(guān)聯(lián)上這個人。
我們走訪一些線下的企業(yè),有些企業(yè)居然把自己三年前會員數(shù)據(jù)丟失掉了,我說三年前的數(shù)據(jù)能不能拿出來看看,他說沒有了,因為沒有用。識別一個社會學的數(shù)據(jù)極其重要,否則下面很多數(shù)據(jù)根本關(guān)聯(lián)不到這個身上。
在大數(shù)據(jù)里面,近一年開始有很多人提出來,數(shù)據(jù)是有生命周期的。如果三年前的數(shù)據(jù)肯定不如6個月之前的數(shù)據(jù)重要,如果我想知道你購買的行為的話,因為有可能三年你的購買行為都變了,可能近6個月比較能知道你的行為,三年前的你的購買數(shù)據(jù)可能是沒有這么有效。
所以一個企業(yè)可能要做一個決策,可能八年前數(shù)據(jù)是不是不要?。渴遣皇沁@樣一直有價值嗎?所以有一個詞是非常重要的,數(shù)據(jù)隨著時間的推移慢慢價值減低。
我以前曾經(jīng)表達一個觀點是,數(shù)據(jù)出來的結(jié)果很好,就是能幫我們提升多少的百分比,但是有時候你會發(fā)現(xiàn)他不穩(wěn)定也沒有用的。今天能給你這個效果,明天就不能給你,你的供應貨來源的原料不穩(wěn)定。所以數(shù)據(jù)來源也是一樣的,今天來的數(shù)據(jù)挺穩(wěn)定的,明天來的數(shù)據(jù)不穩(wěn)定的,這樣的數(shù)據(jù)還是不能用的,在我們放在非常重要的數(shù)據(jù)是不能用的,比如說你決定借錢給一個人,可能明天數(shù)據(jù)不穩(wěn)定,產(chǎn)生出來的傷害更大。
端到云、云到端整個數(shù)據(jù)是流動的
從我個人的理解來講,云有兩個很大的功能,一個是他的計算能力,一個是他的儲存能力。端是終端,手機、PC,將來如果是穿戴,所有都是端。從云到端這個地方來講呢,能不能利用云的計算能力與他的儲存能力,快速來計算東西給到端去用,我認為他是非??简炦@個云上的計算能力跟儲存能力的。
如果我們做了一個數(shù)據(jù)模型,數(shù)據(jù)模型是說,我能猜到一個人在他現(xiàn)在這個行為里面,有人用了他的手機,但是用這個手機的人并不是他的。在這種情況下,能不能停止他的手機使用?
就是,實時能從計算上知道,現(xiàn)在用手機的你并不是你,并不是平常的你。這個能力如果在端上使用的話,云那邊肯定要非??焖俚挠嬎悖运挠嬎隳芰Ψ浅V匾?。
因為端那邊已經(jīng)收集了一些數(shù)據(jù),他現(xiàn)在可能人在美國,但是三分鐘之前用這個終端的時候其實還在中國,為什么?一個人怎么樣可以在這邊一個小時之后飛到美國呢?如果這個是支付系統(tǒng)知道了這個事情的話,云就通知端要停止到這個手機。
但是端到云的時候,他是收集及時的數(shù)據(jù)給到云那邊,讓云那邊能夠存儲關(guān)于判斷剛才這件事情的能力。所以端到云、云到端整個數(shù)據(jù)是流動的。端的能力在于收集,云的能力在于計算存儲,這兩者之間是出現(xiàn)數(shù)據(jù)的流動的。僅僅從數(shù)據(jù)的角度去看,都是用我剛才的那個方法來講。端來講是知道當時當下發(fā)生了什么事情,把他傳到云上,云把他存儲而且計算,計算當時那個地方到底有什么東西不動的,然后再傳到端上整個東西進行一種循環(huán)。
運營商的數(shù)據(jù)量巨大但做得不好
對于大數(shù)據(jù),我覺得壟斷是很難的。中國來講,數(shù)據(jù)量最大的并不是阿里,有一些公司數(shù)據(jù)的量也很大的,比如運營商。所以只是說,有兩種東西要看的,一個是計算數(shù)據(jù)的能力,管理數(shù)據(jù)的能力,這個其實數(shù)據(jù)量大到某個量之后,后面的兩者更重要。就是讓你盤點一下你今天的數(shù)據(jù)的時候你就發(fā)現(xiàn)難了。管理一種數(shù)據(jù)的能力,計算一種數(shù)據(jù)的能力,收集數(shù)據(jù)的能力,這三者是要平均的,不是僅僅說用多少大的數(shù)據(jù)的,管理數(shù)據(jù)變得越來越重要。
大數(shù)據(jù)安全不是靠監(jiān)管
大數(shù)據(jù)數(shù)據(jù)量很大,很難僅僅只是用一個監(jiān)管的方法來決定這個數(shù)據(jù)是不是敏感,而是應該用一個更好的方法去處理。
講一個例子,數(shù)據(jù)安全中最安全的方法就是不給你看,給你看過理論上安全就會有出現(xiàn)風險的可能性了。我們現(xiàn)在的技術(shù)能夠做到的是不給你看,但是可以給你用。
其中的一些安全策略是這樣的,比如說我現(xiàn)在說要調(diào)動一些人的名字,這個名字里面有“車品”就兩個字,但是我不會給你看所有的人的名字里面有“車品”兩個字,但是告訴你答案就是3個。也就是說,我不會給你看到數(shù)據(jù),我只給你用這個結(jié)果。
關(guān)于因果和相關(guān)的關(guān)系
數(shù)據(jù)挖掘有兩種方式:一種是我們知道了有因果關(guān)系,我們用數(shù)據(jù)來界別這個因果關(guān)系以后形成了一個模型,利用這個模型讓我們?nèi)プ鲆粋€決策更快,比如說有一個人網(wǎng)上來了一個用戶看了這樣的商品之后,這個商品以前曾經(jīng)他看過的,所以今天客戶過來是要買這個東西,但是還沒有辦法下決心,你要不要給他一個紅包去刺激他去買,這個是有因果關(guān)系的,這樣的因果關(guān)系很容易在一個模型里面。
另外一個是,有一堆的數(shù)據(jù),但是不知道有沒有因果關(guān)系,但是用數(shù)據(jù)去處理的時候,發(fā)現(xiàn)面有一些現(xiàn)象很有關(guān)聯(lián)性,雖然不能解釋但是我可以用。
所以,在做應用數(shù)據(jù)的時候,有時候我們可以不管因果關(guān)系,找出他上一個行為是什么就可以了,不一定找出下一個行為,我們不一定要推送最好的給他的,有時候是給他下一個需要的就可以了。我們不會去求絕對的因果,有些因果不是說要追求于絕對的。
【給數(shù)據(jù)分析人士提供幾個重要數(shù)據(jù)備案】
1、在阿里數(shù)據(jù)平臺事業(yè)部的服務器上,攢下了超過100PB已處理過的數(shù)據(jù)。這是什么概念?它相當于4萬個西雅圖中央圖書館,580億本藏書。
2、在2013年11月11日,阿里巴巴服務器承載的是350億的交易額,是同時服務超過1700萬人,是每分鐘產(chǎn)生10萬個包裹,是提供相當于1000個義烏商品市場那么大的商品數(shù)給你挑選,是需要同時展現(xiàn)3000萬部愛情動作片,是支持每分鐘100萬人同時買單,是相當于同時由9000萬個服務員幫你拿貨。
3、阿里金融綜合了信用記錄、成交數(shù)額等結(jié)構(gòu)化數(shù)據(jù),以及用戶評論等非結(jié)構(gòu)化數(shù)據(jù),加上外部搜集的用電量、銀行信貸等數(shù)據(jù),可就放貸與否、放貸額度精準決策。直接彌補了銀行業(yè)在貸款風險上的盲點,幾分鐘之內(nèi)就讓貸款發(fā)出,其貸款不良率僅為0.78%。截至2014年2月底,阿里小微信貸已經(jīng)累計為超過70萬家小微企業(yè)解決融資需求,累計投放貸款超過1700億元。
4、聚石塔提供了數(shù)據(jù)存儲、數(shù)據(jù)計算等服務,在保障交易安全,避免遭黑客攻擊的同時,還提升了商家處理訂單的速度,確保交易順暢。2013年的天貓雙十一,聚石塔處理了全網(wǎng)75%商家的訂單,處理總訂單量是12年雙11的10倍,0漏單,覆蓋活躍商家94萬,其中有兩家訂單量過100萬。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10