
從預(yù)測到“現(xiàn)測”:大數(shù)據(jù)商業(yè)建模的新發(fā)展
大數(shù)據(jù)商業(yè)建模的新發(fā)展方向在哪里?怎么樣預(yù)測才能真正發(fā)揮大數(shù)據(jù)的特有優(yōu)勢?從預(yù)測到“現(xiàn)測”是如何實現(xiàn)的?百分點首席模型科學(xué)家陳宇新教授為我們做了更深一層的闡述,從預(yù)測到“現(xiàn)測”:大數(shù)據(jù)商業(yè)建模的新發(fā)展。
以下是陳宇新教授在2015百分點大數(shù)據(jù)操作系統(tǒng)(BD-OS)暨D輪融資發(fā)布會上的演講摘錄:
謝謝大家,謝謝各位來賓!非常榮幸在今天這個場合給大家分享關(guān)于大數(shù)據(jù)商業(yè)建模新發(fā)展的一些思考,這也是現(xiàn)在百分點研發(fā)的一個前沿。
大家都知道預(yù)測是大數(shù)據(jù)商業(yè)應(yīng)用的一個核心,大數(shù)據(jù)預(yù)測需要大量的高質(zhì)量數(shù)據(jù)加上非常先進的模型,在當(dāng)前的情況下什么是預(yù)測領(lǐng)域新的熱點或者一個新的發(fā)展方向?怎么樣預(yù)測才能真正發(fā)揮大數(shù)據(jù)特有的優(yōu)勢?這是我想分享的,在這之前給大家先介紹兩條最近媒體報道的新聞,從新聞上大家或許能夠看出一些新的發(fā)展趨勢。這兩條新聞都是8月份華爾街日報刊登的。
第一條,蘋果和谷歌正在開發(fā)在用戶想要之前就知道用戶想要什么的技術(shù),在你不知道想要什么之前就告訴你想要什么,這兩款產(chǎn)品大家也聽說過,對蘋果來說叫“主動助手”,對谷歌來說這個產(chǎn)品叫“谷歌現(xiàn)代”。這兩家公司通過對你未來肯定要做的事情的一個探知反過來推測你最近的將來想干什么。谷歌通過郵件可以知道你今天下午六點有班飛機,下午三點的時候根據(jù)你現(xiàn)在的位置,根據(jù)北京的交通流量告訴你現(xiàn)在該走了,如果走的話該打什么車,滴滴或者Uber,這是它預(yù)測的思路,通過對一些已知的未來的事件的掌握來推測即將發(fā)生的未來應(yīng)該干什么的一個預(yù)測。
跟這個看起來沒有特別關(guān)系,但是有共通之處的另一條新聞,宏觀經(jīng)濟指標(biāo)預(yù)測,這家公司名字叫“現(xiàn)測”,創(chuàng)始人是哥倫比亞大學(xué)諾貝爾經(jīng)濟學(xué)獎得主的博士生,大數(shù)據(jù)預(yù)測宏觀經(jīng)濟指標(biāo),比如物價指數(shù)。為什么叫“現(xiàn)測”?不是預(yù)測,而是很快的把剛剛發(fā)生的整個美國各種物價變化歸納出來呈現(xiàn)給用戶,描述剛剛發(fā)生的事件,而不是真正預(yù)測未來的物價怎么樣。為什么這件事有意義?因為通常政府頒布的指標(biāo)是一個月或者一個季度以前的,它能做到一分鐘之前。
這兩條新聞有一個共同的關(guān)鍵詞就是“現(xiàn)”,NOW,這是目前對于大數(shù)據(jù)應(yīng)用的一個非常重要的趨勢,那就是從預(yù)測到現(xiàn)測,預(yù)測是大數(shù)據(jù)建模技術(shù)的一個核心,但同時也是大數(shù)據(jù)建模的一個最大的難點,大家都說大數(shù)據(jù)很厲害,能預(yù)測很多東西,你能不能告訴我明天中國的股票是漲100點還是跌50點,沒有人可以做到。但是大數(shù)據(jù)的優(yōu)勢在于很多時候我們真正需要的并不是預(yù)測,而是所謂的現(xiàn)測,是對極近過去的描述和極近將來的預(yù)測。
什么叫極近?一天以前或者一小時以前?這實際上是取決于我們現(xiàn)在數(shù)據(jù)量的多少和技術(shù)的發(fā)展,趨勢是這個極越來越短,本來一個月前的經(jīng)濟數(shù)據(jù),現(xiàn)在可以知道一分鐘之前的,高頻交易之前的我們需要知道一秒鐘之前的數(shù)據(jù)。這是我們想到的現(xiàn)測的定義,現(xiàn)是一個動態(tài)過程,現(xiàn)測是指我們目前狀況之前一點時間和之后一點時間情況的描述或者預(yù)測,這實際上是大量的大數(shù)據(jù)應(yīng)用所真正用到的預(yù)測模型,比如高頻交易,實際上已經(jīng)知道市場的情況,但是在別人反應(yīng)之前我們就知道了極近的過去發(fā)生的。
推薦引擎,這是大數(shù)據(jù)應(yīng)用非常重要的,也是百分點最原始的DNA,根據(jù)消費者在這個頁面上當(dāng)前的狀態(tài),馬上給他一個現(xiàn)時的推薦,這個推薦可能只是在一秒甚至半秒之內(nèi),實時投放的RTB廣告,還有打車軟件,大家用過滴滴專車,他們背后的原理是現(xiàn)測的原理,我知道車在什么地方,你在什么地方,交通狀況,我就可以推測下一分鐘車開到哪兒,知道前一秒車在什么地方?,F(xiàn)測剛剛發(fā)生的事情,即將發(fā)生的事情,背后有一個非常重要的科學(xué)原理。自然也好,給了我們一個非常重要的預(yù)測手段,萬世萬物都有一個所謂的慣性,這個慣性效率發(fā)生的時候就使得我們預(yù)測能夠比較準(zhǔn)確。一個物體從斜面上往下滑,下一秒這個木塊在什么地方可以預(yù)測的非常準(zhǔn)確,現(xiàn)測為什么有它的準(zhǔn)確性,來源于萬世萬物背后的慣性。
放在社會領(lǐng)域,慣性是由場景驅(qū)動的,比如明天我的太太過生日,生日要買生日禮物,有了這個目標(biāo),根據(jù)慣性原理,預(yù)測就變成一個現(xiàn)測。
現(xiàn)測的優(yōu)勢一個是利用所謂的慣性原理,另外利用了時間差,這是大數(shù)據(jù)的特點,因為大數(shù)據(jù)往往是實時的數(shù)據(jù),海量高頻的數(shù)據(jù),這張圖大家可以看到如果我每十分鐘照一個這樣的照片,可能就錯過這個鏡頭,如果每一個微秒或者每半秒拍一個照片可能就看到這個鏡頭,看到這個鏡頭就有一個慣性的應(yīng)用,這個女士拿起這個橘子,如果沒有時間差,比如5分鐘拍一次照這個鏡頭就錯過了,但是如果頻率高的話,我們知道她拿這個橘子看一下,雖然孩子拉走了,但她對這個橘子有興趣,這個情況下我們可以有一些營銷手段。
說起來跟預(yù)測一樣,實際上這是一個描述問題,高頻的描述效果跟預(yù)測是非常像的,我們并不在預(yù)測她到底喜歡蘋果還是橘子,只不過我們描述從預(yù)測變成了實測,描述非常有優(yōu)勢,這樣我們把一個非常艱難的預(yù)測問題變成一個描述問題。這是我講的為什么對大數(shù)據(jù)來說我們具有現(xiàn)測的優(yōu)勢。
我有一些博士生在做模型的建立和模型的測試,根據(jù)現(xiàn)測的概念,我們可以發(fā)展出一系列的技術(shù)模型,這些模型有一系列商業(yè)的應(yīng)用。一個是協(xié)同過濾和時間序列的分析,通常在計算機科學(xué)領(lǐng)域,大家都知道協(xié)同過濾的算法,如果放在現(xiàn)測的考量中,就像計量經(jīng)濟學(xué)的時間序列分析,在高頻交易中大量用的是時間序列分析,現(xiàn)在做的把協(xié)同過濾和時間序列分析結(jié)合起來,大家可以做出一個相應(yīng)的應(yīng)用。
第二是用戶畫像,結(jié)合快速迭代的貝葉斯學(xué)習(xí),我們知道用戶大概是一個什么樣的人,什么樣的人會做什么樣的事情,但是這個慣性趨勢放在一個特定的場景中我們可以看以前的需要,到一個修正,這個修正必須在實時中完成,很快的迭代。
第三,百分點開發(fā)了一些數(shù)據(jù)動態(tài)可視化和人機互動的產(chǎn)品。人腦的優(yōu)勢在于對一個場景的綜合把握能得到一個比計算機更好的預(yù)測,但是大數(shù)據(jù)能快速實時的截取這樣的信息,如果我們動態(tài)的展現(xiàn)出一些數(shù)據(jù)來,通過人機互動就可以判斷,有超市人員在的條件下,判斷這位女士喜歡橘子,讓電腦直接判斷的話不一定很準(zhǔn)確,但是我們通過動態(tài)數(shù)據(jù)可視化使得人對一些全景的預(yù)測和電腦對數(shù)據(jù)的抓取有機的結(jié)合。
現(xiàn)在一些學(xué)者重點研究的就是基于運籌優(yōu)化和行為科學(xué)的反時序預(yù)測,換句話說用未來來預(yù)測當(dāng)下,聽上去有點兒懸乎,很多時候我們遠(yuǎn)處的未來,你可能飛機票買好了明天要飛這是確切的未來,我們有了確切的未來用它來幫助預(yù)測當(dāng)下,比如你在一家百貨商店,王府井百貨,我起碼知道你肯定是要出去的,你不可能一輩子呆在里面,你要出這家百貨店就這幾條路徑,根據(jù)這一條就可以通過運籌優(yōu)化的方法告訴你大約幾條選擇,每條選擇經(jīng)過哪幾個貨架,有幾個可能的商品推薦,把幾個非常難以把握的預(yù)測問題變成已知終點反推回來的運籌優(yōu)化問題,有相當(dāng)多的應(yīng)用,這也是百分點以前做和現(xiàn)在做的非常緊密的結(jié)合點,百分點的DNA本來就有實時推薦,和現(xiàn)測是不謀而合的理念。
百分點在建模方面做的非常多的就是用戶畫像和細(xì)化場景,仔細(xì)推敲,細(xì)化場景更往前走一步不光研究用戶場景,而是研究用戶在這個場景里的目標(biāo)是什么,在這個會場上我的目標(biāo)是跟大家交流,任何用戶在任何商業(yè)環(huán)境或者任何場景當(dāng)中,它實際上都有一個目的所在,到一個飯店的目的是吃飯,到學(xué)校的目的是讀書,我們把這個目的找到,剛才我講的技術(shù),通過目的知道未來你想要的東西,反推回來當(dāng)下想干什么。已知用戶畫像推他當(dāng)下的想法行為,目前建立的這套數(shù)據(jù)體系和場景細(xì)分,包括用戶畫像,為什么在現(xiàn)測的范圍里有很多的應(yīng)用。所以,積累大量的數(shù)據(jù),有非常好的前景。
像大數(shù)據(jù)預(yù)測公司一樣,很多金融相關(guān)的信息及實時經(jīng)濟指數(shù),對過去的描述來預(yù)測未來。還有一個跟金融信息相關(guān)的領(lǐng)域,個人征信。從現(xiàn)測角度,以前所謂的人口學(xué)指標(biāo),過去行為的指標(biāo),現(xiàn)在有更多的做法,一個人購買大件的商品,買一輛車,這個信息馬上反饋到你個人的征信系統(tǒng),你的現(xiàn)金流水平發(fā)生變化,這樣一種實時監(jiān)控的做法,類似的有在做個性化的企業(yè)營銷。
同樣剛才舉的例子,個人的金融,信用卡根據(jù)你實時消費情況的變化可以計算出你這個月大概還能用多少錢,每個月開銷錢的總數(shù),銀行存款多少,根據(jù)這個反推回來,反推你買什么東西,否則你推薦的用戶可能沒有財力消費。
第三個應(yīng)用,旅游出行管理。你的航班,比如我知道明天天氣要變化,可以通過這個反推回來知道你在北京要開會,明天天氣不好,可以實時提醒你是不是把機票換成火車票,這是現(xiàn)測的概念,知道未來的一些確定性反過來幫助你解決不確定性。
個人健康管理,目標(biāo)三個月減重五斤,根據(jù)這個可以反推回來每天該減多少,吃多少,實時調(diào)整你的健康管理計劃。
最后把一些東西放在一起,就可以打造所謂的數(shù)字生活的助理,把你整個生活各個方面管理起來,給你提供最佳的體驗。
為什么剛才反復(fù)強調(diào)現(xiàn)測的重要性,而且大數(shù)據(jù)應(yīng)用有極大的優(yōu)勢,以前大數(shù)據(jù)經(jīng)常提到這一點,所謂的三個V或者四個V,但是通常大家對大數(shù)據(jù)的探討,這個V往往是Velocity,能夠很快的把海量的數(shù)據(jù)進行處理,當(dāng)你知道剛剛過去的事情和即將到來的未來。另外,大數(shù)據(jù)的相對優(yōu)勢,對短尺度的應(yīng)用性具有特別的優(yōu)勢,但是對長尺度的應(yīng)用性反而不具有明顯的優(yōu)勢。
在長尺度上我可以說我也不需要大數(shù)據(jù),用小數(shù)據(jù)就能獲得成功。但是短尺度的預(yù)測,我說不出來今天晚上大家晚飯吃什么,大數(shù)據(jù)往往知道這一點,因為它知道你中午吃了什么,是哪里人,愛吃什么,現(xiàn)在在什么位置,周圍有什么飯店,往往通過這個能推出來你要吃什么,而且通過你什么時候吃的中飯,身高體重,推出你什么時候一定餓得不行了,我們可以反推回來做一系列的介紹。這是大數(shù)據(jù)非常大的優(yōu)勢,在商業(yè)中應(yīng)該特別重視這一點。通過大數(shù)據(jù)用戶畫像和細(xì)化場景建模發(fā)掘和利用行為慣性。這就是大數(shù)據(jù)價值提升和揚長避短的一個新的發(fā)展趨勢,希望大家多多指正和交流。謝謝!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10