
預(yù)測和操縱未來 大數(shù)據(jù)的神話與現(xiàn)實
2012年初,一個男人沖進一家位于明尼蘇達州阿波利斯市郊的塔吉特(Target)超市興師問罪:為什么超市不停地向他的還是高中生的女兒郵寄嬰兒尿布樣品和配方奶粉的折扣券?“你們是在鼓勵她懷孕嗎?”憤怒的父親質(zhì)問超市經(jīng)理。
幾天過后,超市經(jīng)理打電話向這位父親致歉,這位父親的語氣變得平和起來,他反過來道歉說,他的女兒確實懷孕了,預(yù)產(chǎn)期在8月份。
對零售商而言,一個家庭將要孕育一個新生命,往往是一對夫妻改變消費觀念的開始,也是他們生活方式發(fā)生變化的分水嶺。塔吉特總部利用大數(shù)據(jù)進行相關(guān)性分析,已經(jīng)為時多年。他們可以在不與準(zhǔn)媽媽們對話的前提下,預(yù)測一位女性的“懷孕進行時”。塔吉特的數(shù)據(jù)分析團隊,在查看準(zhǔn)媽媽們的消費記錄之后,找出了20多種關(guān)聯(lián)物,通過這些關(guān)聯(lián)物對顧客進行“懷孕趨勢”預(yù)測,并寄送相應(yīng)的優(yōu)惠券,為消費推波助瀾。
從《紐約時報》對這件事的綜合報道,可以看到依靠大數(shù)據(jù)的新營銷模式:從娃娃抓起,讓媽媽上鉤。塔吉特這樣的大型連鎖超市早就認(rèn)識到始于嬰兒用品的消費習(xí)慣,當(dāng)媽媽們開始熟悉一個品牌、了解一家店面、習(xí)慣一套購物方式后,媽媽和嬰兒就會成為被“友好套牢”的長期消費者。他們的消費價值可以用代數(shù)程序精確計算和預(yù)測出來,假如媽媽一時忘記了購買,像吃藥提示一般準(zhǔn)時的促銷就啟動了。
塔吉特不是特例。
美國一些機構(gòu)和公司爭先恐后地投身于大數(shù)據(jù)分析運動中。毫無疑問,大數(shù)據(jù)解決了一些難題,產(chǎn)生許多有益的解決方案。例如,它可以使得Google能夠預(yù)測冬季流感的傳播路徑;可以提高人們對于曼哈頓沙井蓋爆炸的預(yù)測,以避免人員傷亡;可以幫助醫(yī)院更有效地監(jiān)測到早產(chǎn)兒細微身體變化所發(fā)出的感染信號,以便醫(yī)生能夠及早進行治療;可以為UPS物流車隊制定最佳行車路徑,令司機們在2011年少跑4848萬公里,節(jié)省了300萬加侖的燃料。
包括維克托.邁爾-舍恩伯格(Viktor Mayer-Sch?nberger,《大數(shù)據(jù)時代》作者)在內(nèi)的許多學(xué)者,在興奮地傳播一個又一個大數(shù)據(jù)“巫師”——那些運用大數(shù)據(jù)成為傳奇的公司與個人,他們正在利用大數(shù)據(jù)解決令人頭疼的“古老問題”,或是發(fā)現(xiàn)一個又一個商業(yè)新大陸。類似IBM這樣的大型公司更是不遺余力地強調(diào):數(shù)據(jù)正在成為戰(zhàn)略資源。一時之間,擁有并利用大數(shù)據(jù)成為商業(yè)新時尚。各公司努力或者希冀成為維克托描繪的三種大數(shù)據(jù)公司之一:擁有大數(shù)據(jù)的公司、擁有大數(shù)據(jù)技術(shù)的公司、擁有大數(shù)據(jù)思維的公司。
但是,當(dāng)拉斯維加斯各大賭場也用大數(shù)據(jù)來挑選大客戶、鼓勵大投注、誘發(fā)大賭癮的時候,我們應(yīng)認(rèn)真考慮:要掀起大數(shù)據(jù)狂歡,還是謹(jǐn)慎地把它裝入籠子加以馴服?若無限制,在賭場之外的市場,看似無辜、無害的大數(shù)據(jù)采礦和營銷不僅會入侵我們的隱私地帶,而且將悄悄改寫著個人與制度之間的社會信任景觀。
誘惑
有關(guān)大數(shù)據(jù)的一切都指向人的遠古渴望:預(yù)測和操縱未來。
王爾德(Oscar Wilde)曾經(jīng)說過:我可以抵御任何力量,除了誘惑。
在誘惑面前,我們都是王爾德的同族。這正是大數(shù)據(jù)喜愛我們,而公司們喜愛大數(shù)據(jù)的原因?!百I了這款巧克力的,也特別喜歡這種果醬”,“你和上面的這些成功人士都鐘愛這個品牌的家具,他們中的8個人剛剛購買了正在促銷的這個年份的葡萄酒”……聽上去很熟悉嗎?因為它們都來自“大數(shù)據(jù)學(xué)派”。這些經(jīng)典營銷句式、語法和邏輯結(jié)構(gòu)的有用證據(jù)來自“性感的數(shù)據(jù)科學(xué)家”[哈佛商學(xué)院教授達文波特 (Tom Davenport)語]。
大數(shù)據(jù)的美妙之處遠不止于電子商務(wù)網(wǎng)站迷人心智的產(chǎn)品推薦,它還能幫助球隊取勝。邁克爾.劉易斯在《魔球》一書里講述了奧克蘭“運動家”棒球隊的經(jīng)營哲學(xué)。運動家棒球隊的總經(jīng)理比利.比恩,依靠電腦程序和數(shù)據(jù)模型分析比賽數(shù)據(jù),用以選擇球員,最終他帶領(lǐng)球隊在美國聯(lián)盟西部賽中奪冠,并創(chuàng)下20場連勝紀(jì)錄。
維克托曾經(jīng)引用這個案例,說明專家的消亡和數(shù)據(jù)科學(xué)家的崛起。大數(shù)據(jù)的鼓吹者們認(rèn)為,一個史無前例的新時代正在到來。人類可以收集、利用的數(shù)據(jù)在規(guī)模(Volumn)、類型(Variety)、速度(Velocity)上有了新的變化。
分布式計算(hadoop、MapReduce等云計算技術(shù))、認(rèn)知計算在內(nèi)的計算能力的演化,使得存儲和處理數(shù)據(jù)的成本大幅度下降,換言之,存儲和處理海量、實時數(shù)據(jù)成為可能;另一方面,iPhone引爆了智能設(shè)備的流行,生產(chǎn)了大量位置信息(IBM公司軟件集團信息管理軟件大數(shù)據(jù)全球副總裁Robert Thomas認(rèn)為,位置數(shù)據(jù)的便利可得是大數(shù)據(jù)流行的要素之一)。大量位置信息的累積,為艾伯特-拉斯洛.巴拉巴西(Albert-László Barabási)這樣的研究者提供了前所未有的豐富素材,以揭開人類行為背后隱藏的模式。無尺度網(wǎng)絡(luò)模型創(chuàng)建者、美國東北大學(xué)教授艾伯特-拉斯洛.巴拉巴西,借助各種模型,正在其研究中心預(yù)測人類行為。他的研究包括:在未來一段時間,你會出現(xiàn)在哪些城市里?
一切都指向人的遠古渴望:預(yù)測和操縱未來。這一愿望可以遠溯至古老的占卜和巫術(shù)。如果你能夠預(yù)測、操縱客戶的需求,那么300%的利潤,也并非遙不可及。
即使案邊沒有艾伯特-拉斯洛的《爆發(fā)》、行為經(jīng)濟學(xué)家泰勒(Richard Thaler)的《Nudge》、麻省理工神經(jīng)與心理科學(xué)家格瑞別(Ann Graybiel)“老鼠習(xí)性與控制”的報告,大數(shù)據(jù)領(lǐng)先企業(yè)也早已把相關(guān)心理、神經(jīng)、認(rèn)知習(xí)慣方面的科學(xué)發(fā)現(xiàn)運用到營銷設(shè)計中去了。核物理不殺人,核武器殺人,被大數(shù)據(jù)研究武裝起來的企業(yè)已具備了各種誘惑消費的尖端能力。
《紐約時報》的杜黑格(Charles Duhigg)發(fā)現(xiàn),生產(chǎn)日用品的寶潔公司雇傭心理習(xí)性專家,幫助他們把一款滯銷的去味產(chǎn)品(Febreze)變成了年銷售10億美元的暢銷貨。訣竅在于,用廣告刺激已經(jīng)脫敏的嗅覺,重新喚起人們?nèi)コ愇兜囊庾R和欲望,在人們本來已經(jīng)適應(yīng)的氣味環(huán)境中再增加一味化學(xué)品,并養(yǎng)成對它的偏好和依賴。從美國到中國,寶潔正在聯(lián)手百度公司,以大客戶的身份“支使”后者利用搜索平臺上的相關(guān)數(shù)據(jù)來進行消費洞察和“挖潛”。
這種人造的消費給誰帶來價值,為誰的終極利益服務(wù)?在大數(shù)據(jù)游戲中,挖掘價值和操縱誘惑之間僅隔著沙灘上的一道線。這也解釋了在商業(yè)世界,大數(shù)據(jù)一夜走紅背后的驅(qū)動力。
骨感
Farecast的啟示在于,大數(shù)據(jù)的核心在于思維,而非數(shù)據(jù)或者技術(shù)。
當(dāng)然,現(xiàn)實的骨感,多少可以安撫我們的忐忑。
我們采訪過的本土公司,多數(shù)還在埋頭奮戰(zhàn)“小數(shù)據(jù)”。大數(shù)據(jù)技術(shù)的吆喝者,確實讓更多人重新思考數(shù)據(jù)潛在的價值。從數(shù)據(jù)存儲和分析技術(shù)的受追捧程度,可見大數(shù)據(jù)之風(fēng)的一時盛行。
端午節(jié)前的一周,一場由IBM發(fā)起的云計算大會在上海迎來了黑壓壓的觀眾,遠超出了IBM中國區(qū)云計算事業(yè)部總經(jīng)理王盛航的預(yù)估。三年以前,對云計算還懵懵懂懂的中國公司,如今以極大的熱情投入云計算浪潮中。極端者如蘇寧電器,鄭重其事地將名字更改為“蘇寧云商”。云服務(wù)提供商發(fā)現(xiàn),存儲數(shù)據(jù)和處理數(shù)據(jù)的現(xiàn)實需求,不斷增加。
線上零售商“1號店”三年前開始購買數(shù)據(jù)倉庫,組建BI(Business Intelligence,商業(yè)智能)團隊。像塔吉特、沃爾瑪一樣,1號店希望能發(fā)現(xiàn)種種有如啤酒與尿布組合的相關(guān)性,以便加快產(chǎn)品周轉(zhuǎn)率。通過數(shù)據(jù),1號店發(fā)現(xiàn)了可口可樂與奧利奧餅干之間的正相關(guān)性。
新的技術(shù),正在幫助許多雄心勃勃的零售商實現(xiàn)趕超沃爾瑪?shù)膲粝搿?號店正在建立一套價格智能系統(tǒng)(PIS),這套系統(tǒng)能夠在線實時搜索60多個網(wǎng)站、1700多萬商品的庫存信息和價格信息。1號店的創(chuàng)始人于剛說,他們依靠PIS進行實時的價格調(diào)整,以提升價格競爭力方面的量化指標(biāo)。
類似1號店P(guān)IS的數(shù)據(jù)產(chǎn)品思路,脫胎于華盛頓大學(xué)人工智能項目負(fù)責(zé)人奧倫.埃齊奧尼(Oren Etzioni)教授的比價網(wǎng)站Netbot。奧倫還開發(fā)過一套機票價格預(yù)測系統(tǒng)Farecast,他建立了一個數(shù)學(xué)模型,反映票價和提前購買天數(shù)之間的關(guān)系,最初的預(yù)測只是基于41天之內(nèi)的12000個價格樣本。2008年,微軟花費1.1億美金收購了Farecast。截至2012年,F(xiàn)arecast系統(tǒng)利用將近10萬億條價格記錄來預(yù)測美國國內(nèi)航班票價,準(zhǔn)確率高達75%。
Farecast的啟示在于,大數(shù)據(jù)的核心在于思維,而非數(shù)據(jù)或者技術(shù)本身。12000個價格樣本絕對不符合大數(shù)據(jù)的4V定義。但是,通過奧倫卓越的建模能力,人們可以初步窺見價格與日期之間的相關(guān)關(guān)系,隨后再對系統(tǒng)“喂入”新的數(shù)據(jù),不斷優(yōu)化模型,提高預(yù)測的準(zhǔn)確性。
大數(shù)據(jù)處理能力沒有那么神秘,至少在IBM中國研究院信息管理和醫(yī)療健康首席科學(xué)家潘越看來是如此。與大數(shù)據(jù)相關(guān)的技術(shù),可以歸納為三類:數(shù)據(jù)獲取與治理能力、數(shù)據(jù)分析能力和數(shù)據(jù)呈現(xiàn)能力。潘越等一批科學(xué)家認(rèn)為,技術(shù)的發(fā)展很可能會使得這些能力“傻瓜化”。
至少現(xiàn)在看來,中國不缺數(shù)據(jù),缺乏的還是能力,奧倫.埃齊奧尼這樣的能力。這也可以解釋為什么大多數(shù)公司更感興趣的是如何處理好“數(shù)據(jù)”,不論規(guī)模大小。
車品覺是阿里巴巴集團大數(shù)據(jù)委員會負(fù)責(zé)人,他認(rèn)為大數(shù)據(jù)是一種“忽悠”。數(shù)據(jù)越多、越大,數(shù)據(jù)分析越復(fù)雜,負(fù)擔(dān)就越沉重。在淘寶的平臺上,如何“生產(chǎn)”有質(zhì)量的數(shù)據(jù),如何進一步挖掘消費數(shù)據(jù),這些話題他興致盎然,但他并不熱衷于大數(shù)據(jù)的概念、定義和社會學(xué)上的討論。
到目前為止,阿里巴巴處理并存儲了超過100PB(1個PB等于1024個TB)的數(shù)據(jù)。2013年,它在內(nèi)部建立了一個虛擬組織單元,稱為數(shù)據(jù)委員會,把分布在阿里巴巴集團內(nèi)部25個事業(yè)部從事數(shù)據(jù)處理業(yè)務(wù)的800多位人員,集中在一起,群策群力應(yīng)對數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全和數(shù)據(jù)運營的挑戰(zhàn)(詳見《解碼阿里數(shù)據(jù)》)。
即便如此,阿里巴巴在數(shù)據(jù)分析上的能力還只能處理和利用淘寶平臺上有限的數(shù)據(jù),人才被視為實現(xiàn)數(shù)據(jù)智能的關(guān)鍵制約。在規(guī)模上比淘寶小得多的1號店,持有相同的觀點,于剛抱怨建模人才“非常稀缺”。
從數(shù)據(jù)到數(shù)據(jù)智能,再到大數(shù)據(jù)智能,之間站著1000個奧倫.埃齊奧尼。
籠子
保護隱私安全,保障載體公正,這是涉及生命與存在的終極問題。
未實現(xiàn)不代表不會發(fā)生。
即便公司們還站在大數(shù)據(jù)時代的舊石器階段,作為產(chǎn)生數(shù)據(jù)的每一個個體,我們應(yīng)該想想未來的場景,畢竟游客們已經(jīng)落入拉斯維加斯賭場的彀中。
去年我的生日設(shè)為1月1日,今年改到4月1日了,因為我不想讓大大小小的網(wǎng)絡(luò)公司獲得真實的私密信息。然而,面對日益強大的大數(shù)據(jù)技術(shù),消費者所做的種種信息偽裝顯得那么幼稚可笑。對應(yīng)網(wǎng)絡(luò)上的“我”,越來越多的人有多套數(shù)碼身份,但偽信息戰(zhàn)中的失敗一方總是消費者。以社交網(wǎng)絡(luò)“臉譜”(Facebook)和“商聯(lián)”(LinkedIn)為首,大數(shù)據(jù)讓個人隱私無所遁形。
其實,社會呼喚也亟需能夠促進信任、提升責(zé)任的大數(shù)據(jù)。為提高公平透明度,美航剝離了薩博(Sabre)飛行信息和預(yù)訂系統(tǒng)。如今,35萬家旅行社和400家航空公司使用這個系統(tǒng)。2008年金融危機后,美國政府立法分離投資銀行自營和代客理財業(yè)務(wù),遏止公司濫用信息不對稱的優(yōu)勢;在醫(yī)療行業(yè),“姜網(wǎng)”(Ginger.io)結(jié)合智能手機、衛(wèi)星定位、哮喘患者報告,建立了觀察花粉分布、有效治療哮喘的平臺。這些正反案例都值得中國企業(yè)深思。在建立平臺、運用云計算、獲取和處理數(shù)據(jù)一體化模式過程中,中國企業(yè)特別需要從正反兩方面認(rèn)識到大數(shù)據(jù)的社會性。
研究UFO的人認(rèn)為,外星人殖民地球最簡單有效的方法就是發(fā)送遺傳基因數(shù)據(jù),然后就地選擇載體。觀點大膽了一些,但道理很實在:人的一切都能分解為數(shù)據(jù)和載體。保護隱私安全,保障載體公正,這是涉及生命與存在的終極問題。
“商業(yè)的社會責(zé)任就是提高利潤?!泵谞栴D.弗里德曼(Milton Friedman)已經(jīng)告訴我們,生命與存在的問題不能交由商業(yè)機構(gòu)全權(quán)處理。與大數(shù)據(jù)盛行的北美相比,中國需要制度的籠子,嚴(yán)格保護隱私的法律;需要商業(yè)規(guī)范的籠子,嚴(yán)格內(nèi)部管理流程,杜絕未經(jīng)客戶允許的信息營銷;需要社會理念的籠子,讓值得信任的企業(yè)興盛起來;需要應(yīng)用技術(shù)的籠子,像北美醫(yī)療信息軟件一樣,自動除去病人的姓名和身份信息,然后輸入大數(shù)據(jù)庫。中國還需要有更多像麻省理工教授烏爾班(Glen Urban)這樣的學(xué)者,呼吁和倡導(dǎo)基于消費者信任的營銷策略。
達文波特教授宣稱,如今的數(shù)據(jù)科學(xué)家類似于上世紀(jì)八九十年代華爾街的金融數(shù)量分析師。過去30年中,華爾街的金融工程創(chuàng)新給世界帶來了什么?回望余波未盡的2008年金融危機,他應(yīng)該明白,更需要馴服的是那些掌握大數(shù)據(jù)的大企業(yè)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10