
大數(shù)據(jù)的小故事
大數(shù)據(jù)是今天的IT領(lǐng)域最受關(guān)注的熱門詞匯之一。公司里開發(fā)新產(chǎn)品,有意無意總想跟大數(shù)據(jù)拉上關(guān)系,以顯得自己走在技術(shù)的最前沿;同事們在一起聊天,也總愛把大數(shù)據(jù)這個詞掛在嘴邊,以顯示自己學(xué)識淵博,與時俱進(jìn)。即使是狐朋狗友在微信群里瞎聊,“大數(shù)據(jù)”這個詞也時不時地蹦出來:“大數(shù)據(jù)表明,不要瞎折騰減肥,微胖才是真健康”,“四月是春心蕩漾的季節(jié)。根據(jù)大數(shù)據(jù),30%的戀情在四月會升溫急劇?!?/span>
其實,通過大量數(shù)據(jù)來發(fā)現(xiàn)事物背后的規(guī)律不是什么新鮮事,只是現(xiàn)在技術(shù)發(fā)展了,數(shù)據(jù)的搜集和儲存變得越來越便宜和方便,數(shù)據(jù)的種類和數(shù)量都達(dá)到了從前沒有的高度,而很多適合處理海量數(shù)據(jù)的工具也應(yīng)運而生,為人們分析和利用這些數(shù)據(jù)提供了方便。所以這個大數(shù)據(jù)的說法,只是技術(shù)的逐漸進(jìn)步和升級,并不是什么革命性的新概念,基本上是新瓶裝舊酒。但必須承認(rèn)的是,現(xiàn)在大數(shù)據(jù)在社會上的影響已經(jīng)不能跟過去同日而語,量變已經(jīng)快要引起質(zhì)變。以前只有幾個做數(shù)據(jù)分析的人對這個東西感興趣,現(xiàn)在街頭巷尾的販夫走卒全在談?wù)撍?過去做夢也想不到數(shù)據(jù)分析會影響我們的衣食住行,現(xiàn)在卻發(fā)現(xiàn)跟大數(shù)據(jù)有關(guān)的經(jīng)歷在日常生活中俯拾皆是。
上周末我就親身經(jīng)歷了一個大數(shù)據(jù)的小故事。最近舊金山藝術(shù)博物館在展出一些蘇格蘭國家藝術(shù)畫廊的名畫,我們附庸風(fēng)雅,到藝術(shù)博物館看了畫展,然后又到漁人碼頭吃了一頓豐盛的海鮮大餐,度過了愉快的一天。但這近乎完美的一天最后卻出了一個小小的瑕疵:為晚餐付賬時,我們的信用卡被刷卡機(jī)拒收。我們在錢包里搜羅半天,才湊出足夠的現(xiàn)金付了賬。
但賬雖付了,信用卡遭拒畢竟有些蹊蹺,因此我們一回家就給信用卡公司打電話,詢問到底是什么情況。結(jié)果信用卡公司告訴我們,我們的信用卡目前確實不能使用。他們注意到這張卡上有幾樁可疑的交易,因此把卡暫時鎖住了。我們問都有些什么可疑交易,信用卡公司的客服人員細(xì)細(xì)地數(shù)給我們聽,還果真都不是我們經(jīng)手的??磥磉@張信用卡已經(jīng)被人盜用。而讓人佩服的是,這幾樁交易都是當(dāng)天發(fā)生的。我們自己還渾然不覺,信用卡公司就已經(jīng)第一時間發(fā)現(xiàn)了情況有異。
信用卡公司的神奇武功,當(dāng)然是以大數(shù)據(jù)為基礎(chǔ)的。信用卡公司擁有消費者行為的大量數(shù)據(jù)。他們對這些數(shù)據(jù)進(jìn)行分析,找出關(guān)聯(lián),建立模型,然后又實時追蹤信用卡持有者的行為,一旦發(fā)現(xiàn)異常,就會發(fā)出警報,采取行動。在我們的例子中,這個異常就是在很短的時間里,在相隔一定距離的好幾個地方都發(fā)生了信用卡交易。因為信用卡失竊造成的損失通常都由信用卡公司負(fù)擔(dān),信用卡公司有足夠的動力來進(jìn)行風(fēng)險管理,以及時發(fā)現(xiàn)盜竊行為,降低損失。資本的趨利本能和高科技結(jié)合,造就了一流的以大數(shù)據(jù)為基礎(chǔ)的信用卡防盜機(jī)制。
還有一個關(guān)于大數(shù)據(jù)的故事也很有意思,因為和我們最關(guān)注的高中生申請大學(xué)的過程有關(guān)。大家都知道,大學(xué)尤其是名牌大學(xué)的錄取過程在外人看來很像黑箱作業(yè)??瓷先ズ芟嗨频膬蓚€申請人,可能一個被收一個被拒;一個各方面都很優(yōu)秀的申請人可能屢戰(zhàn)屢敗,而一個條件明明一般的申請人,卻可能所向無敵,大獲全勝。
但有人聲稱他破解了名校錄取學(xué)生的秘密,這個人就是升學(xué)輔導(dǎo)公司智勝的創(chuàng)始人馬振翼。因為這些年里升學(xué)輔導(dǎo)公司都生意興隆,智勝也輔導(dǎo)了不少學(xué)生,積累了一些學(xué)生的數(shù)據(jù)資料。馬振翼聲稱,根據(jù)這些數(shù)據(jù),智勝已經(jīng)建立了模型,可以用學(xué)生檔案中的12個變量——從高中成績和考試分?jǐn)?shù)到課外活動及移民背景 ——來計算學(xué)生被各個頂尖大學(xué)錄取的概率。比如說,他的算法預(yù)測,一名在美國出生的高中畢業(yè)生,GPA成績3.8,SAT考試分?jǐn)?shù)2000,有適當(dāng)?shù)念I(lǐng)導(dǎo)力,從事過800小時的課外活動,那么他被紐約大學(xué)錄取的概率為20.4%,被南加州大學(xué)錄取的概率為28.1%。馬振翼說,“我們的模型比很多大學(xué)招生辦的人更清楚如何才能進(jìn)入他們學(xué)校?!?/span>
馬振翼推銷他的升學(xué)指導(dǎo)服務(wù)時,使用了“大數(shù)據(jù)”這個詞。其實,他的數(shù)據(jù)庫充其量有幾千個學(xué)生的數(shù)據(jù),實在是小得不能再小。稱之為大數(shù)據(jù),顯然是想搭炙手可熱的大數(shù)據(jù)的順風(fēng)車,有嘩眾取寵之嫌。而且,他的模型是否準(zhǔn)確,到底有多準(zhǔn)確,只聽馬振翼的一家之言當(dāng)然遠(yuǎn)遠(yuǎn)不夠。美國大學(xué)招生辦的人員和其他教育工作者對馬振翼的模型就嗤之以鼻。他們說,沒人可以預(yù)測頂尖大學(xué)的錄取結(jié)果,因為成績和分?jǐn)?shù)只是非常主觀的錄取過程中的一部分。馬振翼反駁說,任何事情都可以量化。 “有了足夠的數(shù)據(jù),”他說,“沒有任何東西是主觀性的?!甭犉饋硪灿悬c道理。當(dāng)然,馬振翼提供的升學(xué)服務(wù)中包括一種“擔(dān)保服務(wù)”:保證學(xué)生可以進(jìn)入某些大學(xué),否則給家長退款。這種服務(wù)的收費是根據(jù)學(xué)生的條件和他想申請的學(xué)校名單來計算的,要定價合理,保證不虧錢,當(dāng)然最好有一個可以計算錄取概率的模型,所以說他有這樣一個模型,我是完全相信的。但對我們外人來說,這還是一個道聽途說、死無對證的模型,所以這個大數(shù)據(jù)的故事,只能算是半個。
還有一個關(guān)于大數(shù)據(jù)的故事名氣更大,我在不止一個地方讀到過,聽說的人肯定也很多。但我實在是喜歡這個故事,所以還是把它作為這篇文章要講的三個故事的最后一個。美國連鎖零售商店Target這些年生意很紅火,不但店越開越多,而且店面明亮整潔,店里的東西價廉物美,一看就管理有方。而這個管理有方的特征之一,就是他們的大數(shù)據(jù)分析做得不錯。Target顧客的購物行為的數(shù)據(jù),是個取之不盡、用之不竭的金礦。如果對這些數(shù)據(jù)妥善地加以利用,可以讓它們發(fā)揮極大的作用。比如說,如果仔細(xì)研究顧客的購物行為之間的關(guān)聯(lián),建立統(tǒng)計模型,從顧客的某些購物行為,推斷出顧客可能會有某些其他購物行為,因而有針對性地向顧客發(fā)送廣告,以影響和指導(dǎo)顧客的消費,對促進(jìn)銷售,增加贏利,當(dāng)然可以有所幫助。
Target確實這么做了,于是便有了下面的小故事。有一天,一位父親走進(jìn)住家附近的一間Target,憤怒地?fù)]舞著Target寄給她女兒的減價券,要求見經(jīng)理。
“我女兒收到了這個!”他說?!八€在念高中,你們就給她寄嬰兒衣服嬰兒床的減價券!你們是想鼓勵她懷孕嗎?”
經(jīng)理問明情況,覺得很不好意思,誠懇地向父親道了歉。而且,這個經(jīng)理大概是個非常細(xì)心負(fù)責(zé)的人,幾天之后,他又再次給這位父親打了電話。
但父親不再像前幾天那么氣勢洶洶,事實上他甚至有點局促不安。最后他終于說,“我跟我女兒談過了。看來我家里確實發(fā)生了一些我不知道的事情。她的預(yù)產(chǎn)期在八月,我應(yīng)該向你們道歉?!?/span>
原來,Target的統(tǒng)計模型能夠根據(jù)顧客的一些購買細(xì)節(jié),推斷這家人是否正在期待一個嬰兒的降生。跟女兒住在一個屋檐下的父親還一無所知,Target就已經(jīng)從女兒的一些行為中知道了女兒的秘密。
Target這種窺探我們的生活隱私的本領(lǐng),當(dāng)然是讓人感到有些不安的,事實上很多以大數(shù)據(jù)為基礎(chǔ)的分析工具都會讓我們感到自己的空間受到了侵犯。但不去談其中的法律和倫理問題,“窺探”確實是大數(shù)據(jù)的特點。運用得當(dāng)?shù)臅r候,心理學(xué)、經(jīng)濟(jì)學(xué)原理不能解釋的或者還沒有發(fā)現(xiàn)的規(guī)律,卻可以從大量的數(shù)據(jù)中凸顯出來,而很多現(xiàn)象和行為之間的聯(lián)系,不要說身邊的人不知道,就連被研究對象本身都根本沒有覺察。但這也正是大數(shù)據(jù)的價值所在。因為這些信息中包含著巨大的商業(yè)價值,新興的技術(shù)又讓大數(shù)據(jù)分析成為可能,一定會有越來越多的人想要得到它們,并運用它們來獲利。所以,不管我們喜歡還是不喜歡,關(guān)于大數(shù)據(jù)的小故事,以后在生活中只會更加頻繁地出現(xiàn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11