
大數(shù)據(jù)如何改變世界?不盡數(shù)據(jù)滾滾來
世紀(jì)之初,全球化概念大熱,弗里德曼告訴人們,世界是平的。大數(shù)據(jù)來襲的今天,人們越來越感覺,世界是透明的。大數(shù)據(jù)讓社會生活更便捷的同時,也把人們的生活痕跡印刻在互聯(lián)網(wǎng)上。挑戰(zhàn)與機(jī)遇并存,價值與風(fēng)險同在,如何趨利避害用好這把雙刃劍,將考驗人類智慧。
凡有井水處,皆談大數(shù)據(jù)。關(guān)于大數(shù)據(jù),先說個段子。
必勝客店的電話鈴響了,客服人員拿起電話,通過會員卡號,顧客的住址電話一目了然。客服婉拒了海鮮披薩的點餐要求,因為顧客的膽固醇偏高??头又滞扑]了低脂健康食譜,因為顧客上周剛從圖書館借走一本書《低脂健康食譜》。
接下來的對話更有精彩,容我錄下來——
顧客:可以刷卡嗎?
客服:對不起,您的信用卡已經(jīng)刷爆了,您現(xiàn)在還欠銀行4807元,而且還不包括房貸利息。
顧客:那我先去附近的提款機(jī)提款。
客服:根據(jù)記錄,您已經(jīng)超過今日提款限額。
顧客:算了,你們直接把披薩送到我家吧,家里有現(xiàn)金。你們多久送到?
客服:大約30分鐘。如果您不想等,可以自己騎車來。
顧客:為什么?
客服:根據(jù)全球定位系統(tǒng)的車輛行駛自動跟蹤系統(tǒng)記錄,您有一輛摩托車正行駛在我們店附近。
顧客當(dāng)即暈倒。
希望讀者不要暈倒。沒錯,這就是街談巷議的大數(shù)據(jù)。在這個愈來愈講究用數(shù)字說話的時代,大數(shù)據(jù)的概念始終如盛夏般火熱。即使在冬季,仍會有“春運大數(shù)據(jù)”、“雙12消費大數(shù)據(jù)”這樣吸引眼睛的消息跳躍在媒體頭條。
什么是大數(shù)據(jù)
大數(shù)據(jù)這個IT行業(yè)術(shù)語,通俗點來說,就是巨量數(shù)據(jù)集合。
再具體一點?那就是麥肯錫全球研究所給出的定義:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
大數(shù)據(jù)之前,人們喜歡抽樣調(diào)查,隨機(jī)抽取的捷徑。有了大數(shù)據(jù),就可以采用所有數(shù)據(jù)進(jìn)行分析處理。
比如說,一張小小公交卡。北京公交一卡通每天產(chǎn)生4千萬條刷卡記錄,分析這些刷卡記錄,可以清晰了解北京市民的出行規(guī)律,以有效改善城市交通。
再舉個商鋪選址的例子,對大數(shù)據(jù)概念的理解會更加一目了然。
南京路上的先施公司,是老上海永遠(yuǎn)無法抹去的風(fēng)景。1914年,僑商黃煥南去上海選址時,南京路還比較冷清,他派人到各路口,用數(shù)豆子的辦法測定人流量,最后決定在南京路北興建先施公司。
黃煥南為新店選址的辦法,當(dāng)時堪稱機(jī)智。后來,人們通過統(tǒng)計網(wǎng)站拉數(shù)據(jù)的方法,費時費力費錢,還未必十分精準(zhǔn)。而且,如果選址的范圍擴(kuò)展到全國城市,個人和小團(tuán)隊僅憑商業(yè)直覺和有限的知識是遠(yuǎn)遠(yuǎn)不夠的,這時候,就需要大數(shù)據(jù)登場了,利用商業(yè)地理數(shù)據(jù)進(jìn)行商業(yè)選址及消費者地理細(xì)分讓難題迎刃而解。
打開手機(jī)地圖,我們在手機(jī)APP上的位置信息最后都進(jìn)入了各大公司的后臺,人流量、人流方向、人流隨時間變化,通過實時路況或熱力圖,一目了然,這些數(shù)據(jù),正好可以用來做新店選址。
除了地圖,還有強(qiáng)大的搜索引擎。當(dāng)將搜索+LBS技術(shù)打通后,倘若地處城鄉(xiāng)結(jié)合部的上海閔行區(qū)頻繁出現(xiàn)“火鍋”關(guān)鍵詞搜索后,海底撈、小天鵝們可以適時考慮開家分店了。
透過選址一件事,可以看出,大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不僅在于掌握龐大的數(shù)據(jù)信息,還在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
大數(shù)據(jù)的應(yīng)用
“廣西的人最愛點贊,河北人最愛看段子,最關(guān)心時政的是山西人,最關(guān)注八卦的是天津?!?br />
這組有趣的數(shù)據(jù),是今日頭條根據(jù)用戶習(xí)慣得出的。上線剛4年的今日頭條,恰是一款基于數(shù)據(jù)化挖掘的個性化信息推薦引擎,目前已經(jīng)累計用戶5.5億,日活躍用戶超過了6000萬,成為增長最快的資訊類客戶端。
過去是依靠人總結(jié)知識,現(xiàn)在可以通過系統(tǒng)、學(xué)習(xí)用戶的行為特征來儲存智慧。當(dāng)你拿著手機(jī)每看一篇文章,你的每一次點擊和搜索,各種行為,都會被記錄下來產(chǎn)生數(shù)據(jù),形成推送——這是今日頭條帶來的啟示。
還有比今日頭條更精準(zhǔn)的算法,發(fā)生在美國明尼蘇達(dá)州。
在明州,一家塔吉特門店被客戶投訴,原因是一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒,一個高中生。但沒多久男子來電道歉,因為女兒經(jīng)他逼問后坦承自己真的懷孕了。塔吉特百貨靠著分析用戶所有的購物數(shù)據(jù),然后通過相關(guān)關(guān)系分析得出事情的真實狀況。
說到購物數(shù)據(jù)分析,太平洋西岸的義烏商人也毫不遜色。11月9日,美國總統(tǒng)選舉結(jié)果揭曉,共和黨總統(tǒng)候選人唐納德·特朗普贏得總統(tǒng)選舉,將成為美國第四十五任總統(tǒng)。這個多少有些出人意料的結(jié)果,其實精明的義烏人早就預(yù)測到了。
原來,美國大選大量競選的旗幟都是浙江義烏制造的。川普和希拉里兩種旗幟,誰的訂單量大,說明誰的支持度高。旗幟工廠的小老板,根據(jù)雙方競選旗訂單的大數(shù)據(jù)預(yù)測特朗普必勝,驚呆了一幫吃瓜群眾。
上述三則案例,是再真實不過的大數(shù)據(jù)運用。大數(shù)據(jù)究竟給我們帶來什么,答案不言自明。
我們就是生活在這樣一個數(shù)據(jù)時代,閱讀、購物、看病、旅游,打電話、刷微博、聊QQ、用微信,都在不斷產(chǎn)生新數(shù)據(jù)。大數(shù)據(jù)已經(jīng)與我們的工作生活息息相關(guān)、須臾難離。
沒有人會否認(rèn),大數(shù)據(jù)時代已經(jīng)來臨,并將深刻地改變著人們的工作和生活。走進(jìn)KTV,點歌機(jī)推薦的歌曲都是你的“拿手菜”;開車上路,可以避開“紅蚯蚓”選擇暢通路;網(wǎng)上購物,電商會預(yù)判用戶的消費需求,提前在離用戶最近的社區(qū)儲備商品,大大縮短送貨時間……細(xì)細(xì)一想,都是大數(shù)據(jù)在背后幫你。
放眼世界,洛杉磯警察局和加利福尼亞大學(xué)合作利用大數(shù)據(jù)預(yù)測犯罪的發(fā)生;google流感趨勢利用搜索關(guān)鍵詞預(yù)測禽流感的散布;麻省理工學(xué)院利用手機(jī)定位數(shù)據(jù)和交通數(shù)據(jù)建立城市規(guī)劃。
有沒有小小數(shù)據(jù)在手,世界盡在掌握的感覺?
大數(shù)據(jù)技術(shù)已在交通、醫(yī)療、金融、制造、通訊、推薦系統(tǒng)等行業(yè)中得到了廣泛深度應(yīng)用,大數(shù)據(jù)加速制造業(yè)轉(zhuǎn)型,大數(shù)據(jù)助力交通更加便捷高效,大數(shù)據(jù)驅(qū)動金融精細(xì)化運營,大數(shù)據(jù)助推精準(zhǔn)醫(yī)療快速發(fā)展……通過運用數(shù)據(jù)來催生新的服務(wù),這是正在實現(xiàn)的改變,而不再是一張畫餅。
大數(shù)據(jù)的發(fā)展趨勢
種種跡象顯示,從最初的大數(shù)據(jù)定義之爭,到挖掘大數(shù)據(jù)應(yīng)用價值、協(xié)商合作方向,大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)進(jìn)入務(wù)實發(fā)展階段。
務(wù)實發(fā)展也讓人們對大數(shù)據(jù)的思考漸趨冷靜:大數(shù)據(jù)盡管運用領(lǐng)域廣闊,也沒必要神話,它就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種特征而已。在以云計算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,為人類創(chuàng)造更多的價值。
簡單來說一下云計算,這是個和大數(shù)據(jù)形影不離的“小伙伴”。
技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)無法用單臺的計算機(jī)進(jìn)行處理,必須采用
分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)??梢哉f,大數(shù)據(jù)相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫”,云計算相當(dāng)于計算機(jī)和操作系統(tǒng),將大量的硬件資源虛擬化后在進(jìn)行分配使用。
整體來看,未來的趨勢是,云計算作為計算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢是,實時交互式的查詢效率和分析能力,“動一下鼠標(biāo)就可以在秒級操作PB級別的數(shù)據(jù)”。
科普一下,PB是較高級的存儲單位。1PB=1024TB。1TB=1024G。
之所以提到云計算,是因為,大數(shù)據(jù)與云計算的深度結(jié)合在將來會更加緊密。
自2013年開始,大數(shù)據(jù)技術(shù)已開始和云計算技術(shù)緊密結(jié)合,預(yù)計未來兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興計算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營銷發(fā)揮出更大的影響力。
大河奔涌,泥沙俱下,大數(shù)據(jù)的豐富,勢必會帶來大量低質(zhì)量數(shù)據(jù)。想要成功,數(shù)據(jù)用戶需要理解原始數(shù)據(jù)與數(shù)據(jù)分析之間的差距,從而消除低質(zhì)量數(shù)據(jù)并通過商業(yè)智能獲得更佳決策。所以,采用自助式商業(yè)智能工具進(jìn)行大數(shù)據(jù)處理的企業(yè)將會脫穎而出。
大數(shù)據(jù)的野蠻成長,還會帶來不少負(fù)面影響:未來幾年數(shù)據(jù)泄露事件會接二連三,除非數(shù)據(jù)在源頭就能夠得到安全保障,企業(yè)需要從新的角度來確保自身以及客戶數(shù)據(jù)的安全。
當(dāng)然,數(shù)據(jù)泄露并不能阻攔數(shù)據(jù)科學(xué)成為一門專門學(xué)科的步伐。未來,各大高校將設(shè)立專門的數(shù)據(jù)科學(xué)類專業(yè),也會催生一批與之相關(guān)的新的就業(yè)崗位。與此同時,基于數(shù)據(jù)這個基礎(chǔ)平臺,將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺,之后,數(shù)據(jù)共享將擴(kuò)展到企業(yè)層面,并且成為未來產(chǎn)業(yè)的核心一環(huán)。
大數(shù)據(jù)讓社會生活更智慧的同時,也把人們的生活痕跡印刻在互聯(lián)網(wǎng)上。人們會擔(dān)心,自己生活在四面透明的魚缸里,難有秘密。網(wǎng)絡(luò)安全,挑戰(zhàn)與機(jī)遇并存,價值與風(fēng)險同在,如何趨利避害用好這把雙刃劍,將考驗人類智慧。
大數(shù)據(jù)讓世界更美好,這個時代愿景,隨著防護(hù)手段的升級,會逐漸實現(xiàn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10