
大數(shù)據(jù)如何改變世界?不盡數(shù)據(jù)滾滾來
世紀之初,全球化概念大熱,弗里德曼告訴人們,世界是平的。大數(shù)據(jù)來襲的今天,人們越來越感覺,世界是透明的。大數(shù)據(jù)讓社會生活更便捷的同時,也把人們的生活痕跡印刻在互聯(lián)網(wǎng)上。挑戰(zhàn)與機遇并存,價值與風(fēng)險同在,如何趨利避害用好這把雙刃劍,將考驗人類智慧。
凡有井水處,皆談大數(shù)據(jù)。關(guān)于大數(shù)據(jù),先說個段子。
必勝客店的電話鈴響了,客服人員拿起電話,通過會員卡號,顧客的住址電話一目了然??头窬芰撕ur披薩的點餐要求,因為顧客的膽固醇偏高??头又滞扑]了低脂健康食譜,因為顧客上周剛從圖書館借走一本書《低脂健康食譜》。
接下來的對話更有精彩,容我錄下來——
顧客:可以刷卡嗎?
客服:對不起,您的信用卡已經(jīng)刷爆了,您現(xiàn)在還欠銀行4807元,而且還不包括房貸利息。
顧客:那我先去附近的提款機提款。
客服:根據(jù)記錄,您已經(jīng)超過今日提款限額。
顧客:算了,你們直接把披薩送到我家吧,家里有現(xiàn)金。你們多久送到?
客服:大約30分鐘。如果您不想等,可以自己騎車來。
顧客:為什么?
客服:根據(jù)全球定位系統(tǒng)的車輛行駛自動跟蹤系統(tǒng)記錄,您有一輛摩托車正行駛在我們店附近。
顧客當即暈倒。
希望讀者不要暈倒。沒錯,這就是街談巷議的大數(shù)據(jù)。在這個愈來愈講究用數(shù)字說話的時代,大數(shù)據(jù)的概念始終如盛夏般火熱。即使在冬季,仍會有“春運大數(shù)據(jù)”、“雙12消費大數(shù)據(jù)”這樣吸引眼睛的消息跳躍在媒體頭條。
什么是大數(shù)據(jù)
大數(shù)據(jù)這個IT行業(yè)術(shù)語,通俗點來說,就是巨量數(shù)據(jù)集合。
再具體一點?那就是麥肯錫全球研究所給出的定義:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
大數(shù)據(jù)之前,人們喜歡抽樣調(diào)查,隨機抽取的捷徑。有了大數(shù)據(jù),就可以采用所有數(shù)據(jù)進行分析處理。
比如說,一張小小公交卡。北京公交一卡通每天產(chǎn)生4千萬條刷卡記錄,分析這些刷卡記錄,可以清晰了解北京市民的出行規(guī)律,以有效改善城市交通。
再舉個商鋪選址的例子,對大數(shù)據(jù)概念的理解會更加一目了然。
南京路上的先施公司,是老上海永遠無法抹去的風(fēng)景。1914年,僑商黃煥南去上海選址時,南京路還比較冷清,他派人到各路口,用數(shù)豆子的辦法測定人流量,最后決定在南京路北興建先施公司。
黃煥南為新店選址的辦法,當時堪稱機智。后來,人們通過統(tǒng)計網(wǎng)站拉數(shù)據(jù)的方法,費時費力費錢,還未必十分精準。而且,如果選址的范圍擴展到全國城市,個人和小團隊僅憑商業(yè)直覺和有限的知識是遠遠不夠的,這時候,就需要大數(shù)據(jù)登場了,利用商業(yè)地理數(shù)據(jù)進行商業(yè)選址及消費者地理細分讓難題迎刃而解。
打開手機地圖,我們在手機APP上的位置信息最后都進入了各大公司的后臺,人流量、人流方向、人流隨時間變化,通過實時路況或熱力圖,一目了然,這些數(shù)據(jù),正好可以用來做新店選址。
除了地圖,還有強大的搜索引擎。當將搜索+LBS技術(shù)打通后,倘若地處城鄉(xiāng)結(jié)合部的上海閔行區(qū)頻繁出現(xiàn)“火鍋”關(guān)鍵詞搜索后,海底撈、小天鵝們可以適時考慮開家分店了。
透過選址一件事,可以看出,大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不僅在于掌握龐大的數(shù)據(jù)信息,還在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
大數(shù)據(jù)的應(yīng)用
“廣西的人最愛點贊,河北人最愛看段子,最關(guān)心時政的是山西人,最關(guān)注八卦的是天津?!?br />
這組有趣的數(shù)據(jù),是今日頭條根據(jù)用戶習(xí)慣得出的。上線剛4年的今日頭條,恰是一款基于數(shù)據(jù)化挖掘的個性化信息推薦引擎,目前已經(jīng)累計用戶5.5億,日活躍用戶超過了6000萬,成為增長最快的資訊類客戶端。
過去是依靠人總結(jié)知識,現(xiàn)在可以通過系統(tǒng)、學(xué)習(xí)用戶的行為特征來儲存智慧。當你拿著手機每看一篇文章,你的每一次點擊和搜索,各種行為,都會被記錄下來產(chǎn)生數(shù)據(jù),形成推送——這是今日頭條帶來的啟示。
還有比今日頭條更精準的算法,發(fā)生在美國明尼蘇達州。
在明州,一家塔吉特門店被客戶投訴,原因是一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒,一個高中生。但沒多久男子來電道歉,因為女兒經(jīng)他逼問后坦承自己真的懷孕了。塔吉特百貨靠著分析用戶所有的購物數(shù)據(jù),然后通過相關(guān)關(guān)系分析得出事情的真實狀況。
說到購物數(shù)據(jù)分析,太平洋西岸的義烏商人也毫不遜色。11月9日,美國總統(tǒng)選舉結(jié)果揭曉,共和黨總統(tǒng)候選人唐納德·特朗普贏得總統(tǒng)選舉,將成為美國第四十五任總統(tǒng)。這個多少有些出人意料的結(jié)果,其實精明的義烏人早就預(yù)測到了。
原來,美國大選大量競選的旗幟都是浙江義烏制造的。川普和希拉里兩種旗幟,誰的訂單量大,說明誰的支持度高。旗幟工廠的小老板,根據(jù)雙方競選旗訂單的大數(shù)據(jù)預(yù)測特朗普必勝,驚呆了一幫吃瓜群眾。
上述三則案例,是再真實不過的大數(shù)據(jù)運用。大數(shù)據(jù)究竟給我們帶來什么,答案不言自明。
我們就是生活在這樣一個數(shù)據(jù)時代,閱讀、購物、看病、旅游,打電話、刷微博、聊QQ、用微信,都在不斷產(chǎn)生新數(shù)據(jù)。大數(shù)據(jù)已經(jīng)與我們的工作生活息息相關(guān)、須臾難離。
沒有人會否認,大數(shù)據(jù)時代已經(jīng)來臨,并將深刻地改變著人們的工作和生活。走進KTV,點歌機推薦的歌曲都是你的“拿手菜”;開車上路,可以避開“紅蚯蚓”選擇暢通路;網(wǎng)上購物,電商會預(yù)判用戶的消費需求,提前在離用戶最近的社區(qū)儲備商品,大大縮短送貨時間……細細一想,都是大數(shù)據(jù)在背后幫你。
放眼世界,洛杉磯警察局和加利福尼亞大學(xué)合作利用大數(shù)據(jù)預(yù)測犯罪的發(fā)生;google流感趨勢利用搜索關(guān)鍵詞預(yù)測禽流感的散布;麻省理工學(xué)院利用手機定位數(shù)據(jù)和交通數(shù)據(jù)建立城市規(guī)劃。
有沒有小小數(shù)據(jù)在手,世界盡在掌握的感覺?
大數(shù)據(jù)技術(shù)已在交通、醫(yī)療、金融、制造、通訊、推薦系統(tǒng)等行業(yè)中得到了廣泛深度應(yīng)用,大數(shù)據(jù)加速制造業(yè)轉(zhuǎn)型,大數(shù)據(jù)助力交通更加便捷高效,大數(shù)據(jù)驅(qū)動金融精細化運營,大數(shù)據(jù)助推精準醫(yī)療快速發(fā)展……通過運用數(shù)據(jù)來催生新的服務(wù),這是正在實現(xiàn)的改變,而不再是一張畫餅。
大數(shù)據(jù)的發(fā)展趨勢
種種跡象顯示,從最初的大數(shù)據(jù)定義之爭,到挖掘大數(shù)據(jù)應(yīng)用價值、協(xié)商合作方向,大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)進入務(wù)實發(fā)展階段。
務(wù)實發(fā)展也讓人們對大數(shù)據(jù)的思考漸趨冷靜:大數(shù)據(jù)盡管運用領(lǐng)域廣闊,也沒必要神話,它就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種特征而已。在以云計算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,為人類創(chuàng)造更多的價值。
簡單來說一下云計算,這是個和大數(shù)據(jù)形影不離的“小伙伴”。
技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)無法用單臺的計算機進行處理,必須采用
分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)??梢哉f,大數(shù)據(jù)相當于海量數(shù)據(jù)的“數(shù)據(jù)庫”,云計算相當于計算機和操作系統(tǒng),將大量的硬件資源虛擬化后在進行分配使用。
整體來看,未來的趨勢是,云計算作為計算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢是,實時交互式的查詢效率和分析能力,“動一下鼠標就可以在秒級操作PB級別的數(shù)據(jù)”。
科普一下,PB是較高級的存儲單位。1PB=1024TB。1TB=1024G。
之所以提到云計算,是因為,大數(shù)據(jù)與云計算的深度結(jié)合在將來會更加緊密。
自2013年開始,大數(shù)據(jù)技術(shù)已開始和云計算技術(shù)緊密結(jié)合,預(yù)計未來兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興計算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營銷發(fā)揮出更大的影響力。
大河奔涌,泥沙俱下,大數(shù)據(jù)的豐富,勢必會帶來大量低質(zhì)量數(shù)據(jù)。想要成功,數(shù)據(jù)用戶需要理解原始數(shù)據(jù)與數(shù)據(jù)分析之間的差距,從而消除低質(zhì)量數(shù)據(jù)并通過商業(yè)智能獲得更佳決策。所以,采用自助式商業(yè)智能工具進行大數(shù)據(jù)處理的企業(yè)將會脫穎而出。
大數(shù)據(jù)的野蠻成長,還會帶來不少負面影響:未來幾年數(shù)據(jù)泄露事件會接二連三,除非數(shù)據(jù)在源頭就能夠得到安全保障,企業(yè)需要從新的角度來確保自身以及客戶數(shù)據(jù)的安全。
當然,數(shù)據(jù)泄露并不能阻攔數(shù)據(jù)科學(xué)成為一門專門學(xué)科的步伐。未來,各大高校將設(shè)立專門的數(shù)據(jù)科學(xué)類專業(yè),也會催生一批與之相關(guān)的新的就業(yè)崗位。與此同時,基于數(shù)據(jù)這個基礎(chǔ)平臺,將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺,之后,數(shù)據(jù)共享將擴展到企業(yè)層面,并且成為未來產(chǎn)業(yè)的核心一環(huán)。
大數(shù)據(jù)讓社會生活更智慧的同時,也把人們的生活痕跡印刻在互聯(lián)網(wǎng)上。人們會擔(dān)心,自己生活在四面透明的魚缸里,難有秘密。網(wǎng)絡(luò)安全,挑戰(zhàn)與機遇并存,價值與風(fēng)險同在,如何趨利避害用好這把雙刃劍,將考驗人類智慧。
大數(shù)據(jù)讓世界更美好,這個時代愿景,隨著防護手段的升級,會逐漸實現(xiàn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03