
如何理解“大數(shù)據(jù)”:數(shù)據(jù)質(zhì)變的3個(gè)方面
大數(shù)據(jù)(Big Data),字面意思是“海量數(shù)據(jù)”,簡(jiǎn)單講就是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)目前的主流技術(shù)和工具來(lái)處理,這里的“處理”涵蓋了很多層含義:提取、存儲(chǔ)、管理、分析、傳輸、預(yù)測(cè)等。
可是,這僅僅是對(duì)“大數(shù)據(jù)”的粗淺理解。
最早提出“大數(shù)據(jù)”概念的學(xué)科是“天文學(xué)”和“基因?qū)W”,這兩個(gè)學(xué)科從誕生之日起就依賴(lài)于“基于海量數(shù)據(jù)的分析”方法。
大數(shù)據(jù)可以說(shuō)是“計(jì)算機(jī)”和“互聯(lián)網(wǎng)”結(jié)合的產(chǎn)物,計(jì)算機(jī)實(shí)現(xiàn)了數(shù)據(jù)的“數(shù)字化”;互聯(lián)網(wǎng)實(shí)現(xiàn)了數(shù)據(jù)的“網(wǎng)絡(luò)化”;兩者結(jié)合才賦予了“大數(shù)據(jù)”生命力!
隨著互聯(lián)網(wǎng)如同空氣、水、電一樣無(wú)處不在地滲透入我們的工作和生活,加上移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、可穿戴聯(lián)網(wǎng)設(shè)備的普及,新的“數(shù)據(jù)”正在以指數(shù)級(jí)別的加速度產(chǎn)生。據(jù)說(shuō)目前世界上90%的“數(shù)據(jù)”是互聯(lián)網(wǎng)出現(xiàn)以后迅速產(chǎn)生的。
不過(guò),拋開(kāi)數(shù)據(jù)的海量化生產(chǎn)和存儲(chǔ)這種表面現(xiàn)象,我們更加要關(guān)注的是由數(shù)據(jù)量變帶來(lái)的質(zhì)變,這種“質(zhì)變”表現(xiàn)在以下3個(gè)方面:
1)數(shù)據(jù)思維
大數(shù)據(jù)時(shí)代帶給我們的是一種全新的“思維方式”,思維方式的改變?cè)谙乱淮蔀樯鐣?huì)生產(chǎn)中流砥柱的時(shí)候就會(huì)帶來(lái)產(chǎn)業(yè)的顛覆性變革!
- 分析全面的數(shù)據(jù)而非隨機(jī)抽樣;
- 重視數(shù)據(jù)的復(fù)雜性,弱化精確性
- 關(guān)注數(shù)據(jù)的相關(guān)性,而非因果關(guān)系。
歷來(lái)的商業(yè)變革都是由“思維方式的轉(zhuǎn)變”開(kāi)始的,舊的經(jīng)濟(jì)體制和傳統(tǒng)的商業(yè)理念面臨新的商業(yè)思維邏輯的時(shí)候,如果大腦不能與時(shí)俱進(jìn),吸收并轉(zhuǎn)變?yōu)轫槕?yīng)潮流的新思維,通過(guò)新思維重新組織企業(yè)組織的戰(zhàn)略、結(jié)構(gòu)、文化和各種策略,那么貌似強(qiáng)大的體魄反而變成了企業(yè)前進(jìn)的累贅。
這種新思維顛覆巨頭的案例最先發(fā)生在信息技術(shù)的傳統(tǒng)領(lǐng)域,然后滲透到傳統(tǒng)的商業(yè)領(lǐng)域:黑莓(Blackberry)、摩托羅拉、諾基亞、柯達(dá)、雅虎。。。案例比比皆是!
當(dāng)然,這些企業(yè)的沒(méi)落并不是因?yàn)闆](méi)有“數(shù)據(jù)思維”,但他們都是被“新互聯(lián)網(wǎng)思維”淘汰的昔日巨人?!皵?shù)據(jù)思維”是最新的思想,其影響力還沒(méi)有發(fā)展到導(dǎo)致巨頭轟然倒塌。但是,如果不給予足夠的重視,下一波沒(méi)落王國(guó)的名單中,可能就會(huì)有你!
2)數(shù)據(jù)資產(chǎn)
大數(shù)據(jù)時(shí)代,我們需要更加全面的數(shù)據(jù)來(lái)提高分析(預(yù)測(cè))的準(zhǔn)確度,因此我們就需要更多廉價(jià)、便捷、自動(dòng)的數(shù)據(jù)生產(chǎn)工具。除了我們?cè)诨ヂ?lián)網(wǎng)虛擬世界使用瀏覽器、軟件有意或者無(wú)意留下的各種“個(gè)人信息數(shù)據(jù)”之外,我們正在用手機(jī)、智能手表、智能手環(huán)、智能項(xiàng)鏈等各種可穿戴數(shù)碼產(chǎn)品生產(chǎn)數(shù)據(jù);我們家里的路由器、電視機(jī)、空調(diào)、冰箱、飲水機(jī)、吸塵器、智能玩具等也開(kāi)始越來(lái)越智能并且具備了聯(lián)網(wǎng)功能。
這些家用電器在更好地服務(wù)我們的同時(shí),也在生產(chǎn)大量的數(shù)據(jù);甚至我們出去逛街,商戶(hù)的路由器,運(yùn)營(yíng)商的WLAN和3G,無(wú)處不在的攝像頭電子眼,百貨大樓的自助屏幕,銀行的ATM,加油站以及遍布各個(gè)便利店的刷卡機(jī)都在收集和生產(chǎn)數(shù)據(jù)。
在互聯(lián)網(wǎng)領(lǐng)域,我們喜歡說(shuō)“入口”這個(gè)詞,“入口”對(duì)應(yīng)的直接意義是“流量”,而流量在互聯(lián)網(wǎng)領(lǐng)域就意味著“金錢(qián)”,這種流量變現(xiàn)可能是廣告,可能是游戲,也可能是電商。
在大數(shù)據(jù)時(shí)代,“入口”這個(gè)詞還有更深刻的意義,那就是“數(shù)據(jù)生產(chǎn)的源頭”,用戶(hù)通過(guò)某個(gè)APP或者硬件產(chǎn)品滿(mǎn)足某種需求的同事,也會(huì)留下一系列相關(guān)的“數(shù)據(jù)”,這些數(shù)據(jù)的合理使用可以讓擁有這部分?jǐn)?shù)據(jù)的企業(yè)獲得更大的商業(yè)利益!
所以,在“大數(shù)據(jù)”時(shí)代,意識(shí)到“數(shù)據(jù)也是資產(chǎn)”的公司都已經(jīng)開(kāi)始在各個(gè)“數(shù)據(jù)生產(chǎn)的源頭”進(jìn)行布局,可能是一個(gè)解決剛興需求的WEB網(wǎng)站,也可能是一個(gè)單純的工具APP,還可能是一個(gè)可穿戴的數(shù)碼產(chǎn)品!
3)數(shù)據(jù)變現(xiàn)
有了“數(shù)據(jù)資產(chǎn)”,就要通過(guò)“分析”來(lái)挖掘“資產(chǎn)”的價(jià)值,然后“變現(xiàn)”為用戶(hù)價(jià)值、股東價(jià)值甚至社會(huì)價(jià)值。
大數(shù)據(jù)分析的核心目的就是“預(yù)測(cè)”,在海量數(shù)據(jù)的基礎(chǔ)上,通過(guò)“機(jī)器學(xué)習(xí)”相關(guān)的各種技術(shù)和數(shù)學(xué)建模來(lái)預(yù)測(cè)事情發(fā)生的可能性并采取相應(yīng)措施。預(yù)測(cè)股價(jià)、預(yù)測(cè)機(jī)票價(jià)格、預(yù)測(cè)流感等等。
“預(yù)測(cè)事情發(fā)生的可能性”繼續(xù)往下延伸,就可以通過(guò)適當(dāng)?shù)摹案深A(yù)”,來(lái)引導(dǎo)事情向著期望的方向發(fā)展。比如亞馬遜和所有的電商一樣,都會(huì)基于對(duì)用戶(hù)的喜好及消費(fèi)能力分析來(lái)推薦“商品”,引導(dǎo)用戶(hù)提高消費(fèi)金額;Google等互聯(lián)網(wǎng)巨頭也會(huì)通過(guò)各種技術(shù)手段來(lái)試圖向不同的用戶(hù)展現(xiàn)不同的廣告,并稱(chēng)之為“精準(zhǔn)營(yíng)銷(xiāo)”,由此來(lái)提高點(diǎn)擊率(公司收入);網(wǎng)游公司也會(huì)在運(yùn)營(yíng)工程中通過(guò)玩家行為數(shù)據(jù)的分析來(lái)及時(shí)調(diào)整游戲關(guān)卡及計(jì)費(fèi)點(diǎn)等設(shè)計(jì)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線(xiàn)” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類(lèi)核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11