
一、移動(dòng)互聯(lián)時(shí)代,數(shù)以百億計(jì)的機(jī)器、企業(yè)、個(gè)人隨時(shí)隨地都會(huì)獲取和產(chǎn)生新的數(shù)據(jù)
即便是在“摩爾定律”——每18個(gè)月芯片性能將提高1倍——的支撐下,硬件性能進(jìn)化的速度也早已趕不上數(shù)據(jù)增長(zhǎng)的速度,并且差距越來越巨大。
1分鐘之內(nèi),新浪微博發(fā)送數(shù)萬條微博,蘋果應(yīng)用商店下載次數(shù)以萬計(jì),淘寶賣出了幾萬件商品,百度產(chǎn)生了百萬次搜索查詢……所有這些行為都由海量的數(shù)據(jù)來呈現(xiàn)。
在去年12月12日電商的促銷期,淘寶網(wǎng)推出“時(shí)光機(jī)”——一個(gè)根據(jù)淘寶買家?guī)啄陙淼馁?gòu)買商品記錄、瀏覽點(diǎn)擊次數(shù)、收貨地址等數(shù)據(jù)編輯制作的“個(gè)人網(wǎng)購(gòu)志”,從而記錄和勾勒出讓人感懷的生活記憶。背后,是基于對(duì)4.7億淘寶注冊(cè)用戶網(wǎng)購(gòu)數(shù)據(jù)的分析處理,這正是大數(shù)據(jù)的典型應(yīng)用。
隨著傳統(tǒng)互聯(lián)網(wǎng)向移動(dòng)互聯(lián)發(fā)展,全球范圍內(nèi),除了個(gè)人電腦、平板電腦、智能手機(jī)、游戲主機(jī)等常見的計(jì)算終端之外,更廣闊的、泛在互連的智能設(shè)備,比如智能汽車、智能電視、工業(yè)設(shè)備和手持設(shè)備等都連接到網(wǎng)絡(luò)之中。基于社會(huì)化網(wǎng)絡(luò)的平臺(tái)和應(yīng)用,讓數(shù)以百億計(jì)的機(jī)器、企業(yè)、個(gè)人隨時(shí)隨地都會(huì)獲取和產(chǎn)生新的數(shù)據(jù)。
互聯(lián)網(wǎng)搜索引擎是大數(shù)據(jù)最為典型的應(yīng)用之一。百度日處理數(shù)據(jù)量達(dá)到數(shù)十PB,并呈現(xiàn)高速增長(zhǎng)的態(tài)勢(shì)。如果一張光盤容量為1GB,這相當(dāng)于壘在一起的幾千萬張光盤。微軟Bing(在中國(guó)為必應(yīng))搜索引擎,一周需要響應(yīng)100億次量級(jí)的搜索請(qǐng)求。通過和Facebook的合作,每天有超過10億次的社交網(wǎng)絡(luò)搜索請(qǐng)求通過Bing來處理。
短短的18個(gè)月,中國(guó)移動(dòng)互聯(lián)網(wǎng)流量增加了10倍。中國(guó)工程院院士鄔賀銓說,隨著社交網(wǎng)絡(luò)的逐漸成熟、移動(dòng)帶寬迅速提升,更多的傳感設(shè)備、移動(dòng)終端接入網(wǎng)絡(luò),產(chǎn)生的數(shù)據(jù)及其增長(zhǎng)速度比歷史上任何時(shí)期都要多,互聯(lián)網(wǎng)上的數(shù)據(jù)流量正在迅猛增長(zhǎng)。鄔賀銓認(rèn)為,在云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的帶動(dòng)下,中國(guó)的移動(dòng)互聯(lián)網(wǎng)已經(jīng)步入“大數(shù)據(jù)”時(shí)代。
而根據(jù)市場(chǎng)調(diào)研公司IDC的報(bào)告,全球信息總量每過兩年就會(huì)增長(zhǎng)一倍,2011年全球產(chǎn)生的數(shù)據(jù)總量為1.8ZB(1ZB約為百萬PB),相比2010年增長(zhǎng)了1ZB,相當(dāng)于全球歷史數(shù)據(jù)總和。
繼云計(jì)算后,大數(shù)據(jù)(big data)成為信息技術(shù)領(lǐng)域最為熱門的概念之一。
二、大數(shù)據(jù)有四個(gè)特征,最重要的是獲得洞察力和價(jià)值
在IT業(yè)界,有人把大數(shù)據(jù)產(chǎn)業(yè)定義為:“建立在對(duì)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等渠道廣泛大量數(shù)據(jù)資源收集基礎(chǔ)上的數(shù)據(jù)存儲(chǔ)、價(jià)值提煉、智能處理和分發(fā)的信息服務(wù)業(yè)”,或者如IT巨頭概括大數(shù)據(jù)戰(zhàn)略為:“致力于讓所有用戶能夠從幾乎任何數(shù)據(jù)中獲得可轉(zhuǎn)換為業(yè)務(wù)執(zhí)行的洞察力,包括之前隱藏在非結(jié)構(gòu)化數(shù)據(jù)中的洞察力”。
“總之是對(duì)大量、動(dòng)態(tài)、能持續(xù)的數(shù)據(jù),通過運(yùn)用新系統(tǒng)、新工具、新模型的挖掘,從而獲得具有洞察力和新價(jià)值的東西?!蔽④浌救蛸Y深副總裁、微軟亞太研發(fā)集團(tuán)主席張亞勤博士接受記者采訪時(shí)說。
雖然有多種解讀,但業(yè)界一般認(rèn)為,大數(shù)據(jù)有四個(gè)“V”字開頭的特征:Volume(容量), Variety(種類), Velocity(速度)和最重要的Value(價(jià)值)。Volume是指大數(shù)據(jù)巨大的數(shù)據(jù)量與數(shù)據(jù)完整性。張亞勤說,IT業(yè)界所指的數(shù)據(jù),誕生不過60多年。而一直到個(gè)人電腦普及前,由于存儲(chǔ)、計(jì)算和分析工具的技術(shù)和成本限制,許多自然界和人類社會(huì)值得記錄的信號(hào),并未形成數(shù)據(jù)。幾十年前,氣象、地質(zhì)、石油物探、出版業(yè)、媒體業(yè)和影視業(yè)是大量、持續(xù)產(chǎn)出信號(hào)的行業(yè),但那時(shí)90%以上采用的是存儲(chǔ)模擬信號(hào),難以通過計(jì)算設(shè)備和軟件進(jìn)行直接分析。擁有大量資金和人才的政府和企業(yè),也只能把少量最關(guān)鍵的信號(hào),進(jìn)行抽取、轉(zhuǎn)換、裝載到數(shù)據(jù)庫(kù)中。
張亞勤認(rèn)為,盡管業(yè)界對(duì)達(dá)到怎樣的數(shù)量級(jí)才算是大數(shù)據(jù)并無定論,但在很多行業(yè)的應(yīng)用場(chǎng)景里,數(shù)據(jù)集本身的大小并不是最重要的,是否完整才最重要。
Variety則意味著要在海量、種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián)?;ヂ?lián)網(wǎng)時(shí)代,各種設(shè)備通過網(wǎng)絡(luò)連成了一個(gè)整體。進(jìn)入以互動(dòng)為特征的Web2.0時(shí)代,個(gè)人計(jì)算機(jī)用戶不僅可以通過網(wǎng)絡(luò)獲取信息,還成為了信息的制造者和傳播者。這個(gè)階段,不僅是數(shù)據(jù)量開始了爆炸式增長(zhǎng),數(shù)據(jù)種類也開始變得繁多。
“這必然促使我們對(duì)海量數(shù)據(jù)進(jìn)行分析、處理和集成,找出原本看來毫無關(guān)系的那些數(shù)據(jù)的‘關(guān)聯(lián)性’,把似乎沒有用的數(shù)據(jù)變成有用的信息,以支持我們做出的判斷?!睆垇喦谡f。
Velocity可以理解為更快地滿足實(shí)時(shí)性需求。數(shù)據(jù)的實(shí)時(shí)化需求正越來越清晰。對(duì)普通人而言,開車去吃飯,會(huì)先用移動(dòng)終端中的地圖查詢餐廳的位置,預(yù)計(jì)行車路線的擁堵情況,了解停車場(chǎng)信息甚至是其他用戶對(duì)餐廳的評(píng)論。吃飯時(shí),會(huì)用手機(jī)拍攝食物的照片,編輯簡(jiǎn)短評(píng)論發(fā)布到微博或者微信上,還可以用LBS(基于位置的服務(wù))應(yīng)用查找在同一間餐廳吃飯的人,看有沒有好友在附近……
張亞勤說,如今,通過各種有線和無線網(wǎng)絡(luò),人和人、人和各種機(jī)器、機(jī)器和機(jī)器之間產(chǎn)生無處不在的連接,這些連接不可避免地帶來數(shù)據(jù)交換。而數(shù)據(jù)交換的關(guān)鍵是降低延遲,以近乎實(shí)時(shí)——這意味著小于250毫秒——的方式呈獻(xiàn)給用戶。
“但比前面3個(gè)‘V’更重要的,就是Value,它是大數(shù)據(jù)的最終意義——獲得洞察力和價(jià)值?!睆垇喦谡f,大數(shù)據(jù)的崛起,正是在人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等技術(shù)的迅速發(fā)展驅(qū)動(dòng)下,呈現(xiàn)這么一個(gè)過程:將信號(hào)轉(zhuǎn)化為數(shù)據(jù),將數(shù)據(jù)分析為信息,將信息提煉為知識(shí),以知識(shí)促成決策和行動(dòng)。
百度相關(guān)專家認(rèn)為,就大數(shù)據(jù)的價(jià)值而言,就像沙子淘金,大數(shù)據(jù)規(guī)模越大,真正有價(jià)值的數(shù)據(jù)相對(duì)越少。
“所以真正好的大數(shù)據(jù)系統(tǒng),重要的不是越多越好,其實(shí)越少越好?!睆垇喦谡f,開始數(shù)據(jù)要多,最好還是要少,把ZB、PB最終變成一個(gè)比特,也就是最后的決策。這才是最關(guān)鍵的。
三、云計(jì)算和大數(shù)據(jù)是一個(gè)硬幣的兩面,大數(shù)據(jù)正在引發(fā)全球范圍內(nèi)深刻的技術(shù)和商業(yè)變革
如同云計(jì)算的出現(xiàn),大數(shù)據(jù)也不是一個(gè)突然而至的新概念。
“云計(jì)算和大數(shù)據(jù)是一個(gè)硬幣的兩面,云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),而大數(shù)據(jù)是云計(jì)算的一個(gè)殺手級(jí)應(yīng)用?!睆垇喦谡f。云計(jì)算是大數(shù)據(jù)成長(zhǎng)的驅(qū)動(dòng)力,而另一方面,由于數(shù)據(jù)越來越多、越來越復(fù)雜、越來越實(shí)時(shí),這就更加需要云計(jì)算去處理,所以二者之間是相輔相成的。
30年前,存儲(chǔ)1TB也就是約1000GB數(shù)據(jù)的成本大約是16億美元,如今存儲(chǔ)到云上只需不到100美元;但存儲(chǔ)下來的數(shù)據(jù),如果不以云計(jì)算進(jìn)行挖掘和分析,就只是僵死的數(shù)據(jù),沒有太大價(jià)值。
目前,云計(jì)算已經(jīng)普及并成為IT行業(yè)主流技術(shù),其實(shí)質(zhì)是在計(jì)算量越來越大、數(shù)據(jù)越來越多、越來越動(dòng)態(tài)、越來越實(shí)時(shí)的需求背景下被催生出來的一種基礎(chǔ)架構(gòu)和商業(yè)模式。個(gè)人用戶將文檔、照片、視頻、游戲存檔記錄上傳至“云”中永久保存,企業(yè)客戶根據(jù)自身需求,可以搭建自己的“私有云”,或托管、或租用“公有云”上的IT資源與服務(wù),這些都已不是新鮮事??梢哉f,云是一棵掛滿了大數(shù)據(jù)的蘋果樹。
大數(shù)據(jù)的出現(xiàn),正在引發(fā)全球范圍內(nèi)深刻的技術(shù)與商業(yè)變革。在技術(shù)上,大數(shù)據(jù)使從數(shù)據(jù)當(dāng)中提取信息的常規(guī)方式發(fā)生了變化?!霸诩夹g(shù)領(lǐng)域,以往更多是依靠模型的方法,現(xiàn)在我們可以借用規(guī)模龐大的數(shù)據(jù),用基于統(tǒng)計(jì)的方法,有望使語音識(shí)別、機(jī)器翻譯這些技術(shù)領(lǐng)域在大數(shù)據(jù)時(shí)代取得新的進(jìn)展。”張亞勤說。
在搜索引擎和在線廣告中發(fā)揮重要作用的機(jī)器學(xué)習(xí),被認(rèn)為是大數(shù)據(jù)發(fā)揮真正價(jià)值的領(lǐng)域。在海量的數(shù)據(jù)中統(tǒng)計(jì)分析出人的行為、習(xí)慣等方式,計(jì)算機(jī)可以更好地學(xué)習(xí)模擬人類智能。隨著包括語音、視覺、手勢(shì)和多點(diǎn)觸控等在內(nèi)的自然用戶界面越來越普及,計(jì)算系統(tǒng)正在具備與人類相仿的感知能力,其看見、聽懂和理解人類用戶的能力不斷提高。這種計(jì)算系統(tǒng)不斷增強(qiáng)的感知能力,與大數(shù)據(jù)以及機(jī)器學(xué)習(xí)領(lǐng)域的進(jìn)展相結(jié)合,已使得目前的計(jì)算系統(tǒng)開始能夠理解人類用戶的意圖和語境。“這使得計(jì)算機(jī)能夠真正幫助我們,甚至代表我們?nèi)スぷ鳌薄?br />
在商業(yè)模式上,張亞勤認(rèn)為,對(duì)商業(yè)競(jìng)爭(zhēng)的參與者來說,大數(shù)據(jù)意味著激動(dòng)人心的業(yè)務(wù)與服務(wù)創(chuàng)新機(jī)會(huì)。零售連鎖企業(yè)、電商業(yè)巨頭都已在大數(shù)據(jù)挖掘與營(yíng)銷創(chuàng)新方面有著很多的成功案例,它們都是商業(yè)嗅覺極其敏銳、敢于投資未來的公司,也因此獲得了豐厚的回報(bào)。
IT產(chǎn)業(yè)鏈分工、主導(dǎo)權(quán)也因?yàn)榇髷?shù)據(jù)產(chǎn)生了巨大影響。以往,移動(dòng)運(yùn)營(yíng)商和互聯(lián)網(wǎng)服務(wù)運(yùn)營(yíng)商等擁有著大量的用戶行為習(xí)慣的各種數(shù)據(jù),在IT產(chǎn)業(yè)鏈中具有舉足輕重的地位。而在大數(shù)據(jù)時(shí)代,移動(dòng)運(yùn)營(yíng)商如果不能挖掘出數(shù)據(jù)的價(jià)值,可能徹徹底底被管道化。運(yùn)營(yíng)商和更懂用戶需求的第三方開發(fā)者互利共贏的模式,已取得一定共識(shí)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10