
閑話大數(shù)據(jù)--大數(shù)據(jù)的分析技術(shù)_數(shù)據(jù)分析師
如果你還沒(méi)有意識(shí)到21世紀(jì)信息爆炸的速度是何等的驚人,以下事實(shí)應(yīng)該能讓你有一個(gè)大致的概念:
·現(xiàn)在《紐約時(shí)報(bào)》一周的信息量比18世紀(jì)一個(gè)人一生所收到的資訊總量更大
·現(xiàn)在全世界18個(gè)月產(chǎn)生的信息比過(guò)去5000年的信息總和更多
·現(xiàn)在一部蘋果手機(jī)的計(jì)算能力,已經(jīng)超出人類發(fā)射第一枚人造衛(wèi)星時(shí)用到的所有計(jì)算機(jī)計(jì)算能力的總和
類似的事實(shí)還有很多,在此不一一列舉。但值得注意的是,信息的爆炸速度固然驚人,但如果沒(méi)有對(duì)這些信息加以利用和分析,并得出對(duì)我們有意義的結(jié)論,爆炸和不爆炸就沒(méi)有任何區(qū)別。為了讓它們從沒(méi)意義變得有意義,一個(gè)概念應(yīng)運(yùn)而生,那就是現(xiàn)今越來(lái)越流行的一個(gè)詞匯:大數(shù)據(jù)(BigData)
什么是大數(shù)據(jù)?
什么是大數(shù)據(jù)?要了解這個(gè)問(wèn)題,我們首先要了解:什么是數(shù)據(jù)?
廣義上,對(duì)于任何事物、任何現(xiàn)象,以任何方式記錄下來(lái)的信息,都可以稱作數(shù)據(jù)(Data)。嚴(yán)格來(lái)說(shuō),人類從第一次在石頭上刻錄符號(hào)的那一天開(kāi)始,就進(jìn)入了數(shù)據(jù)時(shí)代。數(shù)據(jù),本質(zhì)上就是記錄下來(lái)的信息。毫不夸張的說(shuō),任何事物或現(xiàn)象都可以被量化,或者說(shuō)被數(shù)據(jù)化,換言之,在數(shù)據(jù)科學(xué)家看來(lái),世間萬(wàn)事萬(wàn)物皆數(shù)據(jù)。而大數(shù)據(jù),正是這一信條的堅(jiān)定追隨者。
一般來(lái)說(shuō),任何與大數(shù)據(jù)有關(guān)的概念,都需要在一定程度上和以下的四個(gè)V產(chǎn)生聯(lián)系:
·Volume(容量)
·Velocity(速率)
·Variety(多樣性)
·Value(價(jià)值)
這四個(gè)V,定義了數(shù)據(jù)的四個(gè)維度。而有關(guān)數(shù)據(jù)的一切活動(dòng),包括獲取、記錄、挖掘、分析、整合等等,在這四個(gè)維度上的拓展和延伸,都可稱作是大數(shù)據(jù)行為。下面,我們分別來(lái)看看這四個(gè)V是如何在實(shí)際生活中發(fā)揮作用的。
1. Volume(容量)
提到大數(shù)據(jù),人們最容易想到的就是“大量的數(shù)據(jù)”。雖然這樣的“成見(jiàn)”被各路專家詬病已久,但不得不承認(rèn)的是,大量的數(shù)據(jù)的確是人們進(jìn)行精確量化分析的基 礎(chǔ)。單個(gè)的數(shù)據(jù)意義不大,但大量的數(shù)據(jù)累加,就會(huì)產(chǎn)生重大的意義。好比在零售業(yè),一個(gè)顧客的購(gòu)買偏好不是那么重要,但一萬(wàn)個(gè)顧客的購(gòu)買偏好就會(huì)對(duì)決策者產(chǎn) 生重大的影響,而一億個(gè)顧客的偏好足以重新定義市場(chǎng)。從哲學(xué)上說(shuō),這就是量變到質(zhì)變的轉(zhuǎn)化。
關(guān)于“大容量數(shù)據(jù)”,一個(gè)有名的例子是Google于2008年推出的Google流感預(yù)測(cè)趨勢(shì)(Google Flu Trends, 簡(jiǎn)稱GFT)。GFT來(lái)自一個(gè)很簡(jiǎn)單的想法:在流感爆發(fā)的季節(jié),人們?cè)贕oogle上搜尋流感防治相關(guān)資訊的比例會(huì)增加。通過(guò)分析海量的關(guān)鍵字(比如“咳嗽”、“發(fā)燒”等)搜尋記錄,可準(zhǔn)確且快速的預(yù)測(cè)流感將在哪些地區(qū)出現(xiàn),以及對(duì)應(yīng)的傳播范圍。
再比如,2014年,美國(guó)舊金山附近發(fā)生了一場(chǎng)6.0級(jí)的地震,地震發(fā)生時(shí)間大約是凌晨的3點(diǎn)20分。 第二天,有一個(gè)可穿戴式設(shè)備的制造商發(fā)布了一組大數(shù)據(jù),他們發(fā)現(xiàn)通過(guò)他們的可穿戴式設(shè)備他們可以知道在地震的時(shí)候有多少人醒了,多少人翻身,并且可以明顯 的看到隨著離震源的距離不斷變大,醒來(lái)和翻身的人數(shù)逐漸減少。在科學(xué)家看來(lái),這件事情具有劃時(shí)代的意義,因?yàn)檫@是人類歷史上第一次能夠宣稱說(shuō)有一天晚上我 們知道這個(gè)地區(qū)有多少人處于深度睡眠,有多少人處于淺度睡眠,有多少人醒來(lái),并且是在什么時(shí)刻醒來(lái),又有多少人過(guò)了多久再次睡著。如果你對(duì)數(shù)據(jù)分析有著敏 銳的嗅覺(jué),你會(huì)發(fā)現(xiàn)這是一件很恐怖的事情。為什么?因?yàn)閱螁问沁@樣的睡眠數(shù)據(jù)就已經(jīng)能夠解釋太多問(wèn)題了!比如,為什么第二天這個(gè)地區(qū)的交通事故增加?為什 么藥店的某種藥物銷量劇增?為什么購(gòu)買暖色服裝的人數(shù)減少?為什么某個(gè)電視頻道變得更受歡迎?…..心理學(xué)家或者社會(huì)學(xué)家還能用這些數(shù)據(jù)解釋更多的問(wèn)題,這是在十年之前不能想象的事情。
在上面這個(gè)故事中,我們不妨想想,假如是你,你為什么要戴上可穿戴式設(shè)備?你是為了收集你個(gè)人的睡眠數(shù)據(jù),用以監(jiān)控你的健康狀況。然而,當(dāng)有千萬(wàn)個(gè)和你一樣 的人在做同樣事情的時(shí)候,這些數(shù)據(jù)匯集到一起,能解釋的事情就遠(yuǎn)超個(gè)人本身了。這叫做數(shù)據(jù)的外部性。換言之,數(shù)據(jù)的作用超出了最初收集它的目的。本來(lái)這些 數(shù)據(jù)是為個(gè)人健康服務(wù),但事實(shí)上一旦容量足夠大,它就可以在更高的層次上解釋更宏觀的事情。通過(guò)在不同層次上的應(yīng)用,數(shù)據(jù)的作用和價(jià)值被層層放大,這就是 大容量(Volume)數(shù)據(jù)的優(yōu)勢(shì)。
2. Velocity(速率)
大數(shù)據(jù)的高速率特性,主要體現(xiàn)在數(shù)據(jù)的生成、采集和分析上。在傳統(tǒng)的數(shù)據(jù)分析領(lǐng)域,數(shù)據(jù)從采集、處理到分析,要經(jīng)過(guò)一段較長(zhǎng)的時(shí)間。而在高速率的數(shù)據(jù)環(huán)境下,由于每時(shí)每刻都有大量數(shù)據(jù)產(chǎn)生,我們必須對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)的收集和分析,以免造成數(shù)據(jù)的流失。
還是看看Google(沒(méi)辦法,這是大數(shù)據(jù)分析的龍頭老大)。Google地圖里包含了實(shí)時(shí)路況分析功能,可以實(shí)時(shí)判斷某一路段車流大小,從而為道路使用者提供最優(yōu)化的交通方案。這一功能的實(shí)現(xiàn),就是基于高速率數(shù)據(jù)采集與分析的技術(shù)。比如在某個(gè)路段內(nèi),Google通過(guò)帶GPS功能的手機(jī)以及其他移動(dòng)設(shè)備匿名收集信息,當(dāng)你允許Google Maps獲取你的地址時(shí),手機(jī)會(huì)上傳你移動(dòng)的速度到服務(wù)器。這些移動(dòng)設(shè)備會(huì)向Google的分析中心提供實(shí)時(shí)的數(shù)據(jù),而分析中心可以利用這些數(shù)據(jù)快速推算出該路段的擁堵?tīng)顩r,從而實(shí)現(xiàn)實(shí)時(shí)路況分析。
之前提到過(guò)的Google流感預(yù)測(cè)也是一個(gè)很好的例子。Google挑選美國(guó)九個(gè)區(qū)域進(jìn)行流感預(yù)測(cè)趨勢(shì)的測(cè)試,發(fā)現(xiàn)這個(gè)技術(shù)可以比美國(guó)聯(lián)邦疾病預(yù)防與控制中心提前一到兩周準(zhǔn)確預(yù)測(cè)流感的爆發(fā)。因?yàn)閭鹘y(tǒng)的流感監(jiān)測(cè)系統(tǒng)要用7到14天來(lái)收集和發(fā)布監(jiān)測(cè)數(shù)據(jù),而Google對(duì)關(guān)鍵詞搜索數(shù)據(jù)的分析可以在極短的時(shí)間內(nèi)自動(dòng)完成。根據(jù)Google的軟件工程師的評(píng)估,這個(gè)流感預(yù)測(cè)趨勢(shì)可以為流感的爆發(fā)提供一個(gè)早期的預(yù)警系統(tǒng)。
根據(jù)以往的資料,Google流感預(yù)測(cè)趨勢(shì)的分析結(jié)果與美國(guó)聯(lián)邦疾病預(yù)防與控制中心公布的結(jié)果十分相似(見(jiàn)圖,藍(lán)色代表Google的結(jié)果,黃色代表聯(lián)邦疾病防控中心的結(jié)果)。另外,這套預(yù)測(cè)系統(tǒng)在其他國(guó)家也有不俗的表現(xiàn)。
3. Variety(多樣性)
數(shù) 據(jù)的多樣性,主要體現(xiàn)在兩個(gè)方面:一是數(shù)據(jù)的來(lái)源多樣,二是數(shù)據(jù)的形式多樣。拿衛(wèi)生保健數(shù)據(jù)舉例,大致有藥理學(xué)科研數(shù)據(jù),臨床數(shù)據(jù),個(gè)人行為和情感數(shù)據(jù), 就診索賠記錄和開(kāi)銷數(shù)據(jù)四類,而每一類數(shù)據(jù)的形式也千差萬(wàn)別(比如臨床數(shù)據(jù)就包括病歷的文本數(shù)據(jù),醫(yī)患的電子郵件記錄,電話記錄,醫(yī)學(xué)儀器診療結(jié)果等 等)。而對(duì)于不同來(lái)源、不同形式的數(shù)據(jù)加以挖掘和整合,是讓Variety產(chǎn)生價(jià)值的關(guān)鍵。
例如,北京市交通智能化分析平臺(tái)數(shù)據(jù)源來(lái)自路網(wǎng)攝像頭/傳感器、地面公交、軌道交通、出租車以及省際客運(yùn)、旅游、化危運(yùn)輸、停車、租車等運(yùn)輸行業(yè),還有問(wèn)卷調(diào)查和GIS數(shù)據(jù)。這些數(shù)據(jù)從Volume和Velocity上也達(dá)到了大數(shù)據(jù)的規(guī)模:4萬(wàn)輛浮動(dòng)車每天產(chǎn)生2000萬(wàn)條記錄,交通卡刷卡記錄每天1900萬(wàn)條,手機(jī)定位數(shù)據(jù)每天1800萬(wàn)條,出租車運(yùn)營(yíng)數(shù)據(jù)每天100萬(wàn)條,高速ETC數(shù)據(jù)每天50萬(wàn)條,針對(duì)8萬(wàn)戶家庭的定期調(diào)查,等等。分析這類數(shù)據(jù)的重點(diǎn),在于發(fā)掘這些形態(tài)各異、快慢不一的數(shù)據(jù)流之間的相關(guān)性。甚至,交通數(shù)據(jù)與其它領(lǐng)域的數(shù)據(jù)也存在較強(qiáng)的相關(guān)性。有研究發(fā)現(xiàn),可以從供水系統(tǒng)的數(shù)據(jù)中發(fā)現(xiàn)晨洗的高峰時(shí)間,加上一個(gè)偏移量(通常是滯后40-45分鐘)就是交通早高峰時(shí)間。同樣,可以從電網(wǎng)數(shù)據(jù)中統(tǒng)計(jì)出傍晚辦公樓集中關(guān)燈的時(shí)間,加上偏移量來(lái)估計(jì)出晚上的堵車時(shí)點(diǎn)。之前提到的交通事故率與睡眠質(zhì)量的關(guān)聯(lián),也是同一個(gè)道理。
在疾病防控領(lǐng)域,處理多樣性數(shù)據(jù)往往會(huì)帶來(lái)理想的結(jié)果。流行病的發(fā)生和傳播有一定的規(guī)律性,與氣溫變化、環(huán)境指數(shù)、人口流動(dòng)等因素密切相關(guān),如果在數(shù)據(jù)的獲取和分析中把這些因素全部考慮進(jìn)去,其可靠性會(huì)比單單分析關(guān)鍵詞搜索數(shù)據(jù)更高。和Google的GFT相比,百度的疾病預(yù)測(cè)考慮得更加周全。在關(guān)鍵詞搜索數(shù)據(jù)的基礎(chǔ)上,百度把微博、天氣、人群遷徙、用戶屬性、地面環(huán)境、甚至航班起降等數(shù)據(jù)一并加入預(yù)測(cè)模型。此外,Google用的數(shù)據(jù)依賴于Google Correlation產(chǎn)品,而百度則是直接從原始日志中進(jìn)行清洗、消岐、擴(kuò)展和分析,在數(shù)據(jù)上做得更加細(xì)致,也由此可以提供更加有效的判斷。
4. Value(價(jià)值)
值得注意的是,傳統(tǒng)意義上對(duì)于大數(shù)據(jù)的理解并不包含Value。大數(shù)據(jù)分析在它的初始階段僅僅著重于前三個(gè)V, 數(shù)據(jù)科學(xué)家們也往往只專注于數(shù)據(jù)處理的技術(shù),卻忘了用它創(chuàng)造價(jià)值。然而隨著大數(shù)據(jù)的概念在企業(yè)中變得越來(lái)越普及,數(shù)據(jù)背后所蘊(yùn)含的價(jià)值越來(lái)越受到?jīng)Q策者的 重視。無(wú)論任何形式的數(shù)據(jù),如果不能為企業(yè)(或者其擁有者)帶來(lái)價(jià)值,那么它對(duì)于決策者而言是沒(méi)有任何意義的。反之,無(wú)論任何形式的數(shù)據(jù),只要能創(chuàng)造價(jià) 值,決策者就應(yīng)該加以利用和分析,即使它的容量、多樣性和速度并不是十分理想。
舉例來(lái)說(shuō),許多服裝的零售商開(kāi)始嘗試一種新的數(shù)據(jù)記錄與分析的方法,來(lái)提高他們的利潤(rùn)。他們?cè)诿考b上都安裝了一個(gè)射頻識(shí)別碼(RFID), 只要有顧客將衣服拿進(jìn)試衣間,這個(gè)識(shí)別碼就會(huì)被記錄下來(lái)并傳送至公司總部的數(shù)據(jù)庫(kù)。換言之,每一件服裝,在什么國(guó)家什么城市的哪個(gè)分店,在什么時(shí)間被顧客 帶到試衣間,停留了多長(zhǎng)時(shí)間,都被系統(tǒng)毫無(wú)遺漏的記錄下來(lái)并加以分析。不要小看這些“試衣間數(shù)據(jù)”,它們背后的價(jià)值不可限量。比如說(shuō),假設(shè)公司總部發(fā)現(xiàn)某 種服裝銷量很低,這種產(chǎn)品通常會(huì)被停止生產(chǎn)。但如果“試衣間數(shù)據(jù)”顯示這種服裝雖然銷量低,但被顧客帶進(jìn)試衣間的次數(shù)多、時(shí)間長(zhǎng),那就說(shuō)明它具有相當(dāng)?shù)奈?引力,決策者也就不會(huì)簡(jiǎn)單粗暴的讓該產(chǎn)品下架,因?yàn)榛蛟S一點(diǎn)小小的改變就可以讓它的銷量飆升。
小結(jié)
人類社會(huì)的今天,在種類繁多的領(lǐng)域里,每天都有海量數(shù)據(jù)以驚人的速率產(chǎn)生。而對(duì)這些數(shù)據(jù)的獲取、記錄、挖掘、分析與整合,使之產(chǎn)生巨大的價(jià)值,這就是大數(shù)據(jù)的概念。在大數(shù)據(jù)這片浩瀚的海洋里,人們駕著一葉扁舟該何去何從,這需要大數(shù)據(jù)分析技術(shù)(Big Data Analytics)加以引導(dǎo)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11