
閑話大數(shù)據(jù)--大數(shù)據(jù)的分析技術(shù)_數(shù)據(jù)分析師
如果你還沒有意識到21世紀信息爆炸的速度是何等的驚人,以下事實應(yīng)該能讓你有一個大致的概念:
·現(xiàn)在《紐約時報》一周的信息量比18世紀一個人一生所收到的資訊總量更大
·現(xiàn)在全世界18個月產(chǎn)生的信息比過去5000年的信息總和更多
·現(xiàn)在一部蘋果手機的計算能力,已經(jīng)超出人類發(fā)射第一枚人造衛(wèi)星時用到的所有計算機計算能力的總和
類似的事實還有很多,在此不一一列舉。但值得注意的是,信息的爆炸速度固然驚人,但如果沒有對這些信息加以利用和分析,并得出對我們有意義的結(jié)論,爆炸和不爆炸就沒有任何區(qū)別。為了讓它們從沒意義變得有意義,一個概念應(yīng)運而生,那就是現(xiàn)今越來越流行的一個詞匯:大數(shù)據(jù)(BigData)
什么是大數(shù)據(jù)?
什么是大數(shù)據(jù)?要了解這個問題,我們首先要了解:什么是數(shù)據(jù)?
廣義上,對于任何事物、任何現(xiàn)象,以任何方式記錄下來的信息,都可以稱作數(shù)據(jù)(Data)。嚴格來說,人類從第一次在石頭上刻錄符號的那一天開始,就進入了數(shù)據(jù)時代。數(shù)據(jù),本質(zhì)上就是記錄下來的信息。毫不夸張的說,任何事物或現(xiàn)象都可以被量化,或者說被數(shù)據(jù)化,換言之,在數(shù)據(jù)科學家看來,世間萬事萬物皆數(shù)據(jù)。而大數(shù)據(jù),正是這一信條的堅定追隨者。
一般來說,任何與大數(shù)據(jù)有關(guān)的概念,都需要在一定程度上和以下的四個V產(chǎn)生聯(lián)系:
·Volume(容量)
·Velocity(速率)
·Variety(多樣性)
·Value(價值)
這四個V,定義了數(shù)據(jù)的四個維度。而有關(guān)數(shù)據(jù)的一切活動,包括獲取、記錄、挖掘、分析、整合等等,在這四個維度上的拓展和延伸,都可稱作是大數(shù)據(jù)行為。下面,我們分別來看看這四個V是如何在實際生活中發(fā)揮作用的。
1. Volume(容量)
提到大數(shù)據(jù),人們最容易想到的就是“大量的數(shù)據(jù)”。雖然這樣的“成見”被各路專家詬病已久,但不得不承認的是,大量的數(shù)據(jù)的確是人們進行精確量化分析的基 礎(chǔ)。單個的數(shù)據(jù)意義不大,但大量的數(shù)據(jù)累加,就會產(chǎn)生重大的意義。好比在零售業(yè),一個顧客的購買偏好不是那么重要,但一萬個顧客的購買偏好就會對決策者產(chǎn) 生重大的影響,而一億個顧客的偏好足以重新定義市場。從哲學上說,這就是量變到質(zhì)變的轉(zhuǎn)化。
關(guān)于“大容量數(shù)據(jù)”,一個有名的例子是Google于2008年推出的Google流感預(yù)測趨勢(Google Flu Trends, 簡稱GFT)。GFT來自一個很簡單的想法:在流感爆發(fā)的季節(jié),人們在Google上搜尋流感防治相關(guān)資訊的比例會增加。通過分析海量的關(guān)鍵字(比如“咳嗽”、“發(fā)燒”等)搜尋記錄,可準確且快速的預(yù)測流感將在哪些地區(qū)出現(xiàn),以及對應(yīng)的傳播范圍。
再比如,2014年,美國舊金山附近發(fā)生了一場6.0級的地震,地震發(fā)生時間大約是凌晨的3點20分。 第二天,有一個可穿戴式設(shè)備的制造商發(fā)布了一組大數(shù)據(jù),他們發(fā)現(xiàn)通過他們的可穿戴式設(shè)備他們可以知道在地震的時候有多少人醒了,多少人翻身,并且可以明顯 的看到隨著離震源的距離不斷變大,醒來和翻身的人數(shù)逐漸減少。在科學家看來,這件事情具有劃時代的意義,因為這是人類歷史上第一次能夠宣稱說有一天晚上我 們知道這個地區(qū)有多少人處于深度睡眠,有多少人處于淺度睡眠,有多少人醒來,并且是在什么時刻醒來,又有多少人過了多久再次睡著。如果你對數(shù)據(jù)分析有著敏 銳的嗅覺,你會發(fā)現(xiàn)這是一件很恐怖的事情。為什么?因為單單是這樣的睡眠數(shù)據(jù)就已經(jīng)能夠解釋太多問題了!比如,為什么第二天這個地區(qū)的交通事故增加?為什 么藥店的某種藥物銷量劇增?為什么購買暖色服裝的人數(shù)減少?為什么某個電視頻道變得更受歡迎?…..心理學家或者社會學家還能用這些數(shù)據(jù)解釋更多的問題,這是在十年之前不能想象的事情。
在上面這個故事中,我們不妨想想,假如是你,你為什么要戴上可穿戴式設(shè)備?你是為了收集你個人的睡眠數(shù)據(jù),用以監(jiān)控你的健康狀況。然而,當有千萬個和你一樣 的人在做同樣事情的時候,這些數(shù)據(jù)匯集到一起,能解釋的事情就遠超個人本身了。這叫做數(shù)據(jù)的外部性。換言之,數(shù)據(jù)的作用超出了最初收集它的目的。本來這些 數(shù)據(jù)是為個人健康服務(wù),但事實上一旦容量足夠大,它就可以在更高的層次上解釋更宏觀的事情。通過在不同層次上的應(yīng)用,數(shù)據(jù)的作用和價值被層層放大,這就是 大容量(Volume)數(shù)據(jù)的優(yōu)勢。
2. Velocity(速率)
大數(shù)據(jù)的高速率特性,主要體現(xiàn)在數(shù)據(jù)的生成、采集和分析上。在傳統(tǒng)的數(shù)據(jù)分析領(lǐng)域,數(shù)據(jù)從采集、處理到分析,要經(jīng)過一段較長的時間。而在高速率的數(shù)據(jù)環(huán)境下,由于每時每刻都有大量數(shù)據(jù)產(chǎn)生,我們必須對數(shù)據(jù)進行實時的收集和分析,以免造成數(shù)據(jù)的流失。
還是看看Google(沒辦法,這是大數(shù)據(jù)分析的龍頭老大)。Google地圖里包含了實時路況分析功能,可以實時判斷某一路段車流大小,從而為道路使用者提供最優(yōu)化的交通方案。這一功能的實現(xiàn),就是基于高速率數(shù)據(jù)采集與分析的技術(shù)。比如在某個路段內(nèi),Google通過帶GPS功能的手機以及其他移動設(shè)備匿名收集信息,當你允許Google Maps獲取你的地址時,手機會上傳你移動的速度到服務(wù)器。這些移動設(shè)備會向Google的分析中心提供實時的數(shù)據(jù),而分析中心可以利用這些數(shù)據(jù)快速推算出該路段的擁堵狀況,從而實現(xiàn)實時路況分析。
之前提到過的Google流感預(yù)測也是一個很好的例子。Google挑選美國九個區(qū)域進行流感預(yù)測趨勢的測試,發(fā)現(xiàn)這個技術(shù)可以比美國聯(lián)邦疾病預(yù)防與控制中心提前一到兩周準確預(yù)測流感的爆發(fā)。因為傳統(tǒng)的流感監(jiān)測系統(tǒng)要用7到14天來收集和發(fā)布監(jiān)測數(shù)據(jù),而Google對關(guān)鍵詞搜索數(shù)據(jù)的分析可以在極短的時間內(nèi)自動完成。根據(jù)Google的軟件工程師的評估,這個流感預(yù)測趨勢可以為流感的爆發(fā)提供一個早期的預(yù)警系統(tǒng)。
根據(jù)以往的資料,Google流感預(yù)測趨勢的分析結(jié)果與美國聯(lián)邦疾病預(yù)防與控制中心公布的結(jié)果十分相似(見圖,藍色代表Google的結(jié)果,黃色代表聯(lián)邦疾病防控中心的結(jié)果)。另外,這套預(yù)測系統(tǒng)在其他國家也有不俗的表現(xiàn)。
3. Variety(多樣性)
數(shù) 據(jù)的多樣性,主要體現(xiàn)在兩個方面:一是數(shù)據(jù)的來源多樣,二是數(shù)據(jù)的形式多樣。拿衛(wèi)生保健數(shù)據(jù)舉例,大致有藥理學科研數(shù)據(jù),臨床數(shù)據(jù),個人行為和情感數(shù)據(jù), 就診索賠記錄和開銷數(shù)據(jù)四類,而每一類數(shù)據(jù)的形式也千差萬別(比如臨床數(shù)據(jù)就包括病歷的文本數(shù)據(jù),醫(yī)患的電子郵件記錄,電話記錄,醫(yī)學儀器診療結(jié)果等 等)。而對于不同來源、不同形式的數(shù)據(jù)加以挖掘和整合,是讓Variety產(chǎn)生價值的關(guān)鍵。
例如,北京市交通智能化分析平臺數(shù)據(jù)源來自路網(wǎng)攝像頭/傳感器、地面公交、軌道交通、出租車以及省際客運、旅游、化危運輸、停車、租車等運輸行業(yè),還有問卷調(diào)查和GIS數(shù)據(jù)。這些數(shù)據(jù)從Volume和Velocity上也達到了大數(shù)據(jù)的規(guī)模:4萬輛浮動車每天產(chǎn)生2000萬條記錄,交通卡刷卡記錄每天1900萬條,手機定位數(shù)據(jù)每天1800萬條,出租車運營數(shù)據(jù)每天100萬條,高速ETC數(shù)據(jù)每天50萬條,針對8萬戶家庭的定期調(diào)查,等等。分析這類數(shù)據(jù)的重點,在于發(fā)掘這些形態(tài)各異、快慢不一的數(shù)據(jù)流之間的相關(guān)性。甚至,交通數(shù)據(jù)與其它領(lǐng)域的數(shù)據(jù)也存在較強的相關(guān)性。有研究發(fā)現(xiàn),可以從供水系統(tǒng)的數(shù)據(jù)中發(fā)現(xiàn)晨洗的高峰時間,加上一個偏移量(通常是滯后40-45分鐘)就是交通早高峰時間。同樣,可以從電網(wǎng)數(shù)據(jù)中統(tǒng)計出傍晚辦公樓集中關(guān)燈的時間,加上偏移量來估計出晚上的堵車時點。之前提到的交通事故率與睡眠質(zhì)量的關(guān)聯(lián),也是同一個道理。
在疾病防控領(lǐng)域,處理多樣性數(shù)據(jù)往往會帶來理想的結(jié)果。流行病的發(fā)生和傳播有一定的規(guī)律性,與氣溫變化、環(huán)境指數(shù)、人口流動等因素密切相關(guān),如果在數(shù)據(jù)的獲取和分析中把這些因素全部考慮進去,其可靠性會比單單分析關(guān)鍵詞搜索數(shù)據(jù)更高。和Google的GFT相比,百度的疾病預(yù)測考慮得更加周全。在關(guān)鍵詞搜索數(shù)據(jù)的基礎(chǔ)上,百度把微博、天氣、人群遷徙、用戶屬性、地面環(huán)境、甚至航班起降等數(shù)據(jù)一并加入預(yù)測模型。此外,Google用的數(shù)據(jù)依賴于Google Correlation產(chǎn)品,而百度則是直接從原始日志中進行清洗、消岐、擴展和分析,在數(shù)據(jù)上做得更加細致,也由此可以提供更加有效的判斷。
4. Value(價值)
值得注意的是,傳統(tǒng)意義上對于大數(shù)據(jù)的理解并不包含Value。大數(shù)據(jù)分析在它的初始階段僅僅著重于前三個V, 數(shù)據(jù)科學家們也往往只專注于數(shù)據(jù)處理的技術(shù),卻忘了用它創(chuàng)造價值。然而隨著大數(shù)據(jù)的概念在企業(yè)中變得越來越普及,數(shù)據(jù)背后所蘊含的價值越來越受到?jīng)Q策者的 重視。無論任何形式的數(shù)據(jù),如果不能為企業(yè)(或者其擁有者)帶來價值,那么它對于決策者而言是沒有任何意義的。反之,無論任何形式的數(shù)據(jù),只要能創(chuàng)造價 值,決策者就應(yīng)該加以利用和分析,即使它的容量、多樣性和速度并不是十分理想。
舉例來說,許多服裝的零售商開始嘗試一種新的數(shù)據(jù)記錄與分析的方法,來提高他們的利潤。他們在每件服裝上都安裝了一個射頻識別碼(RFID), 只要有顧客將衣服拿進試衣間,這個識別碼就會被記錄下來并傳送至公司總部的數(shù)據(jù)庫。換言之,每一件服裝,在什么國家什么城市的哪個分店,在什么時間被顧客 帶到試衣間,停留了多長時間,都被系統(tǒng)毫無遺漏的記錄下來并加以分析。不要小看這些“試衣間數(shù)據(jù)”,它們背后的價值不可限量。比如說,假設(shè)公司總部發(fā)現(xiàn)某 種服裝銷量很低,這種產(chǎn)品通常會被停止生產(chǎn)。但如果“試衣間數(shù)據(jù)”顯示這種服裝雖然銷量低,但被顧客帶進試衣間的次數(shù)多、時間長,那就說明它具有相當?shù)奈?引力,決策者也就不會簡單粗暴的讓該產(chǎn)品下架,因為或許一點小小的改變就可以讓它的銷量飆升。
小結(jié)
人類社會的今天,在種類繁多的領(lǐng)域里,每天都有海量數(shù)據(jù)以驚人的速率產(chǎn)生。而對這些數(shù)據(jù)的獲取、記錄、挖掘、分析與整合,使之產(chǎn)生巨大的價值,這就是大數(shù)據(jù)的概念。在大數(shù)據(jù)這片浩瀚的海洋里,人們駕著一葉扁舟該何去何從,這需要大數(shù)據(jù)分析技術(shù)(Big Data Analytics)加以引導(dǎo)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘龌蚴窃诼殘稣媾R崗位替代、技能更新、人機協(xié)作等焦慮的打工人,想要找到一條破解職場焦慮和升職瓶頸的系統(tǒng)化學習提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時代的價值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競爭力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價值的橋梁? 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對這樣的場景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時代的通行證? 在數(shù)字化浪潮席卷全球的今天,當企業(yè)決策者盯著屏幕上跳動的數(shù)據(jù)曲線尋找增長密碼,當科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的實戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運維與開發(fā)中,開發(fā)者和 DBA 常會 ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11