
大數(shù)據(jù)的概念定義及其發(fā)展歷史
大數(shù)據(jù)(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!按髷?shù)據(jù)”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大數(shù)據(jù)時代》中提出,指不用隨機分析法(抽樣調(diào)查)的捷徑,而是采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)有4V特點,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
一、大數(shù)據(jù)概念定義
對于“大數(shù)據(jù)”(Big data)研究機構(gòu)Gartner給出了定義,“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注?!吨婆_》的分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算:
8bit= 1Byte
1KB= 1,024 Bytes
1MB= 1,024 KB = 1,048,576 Bytes
1GB= 1,024 MB = 1,048,576 KB
1TB= 1,024 GB = 1,048,576 MB
1PB= 1,024 TB = 1,048,576 GB
1EB= 1,024 PB = 1,048,576 TB
1ZB= 1,024 EB = 1,048,576 PB
1YB= 1,024 ZB = 1,048,576 EB
1BB= 1,024 YB = 1,048,576 ZB
1NB= 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
二、發(fā)展歷史
1887–1890年
美國統(tǒng)計學(xué)家赫爾曼·霍爾瑞斯為了統(tǒng)計1890年的人口普查數(shù)據(jù)發(fā)明了一臺電動器來讀取卡片上的洞數(shù),該設(shè)備讓美國用一年時間就完成了原本耗時8年的人口普查活動,由此在全球范圍內(nèi)引發(fā)了數(shù)據(jù)處理的新紀元。
1935–1937年
美國總統(tǒng)富蘭克林·羅斯福利用社會保障法開展了美國政府最雄心勃勃的一項數(shù)據(jù)收集項目,IBM最終贏得競標,即需要整理美國的2600萬個員工和300萬個雇主的記錄。共和黨總統(tǒng)候選人阿爾夫蘭登scoffs嘲笑地說,“要整理如此繁多的職工檔案,還必須而調(diào)用大規(guī)模的現(xiàn)場調(diào)查人員去核實那些信息不完整的人員記錄。”
1943年
一家英國工廠為了破譯二戰(zhàn)期間的納粹密碼,讓工程師開發(fā)了系列開創(chuàng)性的能進行大規(guī)模數(shù)據(jù)處理的機器,并使用了第一臺可編程的電子計算機進行運算。該計算機被命名為“巨人”,為了找出攔截信息中的潛在模式,它以每秒鐘5000字符的速度讀取紙卡——將原本需要耗費數(shù)周時間才能完成的工作量壓縮到了幾個小時。破譯德國部隊前方陣地的信息以后,幫助盟軍成功登陸了諾曼底。
1997年
美國宇航局研究員邁克爾·考克斯和大衛(wèi)·埃爾斯沃斯首次使用“大數(shù)據(jù)”這一術(shù)語來描述20世紀90年代的挑戰(zhàn):超級計算機生成大量的信息——在考克斯和埃爾斯沃斯按案例中,模擬飛機周圍的氣流——是不能被處理和可視化的。數(shù)據(jù)集通常之大,超出了主存儲器、本地磁盤,甚至遠程磁盤的承載能力?!彼麄兎Q之為“大數(shù)據(jù)問題。”
2002年
在9/11襲擊后,美國政府為阻止恐怖主義已經(jīng)涉足大規(guī)模數(shù)據(jù)挖掘。前國家安全顧問約翰·波因德克斯特領(lǐng)導(dǎo)國防部整合現(xiàn)有政府的數(shù)據(jù)集,組建一個用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識別可疑人的大數(shù)據(jù)庫。一年后國會因擔(dān)憂公民自由權(quán)而停止了這一項目。
2004年
9/11委員會呼吁反恐機構(gòu)應(yīng)統(tǒng)一組建“一個基于網(wǎng)絡(luò)的信息共享系統(tǒng)”,以便能快處理應(yīng)接不暇的數(shù)據(jù)。到2010年,美國國家安全局的30000名員工將攔截和存儲17億年電子郵件、電話和其它通訊日報。與此同時,零售商積累關(guān)于客戶購物和個人習(xí)慣的大量數(shù)據(jù),沃爾瑪自吹已擁有一個容量為460字節(jié)的緩存器——比當時互聯(lián)網(wǎng)上的數(shù)據(jù)量還要多一倍。
2007–2008年
隨著社交網(wǎng)絡(luò)的激增,技術(shù)博客和專業(yè)人士為“大數(shù)據(jù)” 概念注入新的生機?!爱斍笆澜绶秶鷥?nèi)已有的一些其他工具將被大量數(shù)據(jù)和應(yīng)用算法所取代”?!哆B線》的克里斯·安德森認為當時處于一個“理論終結(jié)時代”。一些政府機構(gòu)和美國的頂尖計算機科學(xué)家聲稱,“應(yīng)該深入?yún)⑴c大數(shù)據(jù)計算的開發(fā)和部署工作,因為它將直接有利于許多任務(wù)的實現(xiàn)。”
2009年1月
印度政府建立印度唯一的身份識別管理局,對12億人的指紋、照片和虹膜進行掃描,并為每人分配12位的數(shù)字ID號碼,將數(shù)據(jù)匯集到世界最大的生物識別數(shù)據(jù)庫中。官員們說它將會起到提高政府的服務(wù)效率和減少腐敗行為的作用,但批評者擔(dān)心政府會針對個別人進行剖面分析并與分享這些人的私密生活細節(jié)。
2009年5月
大數(shù)據(jù)或成反恐分析利器
美國總統(tǒng)巴拉克·奧巴馬政府推出data.gov網(wǎng)站作為政府開放數(shù)據(jù)計劃的部分舉措。該網(wǎng)站的超過4.45萬量數(shù)據(jù)集被用于保證一些網(wǎng)站和智能手機應(yīng)用程序來跟蹤從航班到產(chǎn)品召回再到特定區(qū)域內(nèi)失業(yè)率的信息,這一行動激發(fā)了從肯尼亞到英國范圍內(nèi)的政府們相繼推出類似舉措。
2009年7月
應(yīng)對全球金融危機,聯(lián)合國秘書長潘基文承諾創(chuàng)建警報系統(tǒng),抓住“實時數(shù)據(jù)帶給貧窮國家經(jīng)濟危機的影響” 。聯(lián)合國全球脈沖項目已研究了對如何利用手機和社交網(wǎng)站的數(shù)據(jù)源來分析預(yù)測從螺旋價格到疾病爆發(fā)之類的問題。
2011年2月
掃描2億年的頁面信息,或4兆兆字節(jié)磁盤存儲,只需幾秒即可完成。IBM的沃森計算機系統(tǒng)在智力競賽節(jié)目《危險邊緣》中打敗了兩名人類挑戰(zhàn)者。后來紐約時報配音這一刻為一個“大數(shù)據(jù)計算的勝利。”
2012年3月
美國政府報告要求每個聯(lián)邦機構(gòu)都要有一個“大數(shù)據(jù)”的策略,作為回應(yīng),奧巴馬政府宣布一項耗資2億美元的大數(shù)據(jù)研究與發(fā)展項目。國家衛(wèi)生研究院將一套人類基因組項目的數(shù)據(jù)集存放在亞馬遜的計算機云內(nèi),同時國防部也承諾要開發(fā)出可“從經(jīng)驗中進行學(xué)習(xí)”的“自主式”防御系統(tǒng)。中央情報局局長戴維·彼得雷烏斯將軍在發(fā)帖討論阿拉伯之春機構(gòu)通過云計算收集和分析全球社會媒體信息之事時,不禁驚嘆我們已經(jīng)被自卸卡車倒進了“‘數(shù)字塵土”中。
2012年7月
美國國務(wù)卿希拉里·克林頓宣布了一個名為“數(shù)據(jù)2X”的公私合營企業(yè)用來收集統(tǒng)計世界各地的婦女和女童在經(jīng)濟、政治和社會地位方面的信息?!皵?shù)據(jù)不只是測量過程——它能給予我們啟發(fā),”她解釋說。“一旦人們開始對某個問題實施測量時,就更傾向于采取行動來解決它們,因為沒有人愿意排到名單的最低端去。”讓大數(shù)據(jù)開始競賽吧。
推薦學(xué)習(xí)書籍
《CDA一級教材》在線電子版正式上線CDA網(wǎng)校,為你提供系統(tǒng)、實用、前沿的學(xué)習(xí)資源,助你輕松邁入數(shù)據(jù)分析的大門!
免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10