
大數(shù)據(jù)的概念定義及其發(fā)展歷史
大數(shù)據(jù)(Big Data)又稱(chēng)為巨量資料,指需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)?!按髷?shù)據(jù)”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫(kù)克耶在編寫(xiě)《大數(shù)據(jù)時(shí)代》中提出,指不用隨機(jī)分析法(抽樣調(diào)查)的捷徑,而是采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)有4V特點(diǎn),即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。
一、大數(shù)據(jù)概念定義
對(duì)于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了定義,“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。
隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)(Big data)也吸引了越來(lái)越多的關(guān)注。《著云臺(tái)》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Big data)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢(qián)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過(guò)時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進(jìn)率1024(2的十次方)來(lái)計(jì)算:
8bit= 1Byte
1KB= 1,024 Bytes
1MB= 1,024 KB = 1,048,576 Bytes
1GB= 1,024 MB = 1,048,576 KB
1TB= 1,024 GB = 1,048,576 MB
1PB= 1,024 TB = 1,048,576 GB
1EB= 1,024 PB = 1,048,576 TB
1ZB= 1,024 EB = 1,048,576 PB
1YB= 1,024 ZB = 1,048,576 EB
1BB= 1,024 YB = 1,048,576 ZB
1NB= 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
二、發(fā)展歷史
1887–1890年
美國(guó)統(tǒng)計(jì)學(xué)家赫爾曼·霍爾瑞斯為了統(tǒng)計(jì)1890年的人口普查數(shù)據(jù)發(fā)明了一臺(tái)電動(dòng)器來(lái)讀取卡片上的洞數(shù),該設(shè)備讓美國(guó)用一年時(shí)間就完成了原本耗時(shí)8年的人口普查活動(dòng),由此在全球范圍內(nèi)引發(fā)了數(shù)據(jù)處理的新紀(jì)元。
1935–1937年
美國(guó)總統(tǒng)富蘭克林·羅斯福利用社會(huì)保障法開(kāi)展了美國(guó)政府最雄心勃勃的一項(xiàng)數(shù)據(jù)收集項(xiàng)目,IBM最終贏得競(jìng)標(biāo),即需要整理美國(guó)的2600萬(wàn)個(gè)員工和300萬(wàn)個(gè)雇主的記錄。共和黨總統(tǒng)候選人阿爾夫蘭登scoffs嘲笑地說(shuō),“要整理如此繁多的職工檔案,還必須而調(diào)用大規(guī)模的現(xiàn)場(chǎng)調(diào)查人員去核實(shí)那些信息不完整的人員記錄?!?
1943年
一家英國(guó)工廠為了破譯二戰(zhàn)期間的納粹密碼,讓工程師開(kāi)發(fā)了系列開(kāi)創(chuàng)性的能進(jìn)行大規(guī)模數(shù)據(jù)處理的機(jī)器,并使用了第一臺(tái)可編程的電子計(jì)算機(jī)進(jìn)行運(yùn)算。該計(jì)算機(jī)被命名為“巨人”,為了找出攔截信息中的潛在模式,它以每秒鐘5000字符的速度讀取紙卡——將原本需要耗費(fèi)數(shù)周時(shí)間才能完成的工作量壓縮到了幾個(gè)小時(shí)。破譯德國(guó)部隊(duì)前方陣地的信息以后,幫助盟軍成功登陸了諾曼底。
1997年
美國(guó)宇航局研究員邁克爾·考克斯和大衛(wèi)·埃爾斯沃斯首次使用“大數(shù)據(jù)”這一術(shù)語(yǔ)來(lái)描述20世紀(jì)90年代的挑戰(zhàn):超級(jí)計(jì)算機(jī)生成大量的信息——在考克斯和埃爾斯沃斯按案例中,模擬飛機(jī)周?chē)臍饬鳌遣荒鼙惶幚砗涂梢暬?。?shù)據(jù)集通常之大,超出了主存儲(chǔ)器、本地磁盤(pán),甚至遠(yuǎn)程磁盤(pán)的承載能力?!彼麄兎Q(chēng)之為“大數(shù)據(jù)問(wèn)題?!?
2002年
在9/11襲擊后,美國(guó)政府為阻止恐怖主義已經(jīng)涉足大規(guī)模數(shù)據(jù)挖掘。前國(guó)家安全顧問(wèn)約翰·波因德克斯特領(lǐng)導(dǎo)國(guó)防部整合現(xiàn)有政府的數(shù)據(jù)集,組建一個(gè)用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來(lái)識(shí)別可疑人的大數(shù)據(jù)庫(kù)。一年后國(guó)會(huì)因擔(dān)憂公民自由權(quán)而停止了這一項(xiàng)目。
2004年
9/11委員會(huì)呼吁反恐機(jī)構(gòu)應(yīng)統(tǒng)一組建“一個(gè)基于網(wǎng)絡(luò)的信息共享系統(tǒng)”,以便能快處理應(yīng)接不暇的數(shù)據(jù)。到2010年,美國(guó)國(guó)家安全局的30000名員工將攔截和存儲(chǔ)17億年電子郵件、電話和其它通訊日?qǐng)?bào)。與此同時(shí),零售商積累關(guān)于客戶購(gòu)物和個(gè)人習(xí)慣的大量數(shù)據(jù),沃爾瑪自吹已擁有一個(gè)容量為460字節(jié)的緩存器——比當(dāng)時(shí)互聯(lián)網(wǎng)上的數(shù)據(jù)量還要多一倍。
2007–2008年
隨著社交網(wǎng)絡(luò)的激增,技術(shù)博客和專(zhuān)業(yè)人士為“大數(shù)據(jù)” 概念注入新的生機(jī)。“當(dāng)前世界范圍內(nèi)已有的一些其他工具將被大量數(shù)據(jù)和應(yīng)用算法所取代”?!哆B線》的克里斯·安德森認(rèn)為當(dāng)時(shí)處于一個(gè)“理論終結(jié)時(shí)代”。一些政府機(jī)構(gòu)和美國(guó)的頂尖計(jì)算機(jī)科學(xué)家聲稱(chēng),“應(yīng)該深入?yún)⑴c大數(shù)據(jù)計(jì)算的開(kāi)發(fā)和部署工作,因?yàn)樗鼘⒅苯佑欣谠S多任務(wù)的實(shí)現(xiàn)?!?
2009年1月
印度政府建立印度唯一的身份識(shí)別管理局,對(duì)12億人的指紋、照片和虹膜進(jìn)行掃描,并為每人分配12位的數(shù)字ID號(hào)碼,將數(shù)據(jù)匯集到世界最大的生物識(shí)別數(shù)據(jù)庫(kù)中。官員們說(shuō)它將會(huì)起到提高政府的服務(wù)效率和減少腐敗行為的作用,但批評(píng)者擔(dān)心政府會(huì)針對(duì)個(gè)別人進(jìn)行剖面分析并與分享這些人的私密生活細(xì)節(jié)。
2009年5月
大數(shù)據(jù)或成反恐分析利器
美國(guó)總統(tǒng)巴拉克·奧巴馬政府推出data.gov網(wǎng)站作為政府開(kāi)放數(shù)據(jù)計(jì)劃的部分舉措。該網(wǎng)站的超過(guò)4.45萬(wàn)量數(shù)據(jù)集被用于保證一些網(wǎng)站和智能手機(jī)應(yīng)用程序來(lái)跟蹤從航班到產(chǎn)品召回再到特定區(qū)域內(nèi)失業(yè)率的信息,這一行動(dòng)激發(fā)了從肯尼亞到英國(guó)范圍內(nèi)的政府們相繼推出類(lèi)似舉措。
2009年7月
應(yīng)對(duì)全球金融危機(jī),聯(lián)合國(guó)秘書(shū)長(zhǎng)潘基文承諾創(chuàng)建警報(bào)系統(tǒng),抓住“實(shí)時(shí)數(shù)據(jù)帶給貧窮國(guó)家經(jīng)濟(jì)危機(jī)的影響” 。聯(lián)合國(guó)全球脈沖項(xiàng)目已研究了對(duì)如何利用手機(jī)和社交網(wǎng)站的數(shù)據(jù)源來(lái)分析預(yù)測(cè)從螺旋價(jià)格到疾病爆發(fā)之類(lèi)的問(wèn)題。
2011年2月
掃描2億年的頁(yè)面信息,或4兆兆字節(jié)磁盤(pán)存儲(chǔ),只需幾秒即可完成。IBM的沃森計(jì)算機(jī)系統(tǒng)在智力競(jìng)賽節(jié)目《危險(xiǎn)邊緣》中打敗了兩名人類(lèi)挑戰(zhàn)者。后來(lái)紐約時(shí)報(bào)配音這一刻為一個(gè)“大數(shù)據(jù)計(jì)算的勝利?!?
2012年3月
美國(guó)政府報(bào)告要求每個(gè)聯(lián)邦機(jī)構(gòu)都要有一個(gè)“大數(shù)據(jù)”的策略,作為回應(yīng),奧巴馬政府宣布一項(xiàng)耗資2億美元的大數(shù)據(jù)研究與發(fā)展項(xiàng)目。國(guó)家衛(wèi)生研究院將一套人類(lèi)基因組項(xiàng)目的數(shù)據(jù)集存放在亞馬遜的計(jì)算機(jī)云內(nèi),同時(shí)國(guó)防部也承諾要開(kāi)發(fā)出可“從經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)”的“自主式”防御系統(tǒng)。中央情報(bào)局局長(zhǎng)戴維·彼得雷烏斯將軍在發(fā)帖討論阿拉伯之春機(jī)構(gòu)通過(guò)云計(jì)算收集和分析全球社會(huì)媒體信息之事時(shí),不禁驚嘆我們已經(jīng)被自卸卡車(chē)倒進(jìn)了“‘?dāng)?shù)字塵土”中。
2012年7月
美國(guó)國(guó)務(wù)卿希拉里·克林頓宣布了一個(gè)名為“數(shù)據(jù)2X”的公私合營(yíng)企業(yè)用來(lái)收集統(tǒng)計(jì)世界各地的婦女和女童在經(jīng)濟(jì)、政治和社會(huì)地位方面的信息?!皵?shù)據(jù)不只是測(cè)量過(guò)程——它能給予我們啟發(fā),”她解釋說(shuō)。“一旦人們開(kāi)始對(duì)某個(gè)問(wèn)題實(shí)施測(cè)量時(shí),就更傾向于采取行動(dòng)來(lái)解決它們,因?yàn)闆](méi)有人愿意排到名單的最低端去。”讓大數(shù)據(jù)開(kāi)始競(jìng)賽吧。
推薦學(xué)習(xí)書(shū)籍
《CDA一級(jí)教材》在線電子版正式上線CDA網(wǎng)校,為你提供系統(tǒng)、實(shí)用、前沿的學(xué)習(xí)資源,助你輕松邁入數(shù)據(jù)分析的大門(mén)!
免費(fèi)加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03