
大數據的概念定義及其發(fā)展歷史
大數據(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產?!按髷祿备拍钭钤缬删S克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大數據時代》中提出,指不用隨機分析法(抽樣調查)的捷徑,而是采用所有數據進行分析處理。大數據有4V特點,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
一、大數據概念定義
對于“大數據”(Big data)研究機構Gartner給出了定義,“大數據”是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
大數據技術的戰(zhàn)略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業(yè)化處理。換言之,如果把大數據比作一種產業(yè),那么這種產業(yè)實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘,但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規(guī)模并行處理(MPP)數據庫、數據挖掘電網、分布式文件系統(tǒng)、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統(tǒng)。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算:
8bit= 1Byte
1KB= 1,024 Bytes
1MB= 1,024 KB = 1,048,576 Bytes
1GB= 1,024 MB = 1,048,576 KB
1TB= 1,024 GB = 1,048,576 MB
1PB= 1,024 TB = 1,048,576 GB
1EB= 1,024 PB = 1,048,576 TB
1ZB= 1,024 EB = 1,048,576 PB
1YB= 1,024 ZB = 1,048,576 EB
1BB= 1,024 YB = 1,048,576 ZB
1NB= 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
二、發(fā)展歷史
1887–1890年
美國統(tǒng)計學家赫爾曼·霍爾瑞斯為了統(tǒng)計1890年的人口普查數據發(fā)明了一臺電動器來讀取卡片上的洞數,該設備讓美國用一年時間就完成了原本耗時8年的人口普查活動,由此在全球范圍內引發(fā)了數據處理的新紀元。
1935–1937年
美國總統(tǒng)富蘭克林·羅斯福利用社會保障法開展了美國政府最雄心勃勃的一項數據收集項目,IBM最終贏得競標,即需要整理美國的2600萬個員工和300萬個雇主的記錄。共和黨總統(tǒng)候選人阿爾夫蘭登scoffs嘲笑地說,“要整理如此繁多的職工檔案,還必須而調用大規(guī)模的現場調查人員去核實那些信息不完整的人員記錄?!?
1943年
一家英國工廠為了破譯二戰(zhàn)期間的納粹密碼,讓工程師開發(fā)了系列開創(chuàng)性的能進行大規(guī)模數據處理的機器,并使用了第一臺可編程的電子計算機進行運算。該計算機被命名為“巨人”,為了找出攔截信息中的潛在模式,它以每秒鐘5000字符的速度讀取紙卡——將原本需要耗費數周時間才能完成的工作量壓縮到了幾個小時。破譯德國部隊前方陣地的信息以后,幫助盟軍成功登陸了諾曼底。
1997年
美國宇航局研究員邁克爾·考克斯和大衛(wèi)·埃爾斯沃斯首次使用“大數據”這一術語來描述20世紀90年代的挑戰(zhàn):超級計算機生成大量的信息——在考克斯和埃爾斯沃斯按案例中,模擬飛機周圍的氣流——是不能被處理和可視化的。數據集通常之大,超出了主存儲器、本地磁盤,甚至遠程磁盤的承載能力。”他們稱之為“大數據問題。”
2002年
在9/11襲擊后,美國政府為阻止恐怖主義已經涉足大規(guī)模數據挖掘。前國家安全顧問約翰·波因德克斯特領導國防部整合現有政府的數據集,組建一個用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識別可疑人的大數據庫。一年后國會因擔憂公民自由權而停止了這一項目。
2004年
9/11委員會呼吁反恐機構應統(tǒng)一組建“一個基于網絡的信息共享系統(tǒng)”,以便能快處理應接不暇的數據。到2010年,美國國家安全局的30000名員工將攔截和存儲17億年電子郵件、電話和其它通訊日報。與此同時,零售商積累關于客戶購物和個人習慣的大量數據,沃爾瑪自吹已擁有一個容量為460字節(jié)的緩存器——比當時互聯網上的數據量還要多一倍。
2007–2008年
隨著社交網絡的激增,技術博客和專業(yè)人士為“大數據” 概念注入新的生機?!爱斍笆澜绶秶鷥纫延械囊恍┢渌ぞ邔⒈淮罅繑祿蛻盟惴ㄋ〈薄!哆B線》的克里斯·安德森認為當時處于一個“理論終結時代”。一些政府機構和美國的頂尖計算機科學家聲稱,“應該深入參與大數據計算的開發(fā)和部署工作,因為它將直接有利于許多任務的實現。”
2009年1月
印度政府建立印度唯一的身份識別管理局,對12億人的指紋、照片和虹膜進行掃描,并為每人分配12位的數字ID號碼,將數據匯集到世界最大的生物識別數據庫中。官員們說它將會起到提高政府的服務效率和減少腐敗行為的作用,但批評者擔心政府會針對個別人進行剖面分析并與分享這些人的私密生活細節(jié)。
2009年5月
大數據或成反恐分析利器
美國總統(tǒng)巴拉克·奧巴馬政府推出data.gov網站作為政府開放數據計劃的部分舉措。該網站的超過4.45萬量數據集被用于保證一些網站和智能手機應用程序來跟蹤從航班到產品召回再到特定區(qū)域內失業(yè)率的信息,這一行動激發(fā)了從肯尼亞到英國范圍內的政府們相繼推出類似舉措。
2009年7月
應對全球金融危機,聯合國秘書長潘基文承諾創(chuàng)建警報系統(tǒng),抓住“實時數據帶給貧窮國家經濟危機的影響” 。聯合國全球脈沖項目已研究了對如何利用手機和社交網站的數據源來分析預測從螺旋價格到疾病爆發(fā)之類的問題。
2011年2月
掃描2億年的頁面信息,或4兆兆字節(jié)磁盤存儲,只需幾秒即可完成。IBM的沃森計算機系統(tǒng)在智力競賽節(jié)目《危險邊緣》中打敗了兩名人類挑戰(zhàn)者。后來紐約時報配音這一刻為一個“大數據計算的勝利?!?
2012年3月
美國政府報告要求每個聯邦機構都要有一個“大數據”的策略,作為回應,奧巴馬政府宣布一項耗資2億美元的大數據研究與發(fā)展項目。國家衛(wèi)生研究院將一套人類基因組項目的數據集存放在亞馬遜的計算機云內,同時國防部也承諾要開發(fā)出可“從經驗中進行學習”的“自主式”防御系統(tǒng)。中央情報局局長戴維·彼得雷烏斯將軍在發(fā)帖討論阿拉伯之春機構通過云計算收集和分析全球社會媒體信息之事時,不禁驚嘆我們已經被自卸卡車倒進了“‘數字塵土”中。
2012年7月
美國國務卿希拉里·克林頓宣布了一個名為“數據2X”的公私合營企業(yè)用來收集統(tǒng)計世界各地的婦女和女童在經濟、政治和社會地位方面的信息?!皵祿恢皇菧y量過程——它能給予我們啟發(fā),”她解釋說。“一旦人們開始對某個問題實施測量時,就更傾向于采取行動來解決它們,因為沒有人愿意排到名單的最低端去。”讓大數據開始競賽吧。
推薦學習書籍
《CDA一級教材》在線電子版正式上線CDA網校,為你提供系統(tǒng)、實用、前沿的學習資源,助你輕松邁入數據分析的大門!
免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03