
大數(shù)據(jù)與海量數(shù)據(jù)的區(qū)別
如果僅僅是海量的結(jié)構(gòu)性數(shù)據(jù),那么解決的辦法就比較的單一,用戶通過購買更多的存儲設(shè)備,提高存儲設(shè)備的效率等解決此類問題。然而,當(dāng)人們發(fā)現(xiàn)數(shù)據(jù)庫中的數(shù)據(jù)可以分為三種類型:結(jié)構(gòu)性數(shù)據(jù)、非結(jié)構(gòu)性數(shù)據(jù)以及半結(jié)構(gòu)性數(shù)據(jù)等復(fù)雜情況時,問題似乎就沒有那么簡單了。
大數(shù)據(jù)洶涌來襲
當(dāng)類型復(fù)雜的數(shù)據(jù)洶涌襲來,那么對于用戶IT系統(tǒng)的沖擊又會是另外一種處理方式。很多業(yè)內(nèi)專家和第三方調(diào)查機構(gòu)通過一些市場調(diào)查數(shù)據(jù)發(fā)現(xiàn),大數(shù)據(jù)時代即將到來。有調(diào)查發(fā)現(xiàn),這些復(fù)雜數(shù)據(jù)中有85%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等之中的非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡(luò)、移動計算和傳感器等新的渠道和技術(shù)的不斷涌現(xiàn)和應(yīng)用。
如今大數(shù)據(jù)的概念也存在著很多的炒作和大量的不確定性。為此,編者詳細(xì)向一些業(yè)內(nèi)專家詳細(xì)了解有關(guān)方面的問題,請他們談一談,大數(shù)據(jù)是什么和不是什么,以及如何應(yīng)對大數(shù)據(jù)等問題,將系列文章的形式與網(wǎng)友見面。
有人將多TB數(shù)據(jù)集也稱作”大數(shù)據(jù)”。據(jù)市場研究公司IDC統(tǒng)計,數(shù)據(jù)使用預(yù)計將增長44倍,全球數(shù)據(jù)使用量將達(dá)到大約35.2ZB(1ZB = 10億TB)。然而,單個數(shù)據(jù)集的文件尺寸也將增加,導(dǎo)致對更大處理能力的需求以便分析和理解這些數(shù)據(jù)集。
EMC曾經(jīng)表示,它的1000多個客戶在其陣列中使用1PB(千兆兆)以上的數(shù)據(jù)數(shù)據(jù),這個數(shù)字到2020年將增長到10萬。一些客戶在一兩年內(nèi)還將開始使用數(shù)千倍多的數(shù)據(jù),1EB(1艾字節(jié) = 10億GB)或者更多的數(shù)據(jù)。
對大企業(yè)而言,大數(shù)據(jù)的興起部分是因為計算能力可用更低的成本獲得,且各類系統(tǒng)如今已能夠執(zhí)行多任務(wù)處理。其次,內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù),另外是把計算機聚合成服務(wù)器集群越來越簡單。IDC認(rèn)為,這三大因素的結(jié)合便催生了大數(shù)據(jù)。同時,IDC還表示,某項技術(shù)要想成為大數(shù)據(jù)技術(shù),首先必須是成本可承受的,其次是必須滿足IBM所描述的三個”V”判據(jù)中的兩個:多樣性(variety)、體量(volume)和速度(velocity)。
多樣性是指,數(shù)據(jù)應(yīng)包含結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。
體量是指聚合在一起供分析的數(shù)據(jù)量必須是非常龐大的。
而速度則是指數(shù)據(jù)處理的速度必須很快。
大數(shù)據(jù)”并非總是說有數(shù)百個TB才算得上。根據(jù)實際使用情況,有時候數(shù)百個GB的數(shù)據(jù)也可稱為大數(shù)據(jù),這主要要看它的第三個維度,也就是速度或者時間維度。
Garter表示,全球信息量正在以59%以上的年增長率增長,而量是在管理數(shù)據(jù)、業(yè)務(wù)方面的顯著挑戰(zhàn),IT領(lǐng)袖必須側(cè)重在信息量、種類和速度上。
量:企業(yè)系統(tǒng)內(nèi)部的數(shù)據(jù)量的增加是由交易量、其它傳統(tǒng)數(shù)據(jù)類型和新的數(shù)據(jù)類型引發(fā)的。過多的量是一個存儲的問題,但過多的數(shù)據(jù)也是一個大量分析的問題。
種類:IT領(lǐng)袖在將大量的交易信息轉(zhuǎn)化為決策上一直存在困擾 – 現(xiàn)在有更多類型的信息需要分析 – 主要來自社交媒體和移動(情景感知)。種類包括表格數(shù)據(jù)(數(shù)據(jù)庫)、分層數(shù)據(jù)、文件、電子郵件、計量數(shù)據(jù)、視頻、靜態(tài)圖像、音頻、股票行情數(shù)據(jù)、金融交易和其它更多種類。
速度:這涉及到數(shù)據(jù)流、結(jié)構(gòu)化記錄的創(chuàng)建,以及訪問和交付的可用性。速度意味著正在被生成的數(shù)據(jù)有多快和數(shù)據(jù)必須被多快地處理以滿足需求。
雖然大數(shù)據(jù)是一個重大問題,Gartner分析師表示,真正的問題是讓大數(shù)據(jù)更有意義,在大數(shù)據(jù)里面尋找模式幫助組織機構(gòu)做出更好的商業(yè)決策。
諸子百家談如何定義”大數(shù)據(jù)”
盡管”Big Data”可以翻譯成大數(shù)據(jù)或者海量數(shù)據(jù),但大數(shù)據(jù)和海量數(shù)據(jù)是有區(qū)別的。
定義一:大數(shù)據(jù) = 海量數(shù)據(jù) + 復(fù)雜類型的數(shù)據(jù)
Informatica中國區(qū)首席產(chǎn)品顧問但彬認(rèn)為:”大數(shù)據(jù)”包含了”海量數(shù)據(jù)”的含義,而且在內(nèi)容上超越了海量數(shù)據(jù),簡而言之,”大數(shù)據(jù)”是”海量數(shù)據(jù)”+復(fù)雜類型的數(shù)據(jù)。
但彬進(jìn)一步指出:大數(shù)據(jù)包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)?;驈?fù)雜程度超出了常用技術(shù)按照合理的成本和時限捕捉、管理及處理這些數(shù)據(jù)集的能力。
大數(shù)據(jù)是由三項主要技術(shù)趨勢匯聚組成:
定義二:大數(shù)據(jù)包括A、B、C三個要素
如何理解大數(shù)據(jù)?NetApp 大中華區(qū)總經(jīng)理陳文認(rèn)為,大數(shù)據(jù)意味著通過更快獲取信息來使做事情的方式變得與眾不同,并因此實現(xiàn)突破。大數(shù)據(jù)被定義為大量數(shù)據(jù)(通常是非結(jié)構(gòu)化的),它要求我們重新思考如何存儲、管理和恢復(fù)數(shù)據(jù)。那么,多大才算大呢?考慮這個問題的一種方式就是,它是如此之大,以至于我們今天所使用的任何工具都無法處理它,因此,如何消化數(shù)據(jù)并把它轉(zhuǎn)化成有價值的洞見和信息,這其中的關(guān)鍵就是轉(zhuǎn)變。
基于從客戶那里了解的工作負(fù)載要求, NetApp所理解的大數(shù)據(jù)包括A、B、C三個要素:分析(Analytic),帶寬(Bandwidth)和內(nèi)容(Content)。
1. 大分析(Big Analytics),幫助獲得洞見 – 指的是對巨大數(shù)據(jù)集進(jìn)行實時分析的要求,它能帶來新的業(yè)務(wù)模式,更好的客戶服務(wù),并實現(xiàn)更好的結(jié)果。
2. 高帶寬(Big Bandwidth),幫助走得更快 – 指的是處理極端高速的關(guān)鍵數(shù)據(jù)的要求。它支持快速有效地消化和處理大型數(shù)據(jù)集。
3. 大內(nèi)容(Big Content),不丟失任何信息- 指的是對于安全性要求極高的高可擴展的數(shù)據(jù)存儲,并能夠輕松實現(xiàn)恢復(fù)。它支持可管理的信息內(nèi)容存儲庫、而不只是存放過久的數(shù)據(jù),并且能夠跨越不同的大陸板塊。
大數(shù)據(jù)是一股突破性的經(jīng)濟(jì)和技術(shù)力量,它為 IT 支持引入了新的基礎(chǔ)架構(gòu)。大數(shù)據(jù)解決方案消除了傳統(tǒng)的計算和存儲的局限。借助于不斷增長的私密和公開數(shù)據(jù),一種劃時代的新商業(yè)模式正在興起,它有望為大數(shù)據(jù)客戶帶來新的實質(zhì)性的收入增長點以及富于競爭力的優(yōu)勢。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07