
大數(shù)據(jù)的產(chǎn)業(yè)鏈分析
大數(shù)據(jù)的產(chǎn)業(yè)鏈分析大數(shù)據(jù)完整的產(chǎn)業(yè)鏈構(gòu)成如下圖所示,可分為標(biāo)準(zhǔn)與規(guī)范、數(shù)據(jù)安全、數(shù)據(jù)采集、數(shù)據(jù)存儲與管理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)運維以及數(shù)據(jù)應(yīng)用幾個環(huán)節(jié),覆蓋了數(shù)據(jù)從產(chǎn)生到應(yīng)用的整個生命周期。
1 數(shù)據(jù)標(biāo)準(zhǔn)與規(guī)范
大數(shù)據(jù)標(biāo)準(zhǔn)體系是開展大數(shù)據(jù)應(yīng)用的前提條件,沒有統(tǒng)一的標(biāo)準(zhǔn)體系,數(shù)據(jù)共享、分析、挖掘、決策支持將無從談起。大數(shù)據(jù)標(biāo)準(zhǔn)包括體系結(jié)構(gòu)標(biāo)準(zhǔn)、數(shù)據(jù)格式與表示標(biāo)準(zhǔn)、組織管理標(biāo)準(zhǔn)、安全標(biāo)準(zhǔn)和評測標(biāo)準(zhǔn)。在標(biāo)準(zhǔn)化建設(shè)方面,參與單位主要包括中國電子技術(shù)標(biāo)準(zhǔn)化研究院、各個數(shù)據(jù)庫公司、數(shù)據(jù)擁有部門以及各個行業(yè)的標(biāo)準(zhǔn)化組織。
隨著海量數(shù)據(jù)的不斷增加,對數(shù)據(jù)存儲和訪問的安全性要求越來越高,從而對數(shù)據(jù)的訪問控制技術(shù)、加密保護(hù)技術(shù)以及多副本與容災(zāi)機制等提出了更高的要求。另外,由于大數(shù)據(jù)處理主要采用分布式計算方法,這必然面臨著數(shù)據(jù)傳輸、信息交互等環(huán)節(jié),如何在這些環(huán)節(jié)中保護(hù)數(shù)據(jù)價值不泄露、信息不丟失,保護(hù)所有站點的安全是大數(shù)據(jù)發(fā)展面對的重大挑戰(zhàn)。在大數(shù)據(jù)時代,傳統(tǒng)的隱私數(shù)據(jù)內(nèi)涵與外延有了巨大突破和延伸,數(shù)據(jù)的多元化與彼此的關(guān)聯(lián)性進(jìn)一步發(fā)展,使得對單一數(shù)據(jù)的隱私保護(hù)方法變得極其脆弱,需要針對多元數(shù)據(jù)融合的安全提出。在數(shù)據(jù)安全環(huán)節(jié)上主要參與單位包括中國電子科技集團(tuán)公司第30研究所以及奇虎 360、瑞星等殺毒軟件公司。
3 數(shù)據(jù)采集
政府部門、以 BAT 為代表的互聯(lián)網(wǎng)企業(yè)、運營商是當(dāng)前大數(shù)據(jù)的主要擁有者。除此之外,利用網(wǎng)絡(luò)爬蟲或網(wǎng)站公開 API 等途徑對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集也是大數(shù)據(jù)的主要來源?,F(xiàn)實世界中的數(shù)據(jù)大多不完整或不一致,無法直接進(jìn)行數(shù)據(jù)挖掘或挖掘結(jié)果不理想,需要對采集的數(shù)據(jù)進(jìn)行填補、平滑、合并、規(guī)格化、檢查一致性等數(shù)據(jù)預(yù)處理操作,并且往往需要大量的人工參與,因此數(shù)據(jù)采集和清洗成為大數(shù)據(jù)產(chǎn)業(yè)鏈的一個重要環(huán)節(jié)。
4 數(shù)據(jù)存儲與管理
大數(shù)據(jù)存儲與管理的主要參與者以傳統(tǒng)數(shù)據(jù)庫企業(yè)為主,國際上主要有 IBM、Oracle、Intel、Green-plum、infor Matri Cloudera 等; 國內(nèi)主要有中興、華為、用友、浪潮、托爾思、數(shù)據(jù)堂、九次方、億贊普、達(dá)夢等。各家企業(yè)針對大數(shù)據(jù)應(yīng)用開展各具特色的數(shù)據(jù)庫架構(gòu)和數(shù)據(jù)組織管理研究,形成針對具體領(lǐng)域的產(chǎn)品。
5 數(shù)據(jù)分析與挖掘
大數(shù)據(jù)分析與挖掘的意圖主要集中在兩方面: 一是從大量的機構(gòu)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中分析出計算機可以理解的語義信息或知識,二是對隱性的知識,如關(guān)聯(lián)情況、意圖等進(jìn)行挖掘。常用的方法包括分類、聚類、關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、時間序列分析預(yù)測等。數(shù)據(jù)分析與挖掘的核心算法與軟件主要掌握在大型數(shù)據(jù)庫公司及高校的手里,國際上主要參與者包括 IBM、甲骨文、微軟、谷歌、亞馬遜、Facebook 等,國內(nèi)主要參與單位包括數(shù)據(jù)庫企業(yè)、高校、以 BAT 為代表的大型互聯(lián)網(wǎng)企業(yè)等。數(shù)據(jù)分析與挖掘的能力直接決定了大數(shù)據(jù)的應(yīng)用推廣程度和范圍,是大數(shù)據(jù)產(chǎn)業(yè)的核心。
6 數(shù)據(jù)運維
由于數(shù)據(jù)的重要性得到普遍認(rèn)可,除政府部門不具備數(shù)據(jù)運維服務(wù)條件外,數(shù)據(jù)的采集者通常就是數(shù)據(jù)運維者。各地政府方面則通常利用大數(shù)據(jù)平臺建設(shè)來推動政府大數(shù)據(jù)的公開與共享,如云上貴州,吸引個人和企業(yè)用戶開展創(chuàng)新與創(chuàng)業(yè),積極推動大數(shù)據(jù)的增值服務(wù)。
7 數(shù)據(jù)應(yīng)用
大數(shù)據(jù)對傳統(tǒng)信息技術(shù)帶來革命性挑戰(zhàn),正在重構(gòu)信息技術(shù)體系和產(chǎn)業(yè)格局。國內(nèi)以阿里巴巴、百度、騰訊、人大金倉、浪潮、曙光、南大通用為代表的互聯(lián)網(wǎng)企業(yè)、云計算和數(shù)據(jù)庫廠商紛紛加大應(yīng)用推廣力度,在國際先進(jìn)的開源大數(shù)據(jù)技術(shù)基礎(chǔ)上,形成獨自的大數(shù)據(jù)平臺構(gòu)建和應(yīng)用服務(wù)解決方案,以支撐不同行業(yè)不同領(lǐng)域的專業(yè)化應(yīng)用。雖然這些企業(yè)在平臺構(gòu)建上有著得天獨厚的優(yōu)勢,但是在某些具體業(yè)務(wù)領(lǐng)域,并不擅長或者關(guān)切。傳統(tǒng)企業(yè)以及從事大數(shù)據(jù)的微型企業(yè)是具體業(yè)務(wù)領(lǐng)域上大數(shù)據(jù)應(yīng)用的主力軍。應(yīng)用是大數(shù)據(jù)價值的體現(xiàn),是大數(shù)據(jù)發(fā)展的原始推動力。當(dāng)前大數(shù)據(jù)的應(yīng)用正倒逼軟件技術(shù)、數(shù)據(jù)架構(gòu)、數(shù)據(jù)共享方式的轉(zhuǎn)變,在轉(zhuǎn)變思維過程中需要積極轉(zhuǎn)變思維,明確出數(shù)據(jù)共享的方式是什么,數(shù)據(jù)擁有者的利益如何平衡,商業(yè)模式如何開展等等。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03