
大數(shù)據(jù)在中國的發(fā)展_數(shù)據(jù)分析師
隨著社會的飛速發(fā)展,互聯(lián)網(wǎng)技術(shù)已應(yīng)用于各個行業(yè)。隨著數(shù)據(jù)的日益增多,數(shù)據(jù)分析師這個職業(yè)也慢慢被各個行業(yè)所熟知,數(shù)據(jù)分析師能更快更好的去利用這些數(shù)據(jù),進行數(shù)據(jù)分析為企業(yè)做出正確的投資策略。CDA數(shù)據(jù)分析師在順應(yīng)大數(shù)據(jù)、云計算的潮流下發(fā)起成立的職業(yè)簡稱。旨在加強國內(nèi)外乃至全球范圍內(nèi)正規(guī)化、科學(xué)化、專業(yè)化的數(shù)據(jù)分析人才隊伍建設(shè),進一步提升數(shù)據(jù)分析師的職業(yè)素養(yǎng)與能力水平,促進數(shù)據(jù)分析行業(yè)的高質(zhì)量持續(xù)快速發(fā)展。
美國總統(tǒng)奧巴馬在白宮網(wǎng)站上曾經(jīng)發(fā)布了一篇《大數(shù)據(jù)研究和發(fā)展倡議》的文章,對于大數(shù)據(jù)發(fā)展的重要性給予了高度評價和充分的肯定,而中國工程院院士鄔賀銓也同樣肯定了大數(shù)據(jù)在各領(lǐng)域使用的重要價值。目前國內(nèi)多所重點高校,例如清華大學(xué)、 北京航空航天大學(xué)都開設(shè)了大數(shù)據(jù)的相關(guān)課程,并設(shè)立了大數(shù)據(jù)的碩士學(xué)位。同時越來越多的企業(yè)也開始利用大數(shù)據(jù),例如阿里巴巴、百度、騰訊、雅虎等等。2010年中國聯(lián)通就構(gòu)建了一個一級架構(gòu)的海量存儲和查詢系統(tǒng)解決業(yè)務(wù)需求。而種種跡象表明大數(shù)據(jù)被越來越多的領(lǐng)域關(guān)注和應(yīng)用,根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)統(tǒng)計,到2015年全球大數(shù)據(jù)的市場將達到170億美元的規(guī)模,巨大的市場必然引發(fā)一場“大數(shù)據(jù)革命”。
一 、大數(shù)據(jù)的應(yīng)用案例
大數(shù)據(jù)巨大的市場價值都體現(xiàn)在那些方面我們舉一些實例
1、農(nóng)夫山泉 — 隨著銷售數(shù)據(jù)的增加以及數(shù)據(jù)增長速度的加快,傳統(tǒng)的商業(yè)智能報表對于數(shù)據(jù)的展現(xiàn)速度也越來越慢,已經(jīng)影響到了農(nóng)夫山泉業(yè)務(wù)的正常進行,為了應(yīng)對業(yè)務(wù)需求,農(nóng)夫山泉運用了大數(shù)據(jù)解決方案來對海量業(yè)務(wù)數(shù)據(jù)做計算分析, 這樣一來企業(yè)可以更好的去判斷市場需求及市場動向,更快的制定營銷策略,創(chuàng)造更高的利潤。
2、亞馬遜 — 通過分析用戶交易數(shù)據(jù),了解用戶的消費傾向,針對用戶推送個性化的營銷廣告,充分運用了大數(shù)據(jù)的分析的能力,據(jù)統(tǒng)計分析亞馬遜有三分之一的銷售額來自個性化推薦系統(tǒng)。
3、天氣預(yù)報 — 氣象臺通過氣象衛(wèi)星及氣象采集設(shè)備對云層、風(fēng)向、風(fēng)速和空氣濕度等因素做匯總分析,從而快速的計算和預(yù)測出近期內(nèi)較為準確的氣象信息,突出體現(xiàn)了大數(shù)據(jù)的時效性。
二、大數(shù)據(jù)的特點
大數(shù)據(jù)為何擁有如此巨大的市場價值?首先由他的特點所決定。
1、大量化 — 這個比較好理解,指的是數(shù)據(jù)體量大,例如我們使用qq、微信、微博、淘寶、電子郵件以及手機短信和通話記錄等等,每天都在生成大量的數(shù)據(jù),有關(guān)分析統(tǒng)計2003年之前人類所產(chǎn)生的所有數(shù)據(jù)總量還不及今天互聯(lián)網(wǎng)時代兩天所產(chǎn)生的數(shù)據(jù)量,這里就體現(xiàn)了數(shù)據(jù)的大量化和爆炸式的增長速度的特點。
2、多樣化 — 剛才我們講到的微博、微信、淘寶、電子郵件以及手機短信和通話記錄產(chǎn)生的大量的數(shù)據(jù)信息,產(chǎn)生這些數(shù)據(jù)的載體的多樣化也決定了數(shù)據(jù)的多樣化,為了善于歸類這些多樣化數(shù)據(jù),我們通常把它們分為兩種,一種是結(jié)構(gòu)化數(shù)據(jù),另一種是非結(jié)構(gòu)化數(shù)據(jù),首先我們講一下結(jié)構(gòu)化數(shù)據(jù),例如Excel表格中的信息,可以用行和列來劃分,我們通常把類似于Excel表格中的這些信息定義為結(jié)構(gòu)化數(shù)據(jù),而像音頻、圖片、視頻、這些我們劃分為非結(jié)構(gòu)化數(shù)據(jù),例如一張風(fēng)景畫圖片,往往包含著很多信息在里面,我們很難具體的將其歸類和定義。
3、快速化-當我們訪問一個網(wǎng)頁的時候,提交點擊操作后網(wǎng)頁需要零延遲或者低延遲的給予反饋信息,假若是高延遲或者遲遲不能打開網(wǎng)頁,我們還會選擇去瀏覽這個網(wǎng)頁嗎?還有美國梅西百貨公司的實時定價機制,通過對市場數(shù)據(jù)的分析,判斷市場動態(tài),得出價格走勢,快速的去調(diào)整商品的價格,提高銷售量和銷售利潤,這里更好的體現(xiàn)了大數(shù)據(jù)的快速化的特點。
4、價值密度低-這里指的是在海量的數(shù)據(jù)庫中也許只極少部分信息是有價值的,例如警方在破案時為了追蹤犯罪嫌疑人,往往要從大量的監(jiān)控錄像中尋找有關(guān)犯罪嫌疑人行蹤的視頻,而這部分視頻在海量的視頻數(shù)據(jù)中只是很微小一部分,這里體現(xiàn)了大數(shù)據(jù)的價值密度低。
大數(shù)據(jù)的特點決定了普通的系統(tǒng)是無法做到快速的處理這些大量的多樣化的信息,那么目前主流處理大數(shù)據(jù)的是hadoop,它是一個開源的分布式系統(tǒng)構(gòu)架,允許運行在普通的pc上,適合處理海量數(shù)據(jù),并且有著很強的擴展性,以往當服務(wù)器滿負荷之后需要增加新的服務(wù)器來解決,這種服務(wù)器的價格往往早100-200萬,成本很高,而hadoop屬于分布式的系統(tǒng),強大的擴展性,允許其從一臺服務(wù)器擴展到上千臺的服務(wù)器,而這種服務(wù)器價格只有1-2萬,大大節(jié)省了成本,同時并發(fā)式存儲和計算數(shù)據(jù),大大提高了效率,在這個免費的構(gòu)架上可以搭載很多的系統(tǒng)軟件,確保大數(shù)據(jù)被更合理的存儲分類和計算以及應(yīng)用,目前IBM, EMC,couldera,oracel,hortonworks,intel都開發(fā)出了在免費的hadoop基礎(chǔ)上的商業(yè)版本hadoop。
三、hadoop的兩個核心:
剛才了解了hadoop是目前處理大數(shù)據(jù)主流的分布式系統(tǒng)架構(gòu),接下來我們就了解一下組成hadoop的兩個核心,
1.hadoop第一個核心是HDFS,它是用來存儲數(shù)據(jù)的,簡稱分布式的文件系統(tǒng),簡單理解是將數(shù)據(jù)分布式的存儲到不同的服務(wù)器上,而需要的時候又可以同時調(diào)用,保證了安全性的同時有提高了吞吐量。
2.第二個核心則是用來計算數(shù)據(jù),我們稱之為Mapreduce,它一個分布式的計算框架,支持在多個服務(wù)器上并行運算,這樣又大大的提高了計算速度。
存儲了數(shù)據(jù)將數(shù)據(jù)分類計算之后那么如何盤活這些數(shù)據(jù),這里就涉及到了以hadoop為基礎(chǔ)架構(gòu)的其他項目,例如Hive—是將傳統(tǒng)的sql數(shù)據(jù)庫語言轉(zhuǎn)換為mareduce能夠識別語言的這樣一個工具,還有Hbase—是一個開源的面向分布式系統(tǒng)的存儲數(shù)據(jù)庫,pig,chukwa,zookeeper等等,這些都是運行在hadoop分布式系統(tǒng)構(gòu)架上運行的軟件系統(tǒng),這樣一來從數(shù)據(jù)的存儲到計算再到應(yīng)用就構(gòu)成了一個完整的hadoop生態(tài)系統(tǒng)。
四、hadoop應(yīng)用案例
剛才我們了解完了大數(shù)據(jù)和處理大數(shù)據(jù)的hadoop再到hadoop的整個生態(tài)系統(tǒng)
接下來我們講幾個hadoop在各領(lǐng)域應(yīng)用案例
1、金融行業(yè):
摩根大通— 已經(jīng)開始使用hadoop來應(yīng)對詐騙風(fēng)險,it風(fēng)險管理,自助服務(wù)等,摩根大通現(xiàn)擁有150PB的在線存儲數(shù)據(jù)、35億個用戶帳號和30000個數(shù)據(jù)庫,而這些龐大數(shù)據(jù)并非是傳統(tǒng)的處理方式所能駕馭的。
中信銀行信用卡中心 — 統(tǒng)計分析2008年發(fā)卡量為500萬張,而到了2010年在短短的2年時間內(nèi)就增加了一倍,信用卡數(shù)量的增長必然決定了業(yè)務(wù)及數(shù)據(jù)規(guī)模的增長,中信銀行通過hadoop分布式系統(tǒng)對規(guī)模龐大的業(yè)務(wù)數(shù)據(jù)進行分析計算,從而對信用卡用戶做出信用評估,消費能力,消費傾向評估,從而快速的制定用戶信用額度和推送營銷廣告。
2、電子商務(wù)領(lǐng)域:
阿里巴巴 — 小微貸款,對數(shù)據(jù)庫內(nèi)的用戶進行信用分析,還是根據(jù)用戶的消費記錄和信用記錄來制定貸款的額度,降低風(fēng)險的同時提高了效率,目前阿里巴巴運用了15臺8核cpu1、5g內(nèi)存、1.4TB硬盤存儲的集群搭載hadoop分布式系統(tǒng)來運行。
3、電信行業(yè):
中國聯(lián)通早期是無法提供用戶詳細的消費記錄,只能提供每月的總使用量,中國聯(lián)通2010年構(gòu)建的一級構(gòu)架的海量存儲和查詢系統(tǒng)來解決這一業(yè)務(wù)需求,這個系統(tǒng)就是基于hadoop而搭建的。
4、互聯(lián)網(wǎng)領(lǐng)域:
百度同樣也運用了hadoop來處理日志的分析,同時使用它做一些網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作,而每周數(shù)據(jù)挖掘量達到了3000TB,Hadoop在雅虎同樣也被運用。
縱觀大數(shù)據(jù),我們不難發(fā)現(xiàn)當今互聯(lián)網(wǎng)時代走在前列這些企業(yè)和集體都在爭先恐后的投入到大數(shù)據(jù)的浪潮中,進一步證明了大數(shù)據(jù)并非是風(fēng)行一時,也充分體現(xiàn)了大數(shù)據(jù)市場的巨大潛在價值,大數(shù)據(jù)正在正默默的改變這企業(yè)傳統(tǒng)運作模式,一個大數(shù)據(jù)時代已經(jīng)到來,誰先掌握了大數(shù)據(jù)技術(shù)那么誰就搶占了市場先機。文章來源:CDA數(shù)據(jù)分析師培訓(xùn)官網(wǎng)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10